" />
尚書六號表格文字識別系統(tǒng)可以對彩色、灰度圖像文件直接進行識別;尚書六號支持更多的掃描文件格式,例如tiff、bmp和jpg格式;與此同時,尚書六號完善了表格識別功能,各式各樣的表格幾乎都可以原封不動的由圖片格式轉(zhuǎn)變?yōu)榭梢宰杂删庉嫷奈淖指袷健?span style="display:none">9iE紅軟基地
尚書六號支持TIFF、BMP和JPG格式等掃描。
OCR也就是文字識別技術(shù),運用電腦或者掃描儀來識別圖片或者數(shù)字圖片文件里的文字內(nèi)容,方便文字錄入,提高工作效率。
使用只需要用本軟件打開要識別的文字的圖片,點擊識別即可,識別率非常高,即便是有嚴重劃痕和干擾的圖片,也能達到驚人的98.5%!
按書寫方式區(qū)分,漢字識別可分為手寫漢字識別和印刷體漢字識別兩大類。按工作方式區(qū)分,則可分為聯(lián)機漢字識別和脫機漢字識別兩種方式。前者為實時識別,書寫者在專用書寫書寫的漢字即時送入計算機進行識別;后者為非實時識別,打印或已寫好的書面文字經(jīng)光電轉(zhuǎn)換裝置(如掃描儀等)變?yōu)殡娦盘柡笏腿胗嬎銠C進行識別,通常把這種設(shè)備叫做光電閱讀機(optical character reader),記為 OCR。
漢字識別是模式識別的一個分支。漢字是一種特殊的模式,其特點是字數(shù)多,字形復(fù)雜,有的字形十分相似,印刷體漢字又有多種字體(仿宋、宋、黑、楷書與打印體等)和多種大小不同的字號。因而漢字識別是一個相當(dāng)困難的問題。
和一般的模式識別相同,漢字識別的基本方法主要有統(tǒng)計法和結(jié)構(gòu)法兩種。漢字由筆劃組成,具有較嚴格的拓撲結(jié)構(gòu),包含豐富的結(jié)構(gòu)信息,因而結(jié)構(gòu)法較適用于漢字識別。中國和日本學(xué)者先后提出若干以結(jié)構(gòu)信息為主的統(tǒng)計與結(jié)構(gòu)法相結(jié)合的新算法,選用了-些分類能力強、抗畸變和干擾性能好的特征,較好地解決了多子體多字號混合排印的印刷體漢字脫機識別和限制性手寫漢字聯(lián)機識別問題。研制成功幾種識別系統(tǒng),并已付諸應(yīng)用。
漢字識別系統(tǒng)大體上可分為預(yù)處理、特征提取與識別和后處理三部分,見圖。在脫機識別系統(tǒng)中,掃描儀將打印或書寫在紙上的漢字文稿,轉(zhuǎn)換為電信號輸入計算機,經(jīng)版面分析、逐字分割和歸一化等漢字識別預(yù)處理后,獲得版面上各個漢字的二維點陣圖形。特征提取和識別部分的任務(wù)是提取識別特征,并將它和存儲在識別字典內(nèi)的每個特征模板逐一進行比較、判別,得出識別結(jié)果。漢字識別后處理部分利用詞組或上下文關(guān)系糾正識別結(jié)果中的一些錯誤,以提高整個系統(tǒng)的正確識別率。
漢字識別的用途十分廣泛。用聯(lián)機手寫漢字識別代替擊鍵打字的方式,實時地把漢字輸入計算機,比較符合人處理文字資料的習(xí)慣。脫機印刷體漢字識別可用于辦公室自動化、郵件分揀、機器翻譯和盲人機助閱讀等方面。脫機手寫漢字識別的困難較大,處于研究階段。采用人工神經(jīng)網(wǎng)絡(luò)的漢字識別研究正越來越得到各方面的重視,并已取得一些進展。