這是chi_sim.traineddata.gz下載,tesseract-ocr中英文數(shù)據(jù)包c(diǎn)hi_sim.traineddata.gz eng.traineddata.gz.初期Tesseract引擎由HP實(shí)驗(yàn)室研發(fā),后來(lái)貢獻(xiàn)給了開(kāi)源軟件業(yè),后經(jīng)由Google進(jìn)行改進(jìn)。
chi_sim.traineddata.gz我用不了那么多字,然后就按官方和網(wǎng)上的資料自己做了一個(gè)識(shí)別庫(kù),這個(gè)庫(kù)只能識(shí)別訓(xùn)練過(guò)的文字。速度生成的文件應(yīng)該跟訓(xùn)練的字?jǐn)?shù)有關(guān)的,我實(shí)驗(yàn)了幾個(gè)字,只有100多k。 但是發(fā)現(xiàn)一個(gè)很明顯的問(wèn)題是,默認(rèn)的識(shí)別速度比較慢。識(shí)別四個(gè)很明顯的字需要將近兩秒。
為什么用3.05呢?
從官方文檔上看4.0版本(windows版本于2017年1月30號(hào)發(fā)布)顯著的提高了識(shí)別率,同時(shí)也加大了性能的消耗。理論上我是應(yīng)該用4.0。但這不是重點(diǎn)。重點(diǎn)是有windows的版本有詭異的bug! 花了好久沒(méi)有解決。
不過(guò)還好,4.0支持3.05版本的所有語(yǔ)法。換而言之,下面的所有內(nèi)容在4.0都是可以用的。
•大多數(shù)比較老,有部分內(nèi)容已經(jīng)不適用。
•大部分只是就英文的訓(xùn)練進(jìn)行探索,很少針對(duì)中文的訓(xùn)練。
接下來(lái)盡可能詳細(xì)的介紹自己tesseract訓(xùn)練中文識(shí)別的經(jīng)驗(yàn)。