這是tesseract3.04簡體中文語言包chi_sim下載,谷歌開源OCR,tesseract的最新版本3.04的,對應(yīng)的簡體中文語言包,可以不用翻墻下了。
tesseract3.04簡體中文語言包chi_sim可以直接將圖片中的文字進(jìn)行識別,其最新版本3.0已經(jīng)支持中文OCR,并提供了一個命令行工具,轉(zhuǎn)換成文本信息。tesseract-ocr官方下載據(jù)說曾經(jīng)的圖像識別能力排名第三。tesseract-ocr中文版可以識別多種格式的圖像文件并將其轉(zhuǎn)換成文本,目前已支持60多種語言(包括中文)。 Tesseract最初由HP公司開發(fā),后來由Google維護(hù),目前發(fā)布在Googel Project上。
tesseract3.04簡體中文語言包chi_sim是原先惠普開發(fā)的圖像識別類庫,后面成為Open source,據(jù)說曾經(jīng)的圖像識別能力排名第三,為大家提供的版本是3.02.02 for windows。
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用簡體中文字庫(需要下載中文字庫文件,解壓后,存放到tessdata目錄下去,字庫文件擴(kuò)展名為 .raineddata 簡體中文字庫文件名為: chi_sim.traineddata)
-psm 7 表示告訴tesseract code.jpg圖片是一行文本 這個參數(shù)可以減少識別錯誤率. 默認(rèn)為 3
configfile 參數(shù)值為tessdata\configs 和 tessdata\tessconfigs 目錄下的文件名