用jTessBoxEditorFX训练字库】的更多相关文章

软件下载:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ 官方字库下载:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#format-of-traineddata-files 建议:普通版本和FX版本都下载,用普通版本调整坐标,用FX版本调整汉字识别.FX版本的坐标调整不能输入数字,一旦坐标偏移太大,简直就是反人类设计. 另外,也可以直接使用普通版本…
使用jTessBoxEditorFX训练Tesseract-OCR教程 注:1,工具是JAVA编写的,所以在使用工具之间,需要安装JAVA环境. 2,安装Tesseract-OCR应用程序,并将目录添加到环境变量中,方便使用cmd调用命令.   步骤一:使用画图软件生成要训练的.tif文件,本例做了34个.tif文件,如下: 注:图片的格式不限定.我使用灰度图像. 步骤二:使用jTessBoxEditorFX将所有.tif文件合并成一个.tif文件,如图: 并在该目录下可以看见合并后你所命名的t…
关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路. 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除. 一.准备工作 1.下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行. 2.下载chi_sim.traindata字库.要有这个才能识别中文.下好后,放到Tesseract-OCR项目的tessdata文件夹里面. 3.下载jTessBoxEditor,这个是用来训练字库…
关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路. 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除. 一.准备工作 1.下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行. 最后下载4.0版本 2.下载chi_sim.traindata字库.要有这个才能识别中文.下好后,放到Tesseract-OCR项目的tessdata文件夹里面. https://github.com…
上篇文章简单的学习了tesseract-ocr识别图片中的英文(链接地址如下:https://www.cnblogs.com/wj-1314/p/9428909.html),看起来效果还不错,所以这篇文章继续深入学习tesseract-ocr识别图片中的中文. 一,准备中文字库 下载chi_sim.traindata字库.要有这个才能识别中文.下好后,放到Tesseract-OCR项目的tessdata文件夹里面.(注意下载字库,一定要看库对应的tesseract版本下载) 为什么强调版本呢 ,…
0.目标 很多特殊场景,原生的字库识别率不高,这时候就需要根据需求自己训练字库生成traineddata文件. 一.前期准备工作 1.安装jdk   用于运行jTessBoxEditor 2.安装jTessBoxEditor   用于调整图片上文字的内容和位置 3. 安装tesseract5.0 jdk下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html jTessBox…
转自:https://www.cnblogs.com/lcawen/articles/7040005.html 关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路. 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除. 一.准备工作 1.下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行,Windows下:https://github.com/UB-Mannheim/tesse…
字符训练网上一搜一大堆,但作为一个初学者而言,字符合并网上却写的很笼统 首先,需要 生成的字符集.tif文件,位置文件 .box ,只要有这两个文件在,就可以合并字典(这个说的很有道理的样子) 好了,我现在有三个需要合并的字典 (1).(why3.楷体.exp0.tif,why3.楷体.exp0.box) (2).(why4.microsoftyaheiuilight.exp0.tif,why4.microsoftyaheiuilight.exp0.box) (3).  (why5.隶书b.ex…
一.准备工作 需要的文件 tif文件和box文件. 如果你打标打好了,但是是分批次打标的,那么可以合并字库,我们最初只需要 tif 和 box 文件,如下: 二.生成对应的 .tr 训练文件 根据不同的tif文件依次使用下面这个命令 tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train 完成后效果是这样的,每个组合都会有一个对应的 .tr 文件 三.从所有文件中提取字符 unicharset_extractor fst.word.…
第一步合成图片集 你需要把使用jTessBoxEditor工具把你的训练素材及多张图片合并成一张tif格式的图片集 第二步  生成box文件 运行tesseract命令,tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 batch.nochop makebox,生成box文件 , 第三步 用 jTessBoxEditor打开生成的图片集 mjorcen.normal.exp0.tif ,注意  mjorcen.normal.exp0.ti…