如何用Tesseract做日文OCR（c#实现）

　　首先做一下背景介绍，Tesseract是一个开源的OCR组件，主要针对的是打印体的文字识别，对手写的文字识别能力较差，支持多国语言（中文、英文、日文、韩文等）。是开源世界里最强的一款OCR组件。当然和世界最强的OCR工具Abbyy相比还是有一点差距，尤其在图片质量较差时，差距还是明显的。

　　网上有很多关于如何使用这个组件的介绍，不过都是针对英文识别的。而如果是对中文或日文等方块字进行识别，除了需要使用不同的语言包外，还要对Tesseract做一些特别的设置，否则识别率会很低，以下我就和大家分享一下我使用Tesseract对日文做OCR的一些经验。

第一步，是要下载Tesseract组件，最简单的方法就是使用VisualStudio的NUGet来下载。选择第一个组件。　　

第二步，下载日文语言包，由于在大陆地区无法访问google，所以不能打开官网直接下载语言包。我给出文件的地址，可以使用迅雷下载。

http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.jpn.tar.gz

下载完成后将语言包文件解压后放到tessdata文件夹下。

到目前为止，准备工作已经就绪，可以开始编写代码。

第三步，初始化Tesseract组件，代码如下。

TesseractEngine engine = new TesseractEngine(@"tessdata文件夹路径", "jpn", EngineMode.Default))

第四步，设置OCR参数，关于各参数的解释，可以参照官网

Useful parameters for Japanese and Chinese

Some Japanese tesseract user found these parameters helpful for increasing tesseract-ocr (3.02) accuracy for Japanese :

Name	Suggested value	Description
chop_enable	T	Chop enable.
use_new_state_cost	F	Use new state cost heuristics for segmentation state evaluation
segment_segcost_rating	F	Incorporate segmentation cost in word rating?
enable_new_segsearch	0	Enable new segmentation search path. It could solve the problem of dividing one character to two characters
language_model_ngram_on	0	Turn on/off the use of character ngram model.
textord_force_make_prop_words	F	Force proportional word segmentation on all rows.
edges_max_children_per_outline	40	Max number of children inside a character outline. Increase this value if some of KANJI characters are not recognized (rejected).

以下是代码　　　

engine.SetVariable("chop_enable ", "F");

engine.SetVariable("enable_new_segsearch", );

engine.SetVariable("use_new_state_cost ", "F");

engine.SetVariable("segment_segcost_rating", "F");

engine.SetVariable("language_model_ngram_on", );

engine.SetVariable("textord_force_make_prop_words", "F");

engine.SetVariable("edges_max_children_per_outline", );

这里面chop_enable参数与官网推荐的不太一样，我发现按照官网的设置，会有很多文字识别不出来。

第五步，开始识别。

var page = engine.Process(p);

var testText = page.GetText();

var c=page.GetMeanConfidence();

第一行代码返回一个Page对象，通过该对象可以获得识别的文本，而且还可以获得识别文本所在位置（这个在识别非固定模式文档时非常有用，可以根据关键字动态查找识别字段位置）。
在例子中OCR做全文识别，但是做全文识别很多情况下识别质量一般，最好增加识别区域参数，同时将PageSegMode参数设置为PageSegMode.SingleBlock（代表多行大小相同的文字）或PageSegMode.SingleRow（代表单行大小相同的文字）。

第二行和第三行分别返回识别的文本与识别的信任度。在实际使用时我发现识别信任度不是特别有用。无论识别对错，信任度基本在0.7左右，有些时候信任度较高，识别结果反而是错误的。

经过以上几步，就可以完成日文的OCR。但要让以上代码成功运行，还必须要在安装VC++运行时2012，否则会报错。

我使用以上方法对扫描图片进行测试，发现识别精确度还是比较高的，尤其在指定区域与PageSegMode参数后。但是日文字库也存在一些低级失误，如将数字“1”识别成了汉字“一”等。如果要想解决这个问题，必须要从头训练日文，这个工作量非常大！而这真的是Tesseract一个非常不智能的地方，应该支持在原有训练字库的基础上追加训练内容！或者在官网上提供Box文件和训练用Tif供开发者下载。

如何用Tesseract做日文OCR（c#实现）的更多相关文章

【CSS】如何用css做一个爱心
摘要:HTML的标签都比较简单,入门非常的迅速,但是CSS是一个需要我们深度挖掘的东西,里面的很多样式属性掌握几个常用的便可以实现很好看的效果,下面我便教大家如何用CSS做一个爱心. 前期预备知识: ...
(转)如何用TensorLayer做目标检测的数据增强
数据增强在机器学习中的作用不言而喻.和图片分类的数据增强不同,训练目标检测模型的数据增强在对图像做处理时,还需要对图片中每个目标的坐标做相应的处理.此外,位移.裁剪等操作还有可能使得一些目标在处理后只 ...
如何用css做一个爱心
摘要:HTML的标签都比较简单,入门非常的迅速,但是CSS是一个需要我们深度挖掘的东西,里面的很多样式属性掌握几个常用的便可以实现很好看的效果,下面我便教大家如何用CSS做一个爱心. 前期预备知识: ...
如何用Jmeter做接口测试
Jmeter介绍&测试准备: Jmeter介绍:Jmeter是软件行业里面比较常用的接口.性能测试工具,下面介绍下如何用Jmeter做接口测试以及如何用它连接MySQL数据库. 前期准备:测试 ...
如何用SPSS做联合分析
如何用SPSS做联合分析如果产品的描述是由几个属性特征决定的,比如说mp3的音质.外形.容量.价格等等,商家为了确定哪个属性对消费者的影响最大,以及预测什么样的属性组合最受消费者的欢迎,选择的办法应 ...
基于Tesseract组件的OCR识别
基于Tesseract组件的OCR识别背景以及介绍欲研究C#端如何进行图像的基本OCR识别,找到一款开源的OCR识别组件.该组件当前已经已经升级到了4.0版本.和传统的版本(3.x)比,4.0时代 ...
Android开发如何轻松实现基于Tesseract的Android OCR应用程序
介绍此应用程序使用Tesseract 3的Tesseract OCR引擎,该引擎通过识别字符模式( https://github.com/tesseract-ocr/tesseract )来工作. ...
集成利用tesseract.exe进行ocr
ocr是一个宽泛的概念.市场上面ocr将一直是一个不断发展.需求强烈的方向. 我认为,从难度上区分,中文ocr难于英文ocr;手写ocr难于印刷ocr.所以两两组合,中文手写体最难(比如毛体,有一些人 ...
如何用Python做Web开发？——Django环境配置
用Python做Web开发,Django框架是个非常好的起点.如何从零开始,配置好Django开发环境呢?本文带你一步步无痛上手. 概念最近有个词儿很流行,叫做“全栈”(full stack ...

随机推荐

tomcat session漏洞反序列化详解
1. 条件1)攻击者可以控制服务器上的文件名/文件内容2)tomcat context配置了persistencemanager的fileSotre3) persistenceManager 配置了s ...
GTA5侠盗猎车5中文版破解版绿色版汉化版迅雷下载地址种子实测可用
GTA5(侠盗猎车5)中文版下载地址(实测可用) 迅雷下载地址:https://www.90pan.com/b1548988 一定要关闭安全软件并且加入白名单实测通过,关闭杀毒软件可以完美运行,最好 ...
python常见面试题讲解（十三）字串的连接最长路径查找
输入描述: 输入第一行为一个正整数n(1≤n≤1000),下面n行为n个字符串(字符串长度≤100),字符串中只含有大小写字母. 输出描述: 数据输出n行,输出结果为按照字典序排列的字符串. 示例1 ...
Redis 入门到分布式（七）Redis复制的原理与优化
一.目录 Redis复制的原理与优化什么是主从复制全量复制和部分复制复制的配置故障处理开发运维常见问题二. 什么是主从复制 1.单机有什么问题? 单机如果机器故障,那么久无法及时提供服务: ...
PAT 在霍格沃茨找零钱
如果你是哈利·波特迷,你会知道魔法世界有它自己的货币系统 —— 就如海格告诉哈利的:“十七个银西可(Sickle)兑一个加隆(Galleon),二十九个纳特(Knut)兑一个西可,很容易.”现在,给定 ...
surface go重新做系统
此教程适用于使用U盘恢复介质来恢复Surface Go二合一设备系统SurfaceGo_BMR_45_64_1.011.2.zip 大致两个步骤一.制作U盘恢复介质下载适用于自己平板的恢复镜像文件 ...
09_EM算法
今天是2020年3月5日星期四.预计开学时间不会早于四月初,真是好消息,可以有大把的时间整理知识点(实际上发文章的时间都6月6号了,希望9月份能开学啊,不耽误找工作~).每次导师找,整个人会变的特别烦 ...
CSS3弹性布局内容对齐（justify-content）属性使用详解
内容对齐(justify-content)属性应用在弹性容器上,把弹性项沿着弹性容器的主轴线(main axis)对齐. 该操作发生在弹性长度以及自动边距被确定后. 它用来在存在剩余空间时如何加以分配 ...
【Jmeter】分布式压测环境配置
注意:以下四点都必须一致 1.jmeter版本 2.内置插件 3.jdk版本1.8以上 4.同属一个局域网助攻机设置本机助攻机Linux系统,首先需要安装JDK并配置环境 JDk基本安装及配置环境 ...
Tensorflow从0到1（3）之实战传统机器算法
计算图中的操作 import numpy as np import tensorflow as tf sess = tf.Session() x_vals = np.array([1., 3., 5. ...

如何用Tesseract做日文OCR（c#实现）

Useful parameters for Japanese and Chinese

如何用Tesseract做日文OCR（c#实现）的更多相关文章

随机推荐

热门专题