tesseract ocr文字识别

一.环境搭建（基于VS2010）

　1.下载安装 tesseract-ocr-setup-3.02.02.exe 安装包，安装时候最好是在翻墙的情况下安装。(安装一点要勾选 Tesseract development files 选项)。

　　安装包下载地址：链接：http://pan.baidu.com/s/1pKAbyvp 密码：iicm

　2.解压tesseract-3.02.02-win32-lib-include-dirs.zip覆盖到tesseract-ocr安装目录下。

　　链接：http://pan.baidu.com/s/1cEfU6U 密码：o80p

3.解压DLL.zip（新的VS2010）覆盖tesseract-ocr安装目录下的旧的VS2008的DLL。

　　链接：http://download.csdn.net/detail/xadxyz/9789395

　 4.解压中文识别字库到tesseract-ocr安装目录下C:\Tesseract-OCR\tessdata

　　链接：http://pan.baidu.com/s/1i5ojm1f 密码：oqqb

二.创建工程

　 1.添加安装目录include和lib路径到VS工程配置

2.示例代码

// TestOCR.cpp : 定义控制台应用程序的入口点。

//

#include "stdafx.h"

#include "strngs.h"

#include "baseapi.h"

#include <iostream>

using namespace std;

#pragma comment(lib,"libtesseract302d.lib")

std::string UTF8_To_string(const std::string & str)//编码转换

{

	int nwLen = MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, NULL, 0);

	wchar_t * pwBuf = new wchar_t[nwLen + 1];

	memset(pwBuf, 0, nwLen * 2 + 2);

	MultiByteToWideChar(CP_UTF8, 0, str.c_str(), str.length(), pwBuf, nwLen);

	int nLen = WideCharToMultiByte(CP_ACP, 0, pwBuf, -1, NULL, NULL, NULL, NULL);

	char * pBuf = new char[nLen + 1];

	memset(pBuf, 0, nLen + 1);

	WideCharToMultiByte(CP_ACP, 0, pwBuf, nwLen, pBuf, nLen, NULL, NULL);

	std::string retStr = pBuf;

	delete []pBuf;

	delete []pwBuf;

	pBuf = NULL;

	pwBuf = NULL;

	return retStr;

}

int _tmain(int argc, _TCHAR* argv[])

{

	tesseract::TessBaseAPI api;

	api.Init(NULL,"chi_sim",tesseract::OEM_DEFAULT);

	STRING text_out;

	api.ProcessPages("test.jpg",NULL,0,&text_out);

	cout<<UTF8_To_string(text_out.string()).c_str()<<endl;

	system("pause");

	return 0;

}

3.识别结果

中文字库的识别错误率还是比较大,需要进一步优化训练字库。

　 http://blog.csdn.net/problc/article/details/8065011

　　所有用的到资源下载地址：http://download.csdn.net/detail/xadxyz/9789381

示例工程源码：http://download.csdn.net/detail/xadxyz/9789417

　　交流QQ：0x7317AF28

tesseract ocr文字识别的更多相关文章

tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
我的AI之路 —— OCR文字识别快速体验版
OCR的全称是Optical Character Recoginition,光学字符识别技术.目前应用于各个领域方向,甚至这些应用就在我们的身边,比如身份证的识别.交通路牌的识别.车牌的自动识别等等. ...
Android OCR文字识别实时扫描手机号（极速扫描单行文本方案）
身份证识别:https://github.com/wenchaosong/OCR_identify 遇到一个需求,要用手机扫描纸质面单,获取面单上的手机号,最后决定用tesseract这个开源OCR库 ...
OCR文字识别笔记总结
OCR的全称是Optical Character Recognition,光学字符识别技术.目前应用于各个领域方向,甚至这些应用就在我们的身边,比如身份证的识别,交通路牌的识别,车牌的自动识别等等.本 ...
怎么给OCR文字识别软件重编文档页面号码
ABBYY FineReader Pro for Mac OCR文字识别软件处理文档时,在FineReader文档中,页面的加载顺序即是页面的导入顺序,完成导入之后,文档的所有页面均会被编号,各编号会 ...
对OCR文字识别软件的扫描选项怎么设置
说到OCR文字识别软件,越来越多的人选择使用ABBYY FineReader识别和转换文档,然而并不是每个人都知道转换质量取决于源图像的质量和所选的扫描选项,今天就给大家普及一下这方面的知识. ABB ...
怎么提高OCR文字识别软件的识别正确率
在OCR文字识别软件当中,ABBYY FineReader是比较好用的程序之一,但再好的识别软件也不能保证100%的识别正确率,用户都喜欢软件的正确率高一些,以减轻识别后修正的负担,很多用户也都提过这 ...
OCR文字识别软件许可文件被误删了怎么办
使用任何一款软件,都会有误操作的情况发生,比如清理文件时一不小心删除了许可文件,对于ABBYY FineReader 12这样一款OCR文字识别软件,因失误错误删除了许可文件该怎么办呢?今天就来给大家 ...
怎么给OCR文字识别软件设置正确的扫描分辨率
ABBYY FineReader 12是一款专业的OCR文字识别软件,可快速方便地将扫描纸质文档.PDF文件和数码相机的图像转换成可编辑.可搜索的文本,不仅支持对页扫描,还支持多页扫描,扫描分辨率的选 ...

随机推荐

蓝桥网试题 java 入门训练 A+B问题
---------------------------------------------------------------------------------------------------- ...
MongoDB复制集之将现有的单节点服务器转换为复制集
服务器情况: 现有的单节点 Primary 192.168.126.9:27017 新增的节点 Secondry 192.168.126.8:27017 仲裁节点 ...
循环语句——for语句
一.for语句结构:for (初始化表达式; 循环条件表达式 ;循环后的操作表达式 ) { 执行语句: } 循环条件表达式,必须是true或false 示例: class ForDemo { publ ...
cookie，sessionstorage，localstorage区别
都是保存在浏览器端,且同源的,区别如下: 1.携带 cookie数据始终在同源的http请求中携带(即使不需要),即cookie在浏览器和服务器间来回传递. 而sessionStorage和local ...
AspNet Identity 和 Owin 谁是谁
英文原文:http://tech.trailmax.info/2014/08/aspnet-identity-and-owin-who-is-who/ 最近我发现Stackoverflow上有一个非常 ...
c#生成动态库并加载
下面这段代码生成dll文件,不能编译运行.点击项目右键,点击生成,这时会在debuge文件中生成相应的配置文件. using System; using System.Collections.Gene ...
一个Python小白5个小时爬虫经历
前言最近业余在做一个基于.NET Core的搜索项目,奈何基层代码写好了,没有看起来很华丽的数据供测试.很巧的也是博客搜索,于是乎想到了博客园.C#也能做做页面数据抓取的,不过在博客园看到的大部分都 ...
MyBatis 源码分析——生成Statement接口实例
JDBC的知识对于JAVA开发人员来讲在简单不过的知识了.PreparedStatement的作用更是胸有成竹.我们最常见用到有俩个方法:executeQuery方法和executeUpdate方法. ...
NHibernate的常见问题及解决方案
问题1 : 异常:in expected: <end-of-text> (possibly an invalid or unmapped class name was used in th ...
.NET Core中妙用unsafe减少gc提升字符串处理性能
一.前言昨天在群里讨论怎么样效率的把一个字符串进行反转,一般的情况我们都知道,只要对String对象进行操作,那么就会生成新的String对象,比如"1"+"2&quo ...

tesseract ocr文字识别

tesseract ocr文字识别的更多相关文章

随机推荐

热门专题