TesseractOCR】的更多相关文章

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程.Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布.项目地址:https://github.com/tesseract-ocr 该项目最新版本是3.04,本人试验用的版本是3.02. 1 安装并设置环境 运行tesseract-ocr-setup-3.0…
验证码: 如下,在进行自动化测试,遇到验证码的问题,一般有两种方式 1.找开发去掉验证码或者使用万能验证码 2.使用OCR自动识别 使用OCR自动化识别,一般识别率不是太高,处理一般简单验证码还是没问题 这里使用的是Tesseract-OCR,下载地址:https://github.com/A9T9/Free-Ocr-Windows-Desktop/releases 怎么使用呢? 进入安装后的目录: tesseract.exe test.png test -1 准备一份网页,上面使用该验证码 <…
tesseract-ocr 第一课 前言 据网上介绍tesseract-ocr性能不错,并且可以支持识别中文了.于是尝试一下.   安装 1.下载地址: https://code.google.com/p/tesseract-ocr/downloads/list     1.介绍 论文地址:http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseracticdar2007.pdf     Tesseract OCR引擎是HP研究所生产的.包括…
--------------------------------------------------低调的分割线--------------------------------------------------- Linux下有两个重要的编程准则,甚至是设计哲学,就是:模块原则(使用简洁的借口拼合简单的部件)和组合原则(设计时考虑拼接组合).在Linux 下面有无数个小程序,体积小,功能简单.但是当我们将它们按一定的方式组合起来以后,它们 几乎无所不能.命令行的一个很大的好处就是方便组合.试想…
本文是对tesseract-ocr 使用的进一步技术升级说明,使用默认的识别库识别率比较低怎么办? 不用着急,tesseract-ocr本身的工具中提供了使用你提供的素材进行人工修正以提高识别率的方法.下面我们就来看一下. 参考: http://my.oschina.net/lixinspace/blog/60124 1    下载并安装3.02版本的tesseract 2     如果你的训练素材是很多张非tiff格式的图片,首先要做的事情就是将这么图片合并(个人觉得素材越多,基本每个字母和数…
关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路. 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除. 一.准备工作 1.下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行. 2.下载chi_sim.traindata字库.要有这个才能识别中文.下好后,放到Tesseract-OCR项目的tessdata文件夹里面. 3.下载jTessBoxEditor,这个是用来训练字库…
1. 在ubuntu下可以自动安装  [html]   技术分享技术分享    sudo apt-get install tesseract-ocr  2.编译安装    a.编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)   [html]   技术分享技术分享    yum install gcc gcc-c++ make      b.安装tesseract-ocr编译必须的包[html]   技术分享技术分享    1120.www.qixoo.qixoo…
Tesseract-OCR 工具中的 text2image.exe ,下载其他人编译的在 win 系统都无法正常运行. 折腾了好久终于编译出能正常运行的. --font="font name" 指定字体名字时需要用双引号, 不能用单引号. --text="input file" 要输入的文本文件需要用 UTF-8 格式. 字体名字需要先运行 text2image --list_available_fonts 命令, 查看有效字体. 比如: $ text2image…
网上搜集了不少资料,发现目前Tesseract转移到了Github上,因此下载方式和以前略有差别,下文是参考了诸位达人(再此表示感谢)和自己的实际操作过程形成的.(1)首先安装依赖的leptonica库:wget http://www.leptonica.com/source/leptonica-1.72.tar.gztar -xvf leptonica-1.72.tar.gz  cd leptonica-1.72./configure && make && make in…
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程. Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布.当前版本为3.01. 项目地址为:http://code.google.com/p/tesseract-ocr Windows 命令行使用Tesseract-OCR引擎识别验证码: 1.下载安装Tes…
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文). Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上.地址为http://code.google.com/p/tesseract-ocr/. 使用默认的语言库识别   1.安装Tesseract         从http://code.google…
俗话说前人栽树,后人乘凉,此话一点不假,结合云层的一遍文章:http://bbs.51testing.com/thread-533920-1-1.html,知道还有一个Tesseract-OCR可以用来识别图片上的文字(验证码). 在code.google上下载了tesseract-ocr-setup-3.02.02.exe,即windows版本,下载安装后安装路径自动加入到环境变量中,在cmd中可以手动测试一下: 格式如下:tesseract.exe c:\test1.jpg c:\test…
安装文件下载地址 http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exe README For the latest online version of the README.md see: https://github.com/tesseract-ocr/tesseract/blob/master/README.md About This package contains an OCR engine -…
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文). Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上.地址为http://code.google.com/p/tesseract-ocr/. 使用默认的语言库识别   1.安装Tesseract         从http://code.google…
1. 安装Tesseract-OCR,安装后测试下是否安装成功…
原文:http://yaohuiji.com/tag/tesseract%EF%BC%8Cocr%EF%BC%8C%E9%AA%8C%E8%AF%81%E7%A0%81/ 有个邪恶的需求,需要识别验证码 ,手输几千遍得残了,所以有了这篇小文章,顺便向帅气的Tesseract-OCR致敬,它果然和传说中的一样牛x! 首先,到google code下载Tesseract-OCR的dll和相关语言包. 下载下来后,把dll导入到自己项目里,把语言包解压缩到debug目录下(哪儿都行,但是要有访问权限,…
俗话说前人栽树,后人乘凉,此话一点不假,结合云层的一遍文章:http://bbs.51testing.com/thread-533920-1-1.html,知道还有一个Tesseract-OCR可以用来识别图片上的文字(验证码). 在code.google上下载了tesseract-ocr-setup-3.02.02.exe,即windows版本,下载安装后安装路径自动加入到环境变量中,在cmd中可以手动测试一下: 格式如下:tesseract.exe c:\test1.jpg c:\test…
用imagemagick和tesseract-ocr破解简单验证码 Tesseract-ocr据说辨识程度是世界排名第三,可谓神器啊. 准备工作: 1.安装tesseract-ocr sudo apt-get install tesseract 2.安装imagemagick sudo apt-get install imagemagick 3.安装rmagick sudo apt-get remove --purge librmagick-ruby-doc librmagick-ruby1.8…
linux 安装Tesseract-OCR 准备工作:一.编译环境: 1. gcc gcc-c++ make(这个环境一般机器都具备,可以忽略) yum install gcc gcc-c++ make 2. 依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)   autoconf automake libtool libjpeg-devel l…
tesseract-ocr图片识别开源工具 今天看同事的ppt,提到了图片识别,又tesseract-ocr,觉得不错,试一下,如果效果好可以用来做验证码的识别 http://code.google.com/p/tesseract-ocr/ tesseract是一款开源工具,我安装了Windows版试水先 1.首先登录首页在‘下载’页面下载 tesseract-ocr-setup-xx.xx.exe chi_sim.traineddata.gz   中文语言包 2.双击即可安装tesserrac…
由于在VS2012中使用OpenCV可以得到插件ImageWatch.vsix的支持,查看图像非常方便,所以一直想在VS2012环境下把Tesseract-OCR融合进来,但是这一错误折腾了我好久: ...\tesseract-ocr\include\tesseract\tesscallback.h(1011): error C2872: “remove_reference”: 不明确的符号. 后来终于闹明白这是名字冲突了: 都是因为 using namespace std;  出现在 #inc…
安装Tesseract-OCR 1. leptonica 需要源码编译安装http://www.leptonica.org/ leptonica 包: leptonica-1.73.tar.gz  解压后切换到leptonica-1.68 根目录   ./configure make make install2.tesseract安装:  依赖安装完毕后开始安装tesseract  下载tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com…
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文). Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上.地址为http://code.google.com/p/tesseract-ocr/. 使用默认的语言库识别   1.安装Tesseract         从http://code.google…
摘要: centos7安装依赖库 tesseract配置 代码例子 centos7安装依赖库 安装centos系统依赖 yum install -y automake autoconf libtool gcc gcc-c++ yum install -y libpng-devel libjpeg-devel libtiff-devel 安装leptonica wget http://www.leptonica.org/source/leptonica-1.72.tar.gz tar xvzf l…
第一步合成图片集 你需要把使用jTessBoxEditor工具把你的训练素材及多张图片合并成一张tif格式的图片集 第二步  生成box文件 运行tesseract命令,tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 batch.nochop makebox,生成box文件 , 第三步 用 jTessBoxEditor打开生成的图片集 mjorcen.normal.exp0.tif ,注意  mjorcen.normal.exp0.ti…
一.Tesseract训练 大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中 1.用jTessBoxEditor把要训练样本图片文件合并成tif文件(样本图片一定要为有效的格式图片) 运行jTessBoxEditor程序,界面如下:  点击顶栏的Tools选项,选择Merge TI…
一.tesseract-ocr安装 Ubuntu版本: 1.tesseract-ocr安装 sudo apt-get install tesseract-ocr 2.pytesseract安装 sudo pip install pytesseract 3.Pillow 安装 sudo pip install pillow 其他linux版本(如centos): 1.tesseract-ocr安装 没找到直接命令安装,所以需要手动下载安装包. https://github.com/tesserac…
在vs2013上的编译tesseract-ocr OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程. Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布.当前版本为3.04. 1 准备工作 1.1 首先是安装vs2013 ultimate 需要注意的是用光盘镜像安装, 首先是用UltraISO将VS20…
本文来源:http://blog.csdn.net/wanghui2008123/article/details/37694307 本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程. Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Go…
1.很多地方可以下载Tesseract-ocr工具,同时下载jTessBoxEditor方便之后的训练使用 2.下载Tesseract-ocr后可以放在任何地方,但是需要设置环境变量,或者在CMD当中调用的时候指定路径 在CMD当中的使用方法   Tesseract + 需要识别图片路径名称 + 返回结果路径名称 + ‘-l’ + 语言名称 例如  tesseract c:\a.png c:\result -l eng      识别c:\a.png图片   结构返回c:\result(此处返回…