Tesseract 简介

  Tesseract 的 OCR 引擎最先由 HP 实验室于 1985 年开始研发,至 1995 年时已经成为 OCR 业内最准确的三款识别引擎之一。然而,HP 不久便决定放弃 OCR 业务,Tesseract 也从此尘封。

  数年以后,HP 意识到,与其将 Tesseract 束之高阁,不如贡献给开源软件业,让其重焕新生。2005 年,Tesseract 由美国内华达州信息技术研究所获得,并求诸于 Google 对 Tesseract 进行改进、消除 Bug、优化工作。

  目前 Tesseract 作为开源项目发布在 GitHub,其项目主页在这里查看,目前的新版本已经支持包括中文在内的超过 60 种语言的 OCR。

安装 Tesseract

注:因为众所周知的原因,Google 的相关网址需要翻墙访问。

  1. Windows

    • 访问下载页面,名称为 tesseract-ocr-setup-3.XX.exe 就是 Tesseract 安装程序,下载并安装。
    • 下载需要的语言包,例如简体中文就是 tesseract-ocr-3.02.chi_sim.tar.gz ,将解压出的chi_sim.trainedata文件复制到tessdata目录下。程序运行必须包含英语语言包,若tessdata目录下没有eng.trainedata文件,请自行下载英语语言包。
  2. Linux
    • 现在很多 Linux 软件仓库都已经包含 Tesseract 了,包名一般叫做 tesseract 或者 tesseract-ocr,搜索软件仓库并安装。
    • 访问下载页面,下载需要的语言包,例如简体中文就是 tesseract-ocr-XXX.chi_sim.tar.gz,将解压出的文件chi_sim.trainedata复制到tessdata目录下(一般为 /usr/share/tesseract-ocr/tessdata or /usr/share/tessdata)。程序运行必须包含英语语言包,若tessdata目录下没有eng.trainedata文件,请自行下载英语语言包。
  3. Mac OS X
    • 下载并安装 MacPorts
    • 使用命令sudo port install tesseract安装 tesseract。
    • 使用命令sudo port install tesseract-<langcode>安装语言包,各语言的 langcode 可以访问 MacPorts tesseract page 查看。
    • 当然也可以通过 Homebrew 安装tesseract:brew install tesseract。

使用 Tesseract

Tesseract 是一个命令行程序,命令格式为:

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

参数说明

  imagename 就是要识别的图片文件的名称,outputbase 就是识别结果输出文件的名称。

  lang 就是要识别的语言代码,例如英语为 eng、简体中文为 chi_sim 等等。可以同时识别多种语言,使用 “+” 相连,例如eng+chi_sim。缺省时识别英语。

  pagesegmode 为识别的具体模式,具体包含以下模式:

  • 0 = Orientation and script detection (OSD) only.
  • 1 = Automatic page segmentation with OSD.
  • 2 = Automatic page segmentation, but no OSD, or OCR
  • 3 = Fully automatic page segmentation, but no OSD. (Default)
  • 4 = Assume a single column of text of variable sizes.
  • 5 = Assume a single uniform block of vertically aligned text.
  • 6 = Assume a single uniform block of text.
  • 7 = Treat the image as a single text line.
  • 8 = Treat the image as a single word.
  • 9 = Treat the image as a single word in a circle.
  • 10 = Treat the image as a single character.

如果想要简单地识别一张名为 test.png 的图片并将结果保存至 out.txt 中:

tesseract test.png out

或者采用简体中文语言包识别

tesseract test.png out -l chi_sim

我尝试使用 Tesseract 识别下面这张图片:

使用 Tesseract 识别:

识别结果:

由此可见 Tesseract 对中文的识别很糟糕,毕竟它本来只是用来识别英语的,所以其他文字的识别率都比较差,特别是像汉字这种象形文字,必须要通过手动训练才能使用。可以参考另一篇文章《Tesseract训练》

转载自http://xiaosheng.me/2015/12/18/article10/

通过Tesseract实现简单的OCR的更多相关文章

  1. 百度 OCR API 的使用以及与 Tesseract 的简单对比

    目录 百度 OCR API 初探 用 Python 调用百度 OCR API 与 Tesseract 的简单对比 百度 OCR API 初探 近日得知百度在其 APIStore 上开放了 OCR 的 ...

  2. 使用ImageMagick和Tesseract进行简单数字图像识别

    使用ImageMagick和Tesseract进行简单数字图像识别 由于直接使用 tesseract 进行识别,识别率很低, ImageMagick 安装.配置及使用: 平台:winXP 1. 安装I ...

  3. 转:关于使用ImageMagick和Tesseract进行简单数字图像识别

    据说Tesseract可是世界排名第三的OCR神器,2010年又更新了3.0版本.Tesseract原先是HP写的,现在Open Source了. 下面介绍怎么用Tesseract配合ImageMag ...

  4. 验证码识别 Tesseract的简单使用和总结

    Tesseract是什么 OCR即光学字符识别,是指通过电子设备扫描纸上的打印的字符,然后翻译成计算机文字的过程.也就是说通过输入图片,经过识别引擎,去识别图片上的文字.Tesseract是一种适用于 ...

  5. Tesseract:简单的Java光学字符识别

    1.1 介绍 开发具有一定价值的符号是人类特有的特征.对于人们来说识别这些符号和理解图片上的文字是非常正常的事情.与计算机那样去抓取文字不同,我们完全是基于视觉的本能去阅读它们. 另一方面,计算机的工 ...

  6. tesseract的简单使用

    Tesseract 是一个开源的 OCR 引擎,可以识别多种格式的图像文件并将其转换成文本,最初由 HP 公司开发,后来由 Google 维护.下载地址:https://digi.bib.uni-ma ...

  7. selenium使用笔记(二)——Tesseract OCR

    在自动化测试过程中我们经常会遇到需要输入验证码的情况,而现在一般以图片验证码居多.通常我们处理这种情况应该用最简单的方式,让开发给个万能验证码或者直接将验证码这个环节跳过.之前在技术交流群里也跟朋友讨 ...

  8. 如何用Tesseract做日文OCR(c#实现)

    首先做一下背景介绍,Tesseract是一个开源的OCR组件,主要针对的是打印体的文字识别,对手写的文字识别能力较差,支持多国语言(中文.英文.日文.韩文等).是开源世界里最强的一款OCR组件.当然和 ...

  9. 开源图片文字识别引擎——Tesseract OCR

    Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...

随机推荐

  1. 4. Oracle数据库用户管理备份与恢复

    一. Oracle用户管理备份介绍 Oracle物理备份核心就是将物理文件拷贝一份副本:存放在磁盘上.物理文件指的是:数据文件,控制文件,日志文件,参数文件等等. 根据数据库状态而分:备份可分为热备份 ...

  2. 关于Kafka high watermark的讨论2

    之前写过一篇关于Kafka High watermark的文章,引起的讨论不少:有赞扬之声,但更多的是针对文中的内容被challenge,于是下定决心找个晚上熬夜再看了一遍,昨晚挑灯通读了一遍确实发现 ...

  3. pythonCharm 破解

    操作步骤和IDEA是一样的 只是jar 包不一样 //激活拷贝-javaagent:E:\PythonCharm\PyCharm Community Edition 2017.3.4\bin\Jetb ...

  4. URL中的空格

    如果URL中带空格,在浏览器中可以显示,但是如果访问比如 UIImage 获取图片的时候就会出现BAD URL. 解决: NSString* urlText = @"70.84.58.40/ ...

  5. 实用方法 - 解决360Doc文章不能复制的问题(实现不登录直接复制)

    问题: 有时搜索文章的时候看到一些有用的文字,或者在网上搜索一些文献资料,找到需要的部分后,通常都可以使用 Ctrl + C,或者右键复制下来.但有些网站,比如:360个人图书馆(360Doc)会强制 ...

  6. web项目加载图片资源

    在web项目中,用户会上传图片,这些图片应该存在服务器硬盘上,而不是存在数据库或者应用程序路径下,在数据库存入文件的路径. 这是一个比较重要的问题,也是开发过程中也解决的问题.当然,我可以跳过,但是成 ...

  7. layer弹窗插件自带自写经验

    复制可下载源代码和自写教程    链接: https://pan.baidu.com/s/1mhHa5Os 密码: j5su

  8. Jumpserver堡垒机

    堡垒机介绍 搭建简易堡垒机 安装步骤 wget --no-check-certificate https://olivier.sessink.nl/jailkit/jailkit-2.19.tar.b ...

  9. cuteftp9破解及安装、使用

    一.破解: 参考:https://jingyan.baidu.com/article/ca00d56c4e43b2e99febcf70.html 1. 首先下载cuteftp替换文件及cuteftp9 ...

  10. set @sql=N'q',这里的N是什么意思,加与不加有什么区别

    用来支持UNICODE字符的,不加的话,如果sql语句中有Unicode字符会认不出来