mac 使用tesseract识别图片中的中文

安装 tesseract
brew install tesseract

加入环境变量
export TESSDATA_PREFIX=/usr/local/Cellar/tesseract/4.1.0/share/tessdata

查看安装位置
bogon:verify macname$ brew list tesseract
/usr/local/Cellar/tesseract/4.1.0/bin/tesseract
/usr/local/Cellar/tesseract/4.1.0/include/tesseract/ (19 files)
/usr/local/Cellar/tesseract/4.1.0/lib/libtesseract.4.dylib
/usr/local/Cellar/tesseract/4.1.0/lib/pkgconfig/tesseract.pc
/usr/local/Cellar/tesseract/4.1.0/lib/ (2 other files)
/usr/local/Cellar/tesseract/4.1.0/share/tessdata/ (22 files)
/usr/local/Cellar/tesseract/4.1.0/share/tessdata.bak/ (35 files)

pip3.7 install pytesseract

链接: https://pan.baidu.com/s/13Ywyn3GKziEjZG307zDFjQ 提取码: ptkc

下载后，用tessdata替换/usr/local/Cellar/tesseract/4.1.0/share/tessdata/

然后运行generate.py

bogon:verify macname$ python3 generate.py

. 甲 方 所 代 理 的 金 融 公 司 通

颊 差 , 甲 方 向 乙 方 又 付 客 广 交

( 备 泞 : 此 点 莪 口 因 平 台 点 荞

. 双 方 坝 御 月  门 前 确 认 上

欢 项 汇 到 乙 万 指 定 的 账 户 上 。

参考：

https://www.cnblogs.com/zhangxinqi/p/9297292.html#_label3
http://www.liangchan.net/soft/softdown.asp?softid=11126
https://www.bbsmax.com/A/GBJrZgQKJ0/
https://bbs.csdn.net/topics/392409466
https://github.com/tesseract-ocr/tesseract/wiki
https://blog.csdn.net/a745233700/article/details/80175883
https://www.cnblogs.com/chenyanbin/p/10398685.html
https://yq.aliyun.com/articles/330275
https://blog.csdn.net/weixin_33991418/article/details/90187385
https://www.cnblogs.com/xuchunlin/p/9415620.html

mac 使用tesseract识别图片中的中文的更多相关文章

python tesseract 识别图片中的文字的乱码问题(ubuntu系统下)
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程. 首先,需要安装 tesseract-ocr(tesseract O ...
python基于万象优图识别图片中的中文
最近一直在研究光学字符识别,即OCR.最开始在谷爹那里了解到了开源的Tesseract,可以拿来识别简单的英文和数字.但是识别中文的准确率并不高. 然后从Tesseract到Tesseract.js, ...
python用Tesseract读取图片中的中文，出现乱码
到http://download.csdn.net/detail/wanghui2008123/7621567下载中文简体包然后找到tessdata目录,把eng.traineddata替换为chi ...
python实战===用python识别图片中的中文
需要安装的模块 PIL pytesseract 需要下载的工具: http://download.csdn.net/download/bo_mask/10196285 因为之前百度云的链接总失效,所以 ...
Windows下训练Tesseract实现识别图片中的文字
介绍 Tesseract是一个基于Apache2.0协议开源的跨平台ocr引擎,支持多种语言的识别,在Windows和Linux上都有良好的支持. 源代码在这: 源码地址有一个编译打包好的Windo ...
深入学习使用ocr算法识别图片中文字的方法
公司有个需求,简单点说需要从一张图片中识别出中文,通过python来实现,当然其他程序也行,只要能实现,而小编主要学习python,所以就提了python.一个小白在网上遨游了一天,终于找到一丝丝思绪 ...
如何用ABBYY FineReader识别图片中的文本
ABBYY FineReader 12是一款OCR光学字符识别软件,能够快速方便地将扫描纸质文档.PDF文件和数码相机的图像转换成可编辑.可搜索的文本,让电脑处理更具效率,摆脱从前的烦恼,告别耗时费力 ...
Tesseract识别图片提取文字&字库训练
文中测试了3.0和4.0两个版本.发现3.0识别效率不准确,需要训练词库.4.0识别效率就比较高了,而且支持结果生成pdf.txt等格式.所以推荐使用4.0版本. 这个工具可以用在爬虫的时候获取验证码 ...
吴裕雄--天生自然python学习笔记：python 用 Tesseract 识别验证码
用 Selenium 包实现网页自动化操作的案例中,发现很多网页都因需输入图形验证码而导致实验无法进行 . 解决的办法就是对验证码进行识别 . 识别的方法之一是通过图形处理包将验证码的大部分背 ...

随机推荐

创建和使用CI / CD管道【译】【原】
在GitLab 8.8中引入. 介绍管道是持续集成,交付和部署的顶级组件. 管道包括: 定义要运行的作业的作业.例如,代码编译或测试运行. 定义何时以及如何运行的阶段.例如,该测试仅在代码编译后运行 ...
vs2017js 方法注释
vs2017给js方法加注释,就像给C#类似例如 function test1(a,b,c){ .... } 在function的上一行,打一个 " / " 再连续按两下 &qu ...
Java自学-接口与继承 Object类
Java中的超类 Object 步骤 1 : Object类是所有类的父类声明一个类的时候,默认是继承了Object public class Hero extends Object package ...
21、解决关于 vue项目中点击按钮路由多了个问号
在vue项目开发过程中,点击按钮结果页面刷新了一遍后来发现路径变成了 localhost:8080/?#/login 原因: 这里是 form 表单,点击了button 按钮,触发了他的默认事件,就 ...
byte[]，File和InputStream的相互转换
File.FileInputStream 转换为byte[] File file = new File("test.txt"); InputStream input = new F ...
day 38
目录元类什么是元类元类的作用怎么自定义创建元类元类什么是元类用class关键字定义的类本身是一个对象,负责产生该对象的类称之为元类(元类可以简称为类的类),内置的元类为type 元类的作 ...
微服务spring-cloud 学习第一天
了解微服务微服务架构风格是一种将单一应用程序开发为一组小型服务的方法,每个服务运行在自己的进程中,服务间通信采用轻量级通信机制(通常使用HTTP).这些服务围绕业务能力构建并且可通过自动部署 ...
markdown 格式测试
Q1: before 与 afer 的而区别在哪? Q2: 如何预防"爆仓"? Q3: 在购买量 much > 库存量 num时, 把much自动改为num? -- 在t2的 ...
Ansible入门笔记（2）之常用模块
目录 Ansible常用模块 1.1.Ansible Ad-hoc 1.2.Ansible的基础命令 1.3.常用模块 Ansible常用模块 1.1.Ansible Ad-hoc 什么事ad-hoc ...
Win10 Microsoft Store 微软商店 Error 0x00000193 解决方法
0x00 前言最近使用 CFW 过程中使用 Fiddle Web Debug 设置 Store 的回环代理的过程中发现无论是否使用代理,Store 都无法访问网络的问题,在最下面的提示中出现了 0x ...

mac 使用tesseract识别图片中的中文

mac 使用tesseract识别图片中的中文的更多相关文章

随机推荐

热门专题