python3使用OCR识别图片
放假三天,闲来无事,想学下python爬虫。本想跟着网上教程操作一遍,奈何安装使用过程中出现一堆问题,并且在网上搜了一堆复制黏贴的答案,关键都不能起作用,最后终于找到一篇生效,为了以后不至于再经历这种痛苦,还是将多年未用的账号给翻了出来,将安装过程记录下来,以免以后突然心血来潮又想搞一把。
环境:
- win10
 - python 3.10.4
 - tesseract-ocr-w64-setup-v5.0.1.20220118
 
看网上教程,使用python识别图片需要先安装tesseract,然后再安装python ocr库,才能正常使用。这里分为两部分介绍:
tesseract
- 安装
 
安装包下载路径https://digi.bib.uni-mannheim.de/tesseract/,从上面下载所需版本后,点击安装:

需要注意的是此次将“Additional language data(download)”选中,然后一路点击Next,直至安装即可。
- 配置环境变量
 
首先需要新建系统变量TESSDATA_PREFIX,设置成你的软件安装路径:(注意加上tessdata,此处网上的坑极大,没有加导致使用时报
Error opening data file C:\Program Files\Tesseract-OCR\eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
)

然后需要在PATH变量中添加软件的安装路径:

然后打开CMD进入图片存放路径验证是否能识别成功:(image.png可以换成带有字母或数字的图)

安装Python的OCR识别库
- 安装
 
直接使用命令安装:
pip install Pillow
pip install pytesseract
- 使用
 
在python脚步中添加如下代码,执行即可看到结果:
textPath = "C:\\Users\\umj\\Desktop\\image.jpg"
print(pytesseract.image_to_string(Image.open(textPath), lang="eng"))

参考链接:https://www.jb51.net/article/183990.htm
python3使用OCR识别图片的更多相关文章
- 【转】Python OCR识别图片验证码
		
转载自:博客 对于某些网站登录的时候,往往需要输入验证码才能实现登录.如果要爬虫这类网站,往往总会比这个验证码导致无法爬取数据.以下介绍一种比较折中的方法,也是比较可行的方法: 实现思想: 1.通过截 ...
 - Onenote实现OCR识别图片
		
OCR识别推荐两个软件: 1. Tesseract:一个开源的,由谷歌维护的OCR软件. 2. Onenote:微软Office附带或者可以自己独立安装. 3. O ...
 - C++调用Asprise OCR识别图片
		
在一个识别软件中发现了Asprise OCR的"身影",上官网查了一下相关信息,发现功能挺强大的,识别印刷体应该不错,遗憾的是好像不能识别中文,不过不知道它对扭曲后的英文识别能力怎 ...
 - OCR识别-python3.5版
		
刚接触,啥子都不会,按着教程走 需求:识别图片中的文字信息环境:windows系统 开发语言:python3.5 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.p ...
 - Python3.x:如何识别图片上的文字
		
Python3.x:如何识别图片上的文字 安装pytesseract库,必须先安装其依赖的PIL及tesseract-ocr,其中PIL为图像处理库,而后面的tesseract-ocr则为google ...
 - python截图+百度ocr(图片识别)+ 百度翻译
		
一直想用python做一个截图并自动翻译的工具,恰好最近有时间就在网上找了资料,根据资料以及自己的理解做了一个简单的截图翻译工具.整理一下并把代码放在github给大家参考.界面用python自带的G ...
 - 以API方式调用C# dll,使用OneNote2013 sp1实现OCR识别本地图片
		
http://www.cnblogs.com/Charltsing/p/OneNoteOCRAPI.html OneNote2013 OCR API调用使用说明2019.4.17 使用说明:1.安装干 ...
 - Python人工智能之图片识别,Python3一行代码实现图片文字识别
		
1.Python人工智能之图片识别,Python3一行代码实现图片文字识别 2.tesseract-ocr安装包和中文语言包 注意:
 - python3 识别图片文字
		
1.下载相关组件 安装:pip install Pillow 或下载:https://pypi.org/project/Pillow/5.2.0/ ,https://pypi.org/project ...
 - 图片文字OCR识别-tesseract-ocr
		
帮助文件:https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc 下载地址:https://github. ...
 
随机推荐
- 达梦dba_segments指定表名查询到的大小都包含哪些数据
			
一.结论 dba_segments指定表名查询到的段大小包含索引.约束.表字段数据(包含LOB字段)(1)表(不包含LOB字段)创建默认分配2个簇,1个簇用于存放表结构及字段数据,1个簇用于存放clu ...
 - 常用cmd及bat脚本命令
			
1.内部命令和外部命令 cmd 命令 :内部命令和外部命令 内部命令 系统自带命令 dir copy 外部命令 调用应用程序,可自由拓展 mstsc.exe(mstsc)远程连接 ping (ping ...
 - String类型变量的使用
			
1.String属于引用数据类型,翻译为:字符串 2.声明String类型变量时,使用一对"" 3.String可以和8种基本数据类型变量做运算,且运算只能是连接运算:+ 4.运算 ...
 - 齐博x1如何录制阿里等第三方直播流
			
暂时只支持windows录制,可以在你本地电脑进行录制体验.点击下面的网址,下载录制程序文件,直接解压到任何一个目录都可以.里边同时包含自建直播服务器的功能,不用自建直播流的话,就可以忽视相关配置即可 ...
 - Conda的使用
			
conda常用的命令 在Anaconda Powershell Prompt 输入: 1.conda -V检验是否安装及当前conda的版本. 2.conda list查看安装了哪些包 3.conda ...
 - Redis数据结构(一)-Redis的数据存储及String类型的实现
			
1 引言 Redis作为基于内存的非关系型的K-V数据库.因读写响应快速.原子操作.提供了多种数据类型String.List.Hash.Set.Sorted Set.在项目中有着广泛的使用,今天我们来 ...
 - 使用 StringUtils.split 的坑
			
点赞再看,动力无限. 微信搜「程序猿阿朗 」. 本文 Github.com/niumoo/JavaNotes 和 未读代码博客 已经收录,有很多知识点和系列文章. 在日常的 Java 开发中,由于 J ...
 - 畅联云平台(www.24hlink.cn)支持的用传列表
			
无锡蓝天 沈阳君丰 无锡富贝 海康威视 海湾 苏州思迪 法安通 北大青鸟 金盾 依爱 威隆 1)几乎集齐了市场上常见的用户信息传输装置的类型,如果没接入的,我们也能接入哦. 2)欢迎咨询我们关于用传的 ...
 - Java安全之反序列化(1)
			
序列化与反序列化 概述 Java序列化是指把Java对象转换为字节序列的过程:这串字符可能被储存/发送到任何需要的位置,在适当的时候,再将它转回原本的 Java 对象,而Java反序列化是指把字节序列 ...
 - Java自定义排序
			
实现Comparator接口 实现该接口需要重写compare()方法 Arrays.sort(students, new Comparator<Student>() { @Overrid ...