Python3.x：如何识别图片上的文字

整合侠 2024-10-24 17:56:54 原文

Python3.x：如何识别图片上的文字

安装pytesseract库，必须先安装其依赖的PIL及tesseract-ocr，其中PIL为图像处理库，而后面的tesseract-ocr则为google的ocr识别引擎；

其中PIL可以用pillow来替代；

一、安装识别引擎tesseract-ocr

下载地址（解压安装）：https://sourceforge.net/projects/tesseract-ocr/

　　这里需要注意这一段话：Currently, there is no official Windows installer for newer versions.意思就是官方不提供最新版windows平台安装包，只有相对略老的3.02.02版本，其下载地址：https://sourceforge.net/projects/tesseract-ocr-alt/files/。

　　

环境变量配置（path）：D:\Program Files (x86)\Tesseract-OCR

设置环境变量：TESSDATA_PREFIX=D:\Program Files (x86)\Tesseract-OCR\tessdata

打开DOS界面，输入tesseract，如下图则标示安装成功：

测试识别功能：

切换到图片的目录：cd \d E:\pydevworkspaces，然后输入tesseract tttt.png result（识别tttt.png结果写入result.txt文件中，输出文件在同级目录下）：

tttt.png图片内容：

result.txt文件内容：

识别率貌似不高，第三个数字就识别出错了；

“tesseract OCR 训练样本” --可以提高识别率；

说明安装成功；

tesseract语法：

tesseract code.jpg result  -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库（需要下载中文字库文件，解压后，存放到tessdata目录下去,字库文件扩展名为  .raineddata 简体中文字库文件名为:  chi_sim.traineddata）

-psm 7 表示告诉tesseract code.jpg图片是一行文本  这个参数可以减少识别错误率.  默认为 3

configfile 参数值为tessdata\configs 和  tessdata\tessconfigs 目录下的文件名

二、安装第三方库（pytesseract、pillow）

#pytesseract安装

pip install pytesseract

#Pillow 安装

pip install pillow

注意：修改 pytesseract 的路径。

（1）路径：D:\Python36\Lib\site-packages\pytesseract\pytesseract.py

（2）修改内容：tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

三、实例代码

# python3

# author lizm

# datetime 2018-01-26 12:00:00

'''

    Demo：pytesseract解析图片上的文字

'''

import pytesseract

from PIL import Image

# 指定路径

# pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-ORC/tesseract'

image = Image.open('tttt.png')

code = pytesseract.image_to_string(image)

print(code)

四、识别中文

1，增加中文库：chi_sim.traineddata

2，将中文库拷贝到：D:\Program Files (x86)\Tesseract-OCR\tessdata目录下

3，代码示例：

# python3

# author lizm

# datetime 2018-09-21 12:00:00

'''

    Demo：pytesseract解析图片上的中文文字

'''

import pytesseract

from PIL import Image

code = pytesseract.image_to_string(Image.open('8.jpg'),lang='chi_sim')

print(code)

注意：chi_sim.traineddata必须和安装的tessdata的版本一致，才能生效。

Python3.x：如何识别图片上的文字的更多相关文章

如何大批量的识别图片上的文字，批量图片文字识别OCR软件系统
软件不需要安装,直接双击打开就可以用,废话不多说直接上图好了,方便说明问题批量图片OCR(批量名片识别.批量照片识别等)识别,然后就下来研究了一下,下面是成果使用步骤:打开单个图片识别,导入文件夹 ...
如何去除图片上的文字(PS使用教程)
很多时候由于工作的需要,需要对我们的图片进行修改,修改的同时还想要保存我们的图片背景,所以很多人就不知道怎么弄了,小编跟大家分享一下使用PS如何简单的去掉图片上的文字,希望对大家有所帮助! 方法/步骤 ...
C#图像处理（1）：在图片上加文字和改变文字的方向
C#在图片上加文字,代码如下: /// <summary> /// 图片上方加文字,文字将会被180度反转 /// </summary> /// <param name= ...
c#实现识别图片上的验证码数字
这篇文章主要介绍了c#实现识别图片上的验证码数字的方法,本文给大家汇总了2种方法,有需要的小伙伴可以参考下. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1 ...
C#实现图片叠加，图片上嵌入文字，文字生成图片的方法
/// <summary> /// 图片叠加 /// </summary> /// <param name="sender"& ...
python 图片上添加文字
import PIL from PIL import ImageFont from PIL import Image from PIL import ImageDraw #设置字体,如果没有,也可以不 ...
使用Qpaint在图片上写文字
开发过程中需要实现在图片上叠加文字,可以采用Qpaint在图片上写文字,然后将图片显示在上面.再将Qlabel加到Qwidget中.效果如下 //创建对象,加载图片 QPixmap pix; pix. ...
函数putText（）在图片上写文字
#include <iostream> #include <opencv2/opencv.hpp> using namespace std; using namespace c ...
把图片上的文字转换成word文字？
转换后的文字不是很如意,但是免费方便. 1.打开Office办公软件自带的OneNote工具.随便新建一个笔记页面,以方便我们接下来的操作. 2.插入图片.在菜单栏里点击[插入],选择插入[图片],找 ...

随机推荐

【黑金原创教程】 FPGA那些事儿 SignalTap II 调试技巧
简介工具篇系列的第三本教程,讲述各种与SignalTap II 有关的调试技巧. 目录[黑金原创教程] FPGA那些事儿<工具篇III>:File01 - 上线调试与下线调试[黑金原创教程 ...
ios 将图片做成圆形
UIImageView * imageView = [[UIImageView alloc] initWithImage:[UIImage imageNamed:@"oiuyfdsa.png ...
Android项目混淆打包
以下为我此期项目中的关于混淆打包的总结:(本人第一次混淆打包,呵呵,错误很多!列了一些比较头疼的)一.项目混淆过程中注意事项:由于我的sdk版本较高,因此新建android项目下只有proguard- ...
C# ArcEngine 实现点击要素高亮并弹出其属性
本文是模仿ArcMap里面的Identify(识别)功能,通过点击要素,使其高亮显示并弹出其属性表!本文只做了点击查询! 本文所用的环境为VS2010,AecEngine基于C#语言,界面是用Dev做 ...
ROS 笔记
ros的编程范式 - ros认为,linux平台下,机器人的软件由一个个小程序组成,这些小程序称为node,每个小程序负责一部分功能 - ros实现的框架就是,小程序的并发执行+相互通信,程序(进程) ...
3.2 - FTP文件上传下载
题目:开发一个支持多用户同时在线的FTP程序要求:1.用户加密认证2.允许同时多用户登录3.每个用户有自己的家目录,且只能访问自己的家目录4.对用户进行磁盘配额,每个用户的可用空间不同5.允许用户在f ...
素数筛法—时间复杂度O(n)
请你想出一个算法求出n以内(含n)的所有素数,要求算法的时间复杂度越小越好. 这里介绍一种算法——快速线性素数筛法(欧拉筛法),时间复杂度O(n). 诀窍在于:筛除合数时,保证每个合数只会被它的最小质 ...
微信小程序登录时序图
https://developers.weixin.qq.com/miniprogram/dev/api/api-login.html
Ningx代码研究.
概述研究计划参与人员研究文档学习emiller的文章熟悉nginx的基本数据结构 nginx 代码的目录结构 nginx简单的数据类型的表示 nginx字符串的数据类型的表示内存分配相关 ...
类的super
我们经常在类的继承当中使用super(), 来调用父类中的方法.例如下面: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 class A: def func(self): ...