使用python+pytesseract实现图片中文字的识别
一.安装tesseract
1.下载链接
https://digi.bib.uni-mannheim.de/tesseract/
2.网盘下载地址
链接:https://pan.baidu.com/s/1CLPSf2TahIGaeL7zRCTQDg
提取码:x0kn
3.配置环境变量
3.1配置TESSDATA_PREFIX变量
3.2配置Path变量

4.验证是否安装成功:
C:\Users\特昂糖>tesseract -v
tesseract 4.00.00alpha
leptonica-1.74.1
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.5.0) : libpng 1.6.20 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.3 : libopenjp2 2.1.0
5.命令行使用 tesseract --list-langs命令可查看当前软件支持的语言
C:\Users\特昂糖> tesseract --list-langs
List of available languages (2):
eng
osd
6.拓展语言包
到https://github.com/tesseract-ocr/tessdata下载需要的的语言包,如下图,红框内为中文简体语言包,下载后将该包直接放在程序安装目录的tessdata文件夹里面即可。

二.安装pytesseract
安装命令:pip install pytesseract
C:\特昂糖>pip install pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Collecting pytesseract
Using cached pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 0.0/3.3 MB ? eta -:--:--
ERROR: Operation cancelled by user
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
因为网络缘故下载不下来,用国内的源下载:
C:\Users\特昂糖>pip install pytesseract -i https://pypi.douban.com/simple
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Looking in indexes: https://pypi.douban.com/simple
Collecting pytesseract
Downloading https://pypi.doubanio.com/packages/8b/0d/6efe2a9bddf1b1efe82a86fdd057f4affaeebd14347f32d03bbbbc45821c/pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading https://pypi.doubanio.com/packages/a1/ce/d3bf90ccf0c32dfd24ab88d8aaa84fb7c08a339803ed679d809b92a3e41a/Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 3.3/3.3 MB 3.2 MB/s eta 0:00:00
Requirement already satisfied: packaging>=21.3 in f:\python3\lib\site-packages (from pytesseract) (21.3)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in f:\python3\lib\site-packages (from packaging>=21.3->pytesseract) (3.0.6)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Installing collected packages: Pillow, pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Successfully installed Pillow-9.1.0 pytesseract-0.3.9
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
三.python代码

import pytesseract
from PIL import Image file=r'F:/png/db63fc936bb07673a375423ce2d2cf8.png'
image=Image.open(file)
print(pytesseract.image_to_string(image,lang='chi_sim'))
输出结果:
元 日 王 安 石 ( 宋 代 爆 竹 声 中 一 岁 除 , 春 风 送 暖 入 属 苏 。
干 门 万 户 瞳 嘻 日 , 总 把 新 桃 换 旧 符 。
使用python+pytesseract实现图片中文字的识别的更多相关文章
- python+pytesseract识别图片文字
此文只介绍一下python+pytesseract识别一些简单图片的数字,字母和汉字.如图1 import pytesseract from PIL import Image,ImageEnhance ...
- Python图像处理之图片文字识别(OCR)
OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...
- 使用python内置库pytesseract实现图片验证码的识别
环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完 ...
- 第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别 第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://gith ...
- 二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...
- Python爬虫教程-29-验证码识别-Tesseract-OCR
本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract Python爬虫教程-29-验证码识别-Tesseract-OCR 常见反爬虫手段: 验证码 1.简单图片,扭曲 ...
- Python + opencv 实现图片文字的分割
实现步骤: 1.通过水平投影对图形进行水平分割,获取每一行的图像: 2.通过垂直投影对分割的每一行图像进行垂直分割,最终确定每一个字符的坐标位置,分割出每一个字符: 先简单介绍一下投影法:分别在水平和 ...
- 人脸检测及识别python实现系列(2)——识别出人脸
人脸检测及识别python实现系列(2)——识别出人脸 http://www.cnblogs.com/neo-T/p/6430583.html
- python调用hanlp进行命名实体识别
本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍.以下为分享的全文. 1.python与jdk版本位数一致 2.pip install jpype1(pyth ...
- Python实现图片滑动式验证识别
1 abstract 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类 ...
随机推荐
- 2019-9-19-dotnet-找不到-PostAsJsonAsync-方法
title author date CreateTime categories dotnet 找不到 PostAsJsonAsync 方法 lindexi 2019-09-19 14:53:58 +0 ...
- Solution Set - DP
CF101E Candies and Stones Link&Submission. DP 的状态设计和转移都是显然的,唯一的问题在于需要输出方案,而这题卡空间.会发现如果用 bitset 存 ...
- Unity 热更--AssetBundle学习笔记 1.0【AB包资源加载工具类的实现】
工具类封装 通过上文中对AB包加载API的了解和简单使用,对AB包资源加载的几种方法进行封装,将其写入单例类中,如代码展示. 确保每个AB资源包只加载一次: 在LoadAssetBundleManag ...
- fastposter发布1.4.5 跨语言的海报生成器
fastposter发布1.4.5 跨语言的海报生成器 v1.4.5 增加了右键菜单,修复了跨域bug 一分钟完成海报开发任务 future: 增加了右键菜单 删除 图层上移 图层下移 优化项目代码文 ...
- python教程3.1:数据类型:字符串+列表list
一.字符串 字符串是⼀个有序的字符的集合,⽤于在计算机⾥存储和表示⽂本信息 常用方法--str.fun() 全局函数 二.列表list []内以逗号分隔,按照索引,存放各种数据类型,每个位置代表⼀个 ...
- java学习之旅(day.02)
java运行机制 编译型:转换为计算机可读的语言 解释型:用什么,读什么 预编译:java文件(源程序)通过javac命令到class文件,class文件(类)放入类加载器,这个类就加载到JVM中了, ...
- 在身份认证后建立用户对象ICurrentUser
app.UseAuthentication(); 这个中间件添加后,他会为HttpContext.User设置一个ClaimsPrincipal对象.里面有身份认证token里面携带的信息. 其访问方 ...
- jQuery——动画加载页面
<script src="https://cdn.bootcdn.net/ajax/libs/jquery/3.6.0/jquery.js"></script&g ...
- cmd shutdown命令:关机,重启,休眠
一段时间后关机:shutdown -s -t 秒数效果是倒计时到该秒数后关机,例如shutdown -s -t 3600就是3600秒后关机,也就是一小时后关机 立即关机命令:shutdown -p关 ...
- .net版OCR紧随PP-OCRv3重磅发布
.net版OCR地址PaddleOCRSharp PaddleOCRSharp是一个基于PaddleOCR的C++代码修改并封装的.NET的工具类库.包含文本识别.文本检测.基于文本检测结果的统计分析 ...