使用python+pytesseract实现图片中文字的识别
一.安装tesseract
1.下载链接
https://digi.bib.uni-mannheim.de/tesseract/
2.网盘下载地址
链接:https://pan.baidu.com/s/1CLPSf2TahIGaeL7zRCTQDg
提取码:x0kn
3.配置环境变量
3.1配置TESSDATA_PREFIX变量
3.2配置Path变量

4.验证是否安装成功:
C:\Users\特昂糖>tesseract -v
tesseract 4.00.00alpha
leptonica-1.74.1
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.5.0) : libpng 1.6.20 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.3 : libopenjp2 2.1.0
5.命令行使用 tesseract --list-langs命令可查看当前软件支持的语言
C:\Users\特昂糖> tesseract --list-langs
List of available languages (2):
eng
osd
6.拓展语言包
到https://github.com/tesseract-ocr/tessdata下载需要的的语言包,如下图,红框内为中文简体语言包,下载后将该包直接放在程序安装目录的tessdata文件夹里面即可。

二.安装pytesseract
安装命令:pip install pytesseract
C:\特昂糖>pip install pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Collecting pytesseract
Using cached pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 0.0/3.3 MB ? eta -:--:--
ERROR: Operation cancelled by user
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
因为网络缘故下载不下来,用国内的源下载:
C:\Users\特昂糖>pip install pytesseract -i https://pypi.douban.com/simple
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Looking in indexes: https://pypi.douban.com/simple
Collecting pytesseract
Downloading https://pypi.doubanio.com/packages/8b/0d/6efe2a9bddf1b1efe82a86fdd057f4affaeebd14347f32d03bbbbc45821c/pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading https://pypi.doubanio.com/packages/a1/ce/d3bf90ccf0c32dfd24ab88d8aaa84fb7c08a339803ed679d809b92a3e41a/Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 3.3/3.3 MB 3.2 MB/s eta 0:00:00
Requirement already satisfied: packaging>=21.3 in f:\python3\lib\site-packages (from pytesseract) (21.3)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in f:\python3\lib\site-packages (from packaging>=21.3->pytesseract) (3.0.6)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Installing collected packages: Pillow, pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Successfully installed Pillow-9.1.0 pytesseract-0.3.9
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
三.python代码

import pytesseract
from PIL import Image file=r'F:/png/db63fc936bb07673a375423ce2d2cf8.png'
image=Image.open(file)
print(pytesseract.image_to_string(image,lang='chi_sim'))
输出结果:
元 日 王 安 石 ( 宋 代 爆 竹 声 中 一 岁 除 , 春 风 送 暖 入 属 苏 。
干 门 万 户 瞳 嘻 日 , 总 把 新 桃 换 旧 符 。
使用python+pytesseract实现图片中文字的识别的更多相关文章
- python+pytesseract识别图片文字
此文只介绍一下python+pytesseract识别一些简单图片的数字,字母和汉字.如图1 import pytesseract from PIL import Image,ImageEnhance ...
- Python图像处理之图片文字识别(OCR)
OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...
- 使用python内置库pytesseract实现图片验证码的识别
环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完 ...
- 第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别 第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://gith ...
- 二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...
- Python爬虫教程-29-验证码识别-Tesseract-OCR
本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract Python爬虫教程-29-验证码识别-Tesseract-OCR 常见反爬虫手段: 验证码 1.简单图片,扭曲 ...
- Python + opencv 实现图片文字的分割
实现步骤: 1.通过水平投影对图形进行水平分割,获取每一行的图像: 2.通过垂直投影对分割的每一行图像进行垂直分割,最终确定每一个字符的坐标位置,分割出每一个字符: 先简单介绍一下投影法:分别在水平和 ...
- 人脸检测及识别python实现系列(2)——识别出人脸
人脸检测及识别python实现系列(2)——识别出人脸 http://www.cnblogs.com/neo-T/p/6430583.html
- python调用hanlp进行命名实体识别
本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍.以下为分享的全文. 1.python与jdk版本位数一致 2.pip install jpype1(pyth ...
- Python实现图片滑动式验证识别
1 abstract 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类 ...
随机推荐
- [K8s] Pod 与容器设计模式 Sidecar
为什么 Pod 必须是原子调度? 在两个容器紧密协作的场景中,避免调度失败问题. Pod 解决了里面多个容器之间高效共享某些资源和数据,共享网络.共享存储. 容器设计模式? 通过在 Pod 里定义专门 ...
- 记 dotnet 8.0.4 修复的 WPF 的触摸模块安全问题
本文记录 dotnet 8.0.4 版本修复的 WPF 的触摸模块安全问题,此问题影响所有的 .NET 版本,修复方法是更新 SDK 和运行时 宣布安全漏洞地址: https://github.com ...
- 2019-10-31-VisualStudio-断点调试详解
title author date CreateTime categories VisualStudio 断点调试详解 lindexi 2019-10-31 8:56:7 +0800 2019-06- ...
- games101-3 BRDF101
BRDF101 概述 本文基于知乎Maple对brdf的文章,在此基础又收集了一些其它来源的关于brdf的文章,希望能够完全理解记忆相关知识 关于Jakub Boksansky的文章,看的过程中又去搜 ...
- 《Effective C++》第三版-3. 资源管理(Resource Management)
目录 条款13:以对象管理资源(Use objects to manage resources) 关键想法 智能指针 条款14:在资源管理类中小心copying行为(Think carefully a ...
- 开源电子邮件营销平台 listmonk 使用教程
做产品肯定要做电子邮件营销,特别是面向海外的产品,电子邮件营销已成为企业与客户沟通.建立品牌忠诚度和推动销售的重要工具,可以直接接触到目标受众,提供个性化内容,并以相对较低的成本获得可观的投资回报.你 ...
- 【进阶篇】基于 Redis 实现分布式锁的全过程
目录 前言 一.关于分布式锁 二.RedLock 红锁(不推荐) 三.基于 setIfAbsent() 方法 四.使用示例 4.1RedLock 使用 4.2setIfAbsent() 方法使用 五. ...
- python教程6.1-模块和包
模块分类 1.内置标准模块(⼜称标准库)执⾏help('modules')查看所有python⾃带模块列表 2.第三⽅开源模块,可通过pip install 模块名 联⽹安装 3.⾃定义模块 模块导入 ...
- postgresql 创建索引
--查询索引 select * from pg_indexes where tablename='tab1'; --创建索引(查询用到哪几列,就对哪几个字段创建索引) CREATE INDEX ind ...
- C#.Net筑基-类型系统①基础
C#.Net的BCL提供了丰富的类型,最基础的是值类型.引用类型,而他们的共同(隐私)祖先是 System.Object(万物之源),所以任何类型都可以转换为Object. 01.数据类型汇总 C#. ...