一.安装tesseract

1.下载链接

https://digi.bib.uni-mannheim.de/tesseract/

2.网盘下载地址

链接:https://pan.baidu.com/s/1CLPSf2TahIGaeL7zRCTQDg
提取码:x0kn

3.配置环境变量

3.1配置TESSDATA_PREFIX变量

3.2配置Path变量

4.验证是否安装成功:

C:\Users\特昂糖>tesseract -v
tesseract 4.00.00alpha
leptonica-1.74.1
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.5.0) : libpng 1.6.20 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.3 : libopenjp2 2.1.0

5.命令行使用 tesseract --list-langs命令可查看当前软件支持的语言

C:\Users\特昂糖> tesseract --list-langs
List of available languages (2):
eng
osd

6.拓展语言包

https://github.com/tesseract-ocr/tessdata下载需要的的语言包,如下图,红框内为中文简体语言包,下载后将该包直接放在程序安装目录的tessdata文件夹里面即可。

二.安装pytesseract

安装命令:pip install pytesseract

C:\特昂糖>pip install pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Collecting pytesseract
Using cached pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 0.0/3.3 MB ? eta -:--:--
ERROR: Operation cancelled by user
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)

因为网络缘故下载不下来,用国内的源下载:

C:\Users\特昂糖>pip install pytesseract -i https://pypi.douban.com/simple
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Looking in indexes: https://pypi.douban.com/simple
Collecting pytesseract
Downloading https://pypi.doubanio.com/packages/8b/0d/6efe2a9bddf1b1efe82a86fdd057f4affaeebd14347f32d03bbbbc45821c/pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading https://pypi.doubanio.com/packages/a1/ce/d3bf90ccf0c32dfd24ab88d8aaa84fb7c08a339803ed679d809b92a3e41a/Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 3.3/3.3 MB 3.2 MB/s eta 0:00:00
Requirement already satisfied: packaging>=21.3 in f:\python3\lib\site-packages (from pytesseract) (21.3)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in f:\python3\lib\site-packages (from packaging>=21.3->pytesseract) (3.0.6)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Installing collected packages: Pillow, pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Successfully installed Pillow-9.1.0 pytesseract-0.3.9
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)

三.python代码

import pytesseract
from PIL import Image file=r'F:/png/db63fc936bb07673a375423ce2d2cf8.png'
image=Image.open(file)
print(pytesseract.image_to_string(image,lang='chi_sim'))


输出结果:
元 日

王 安 石 ( 宋 代

爆 竹 声 中 一 岁 除 , 春 风 送 暖 入 属 苏 。
干 门 万 户 瞳 嘻 日 , 总 把 新 桃 换 旧 符 。

使用python+pytesseract实现图片中文字的识别的更多相关文章

  1. python+pytesseract识别图片文字

    此文只介绍一下python+pytesseract识别一些简单图片的数字,字母和汉字.如图1 import pytesseract from PIL import Image,ImageEnhance ...

  2. Python图像处理之图片文字识别(OCR)

    OCR与Tesseract介绍   将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...

  3. 使用python内置库pytesseract实现图片验证码的识别

    环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完 ...

  4. 第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

    第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别 第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://gith ...

  5. 二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

    第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...

  6. Python爬虫教程-29-验证码识别-Tesseract-OCR

    本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract Python爬虫教程-29-验证码识别-Tesseract-OCR 常见反爬虫手段: 验证码 1.简单图片,扭曲 ...

  7. Python + opencv 实现图片文字的分割

    实现步骤: 1.通过水平投影对图形进行水平分割,获取每一行的图像: 2.通过垂直投影对分割的每一行图像进行垂直分割,最终确定每一个字符的坐标位置,分割出每一个字符: 先简单介绍一下投影法:分别在水平和 ...

  8. 人脸检测及识别python实现系列(2)——识别出人脸

    人脸检测及识别python实现系列(2)——识别出人脸 http://www.cnblogs.com/neo-T/p/6430583.html

  9. python调用hanlp进行命名实体识别

    本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍.以下为分享的全文. 1.python与jdk版本位数一致 2.pip install jpype1(pyth ...

  10. Python实现图片滑动式验证识别

    1 abstract 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类 ...

随机推荐

  1. [PHP] 浅谈 Laravel auth:api 不同驱动 token 和 passport 的区别

    token 驱动使用 TokenGuard 用传递的值去用户表中查询 member_token 字段的值,看是否有匹配的. 服务端需要在用户表 member_token 字段中存储 access_to ...

  2. Postergresql常见操作

    Postergresql常见操作 1. 安装部署 略 2. 登录数据库 查看版本 ## 以管理员身份 postgres 登陆,然后通过#psql -U postgres#sudo -i -u post ...

  3. Solution Set - CDQ分治&整体二分

    A[洛谷P2163].给定平面上若干个点,多次询问给定矩形内的点数. B[洛谷P3810].给定若干个三元组,对所有\(k\),求这样三元组的个数:恰有\(k\)个三元组,满足其每个分量都不超过它的相 ...

  4. 书生浦语大模型全链路开源体系-书生浦语大模型实战营学习笔记1&大语言模型2

    大语言模型-2.书生浦语大模型全链路开源体系 书生浦语大模型实战营学习笔记-1.认识书生浦语大模型全链路开源体系 本系列随笔学习搬运第二期书生浦语大模型实战营的相关内容,通过使用InternLM的一套 ...

  5. linux下安装来自github的package失败

    最近使用go来做web服务器,当然还是得使用框架,于是找了几个:beego.echo等,但是我在安装得时候总是出现这类报错 cannot find package "github.com/l ...

  6. three.js教程8-渲染器WebGLRenderer和前端UI界面

    1.html的UI交互界面与Canvas画布叠加 需求:把threejs Cavnas画布和HTML元素叠加布局,在canvas上添加按钮,通过按钮点击修改canvas场景. // canvas画布绝 ...

  7. C数据结构:哈夫曼树算法实现与应用

    学习哈夫曼树(编码) 带权二叉树 认识WPL 最优二叉树 构造哈夫曼树的过程 哈夫曼树的应用 建立哈夫曼树 代码如下: 结构体代码部分 建立操作代码 找到最小结点(※难点) 附上建立哈夫曼树源代码 带 ...

  8. 聊聊MySQL是如何处理排序的

    本文分享自华为云社区<MySQL怎样处理排序️如何优化需要排序的查询?>,作者:菜菜的后端私房菜. 前言 在MySQL的查询中常常会用到 order by 和 group by 这两个关键 ...

  9. AIRIOT物联网低代码平台如何配置MQTT驱动?

    MQTT驱动配置简介 MQTT全称为消息队列遥测传输(英语:Message Queuing Telemetry Transport),是ISO 标准(ISO/IEC PRF 20922)下基于发布 ( ...

  10. handsontable有显示值与实际值的下拉框cobbobox扩展

    一.效果与使用 二.代码 /// <reference path="handsontable.full.min.js" /> //封闭在IIFE中 (Handsonta ...