使用pytesseract进行图像识别

引言

　　对于简单验证码及一些图像的识别，我们需要使用pytesseract及相应的Tesseract引擎，它是开源的OCR引擎。帮助我们做一些简单的图像识别

　　当然为了更好将图片识别，对一些像素比较低的图片，我们会做一定的灰度处理，方便图像识别，参考https://www.jb51.net/article/141428.htm

　　在图像识别过程中我们要注意识别的图像内容不要靠近边框

　　对于单个数字我们要做相应的参数处理，否则识别不出来。

　　我们可以从gitHUB中获取Tesseract引擎，及相应的培训数据，目前已跟新到4.0版本了，下载网址：https://github.com/tesseract-ocr/tesseract/wiki

一、安装pytesseract和PIL

　　　PIL全称：Python Imaging Library，python图像处理库，这个库支持多种文件格式，并提供了强大的图像处理和图形处理能力。

　　　由于PIL仅支持到Python 2.7，所以在PIL的基础上创建了Pillow库，支持最新Python 3.x。

　　1、pip命令安装

　　　　pip install pytesseract

　　　　pip install Pillow

　　2、使用pycharm编辑器安装，如下操作步骤。

　　安装成功：

　　安装pytesseract时，同时安装pillow，所以我们只需安装pytesseract即可。

　　3.尝试运行，

源码如下：

1 from PIL import Image

2 import pytesseract

3

4 Image = Image.open('1.png')   # 打开图片

5 text = pytesseract.image_to_string(Image,lang='chi_sim')  #使用简体中文解析图片

6 print(text)

　　　出现报错，如下图，

　　　原因：没有安装识别引擎tesseract-ocr

二、安装识别引擎tesseract-ocr

　　1.Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别，经过改进引擎和训练系统，它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符，但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言（比如中文）上较慢，但是工作良好。

　　下载链接: https://pan.baidu.com/s/1J0HNoVhX8WexS_5r0k2jDw 密码: ywc3

　　因为tesseract-ocr默认不支持中文识别。

　　将下载到的文件：chi_sim.traineddata 放到Tesseract-OCR安装目录 D:\Program Files (x86)\Tesseract-OCR\tessdata 下，如图：

　　2，安装完成tesseract-ocr后，需要做一下配置。

　　　　在Python安装目录（如：D:\Python35\Lib\site-packages\pytesseract）中修改 pytesseract.py文件。

　　　　也可以通过pycharm，Ctrl+B 快速打开pytesseract源码文件：

　　3.尝试运行，出现如下报错：

　　pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your 　　"tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

　　4.解决方法：将tessdata目录的上级目录所在路径：(默认为tesseract-ocr安装目录)添加至TESSDATA_PREFIX环境变量中，如下图：

　　　　注意：配置完环境变量需要重新打开pycharm编辑器（IDE）。

　　5.再次运行结果：图片识别成功！

　　但识别率不是很高，后期优化，持续更新。

使用pytesseract进行图像识别的更多相关文章

基于Eclipse下的python图像识别菜鸟版（利用pytesseract以及tesseract）
这是我注册博客后写的第一篇博客,希望对有相关问题的朋友有帮助. 在图像识别前,首先我们要做好准备工作. 运行环境:windows7及以上版本运行所需软件:(有基础的可以跳过这一段)eclipse,p ...
tesseract_ocr+pytesseract图像识别
一.windows安装配置其他系统安装配置参考github:https://github.com/tesseract-ocr/tesseract/wiki 下载tesseract-ocr参考:htt ...
利用Python进行简单的图像识别（验证码）
这是一个最简单的图像识别,将图片加载后直接利用Python的一个识别引擎进行识别将图片中的数字通过 pytesseract.image_to_string(image)识别后将结果存入到本地的txt ...
python 简单图像识别--验证码
python 简单图像识别--验证码记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...
python3光学字符识别模块tesserocr与pytesseract
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由 ...
python 图像识别
这是一个最简单的图像识别,将图片加载后直接利用Python的一个识别引擎进行识别将图片中的数字通过 pytesseract.image_to_string(image)识别后将结果存入到本地的txt ...
Python之selenium+pytesseract 实现识别验证码自动化登录脚本
今天写自己的爆破靶场WP时候,遇到有验证码的网站除了使用pkav的工具我们同样可以通过py强大的第三方库来实现识别验证码+后台登录爆破,这里做个笔记~~~ 0x01关于selenium seleniu ...
tesserocr与pytesseract模块的使用
1.tesserocr的使用 #从文件识别图像字符 In [7]: tesserocr.file_to_text('image.png') Out[7]: 'Python3WebSpider\n\n' ...
自动化测试面试官:登录或注册时有验证码怎么处理?OCR图像识别技术大揭秘！
本节大纲读取cookie实现免登陆 pytesseract+tesseract-ocr实现图像识别 Pillow库对验证码截图 API接口实现图像识别今天的这个技术点,为什么要给大家分享一下呢? ...

随机推荐

python线程（转）
转自:https://www.cnblogs.com/huxi/archive/2010/06/26/1765808.html
支持移动端裁剪图片插件Jcrop（结合WebUploader上传）
(此教程包括前端实现图片裁剪,后端进行获取裁剪区并保存) 最近有一个需求,微信公众号上传图片,支持自定义裁剪. 以前用过一款裁剪插件cropper,很久没用了,不知道对移动端操作兼容如何,重新从网上搜 ...
ESP8266 智能家居简单实现
本文转自CSDN,地址 https://blog.csdn.net/jsagacity/article/details/78531819 全文如下 : 前段时间,公司利用 ESP8266 这个WiFi ...
快速精通Mac效率神器Alfred以及常用workflow
概述 Alfred基础在上一篇大纲名称作用类别出处修改日期 Github 更便捷地使用Github 开发编程 Github 2017-01-28 Github Search Github搜 ...
php操作表格（写)
一,转载:http://www.thinkphp.cn/extend/832.html 二,转载:http://m.blog.csdn.net/article/details?id=7827038
Node笔记（新手入门必看）
. 初识Node.js 1.1 Node.js是什么 Node.js® is a JavaScript runtime built on Chrome's V8 JavaScript engine. ...
python 提取目录中特定类型的文件
python使用‘os’和‘re’模块提取目录中特定类型的文件,这两个模都是安装python自带的,所以不需要安装. 思路: 使用os库lilstdir获取文件夹中的所有文件名,然后带上文件夹路径组合 ...
转 Python3 ssl模块不可用的问题
编译安装完Python3之后,使用pip来安装python库,发现了如下报错: $ pip install numpy pip is configured with locations tha ...
(备忘)cron表达式的用法
一.结构 cron表达式用于配置cronTrigger的实例,实现任务调度的功能. Cron表达式是一个字符串,字符串以5或6个空格隔开,分为6或7个域,每一个域代表一个含义,Cron有如下两种语法格 ...
分布式结构化存储系统-HBase应用案例
分布式结构化存储系统-HBase应用案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 为了让读者更进一步了解HBase在实际生成环境中的应用方法,在董西成的书里介绍两个经典的HB ...

使用pytesseract进行图像识别

二、安装识别引擎tesseract-ocr

使用pytesseract进行图像识别的更多相关文章

随机推荐

热门专题