[Python3网络爬虫开发实战] 1.3.4-tesserocr的安装
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。
1. OCR
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。

图1-22 验证码
图1-23 验证码
tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。
2. 相关链接
- tesserocr GitHub:https://github.com/sirfz/tesserocr
- tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
- tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract
- tesseract GitHub:https://github.com/tesseract-ocr/tesseract
- tesseract语言包:https://github.com/tesseract-ocr/tessdata
- tesseract文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation
3. Windows下的安装
在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。
进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。图1-24所示为3.05版本。
图1-24 下载页面
其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01.exe。
下载完成后双击,此时会出现如图1-25所示的页面。
图1-25 安装页面
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。
接下来,再安装tesserocr即可,此时直接使用pip安装:
|
1
|
pip3 install tesserocr pillow
|
4. Linux下的安装
对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者tesseract,直接用对应的命令安装即可。
Ubuntu、Debian和Deepin
在Ubuntu、Debian和Deepin系统下,安装命令如下:
|
1
|
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
|
CentOS、Red Hat
在CentOS和Red Hat系统下,安装命令如下:
|
1
|
yum install -y tesseract
|
在不同发行版本运行如上命令,即可完成tesseract的安装。
安装完成后,便可以调用tesseract命令了。
接着,我们查看一下其支持的语言:
|
1
|
tesseract --list-langs
|
运行结果示例:
|
1
2
3
4
|
List of available languages (3):
eng
osd
equ
|
结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。
利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu、Debian和Deepin系统下的迁移命令如下:
|
1
2
|
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
|
在CentOS和Red Hat系统下的迁移命令如下:
|
1
2
|
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract/tessdata
|
这样就可以将下载下来的语言包全部安装了。
这时我们重新运行列出所有语言的命令:
|
1
|
tesseract --list-langs
|
结果如下:
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
List of available languages (107):
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi_sim
chi_tra
...
|
可以发现,这里列出的语言就多了很多,比如chi_sim就代表简体中文,这就证明语言包安装成功了。
接下来再安装tesserocr即可,这里直接使用pip安装:
|
1
|
pip3 install tesserocr pillow
|
5. Mac下的安装
在Mac下,我们首先使用Homebrew安装ImageMagick和tesseract库:
|
1
2
|
brew install imagemagick
brew install tesseract --all-languages
|
接下来再安装tesserocr即可:
|
1
|
pip3 install tesserocr pillow
|
这样我们便完成了tesserocr的安装。
6. 验证安装
接下来,我们可以使用tesseract和tesserocr来分别进行测试。
下面我们以如图1-26所示的图片为样例进行测试。
图1-26 测试样例
该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下载。
首先用命令行进行测试,将图片下载下来并保存为image.png,然后用tesseract命令测试:
|
1
|
tesseract image.png result -l eng && cat result.txt
|
运行结果如下:
|
1
2
|
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider
|
这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result为结果保存的目标文件名称,-l指定使用的语言包,在此使用英文(eng)。然后,再用cat命令将结果输出。
运行结果便是图片的识别结果:Python3WebSpider。可以看到,这时已经成功将图片文字转为电子文本了。
然后还可以利用Python代码来测试,这里就需要借助于tesserocr库了,测试代码如下:
|
1
2
3
4
|
import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))
|
我们首先利用Image读取了图片文件,然后调用了tesserocr的image_to_text()方法,再将其识别结果输出。
运行结果如下:
|
1
|
Python3WebSpider
|
另外,我们还可以直接调用file_to_text()方法,这可以达到同样的效果:
|
1
2
|
import tesserocr
print(tesserocr.file_to_text('image.png'))
|
运行结果:
|
1
|
Python3WebSpider
|
如果成功输出结果,则证明tesseract和tesserocr都已经安装成功。
[Python3网络爬虫开发实战] 1.3.4-tesserocr的安装的更多相关文章
- [Python3网络爬虫开发实战] 1.3.2-Beautiful Soup的安装
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式. 1. 相关链接 官方文 ...
- [Python3网络爬虫开发实战] 1.9.4-Scrapyd API的安装
安装好了Scrapyd之后,我们可以直接请求它提供的API来获取当前主机的Scrapy任务运行状况.比如,某台主机的IP为192.168.1.1,则可以直接运行如下命令获取当前主机的所有Scrapy项 ...
- 崔庆才Python3网络爬虫开发实战电子版书籍分享
资料下载地址: 链接:https://pan.baidu.com/s/1WV-_XHZvYIedsC1GJ1hOtw 提取码:4o94 <崔庆才Python3网络爬虫开发实战>高清中文版P ...
- 《Python3 网络爬虫开发实战》开发环境配置过程中踩过的坑
<Python3 网络爬虫开发实战>学习资料:https://www.cnblogs.com/waiwai14/p/11698175.html 如何从墙内下载Android Studio: ...
- 《Python3 网络爬虫开发实战》学习资料
<Python3 网络爬虫开发实战> 学习资料 百度网盘:https://pan.baidu.com/s/1PisddjC9e60TXlCFMgVjrQ
- Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载 提取码:d03u 内容简介 本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
- 转:【Python3网络爬虫开发实战】 requests基本用法
1. 准备工作 在开始之前,请确保已经正确安装好了requests库.如果没有安装,可以参考1.2.1节安装. 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而 ...
- 《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码 下载:https://pan. ...
- 《Python3网络爬虫开发实战》
推荐:★ ★ ★ ★ ★ 第1章 开发环境配置 第2章 网页基础知识 第3章 网络爬虫基础 第4章 基本库的使用 第5章 解析库的使用 第6章 数据存储 第7章 Ajax数据爬取 第8章 动态渲染页面 ...
- [Python3网络爬虫开发实战] 3.1.4-分析Robots协议
利用urllib的robotparser模块,我们可以实现网站Robots协议的分析.本节中,我们来简单了解一下该模块的用法. 1. Robots协议 Robots协议也称作爬虫协议.机器人协议,它的 ...
随机推荐
- bat批处理文件夹内文件名的提取
有时候会在做某些东西的时候 我们要提取某个文件夹的所有文件名,一个一个打出来那不是 现实的 所以这个时候就用到了一个比较简便而又快捷的方法 在所在的文件夹内新建一个a.txt 在a.txt编辑DIR ...
- 在Visual studio 中解除 TFS 的账号绑定
在Visual Studio中, 只要使用了TFS, 就会要求输入用户名密码验证 . 但是一旦点击验证对话框下部的:记住用户名密码 以后都不能再修改用户名了. 而且重装Visual Studio 听说 ...
- bzoj 2784: [JLOI2012]时间流逝【树形期望dp】
来自lyd课件 发现s和last(s),next(s)成树结构,然后把式子化简成kx+b的形式,做树形dp即可 #include<iostream> #include<cstdio& ...
- bzoj 1027: [JSOI2007]合金【凸包+Floyd】
参考:https://www.cnblogs.com/zhuohan123/p/3237246.html 因为一c可以由1-a-b得出,所以删掉c,把a,b抽象成二维平面上的点.首先考虑一个客户需求能 ...
- bzoj 4819: [Sdoi2017]新生舞会【二分+最小费用最大流】
如果\( b[i]==0 \)那么就是裸的费用流/KM,当然KM快一些但是为什么不写KM呢因为我不会打板子了 考虑二分答案,那么问题变成了判定问题. \[ ans=\frac {a_1+a_2+... ...
- 实现字符串的查找和替换 分类: c/c++ 2014-10-09 22:33 469人阅读 评论(0) 收藏
在字符串中查找目标字符串并将其替换为指定字符串,返回替换的次数.接口为 int find_str_replace(char *&str,const char *find_str,const c ...
- 命名管道实现进程间通信--石头、剪刀、布游戏 分类: linux 2014-06-01 22:50 467人阅读 评论(0) 收藏
下面这个程序利用命名管道实现进程间通信,模拟石头剪刀布游戏. 主进程为裁判进程,两个子进程为选手进程.裁判与选手间各建立一个命名管道. 进行100次出招,最后给出游戏胜负. #include < ...
- js 宿主对象的属性和方法总结
(1)属性: //height,width; a=document.documentElement.clientHeight; //文档可视高度,由 ...
- Collection接口框架图
Java集合大致可分为Set.List和Map三种体系,其中Set代表无序.不可重复的集合:List代表有序.重复的集合:而Map则代表具有映射关系的集合.Java 5之后,增加了Queue体系集合, ...
- iOS-控件响应用户控制事件之事件处理
事件处理 响应者对象 在iOS中不是任何对象都能处理事件,只有继承了UIResponder的对象才能接收并处理事件.我们称之为“响应者对象” UIApplication.UIViewControlle ...