pytesseract介绍

1.Python-tesseract是一个基于google's Tesseract-OCR的独立封装包；

2.Python-tesseract功能是识别图片文件中文字，并作为返回参数返回识别结果；

3.Python-tesseract默认支持tiff、bmp格式图片，只有在安装PIL之后，才能支持jpeg、gif、png等其他图片格式

pytesseract安装

1.Python-tesseract支持python2.5及更高版本；

2.Python-tesseract需要安装PIL（Python Imaging Library），来支持更多的图片格式：

pip install pillow、pip install PIL

3.Python-tesseract需要安装tesseract-ocr安装包：Windows安装Tesseract-OCR 4.00并配置环境变量

4.安装pytesseract：pip install pytesseract

pytesseract使用

使用步骤

> try:

> import Image

> except ImportError:

> from PIL import Image

> import pytesseract

> print(pytesseract.image_to_string(Image.open('test.png')))

> print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

识别二维码

import pytesseract

from PIL import Image

image = Image.open("code.png")

code = pytesseract.image_to_string(image)

print(code)#结果：6067

爬虫识别网站二维码

import pytesseract

from PIL import Image

import requests

def Vercode():

    url = "http://www.xxxx"

    header = {"user_agent":"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"}

    r =requests.get(url,headers=header,timeout=5)

    with open('vcode.jpg','wb') as pic:

        pic.write(r.content)

    im = pytesseract.image_to_string(Image.open('vcode.jpg'))

    im = im.replace(' ', '')

    if im != '':

        return im

    else:

        return Vercode()

print Vcode()

refer：

pyhton验证码识别

python下调用pytesseract识别某网站验证码

python3使用pytesseract进行验证码识别的更多相关文章

Python3使用 pytesseract 进行图片识别
一.安装Tesseract-OCR软件参考我的前一篇文章:Windows安装Tesseract-OCR 4.00并配置环境变量二.Python中使用需要使用 pytesseract 库,官方使用 ...
python验证码识别
关于利用python进行验证码识别的一些想法用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后 ...
Python 验证码识别（别干坏事哦...）
关于python验证码识别库,网上主要介绍的为pytesser及pytesseract,其实pytesser的安装有一点点麻烦,所以这里我不考虑,直接使用后一种库. python验证码识别库安装要安 ...
Python3 简单验证码识别思路及实例
1.介绍在爬虫中经常会遇到验证码识别的问题,现在的验证码大多分计算验证码.滑块验证码.识图验证码.语音验证码等四种.本文就是识图验证码,识别的是简单的验证码,要想让识别率更高, 识别的更加准确就需要 ...
python pytesseract——3步识别验证码的识别入门
验证码识别是个大工程,但入门开始只要3步.需要用到的库PIL.pytesserac,没有的话pip安装.还有一个是tesseract-ocr 下载地址:https://sourceforge.net/ ...
Selenium&Pytesseract模拟登录+验证码识别
验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的. 验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的. 验证码识别涉及到的知识:人工智能,模式识别 ...
Selenium&Pytesseract模拟登录+验证码识别
验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的. 验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的. 验证码识别涉及到的知识:人工智能,模式识别 ...
python3图片验证码识别
http://my.cnki.net/elibregister/CheckCode.aspx每次刷新该网页可以得到新的验证码进行测试以我本次查看的验证码图片为例,右键保存图片为image.jpg 下 ...
python3爬虫图片验证码识别
# 图片验证码识别环境安装# sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev# pip install ...

随机推荐

PHP mysql_num_rows() 函数返回结果集中行的数目。
定义和用法 mysql_num_rows() 函数返回结果集中行的数目. 语法 mysql_num_rows(data) 参数描述 data 必需.结果集.该结果集从 mysql_query() 的 ...
shell编程（2）
一.变量简介变量是任何一种编程语言都必不可少的组成部分,变量用来存放各种数据.脚本语言在定义变量时通常不需要指明类型,直接赋值即可,shell变量也遵循这个规则. 在Bash shell 中,每一个 ...
scikit-learn机器学习(四)使用决策树做分类
我们使用决策树来创建一个能屏蔽网页横幅广告的软件. 已知图片的数据判断它属于广告还是文章内容. 数据来自 http://archive.ics.uci.edu/ml/datasets/Internet ...
jeesite框架前端 tabPage页签刷新功能。
js主动刷新当前页签的js代码原本想找一下jeesite有没有主动刷新当前页面的内置方法. 官方文档找了一大堆,找都找不到,也可能我这个需求比较少人需要. tab标签页有一个右键刷新页签功能查看编 ...
【ARM-Linux开发】内核3.x版本之后设备树机制
内核3.x版本之后设备树机制 Based on Linux 3.10.24 source code 参考/documentation/devicetree/Booting-without- ...
C++之cmath常用库函数一览
cmath是c++语言中的库函数,其中的c表示函数是来自c标准库的函数,math为数学常用库函数. cmath中常用库函数: 函数作用 int abs(int i); 返回整型参数i的绝对值 dou ...
mysql的密码规则问题
今天在设置mysql某用户的密码时,出现了此报错: ERROR 1819 (HY000) Your password does not satisfy the current policy req ...
DS博客作业--07查找
目录 DS博客作业--07查找 1.本周学习总结(0--2分) 1.思维导图 2.谈谈你对查找运算的认识及学习体会. 2.PTA实验作业(6分) 2.1.题目1:6-1 二叉搜索树的操作集 (30 分 ...
虚拟局域网VLAN的Packet tracer实验
ICMP的广播请求 Create PDU pc1发向交换机交换机的其余端口向外发送该广播 ------------------------------------------------------ ...
Dom4j 生成xml并格式化
Document document = DocumentHelper.createDocument(); //创建root Element root = document.addEle ...

python3使用pytesseract进行验证码识别