本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract

Python爬虫教程-29-验证码识别-Tesseract-OCR

  • 常见反爬虫手段:

    • 验证码

      • 1.简单图片,扭曲数字验证码
      • 2.中文顺序点击
      • 3.动态验证码
      • 4.滑动验证:滑动小方块到缺口
      • 5.语音验证
      • 6.极验验证:官网:http://www.geetest.com/

        根据鼠标轨迹,判定是机器人还是用户,很强大的验证机制
  • 对于极验是很厉害的拦截机器人手段,好像是使用人工智能机器学习,当然自己想做验证的话建议使用。对于验证有反爬虫,就有可能有反反爬虫

爬虫-验证码识别

  • 通用方法:

    • 1.下载网页和验证码,或截图
    • 2.然后手动输入验证码
  • 对于简单图片
    • 1.使用图像识别软件或者文字识别软件
    • 2.可以使用第三方图像验证码破解网站
  • 对于极验,官网:http://www.geetest.com/
    • 可以模拟鼠标移动,具体的方法我还不清楚

通用方法案例

  • 能力有限,这里就介绍通用方法,先下载得到验证图片,然后手动输入
  • Tesseract
    • 机器视觉领域的基础软件
    • OCR:OpticalChracterRecognition,光学文字识别
    • Tesseract:是一个 OCR 库,由 Google 赞助

Tesseract-Windows的安装

Tesseract-macOS的安装

  • 我也没有 MacBook,老师顺口一说,记下了
  • brew install tesseract

Tesseract-Linux的安装

  • 我这里是 Ubuntu 18 其他 Linux 版本不确定,进入管理员用户
  • apt-get install tesseract-ocr

python使用tesseract的工具 pytesseract 的安装

  • 如果使用的是 Anaconda 环境:

    • 进入当前环境:(我的环境名为learn,如果只有一个base环境,忽略此步)

activate learn

  • 安装 pytesseract

pip install pytesseract

  • 操作截图

  • 首先说一下,conda 是没有这个包的,也就不能使用 conda install,也不能直接在 Pycharm 里找到,只有使用 pip 安装,然后需要注意的就是,要使用你在 Pycharm 使用的那个环境进行安装

识别验证码案例

  • 注意:此代码路径是,在图片和代码在同一目录
  • 图片截图:

  • 代码 py30pytess.py 文件:
import pytesseract as pt

from PIL import Image

# 生成图片实例
image = Image.open('timg.jpg') # 调用 pytesseract 识别图片文字
text = pt.image_to_string(image) print(text)

运行结果

更多文章链接:Python 爬虫随笔


- 本笔记不允许任何个人和组织转载

Python爬虫教程-29-验证码识别-Tesseract-OCR的更多相关文章

  1. Python爬虫教程:验证码的爬取和识别详解

    今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻 ...

  2. Python爬虫教程-01-爬虫介绍

    Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 爬虫准备工作 参考资料 精通Python爬虫框架Scrap ...

  3. Python爬虫教程-00-写在前面

    鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新 基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...

  4. Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)(上)

    Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...

  5. 简单的python爬虫教程:批量爬取图片

    python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...

  6. Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影)

    Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...

  7. Python爬虫教程-10-UserAgent和常见浏览器UA值

    Python爬虫教程-10-UserAgent和常见浏览器UA值 有时候使用爬虫会被网站封了IP,所以需要去模拟浏览器,隐藏用户身份, UserAgent 包含浏览器信息,用户身份,设备系统信息 Us ...

  8. Python爬虫教程-09-error 模块

    Python爬虫教程-09-error模块 今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.error URLError URLError ...

  9. Python爬虫教程-08-post介绍(百度翻译)(下)

    Python爬虫教程-08-post介绍(下) 为了更多的设置请求信息,单纯的通过urlopen已经不太能满足需求,此时需要使用request.Request类 构造Request 实例 req = ...

随机推荐

  1. Eureka 高可用 - 踩坑回忆

    1.application.yml中eureka配置更改 ## Eurake 公用配置 ## 向其他注册中心注册 eureka.client.register-with-eureka=true ## ...

  2. 一个迷你的 Node.js 基于 Express 的 MVR 模式的 API工程 的分析

    1. 工程说明 该工程是基于 Express 库,编写的一个 API 查询返回的一个微型应用. API Resource 就是把 API 的内容当做网络资源去处理.工程中的路由访问也是返回 API 内 ...

  3. layui 时间插件laydate ,取消回调

    背景:转型新公司不再是做前端展示H5之类的东西,主要业务是后台数据读取和插件搭建前端页面,接触的第一个老项目是layui制作的,由于业务需求,需要用到时间插件以下为时间插件的一些用法--------- ...

  4. 溶解shader

    玩神界原罪2,感觉人物被建筑遮挡时,建筑的“溶解”效果很有意思,想实现一下.然后发现连溶解都没实现过,emmmmm....先来把溶解实现了~ 原理就是根据一张噪声图的值是否大于某个阈值,来判断是否丢弃 ...

  5. Kubernetes单机安装部署

    系统环境: Ubuntu 16.04.2 LTS 软件环境: Docker 1.12.6 Go 1.8.3 Etcd 3.1.8 Flannel 0.7.1 Kubernetes master 1.7 ...

  6. Bugfree安装与使用

    第一步:下载XAMPP和bugfree http://www.bugfree.org.cn/ http://www.apachefriends.org/zh_cn/xampp.html 第二步:安装 ...

  7. Missy

    毕业两年了,非常怀念大学生活.有时间还想回去看看,为什么我的眼里常含着泪水,因为我对这片土地爱的深沉. 你问我大学时最后悔的事情是什么,可能是没有对她说 I like you 吧,至今偶尔也会想起她. ...

  8. idea开发环境中maven控制台乱码解决

    在pom文件中加入 红色那行, <properties>        <project.build.sourceEncoding>UTF-8</project.buil ...

  9. html中使用滚动条

    1. 在html页面中使用滚动条,效果如下: 代码如下: <div style="height:auto !important;max-height:200px;overflow:sc ...

  10. android去除标题栏

    在 AndroidManifast.xml 文件中 将 theme="@style/AppTheme" 改为 theme="@style/Theme.AppCompat. ...