Python：黑板课爬虫闯关第五关

第五关是最后一关了，至此之后黑板课就没有更新过关卡了。

第五关地址：http://www.heibanke.com/lesson/crawler_ex04/

可以看到，是在第三关的基础上加了验证码。

验证码识别我们可以通过 tesserocr 来识别，tesserocr 的使用在我的前面两篇博客中有介绍。

在这里，tesserocr 的识别率不是很高，大概只有10%到15%，通过训练，也没能有啥改善，不知道是不是我弄错了，有尝试过的朋友可以给我留言。

代码如下：

import re

import requests

import time

from PIL import Image

from bs4 import BeautifulSoup

import tesserocr

def main():

    url_login = 'http://www.heibanke.com/accounts/login/'

    url = 'http://www.heibanke.com/lesson/crawler_ex04/'

    session = requests.Session()

    session.get(url_login)

    token = session.cookies['csrftoken']

    session.post(url_login, data={'csrfmiddlewaretoken': token, 'username': 'xx', 'password': 'xx'})

    psd = 0

    while psd < 30:

        print(f'test password {psd}')

        r = session.get(url)

        soup = BeautifulSoup(r.text, 'lxml')

        img_tag = soup.find('img')

        img_url = 'http://www.heibanke.com' + img_tag['src']

        requests.get(url)

        code = get_code(img_url)

        if code is None:

            time.sleep(1)

            continue

        token = session.cookies['csrftoken']

        r = session.post(url, data={'csrfmiddlewaretoken': token, 'username': 'aa', 'password': psd,

                                    'captcha_0': code[0], 'captcha_1': code[1]})

        html = r.text

        if '验证码输入错误' in html:

            time.sleep(1)

        elif '密码错误' not in html:

            m = re.search('(?<=\<h3\>).*?(?=\</h3\>)', html)

            print(m.group())

            return

        else:

            time.sleep(1)

            psd += 1

def get_code(url):

    flag = url.split("/")[-2]

    fn = flag + '.png'

    with open(fn, 'wb+') as sw:

        sw.write(requests.get(url).content)

    img = Image.open(fn)

    img = img.convert('L')

    result = tesserocr.image_to_text(img).strip()

    print(flag, result)

    if re.match('^[A-Za-z0-9]{4}$', result):

        return flag, result

if __name__ == '__main__':

    main()

Python：黑板课爬虫闯关第五关的更多相关文章

Python：黑板课爬虫闯关第一关
近日发现了[黑板课爬虫闯关]这个神奇的网页,练手爬虫非常的合适地址:http://www.heibanke.com/lesson/crawler_ex00/ 第一关非常的简单 get 请求网址,在响 ...
Python：黑板课爬虫闯关第四关
第四关地址:http://www.heibanke.com/lesson/crawler_ex03/ 一开始看到的时候有点蒙,不知道啥意思,说密码需要找出来但也没说怎么找啊. 别急,随便输了个昵称和密 ...
Python：黑板课爬虫闯关第三关
第三关开始才算是进入正题了. 输入网址 http://www.heibanke.com/lesson/crawler_ex02/,直接跳转到了 http://www.heibanke.com/acco ...
Python：黑板课爬虫闯关第二关
第二关依然是非常的简单地址:http://www.heibanke.com/lesson/crawler_ex01/ 随便输入昵称呢密码,点击提交,显示如下: 这样看来就很简单了,枚举密码循环 po ...
python3 黑板客爬虫闯关游戏（一）
这是学习python爬虫练习很好的网站,强烈推荐! 地址http://www.heibanke.com/lesson/crawler_ex00/ 第一关猜数字很简单,直接给出代码 import ur ...
python3 黑板客爬虫闯关游戏（四）
这关较第三关难度增加许多,主要多了并发编程密码一共有100位,分布在13页,每页打开的时间在15秒左右,所以理所当然的想到要用并发,但是后来发现同IP访问间隔时间不能小于8秒,不然会返回404,所以 ...
python3 黑板客爬虫闯关游戏（三）
第三关,先登录,再猜密码,这关难度较第二关大幅增加,要先去注册一个登录账号,然后打开F12,多登录几次,观察headers数据的变化给出代码,里面注释很详细 import urllib.reques ...
python3 黑板客爬虫闯关游戏（二）
第二关猜登录密码,需要用到urllib.request和urllib.parse 也很简单,给代码 import urllib.request as ur import urllib.parse as ...
嵩天老师python网课爬虫实例1的问题和解决方法
一,AttributeError: 'NoneType' object has no attribute 'children', 网页'tbody'没有子类很明显,报错的意思是说tbody下面没有c ...

随机推荐

Java开源生鲜电商平台-性能优化以及服务器优化的设计与架构(源码可下载）
Java开源生鲜电商平台-性能优化以及服务器优化的设计与架构(源码可下载) 说明:Java开源生鲜电商平台-性能优化以及服务器优化的设计与架构,我采用以下三种维度来讲解 1. 代码层面. 2. 数 ...
Feature Preprocessing on Kaggle
刚入手data science, 想着自己玩一玩kaggle,玩了新手Titanic和House Price的项目, 觉得基本的baseline还是可以写出来,但是具体到一些细节,以至于到能拿到的出 ...
深入css布局篇(2) — 定位与浮动
深入css布局(2) - 定位与浮动在css知识体系中,除了css选择器,样式属性等基础知识外,css布局相关的知识才是css比较核心和重要的点.今天我们来深入学习一下css布局相关的知识 ...
通过jQuery和C#分别实现对.NET Core Web Api的访问以及文件上传
准备工作: 建立.NET Core Web Api项目新建一个用于Api请求的UserInfo类 public class UserInfo { public string name { get; ...
XML错误信息Referenced file contains errors (http://www.springframework.org/schema/beans/spring-beans-4.0.xsd). For more information, right click on the message in the Problems View ...
错误信息:Referenced file contains errors (http://www.springframework.org/schema/beans/spring-beans-4.0.x ...
【原创】分布式之redis复习精讲
引言为什么写这篇文章? 博主的<分布式之消息队列复习精讲>得到了大家的好评,内心诚惶诚恐,想着再出一篇关于复习精讲的文章.但是还是要说明一下,复习精讲的文章偏面试准备,真正在开发过程中, ...
零基础入门学习javase，应该怎么学？这是我给你的一个建议
我们知道Java有三个方向,JavaSE,JavaME,JavaEE(老程序员可能会叫J2EE等,不过SUN已经改名了).JavaME主要是嵌入式与游戏开发.那我们先看JavaSE,因为只有学好了Ja ...
Java注解（二）：实战　－　直接使用对象列表生成报表
通过对Java注解(一):介绍,思想及优点学习了解,相信大家对Java注解有一定程度的了解,本篇文章将实战项目中的应用来加深对Java注解的了解. 本实例实现根据指定字段的JavaBean,生成对应列 ...
WinForm的DataGirdView判断CheckBox是否被选中
首先我们先设置下DataGirdView的列. 然后启动下编辑,就可以选中与不选中了.在之后通过. #region 便利被选中的行,然后导出 DataTable dtreport = new Data ...
服务部署到Swarm Cluster中
对于已存在的镜像,将其部署到服务器中并开始对外服务,便是它的职责,而我们要做的便是帮助它完成职责,前两个应用环节都已产生了相应的镜像,在这一环节,将完成服务部署到容器集群的工作,对于这一过程,实际执行 ...

Python：黑板课爬虫闯关第五关

Python：黑板课爬虫闯关第五关的更多相关文章

随机推荐

热门专题