这关较第三关难度增加许多,主要多了并发编程 密码一共有100位,分布在13页,每页打开的时间在15秒左右,所以理所当然的想到要用并发,但是后来发现同IP访问间隔时间不能小于8秒,不然会返回404,所以最好是代理+并发. 目前没有做代理,以后有时间在重新写,由于密码位置上随机出现的,所以采集到页数要远远大于13,我把访问间隔控制在8秒,收集完100位密码一共耗时670s import urllib.request as ur import urllib.parse as up import htt
第三关,先登录,再猜密码,这关难度较第二关大幅增加,要先去注册一个登录账号,然后打开F12,多登录几次,观察headers数据的变化 给出代码,里面注释很详细 import urllib.request as ur import urllib.parse as up import http.cookiejar as hc import re #网站打开时会先生成一个cookies,里面只有csrfmiddlewaretoken值,需要把这个cookies保存下来, #在登录的时候需要验证用到,还
Department Vacancies Total Skill Set Experience Language Oracle; OBIEE 3years English Systems Sr. Software Engineer 1 Andriod; Java; HTML 5years English Systems Sr. Specialist (Business Analyst) 1 Business Analysis; Communication 5yrs English & Japan
第二关猜登录密码,需要用到urllib.request和urllib.parse 也很简单,给代码 import urllib.request as ur import urllib.parse as up import re url='http://www.heibanke.com/lesson/crawler_ex01/' pat=re.compile(r'<h3>(.+)</h3>') i=1 while i<=30: values={'username':'fang'
这是学习python爬虫练习很好的网站,强烈推荐! 地址http://www.heibanke.com/lesson/crawler_ex00/ 第一关猜数字 很简单,直接给出代码 import urllib.request as ur import re url='http://www.heibanke.com/lesson/crawler_ex00/' pat=re.compile(r'<h3>(\D+(\d+)\D*)</h3>') num='' while True: ne
-- Created on 2015/4/29 by MENGHU DECLARE -- Local variables here I INTEGER; BEGIN FOR OPEN_DATA IN (SELECT * FROM SYS_DEPT_ACCOUNTING SDA WHERE SDA.SEGMENT4 IS NOT NULL) LOOP BEGIN BEGIN SELECT TO_NUMBER(TRIM(SDA.SEGMENT4)) INTO I FROM SYS_DEPT_ACCO