python爬虫之获取验证码登陆
#--coding:utf-8
#author:wuhao
#
#这里我演示的就是本人所在学校的教务系统
#
import urllib.request
import urllib.parse
import re
import shutil
import http.cookiejar class LoginJust():
def __init__(self,url,url1,url2,header,account,pwd):
self.url=url
self.url1=url1
self.url2=url2
self.header=header
self.account=account
self.pwd=pwd
return #创建opener,包含header信息和cookie
def CreateOpener(self):
#实例化cookie对象
cookie=http.cookiejar.CookieJar()
#创建一个cookie处理器
CookieHandle=urllib.request.HTTPCookieProcessor(cookie)
#创建带有cookie的opener
opener=urllib.request.build_opener(CookieHandle)
#传入header
head=[]
for key,value in self.header.items():
elem=(key,value)
head.append(elem)
opener.open(self.url)
return opener #获取验证码图片,并保存到本地
def getImage(self,opener):
path = "imageCode_1.jpg"
# 带cookie和header
img = opener.open(self.url2)
with open(path, "wb") as f:
shutil.copyfileobj(img, f)
#print(os.stat(path).st_size, 'characters copied')
return #获取后台发送来的字符串
def getResponse(self,opener):
getReponse = opener.open(self.url1)
#
gRResult = getReponse.read().decode("utf-8")
return gRResult #获取post所需的encoded参数
def achieveCode(self,response):
# scode、sxh是response中得来
scode = response.split("#")[0]
sxh = response.split("#")[1]
# userAccount、userPassword
userAccount = self.account
userPassword =self.pwd
code = userAccount + "%%%" + userPassword
# 最终需要获取的post的数据
encode = ""
# 进行账号密码加密,获取code的值
i = 0
while (i < len(code)):
if i < 20:
encode = encode + code[i:i + 1] + scode[0:int(sxh[i])]
# print(str(i)+"_encode:"+encode)
scode = scode[int(sxh[i]):len(scode)]
# print(str(i)+"_scode:"+scode)
else:
encode = encode + code[i:len(code)]
# print(str(i)+"_here_encode"+encode)
i = len(code)
i = i + 1
return encode #判断登陆是否成功
def IsLoginS(self,encoded):
#验证码的值
codeValue=input("请输入验证码:")
data={"useDogCode":"","encoded":encoded,"RANDOMCODE":codeValue}
#把data转换为post的数据格式
postData=urllib.parse.urlencode(data)
result=opener.open(self.url,postData.encode("utf-8"))
Result=result.read().decode("utf-8")
regex=re.compile(r"1440407133")
#print(type(regex.search(Result)))
if regex.search(Result)!=None:
return True
else:
print("Someting Error happened:登陆失败")
return False #再次请求验证码 # 需要post的网址的URL
url = "http://jwgl.just.edu.cn:8080/Logon.do?method=logon"
# 获取后台数据的网址
url1 = "http://jwgl.just.edu.cn:8080/Logon.do?method=logon&flag=sess"
# 获取验证码图片的地址
url2 = "http://jwgl.just.edu.cn:8080/verifycode.servlet"
#header
header=\
{
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36",
"Referer":"http://jwgl.just.edu.cn:8080/Logon.do?method=logon",
"Host":"jwgl.just.edu.cn:8080",
"Connection":"keep-alive",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"zh-CN,zh;q=0.8",
"Upgrade-Insecure-Requests":"1",
"Cache-Control":"max-age=0",
}
account=input("请输入用户名:")
pwd=input("请输入密码:")
#实例化对象
lj=LoginJust(url,url1,url2,header,account,pwd)
opener=lj.CreateOpener()
lj.getImage(opener)
encoded=lj.achieveCode(lj.getResponse(opener))
if lj.IsLoginS(encoded):
print("登陆成功") 运行结果
python爬虫之获取验证码登陆的更多相关文章
- Python爬虫学习 - day2 - 站点登陆
利用Python完成简单的站点登陆 最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的登陆抽屉新热榜的教程(因为它不需要验证码,目前还没有学会图像识别.哈哈),供大家 ...
- python爬虫中图形验证码的处理
使用python爬虫自动登录时,遇到需要输入图形验证码的情况,一个比较简单的处理方法是使用打码平台识别验证码. 使用过两个打码平台,打码兔和若快,若快的价格更便宜,识别率相当.若快需要注册两个帐号:开 ...
- python爬虫之浅析验证码
一.什么是验证码? 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”( ...
- python爬虫模拟登录验证码解决方案
[前言]几天研究验证码解决方案有三种吧.第一.手工输入,即保存图片后然后我们手工输入:第二.使用cookie,必须输入密码一次,获取cookie:第三.图像处理+深度学习方案,研究生也做相关课题,就用 ...
- [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
- python爬虫3——获取审查元素(板野友美吧图片下载)
测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该 ...
- python爬虫之处理验证码
云打码实现处理验证码 处理验证码,我们需要借助第三方平台来帮我们处理,个人认为云打码处理验证码的准确度还是可以的 首先第一步,我们得先注册一个云打码的账号,普通用户和开发者用户都需要注册一下 然后登陆 ...
- Python爬虫教程:验证码的爬取和识别详解
今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻 ...
- Python爬虫学习笔记——豆瓣登陆(三)
之前是不会想到登陆一个豆瓣会需要写三次博客,修改三次代码的. 本来昨天上午之前的代码用的挺好的,下午时候,我重新注册了一个号,怕豆瓣大号被封,想用小号爬,然后就开始出问题了,发现无法模拟登陆豆瓣了,开 ...
随机推荐
- MySQL (三)-- 字段属性、索引、关系、范式、逆规范化
1 字段属性 主键.唯一键和自增长. 1.1 主键 主键:primary key,一张表中只能有一个字段可以使用对应的键,用来唯一的约束该字段里面的数据,不能重复. 一张表只能有最多一个主键. 1.1 ...
- Java Collections 源码分析
Java Collections API源码分析 侯捷老师剖析了不少Framework,如MFC,STL等.侯老师有句名言: 源码面前,了无秘密 这句话还在知乎引起广泛讨论. 我对教授程序设计的一点想 ...
- 必应词典--英语学习APP案例分析
一.调研,评测 1.个人上手体验 这还是第一次听说必应词典,只能说知名度有待提高啊.首先,下载打开必应词典的第一感觉就是不够美观,个人感觉不论图标还是界面的美感都不足,既繁琐有简洁,给人的最直观感受就 ...
- 【Beta】阶段 第一次Daily Scrum Meeting
每日任务 1.本次会议为第一次 Meeting会议: 2.本次会议在周一下午16:40,课间休息时间在禹州楼召开,召开本次会议为10分钟. 一.今日站立式会议照片 二.每个人的工作 (有work it ...
- 201521123083《Java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 上周这张图没理解完,继续 2. 书面作业 本次PTA作业题集多线程 1互斥访问与同步访问完成题集4-4(互斥访问) ...
- 201521123090《Java程序设计》第10周学习总结
本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 书面作业 本次PTA作业题集异常.多线程 finally 题目4-2 1.1 截图你的提交结果(出现学号) 1.2 ...
- [js高手之路]Node.js模板引擎教程-jade速学与实战2-流程控制,转义与非转义
一.转义与非转义 jade模板文件代码: doctype html html head meta(charset='utf-8') title jade学习-by ghostwu body h3 转义 ...
- redis 基础学习总结
背景:因为项目用到了redis,加上之前一直听说了redis,但一直没有用过,正好项目现在要用到了,抽时间简单学习了下,做个记录总结下. 一 .Redis简介 介绍Redis之前,先了解下NoSQL ...
- Jquery一些常用的方法
整理以前的笔记,在学习JavaScript时候,经常会用到一些方法,但是有时忘掉了具体用法,因此记下.方便以后查阅. 这篇博文先说明这些方法的用途: removeClass().remove().cs ...
- PuTsangTo-单撸游戏开发02 测试场景与单轴移动
且不说立项与设计阶段的工作量,一个完整的游戏在开发阶段设计的职责范围也是很广,还有个大问题就是PuTsangTo项目也是本人在边学边做,截止目前还是满满的无从下手的感觉,一方面是技能与经验不足,另一方 ...