python爬虫之获取验证码登陆

#--coding:utf-8
#author:wuhao
#
#这里我演示的就是本人所在学校的教务系统
#
import urllib.request
import urllib.parse
import re
import shutil
import http.cookiejar

class LoginJust():
    def __init__(self,url,url1,url2,header,account,pwd):
        self.url=url
        self.url1=url1
        self.url2=url2
        self.header=header
        self.account=account
        self.pwd=pwd
        return

#创建opener，包含header信息和cookie
    def CreateOpener(self):
        #实例化cookie对象
        cookie=http.cookiejar.CookieJar()
        #创建一个cookie处理器
        CookieHandle=urllib.request.HTTPCookieProcessor(cookie)
        #创建带有cookie的opener
        opener=urllib.request.build_opener(CookieHandle)
        #传入header
        head=[]
        for key,value in self.header.items():
            elem=(key,value)
            head.append(elem)
        opener.open(self.url)
        return opener

#获取验证码图片，并保存到本地
    def getImage(self,opener):
        path = "imageCode_1.jpg"
        # 带cookie和header
        img = opener.open(self.url2)
        with open(path, "wb") as f:
            shutil.copyfileobj(img, f)
        #print(os.stat(path).st_size, 'characters copied')
        return

#获取后台发送来的字符串
    def getResponse(self,opener):
        getReponse = opener.open(self.url1)
        #
        gRResult = getReponse.read().decode("utf-8")
        return gRResult

#获取post所需的encoded参数
    def achieveCode(self,response):
        # scode、sxh是response中得来
        scode = response.split("#")[0]
        sxh = response.split("#")[1]
        # userAccount、userPassword
        userAccount = self.account
        userPassword =self.pwd
        code = userAccount + "%%%" + userPassword
        # 最终需要获取的post的数据
        encode = ""
        # 进行账号密码加密，获取code的值
        i = 0
        while (i < len(code)):
            if i < 20:
                encode = encode + code[i:i + 1] + scode[0:int(sxh[i])]
                # print(str(i)+"_encode:"+encode)
                scode = scode[int(sxh[i]):len(scode)]
                # print(str(i)+"_scode:"+scode)
            else:
                encode = encode + code[i:len(code)]
                # print(str(i)+"_here_encode"+encode)
                i = len(code)
            i = i + 1
        return encode

#判断登陆是否成功
    def IsLoginS(self,encoded):
#验证码的值
        codeValue=input("请输入验证码：")
        data={"useDogCode":"","encoded":encoded,"RANDOMCODE":codeValue}
#把data转换为post的数据格式
        postData=urllib.parse.urlencode(data)
        result=opener.open(self.url,postData.encode("utf-8"))
        Result=result.read().decode("utf-8")
        regex=re.compile(r"1440407133")
        #print(type(regex.search(Result)))
        if regex.search(Result)!=None:
            return True
        else:
            print("Someting Error happened:登陆失败")
        return False

#再次请求验证码

# 需要post的网址的URL
url = "http://jwgl.just.edu.cn:8080/Logon.do?method=logon"
# 获取后台数据的网址
url1 = "http://jwgl.just.edu.cn:8080/Logon.do?method=logon&flag=sess"
# 获取验证码图片的地址
url2 = "http://jwgl.just.edu.cn:8080/verifycode.servlet"
#header
header=\
    {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36",
        "Referer":"http://jwgl.just.edu.cn:8080/Logon.do?method=logon",
        "Host":"jwgl.just.edu.cn:8080",
        "Connection":"keep-alive",
        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
        "Accept-Encoding":"gzip, deflate",
        "Accept-Language":"zh-CN,zh;q=0.8",
        "Upgrade-Insecure-Requests":"1",
        "Cache-Control":"max-age=0",
    }
account=input("请输入用户名：")
pwd=input("请输入密码：")
#实例化对象
lj=LoginJust(url,url1,url2,header,account,pwd)
opener=lj.CreateOpener()
lj.getImage(opener)
encoded=lj.achieveCode(lj.getResponse(opener))
if lj.IsLoginS(encoded):
    print("登陆成功")

运行结果

python爬虫之获取验证码登陆的更多相关文章

Python爬虫学习 - day2 - 站点登陆
利用Python完成简单的站点登陆最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的登陆抽屉新热榜的教程(因为它不需要验证码,目前还没有学会图像识别.哈哈),供大家 ...
python爬虫中图形验证码的处理
使用python爬虫自动登录时,遇到需要输入图形验证码的情况,一个比较简单的处理方法是使用打码平台识别验证码. 使用过两个打码平台,打码兔和若快,若快的价格更便宜,识别率相当.若快需要注册两个帐号:开 ...
python爬虫之浅析验证码
一.什么是验证码? 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”( ...
python爬虫模拟登录验证码解决方案
[前言]几天研究验证码解决方案有三种吧.第一.手工输入,即保存图片后然后我们手工输入:第二.使用cookie,必须输入密码一次,获取cookie:第三.图像处理+深度学习方案,研究生也做相关课题,就用 ...
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
python爬虫3——获取审查元素(板野友美吧图片下载)
测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该 ...
python爬虫之处理验证码
云打码实现处理验证码处理验证码,我们需要借助第三方平台来帮我们处理,个人认为云打码处理验证码的准确度还是可以的首先第一步,我们得先注册一个云打码的账号,普通用户和开发者用户都需要注册一下然后登陆 ...
Python爬虫教程：验证码的爬取和识别详解
今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻 ...
Python爬虫学习笔记——豆瓣登陆(三)
之前是不会想到登陆一个豆瓣会需要写三次博客,修改三次代码的. 本来昨天上午之前的代码用的挺好的,下午时候,我重新注册了一个号,怕豆瓣大号被封,想用小号爬,然后就开始出问题了,发现无法模拟登陆豆瓣了,开 ...

随机推荐

团队作业8——Beta 阶段冲刺2rd day
一.今日站立式会议照片二.每个人的工作 (1) 昨天已完成的工作: 今天是冲刺阶段的第二天,冲刺第一天我们完成了对于前端界面的改进与完善工作. (2) 今天计划完成的工作: 成员昨天已完成的工作 ...
java--整理下关于static关键字的知识
如果将域定义为static,每个类中只有一个这样的域.而每一个对象对于所有的实例域却都有自己的一份拷贝.--<java核心技术> 使用static的两种情形:1.只想为某特定域分配单一存储 ...
201521123111 《Java程序设计》第1周学习总结
Java 第一周学习 1.刚开始学习对java还是陌生的,完全不清楚.通过刚开始的上课,有一点点的了解.刚开始可能相对比较基础,进程有点快,而且多媒体屏幕有点反光,所以还是蛮多不懂的.接下来应该好好努 ...
Java-错误处理机制学习（一）异常处理
注意:本文介绍Java中的异常处理理论知识及相关语法结构,对于实际应用来说是万万不够的.关于如何高效地使用异常,请查看Java-高效地使用Exception-实践. 异常处理的思想是,当应用程序处于异 ...
201521123002《Java程序设计》第14周学习总结
本次作业参考文件 1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多数据库相关内容. MySql数据库简单操作: 库操作: 显示所有数据库: show databases; 创建数 ...
201521123026《JAVA程序设计》第11周学习总结
1. 本章学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 1.多线程同步:限制某个资源在同一时刻只能被一个线程访问.. 2.同步代码块:`synchronized(lock ...
多线程面试题系列（8）：经典线程同步信号量Semaphore
前面介绍了关键段CS.事件Event.互斥量Mutex在经典线程同步问题中的使用.本篇介绍用信号量Semaphore来解决这个问题. 首先也来看看如何使用信号量,信号量Semaphore常用有三个函数 ...
SpringMVC第七篇【RESTful支持、拦截器】
RESTful支持我们在学习webservice的时候可能就听过RESTful这么一个名词,当时候与SOAP进行对比的-那么RESTful究竟是什么东东呢??? RESTful(Representa ...
JSP第五篇【JSTL的介绍、core标签库、fn方法库、fmt标签库】
什么是JSTL JSTL全称为 JSP Standard Tag Library 即JSP标准标签库. JSTL作为最基本的标签库,提供了一系列的JSP标签,实现了基本的功能:集合的遍历.数据的输出. ...
Hibernate第四篇【集合映射、一对多和多对一】
前言前面的我们使用的是一个表的操作,但我们实际的开发中不可能只使用一个表的-因此,本博文主要讲解关联映射集合映射需求分析:当用户购买商品,用户可能有多个地址. 数据库表我们一般如下图一样设计数 ...

python爬虫之获取验证码登陆

python爬虫之获取验证码登陆的更多相关文章

随机推荐

热门专题