Python实现模拟登陆

大家经常会用Python进行数据挖掘的说，但是有些网站是需要登陆才能看到内容的，那怎么用Python实现模拟登陆呢？其实网路上关于这方面的描述很多，不过前些日子遇到了一个需要cookie才能登陆的网站，而且这个网站还有些问题，于是费了好大的劲才搞定，现在贴出来给大家分享下。

首先是用Python3标准库里的urllib包实现的一个版本，不需要考虑许多细节：

 #! /usr/bin/env python

 # -*- coding:utf-8 -*-

 import urllib.request

 import urllib.parse

 import http.cookiejar

 StudentInfoURL = 'http://210.x.x.1:90/student/index.jsp'

 loginURL = 'http://210.x.x.1:90/login.jsp'

 loginCheckURL = 'http://210.x.x.1:90/j_security_check'

 post_data = urllib.parse.urlencode({'j_username': 'xxxxxxx', 'j_password': 'xxxxxxx'})

 headers = {

     'Content-Type': 'application/x-www-form-urlencoded',

     'UserAgent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 Safari/537.36'

 }

 cj = http.cookiejar.CookieJar()

 opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

 #此处一定要链接一次，否则得不到cookie

 opener.open(loginCheckURL)

 urllib.request.install_opener(opener)

 ######################此处加入异常处理，再登一次即可######################

 request = urllib.request.Request(loginCheckURL, post_data, headers)

 try:

     response = urllib.request.urlopen(request)

 except:

     response = urllib.request.urlopen(request)

 print(response.read().decode('GBK'))

 ######################可以开始正常访问啦######################

 request = urllib.request.Request(StudentInfoURL, headers=headers)

 fp =  urllib.request.urlopen(request)

 print(fp.read().decode('GBK'))

下面是另一个版本，用的是比较底层的http包里的client模块实现的，个人很喜欢这个版本：

 #!/usr/bin/env python

 #  -*- coding:utf-8 -*-

 import http.client

 ###########################################################

 HOST = '210.x.x.1:90'

 UserName =  "xxxxxxx"

 PassWord =  "xxxxxxx"

 data =  "j_username=%s&j_password=%s"        %(UserName,PassWord)

 Headers = {

     "Content-Type":"application/x-www-form-urlencoded",

     "User-Agent":"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)",

     }

 ###########################################################

 #连接服务器

 conn = http.client.HTTPConnection(HOST,timeout=30)

 conn.connect()

 #GET到登录页，以获取cookies

 conn.request("GET","/j_security_check",None,Headers)

 res = conn.getresponse()

 m_cookie = res.getheader("Set-Cookie").split(';')[0]

 res.read()

 #POST到登录页，进行登录

 Headers["Cookie"] = m_cookie

 conn.request("POST","/j_security_check",data,Headers)

 res = conn.getresponse()

 res.read()

 if res.status == 400:

     #再次链接到登录页

     conn.request("POST","/j_security_check",data,Headers)

     res = conn.getresponse()

     res.read()

 conn.close()

 ######################可以开始正常访问啦######################

 conn2 = http.client.HTTPConnection(HOST)

 conn2.request("GET","/student/index.jsp",None,Headers)

 fp = conn2.getresponse()

 print(fp.status)

 print(fp.read().decode("GBK"))

 ###########################################################

欢迎大家批评

Python实现模拟登陆的更多相关文章

【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站
Python如何实现模拟登陆爬取Python实现模拟登陆的方式简单来说有三种:一.采用post请求提交表单的方式实现.二.利用浏览器登陆网站记录登陆成功后的cookies,采用get的请求方式,传入c ...
python爬虫模拟登陆
python爬虫模拟登陆学习了:https://www.cnblogs.com/chenxiaohan/p/7654667.html 用的这个学习了:https://www.cnblogs.co ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫模拟登陆校园网-初级
最近跟同学学习爬虫的时候看到网上有个帖子,好像是山大校园网不稳定,用py做了个模拟登陆很有趣,于是我走上了一条不归路..... 先上一张校园网截图首先弄清一下模拟登陆的原理: 1:服务器判定浏览器登 ...
Python作业模拟登陆(第一周)
模拟登陆:1. 用户输入帐号密码进行登陆2. 用户信息保存在文件内3. 用户密码输入错误三次后锁定用户思路: 1. 用户名密码文件为passwd,锁定用户文件为lock 2. 用户输入账号密码采用i ...
python+requests模拟登陆学校选课系统
最近学校让我们选课,每天都有不同的课需要选....然后突发奇想试试用python爬学校选课系统的课程信息先把自己的浏览器缓存清空,然后在登陆界面按f12 如图: 可以看到登陆时候是需要验证码的,验证 ...
python selenium模拟登陆163邮箱。
selenium是可以模拟浏览器操作. 有些爬虫是异步加载的,通过爬取网页源码是得不到需要的内容.所以可以模拟浏览器去登陆该网站进行爬取操作. 需要安装selenium通过pip install xx ...
Python脚本模拟登陆DVWA
目录 requests模拟登陆 Selenium自动化测试登陆环境:python3.7 windows requests模拟登陆我们登陆DVWA的时候,看似只有一步:访问网站,输入用户名和密码,登 ...
python requests 模拟登陆网站，抓取数据
抓取页面数据的时候,有时候我们需要登陆才可以获取页面资源,那么我们需要登陆以后才可以跳转到对应的资源页面,那么我们需要通过模拟登陆,登陆成功以后再次去抓取对应的数据. 首先我们需要通过手动方式来登陆一 ...

随机推荐

OkHttp使用进阶（译自OkHttp官方教程）
没有使用过OkHttp的,可以先看OkHttp使用介绍英文版原版地址 Recipes · square/okhttp Wiki 同步get 下载一个文件,打印他的响应头,以string形式打印响应体 ...
索引 split2
当往一个已经满了的索引块中插入新的索引条目时,将发生索引块的split,在9i下,分两种不同的情况进行split: (1)如果插入的索引键值不是最大的,将发生50-50的split,也就是说有bloc ...
截取linux文件存储路径方法
1.截取linux文件存储路径方法 package com.tydic.eshop.action.freemarker; public class dddd { public static void ...
ccnu-线段树-简单的区间更新（三题）
题目一:http://poj.org/problem?id=3468 Description You have N integers, A1, A2, ... , AN. You need to de ...
Redstone 云观象台服务器部署 - Nginx配置文件
以下信息仅针对Redstone的Ngxin配置文件进行更新. web服务器Nginx配置文件结构如下: /etc/nginx/nginx.conf # For more information on ...
pyhton小方法
import osa = os.walk('.') for i in a: print(i)
linux环境变量（转）
转自: http://www.cnblogs.com/growup/archive/2011/07/02/2096142.html Linux 的变量可分为两类:环境变量和本地变量环境变量或者称为 ...
BZOJ 2351 Matrix（哈希）
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=2351 题意:给出一个n*m的01矩阵.再给出10个A*B的小01矩阵.判断这些小的矩阵是 ...
[NYIST15]括号匹配（二）（区间dp）
题目链接:http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid=15 经典区间dp,首先枚举区间的大小和该区间的左边界,这时右边界也可计算出来.首先初 ...
JSON 之 SuperObject(10): Merge、Clone、ForcePath
unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, For ...

Python实现模拟登陆

Python实现模拟登陆的更多相关文章

随机推荐

热门专题