Python爬虫实例（四）网站模拟登陆

一、获取一个有登录信息的Cookie模拟登陆

下面以人人网为例，首先使用自己的账号和密码在浏览器登录，然后通过抓包拿到cookie，再将cookie放到请求之中发送请求即可，具体代码如下：

# -*- coding: utf-8 -*-

import urllib2

# 构建一个已经登录过的用户的headers信息

headers = {

    "Host":"www.renren.com",

    "Connection":"keep-alive",

    "Upgrade-Insecure-Requests":"",

    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

    "Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",

    # 添加抓包获取的cookie，这个Cookie是保存了密码无需重复登录的用户的Cookie，里面记录了用户名及密码等登录信息（我这里只显示一部分）

    "Cookie": "anonymid=j5xitrrwqgbk8; _r01_=1; loginfrom=syshome; wp_fold=0; _de=BF09EE3FED92E6B65F6A4705D973F1383380866D39FF5;

}

# 通过headers里的报头信息（主要是Cookie信息），构建Request对象

request = urllib2.Request("http://www.renren.com/", headers = headers)

# 直接访问renren主页，服务器会根据headers报头信息（主要是Cookie信息），判断这是一个已经登录的用户，并返回相应的页面

response = urllib2.urlopen(request)

# 打印响应内容

print response.read()

这样就可以访问登录后才会呈现的页面。

二、使用cookielib库和 HTTPCookieProcessor处理器

上面的方式固然可行，但是却过于麻烦，我们先需要在浏览器登录账户，并且设置保存密码，并且通过抓包才能获取这个Cookie。下面我们将简化一下，代码如下：

# -*- coding: utf-8 -*-

import urllib

import urllib2

import cookielib

# 构建一个CookieJar对象实例来保存cookie

cookie = cookielib.CookieJar()

# 使用HTTPCookieProcessor()来创建cookie处理器对象，参数为CookieJar()对象

cookie_handler = urllib2.HTTPCookieProcessor(cookie)

# 通过 build_opener() 来构建opener

opener = urllib2.build_opener(cookie_handler)

# addheaders 接受一个列表，里面每个元素都是一个headers信息的元祖, opener将附带headers信息

opener.addheaders = [("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36")]

#  需要登录的账户和密码

data = {"email":"账户", "password":"密码"}  

#  通过urlencode()转码

postdata = urllib.urlencode(data)

#  构建Request请求对象，包含需要发送的用户名和密码

request = urllib2.Request("http://www.renren.com/PLogin.do", data = postdata)

#  通过opener发送这个请求，并获取登录后的Cookie值，

opener.open(request)                                              

#  opener包含用户登录后的Cookie值，可以直接访问那些登录后才可以访问的页面

response = opener.open("http://www.renren.com//profile")  

#  打印响应内容

print response.read()

这里可以使用requests简化代码，具体如下：

import requests

# 创建session对象，可以保存Cookie值

ssion = requests.session()

# 处理 headers

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 3需要登录的用户名和密码

data = {"email":"账户", "password":"密码"}  

# 发送附带用户名和密码的请求，并获取登录后的Cookie值，保存在ssion里

ssion.post("http://www.renren.com/PLogin.do", data = data)

#  ssion包含用户登录后的Cookie值，可以直接访问那些登录后才可以访问的页面

response = ssion.get("http://www.renren.com/410049765/profile")

# 打印响应内容

print response.text

注：这里使用的是人人网的老版接口http://www.renren.com/PLogin.do如果使用的是http://www.renren.com/这个接口登录将会失败，因为新的接口需要的不仅仅是账户和密码，还要有一些
动态生成的数据需要一起传送过去，这个也可以通过先抓包获取再和账户密码一起发生。

这种方式模拟登录需要注意的问题：
1、登录一般都会先有一个HTTP GET，用于拉取一些信息及获得Cookie，然后再HTTP POST登录。
2、HTTP POST登录的链接有可能是动态的，从GET返回的信息中获取。
3、password 有些是明文发送，有些是加密后发送。有些网站甚至采用动态加密的，同时包括了很多其他数据的加密信息，只能通过查看JS源码获得加密算法，再去破解加密，非常困难。
4、大多数网站的登录整体流程是类似的，可能有些细节不一样，所以不能保证其他网站登录成功

三、使用Selenium和PhantomJS模拟登录
这种登录方式和在浏览器登录一样，代码如下：

# -*- coding: utf-8 -*-

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

driver = webdriver.PhantomJS()

driver.get("http://www.renren.com/")

# 输入账号密码

driver.find_element_by_name("email").send_keys("账户")

driver.find_element_by_name("password").send_keys("密码")

# 模拟点击登录

driver.find_element_by_xpath("//input[@class='input-submit login-btn']").click()

# 等待3秒

time.sleep(3)

# 生成登陆后快照

driver.save_screenshot("renren.png")

运行程序后就可以得到登录后页面的截图了，也可以使用driver.page_source拿到页面源码。

Python爬虫实例（四）网站模拟登陆的更多相关文章

Python爬虫学习笔记之模拟登陆并爬去GitHub
(1)环境准备: 请确保已经安装了requests和lxml库 (2)分析登陆过程: 首先要分析登陆的过程,需要探究后台的登陆请求是怎样发送的,登陆之后又有怎样的处理过程. 如果已经 ...
python爬虫学习(3)_模拟登陆
1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params. 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url ...
Python爬虫教程：requests模拟登陆github
1. Cookie 介绍 HTTP 协议是无状态的.因此,若不借助其他手段,远程的服务器就无法知道以前和客户端做了哪些通信.Cookie 就是「其他手段」之一. Cookie 一个典型的应用场景,就是 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇内容通过跟我做一个好玩的 ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...

随机推荐

LIBTUX_CAT:466: ERROR: tpopen TPERMERR xa_open returned XAER_INVAL
tmboot 启动Tuxedo服务失败,从ULOG日志中看到以下错误: 100534.MATHXH!TMS_ORA10G.22600.4076.0: LIBTUX_CAT:466: ERROR: tp ...
fastcgi php-cgi与php-fpm区别和之间的关系
关于FastCGI.php-cgi.php-fpm的区别是什么,各自有什么用途,以及相互间的关系是什么,查阅相关资料,可谓是众说纷纭,莫衷一是: 说法一:fastcgi是一个协议,php-fpm实现了 ...
PHP操作二进制字节数据
在PHP开发中大都是操作字符类数据,极为方便,但操作二进制又如何呢,下面代码举例看看. 函数: pack(format,args+) pack()和unpack()函数的第一个参数表如下 Bash ...
离线环境下安装ansible，借助有网环境下pip工具
环境有网的机器(192.168.19.222):rhe65,python2.7.13,pip9.0.1 离线机器(192.168.19.203):rhe65,python2.6 FTP(192.16 ...
C#中，重新排列panel中的按钮
https://www.cnblogs.com/hfzsjz/archive/2010/08/13/1799068.html void ArrangeButtons(Panel pn) { , y = ...
Python读取本地文档内容并发送邮件
当需要将本地某个路径下的文档内容读取后并作为邮件正文发送的时候可以参考该文,使用到的模块包括smtplib,email. #! /usr/bin/env python3 # -*- coding:ut ...
vue及ElementUI环境搭建
1. nodejs安装及npm安装下载地址:https://nodejs.org/en/download/ 选择windows Installer 下载完成后运行node-v8.11.1-x64. ...
Caffe多线程环境下检测缓慢问题
对于多线程运行环境以及Web框架下(其实也相当于多线程)Caffe运行缓慢的原因可能是仅在某一个线程中设置caffe.set_mode_gpu().但是该操作不会影响其他线程,此时其他线程还是CPU模 ...
微信小程序开发填坑指南V1
近期用了一星期的时间,开发了一个小程序.小程序名称是:小特Jarvis,取自钢铁侠的管家. 后台采用C#编写,WebAPI接口.其实开发时间并不多,小程序本身提供的API,相比公众号的API来说,已经 ...
C语言socket编程
建议先去看一下思路真的写的很不错呦~ 思路参考博客:https://www.cnblogs.com/renfanzi/p/5713054.html linux c语言socket编程代码(单一服务端 ...

Python爬虫实例（四）网站模拟登陆

Python爬虫实例（四）网站模拟登陆的更多相关文章

随机推荐

热门专题