Python爬虫（3）豆瓣登录

前面（1）（2）的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站。

而要爬取社交网站比较鲜明的特点就是需要登录，否则很多东西都无法获取。经过测试发现，微博，知乎都不是很好登录，知乎有时候的验证码会类似12306那样，而微博除了验证码，在传递参数的时候会对用户名进行base64加密。这里讲简单的豆瓣的登录以及简单的爬取。

对于Chrome内核的浏览器来说，可以右键，审查元素，选择network，登录一下自己的账号。

选中login会有各种post还是get，url，连接头各种信息。

往下拉找到formdat，像微博就把formdata给加密了。

form data里有我们登录所需要的所有信息，其中captcha-solution就是登录验证码，有时候有有时候没有所以在请求的时候，需要判断有没有。

import requests

import re

from bs4 import BeautifulSoup as bs

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

s = requests.Session()

url_login = 'http://accounts.douban.com/login'

url_contacts = 'https://www.douban.com/contacts/list'

formdata = {

    'source':'index_nav',

    'redir': 'https://www.douban.com',

    'form_email': '22222',

    'form_password': '111111',

    'login': u'登录'

}

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

r = s.post(url_login, data=formdata, headers=headers)

content = r.text

soup = bs(content, 'lxml')

captcha = soup.find('img', id='captcha_image')

if captcha:

    captcha_url = captcha['src']

    re_captcha_id = r'<input type-"hidden" name="captcha-id" value="(.*?)"/'

    captcha_id = re.findall(re_captcha_id, content)

    print captcha_id

    print captcha_url

    captcha_text = raw_input('Please input 验证码啊')

    formdata['captcha-solution'] = captcha_text

    formdata['captcha-id'] = captcha_id

    r = s.post(url_login, data=formdata, headers=headers)

　　这样就成功登录啦。

其实还有一种简单的办法，就是在登录的时候选择记住我，然后在Request Headers里复制下来cookie，cookie可以用很久，所以还是足够自用的。

import requests

import os

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

cookies = {'cookie':1'}

url = 'http://www.douban.com'

r = requests.get(url, cookies=cookies,headers=headers)

r.encoding = 'utf-8'

print r.text

with open('douban.txt','wb+',encoding = 'utf') as f:

    f.write(r.content)

Python爬虫（3）豆瓣登录的更多相关文章

Python爬虫——爬豆瓣登录页面
直接上代码 import urllib.request import http.cookiejar from lxml import etree # from spiderImg import get ...
Python爬虫之模拟登录微信wechat
不知何时,微信已经成为我们不可缺少的一部分了,我们的社交圈.关注的新闻或是公众号.还有个人信息或是隐私都被绑定在了一起.既然它这么重要,如果我们可以利用爬虫模拟登录,是不是就意味着我们可以获取这些信息 ...
Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
Python爬虫-百度模拟登录（二）
上一篇-Python爬虫-百度模拟登录(一) 接上一篇的继续参数 codestring codestring jxG9506c1811b44e2fd0220153643013f7e6b1898075 ...
python爬虫+使用cookie登录豆瓣
2017-10-09 19:06:22 版权声明:本文为博主原创文章,未经博主允许不得转载. 前言: 先获得cookie,然后自动登录豆瓣和新浪微博系统环境: 64位win10系统,同时装pytho ...
Python爬虫-百度模拟登录（一）
千呼万唤屎出来呀,百度模拟登录终于要呈现在大家眼前了,最近比较忙,晚上又得早点休息,这篇文章写了好几天才完成.这个成功以后,我打算试试百度网盘的其他接口实现.看看能不能把服务器文件上传到网盘,好歹也有 ...
用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示
最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改原文链接 http://python.jobbole.com/88325/#comment-9 ...
Python爬虫之豆瓣-新书速递-图书解析
1- 问题描述抓取豆瓣“新书速递”[1]页面下图书信息(包括书名,作者,简介,url),将结果重定向到txt文本文件下. 2- 思路分析[2] Step1 读取HTML Step2 Xpath遍历元 ...
Python 爬虫之模拟登录
最近应朋友要求,帮忙爬取了小红书创作平台的数据,感觉整个过程很有意思,因此记录一下.在这之前自己没怎么爬过需要账户登录的网站数据,所以刚开始去看小红书的登录认证时一头雾水,等到一步步走下来,最终成功, ...
python爬虫--模拟12306登录
模拟12306登录超级鹰: #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Ch ...

随机推荐

《互联网MySQL开发规范》
一.基础规范使用 INNODB 存储引擎表字符集使用 UTF8 所有表都需要添加注释单表数据量建议控制在 5000W 以内不在数据库中存储图⽚.文件等大数据禁止在线上做数据库压力测试禁⽌ ...
snort安装--daq，dnet---ERROR! dnet header not found, go get it from...等错误解决方案
snort源码安装过程中,需要安装daq,dnet.这里想说下如何进行安装.daq简单,源码下载直接安装就可以.dnet在安装过程中,出错后总想着在网上搜一搜,结果很失望..本篇记录的不仅仅是解决安装 ...
【BZOJ 1923】1923: [Sdoi2010]外星千足虫（高斯消元异或 | BITSET用法）
1923: [Sdoi2010]外星千足虫 Description Input 第一行是两个正整数 N, M. 接下来 M行,按顺序给出 Charles 这M次使用“点足机”的统计结果.每行包含一个 ...
[BZOJ4887][TJOI2017]可乐(DP+矩阵快速幂)
题目描述加里敦星球的人们特别喜欢喝可乐.因而,他们的敌对星球研发出了一个可乐机器人,并且放在了加里敦星球的1号城市上.这个可乐机器人有三种行为: 停在原地,去下一个相邻的城市,自爆.它每一秒都会随机 ...
[BZOJ4408&&BZOJ4299][FJOI2016 && Codechef]神秘数&&FRBSUM(主席树)
4299: Codechef FRBSUM Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 550 Solved: 351[Submit][Statu ...
[AtCoder-ARC073F]Many Moves
题目大意: 有一排n个格子和2枚硬币. 现在有q次任务,每一次要你把其中一枚硬币移到x的位置上,移动1格的代价是1. 两枚硬币不能同时移动,任务必须按次序完成. 现在告诉你两枚硬币初始状态所在的位置a ...
django之cookie、session和ajax
1 Cookie cookie是什么? 保存在客户端浏览器上的键值对 {k:v} cookie依附在请求头或响应头中出现发送请求时,会自动携带自己网站的cookie 应用: 实现登录投票 1. ...
25.最小生成树（kruskal算法）
时间限制: 1 s 空间限制: 128000 KB 题目等级 : 白银 Silver 题解查看运行结果题目描述 Description 农民约翰被选为他们镇的镇长!他其中一个竞选承诺就是在镇上建立 ...
2015 UESTC 数据结构专题D题秋实大哥与战争变化版本的线段树，合并区间，单点查询
D - 秋实大哥与战争 Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/contest/show/59 D ...
Google Code Jam Africa 2010 Qualification Round Problem B. Reverse Words
Google Code Jam Africa 2010 Qualification Round Problem B. Reverse Words https://code.google.com/cod ...

Python爬虫（3）豆瓣登录

Python爬虫（3）豆瓣登录的更多相关文章

随机推荐

热门专题