python模拟登陆豆瓣—

学爬虫有一段时间了，前面没有总结又重装了系统，导致之前的代码和思考都没了。。所以还是要及时整理总结备份。下面记录我模拟登陆豆瓣的方法，方法一登上了豆瓣，方法二重定向到了豆瓣中“我的喜欢”列表，获取了第一页上我喜欢的帖子标题。

方法一：使用requests库和cookies登陆

先正常登录一下豆瓣，然后使用火狐浏览器的httpfox插件获得post选项中的cookies，将cookies的内容分复制下来，保存为一个.txt文件

然后将txt中的内容用以下代码处理成字典，以便之后使用

 1 import re

 2 pattern = re.compile('(.*?)/.*?') #只需要提取cookies的前两项cookie sent，value就行了

 3 fr = open('dealwithcookies.txt','r') #dealwithcookies是把网站上的cookies复制粘贴进去的文件

 4 l = []

 5 for item in fr.readlines():

 6     item = str(item)

 7     item = pattern.search(item).group(1)

 8 #第七行使用item = re.search(pattern).group(1)会报错‘TypeError: expected string or buffer’，使用item = pattern.search(item).group(1) 就不会有这个错误

 9     l.append(item)

10 fr.close()

11 cookies = {}

12 for i in l:

13     key, value = i.split('\t',1) #每行有多个‘\t’，只分开第一个

14     cookies[key] = value

用以下代码模拟登陆豆瓣：

import requests

s=requests.get(testurl, cookies=cookies)

此时就能登陆了！

问题：cookies必须手动获取吗？还在找解决方法

方法二：使用requests.post直接带上用户名/密码/headers等信息登陆豆瓣，因为豆瓣有时需要填写验证码，因此我先登陆一遍，使用豆瓣转到的带有验证码的网址将验证码下载到本地，手动输入验证码后，将需要post的data加上验证码信息再post。

代码：

# -*- encoding:utf-8 -*-

import requests

import urllib2

import re

import urllib

from bs4 import BeautifulSoup

loginUrl = 'https://www.douban.com/accounts/login'

formdata = {'form_email':'144XXXXX530@qq.com',

            'form_password':'XXXXX',

            'redir':'https://www.douban.com/people/67249180/likes/'}

headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'}

r = requests.post(loginUrl,data=formdata,headers=headers)

page = r.text

print r.url  #此时page是需要填写验证码再进行登陆的界面

soup = BeautifulSoup(page,'html.parser')

captchaAddr = soup.find('img',id='captcha_image')['src']

#利用正则表达式获取captcha的ID

reCaptchaID = r'<input type="hidden" name="captcha-id" value="(.*?)"/'

captchaID = re.findall(reCaptchaID,page)

#print captchaID

#保存到本地

urllib.urlretrieve(captchaAddr,"captcha.jpg")

captcha = raw_input('please input the captcha:')

formdata['captcha-solution'] = captcha

formdata['captcha-id'] = captchaID

r = requests.post(loginUrl,data = formdata,headers = headers) #获取验证码以后再提交一遍

print r.url

page = r.text

if r.url == 'https://www.douban.com/people/67249180/likes/':

    soup = BeautifulSoup(page,'html.parser')

    result = soup.findAll('div',class_='title')

    #print result

    for item in result:

        print item.find('a').get_text()

其中字典的键值都是通过网页源代码获得的。

使用BeautifulSoup匹配关键词，也可以使用正则表达式，看你觉得哪一种的逻辑好理解了。

python模拟登陆豆瓣——简单方法的更多相关文章

Python模拟登陆万能法-微博|知乎
Python模拟登陆让不少人伤透脑筋,今天奉上一种万能登陆方法.你无须精通HTML,甚至也无须精通Python,但却能让你成功的进行模拟登陆.本文讲的是登陆所有网站的一种方法,并不局限于微博与知乎,仅 ...
Python爬虫(二十二)_selenium案例：模拟登陆豆瓣
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 #-*- coding:utf-8 -*- from sel ...
Python模拟登陆新浪微博
上篇介绍了新浪微博的登陆过程,这节使用Python编写一个模拟登陆的程序.讲解与程序如下: 1.主函数(WeiboMain.py): import urllib2 import cookielib i ...
Python模拟登陆TAPD
因为在wiki中未找到需要的数据,查询也很迷,打算用python登录tapd抓取所需项目下的wiki数据,方便查找. 2018-9-30 19:12:44 几步走模拟登录tapd 抓取wiki页左侧 ...
Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享
Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享支付宝十年账单上的数字有点吓人,但它统计的项目太多,只是想看看到底单纯在淘宝上支出了多少,于是写了段脚本,统计任意时间段淘宝订单的消费情况,看 ...
selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
Scrapy模拟登陆豆瓣抓取数据
scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件进入到douban 然后创建爬虫文件 scrapy genspider dou douban. ...
python 模拟登陆，请求包含cookie信息
需求: 1.通过GET方法,访问URL地址一,传入cookie参数 2.根据地址一返回的uuid,通过POST方法,传入cooki参数实现思路: 1.理解http的GET和POST差别 (网上有很多 ...
python模拟登陆之下载
好长时间没有更新博客了,哈哈. 今天公司给了这么一个需求,现在我们需要去淘宝获取上一天的订单号,然后再根据订单号去另一个接口去获取订单详情,然后再给我展示到web! 中间涉及到的技术点有: 模拟登陆 ...

随机推荐

python 全栈开发：数据类型整体分析
数据类型初始数据类型: int :用于计算. 例子:1.2.3.4........................... 常用方法操作: bit_length() ps:求一个数字转换成二 ...
2019.4.25 表格表单与HTML5 && CSS3
目录表格标签属性表格间距离表格的内边距表格的边框样式边框合并行合并列合并 display 表单标签属性提交的网址请求方式 input相关扩大响应范围字符密码单选框 ...
Mac下安装Iterm2终端工具
一般Iterm2是结合oh-my-zsh一起使用,但是如果不喜欢zsh也可以单独使用.Iterm2有个亮点就是可以通过快捷键快速启动. 安装步骤: 1.下载: http://www.iterm2.co ...
【HADR】搭建实战
Summary: 简单的HADR,只用一台虚拟机,两个实例间搭建.工作量不大,一般5分钟左右能够完成. 步骤: 1.设定归档模式 2.使用备份建立standby数据库 3.设定hadr相关的参数 4. ...
(转)调优 DB2 UDB v8.1 及其数据库的最佳实践
原文:https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0404mcarthur/index.html 简介性能是 ...
jQuery对象扩展方法(Extend)深度解析
1.这几天在写自己的Js工具类库,所以在编写对象扩展方法,参考了jQuery的对象扩展方法,在编写该方法前,需要掌握js深拷贝和浅拷贝的相关知识,下面是jQuery3.2.1版本对象扩展方法的源码: ...
Ubuntu14.04下Ambari安装搭建部署大数据集群（图文分五大步详解）（博主强烈推荐）
不多说,直接上干货! 写在前面的话 (1) 最近一段时间,因担任我团队实验室的大数据环境集群真实物理机器工作,至此,本人秉持负责.认真和细心的态度,先分别在虚拟机上模拟搭建ambari(基于CentO ...
maven install时报错 Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.12.4:test (default-test)
今天在一个maven项目上执行maven install命令的时候一直报错,错误信息如下: [INFO] ----------------------------------------------- ...
C/C++中字符串与数字转换
本文总结了四种字符串和数字相互转换的方法,方法一和方法二是c++中的方法,方法三和方法四是C语言库函数的方法. 方法一:c++11中string中添加了下面这些方法帮助完成字符串和数字的相互转换 st ...
mysql去除重复记录案例
例1,表中有主键(可唯一标识的字段),且该字段为数字类型 1 测试数据 /* 表结构 */ DROP TABLE IF EXISTS `t1`; CREATE TABLE IF NOT EXISTS ...

python模拟登陆豆瓣——简单方法

python模拟登陆豆瓣——简单方法的更多相关文章

随机推荐

热门专题