Python爬虫学习笔记——豆瓣登陆(三)

之前是不会想到登陆一个豆瓣会需要写三次博客，修改三次代码的。

本来昨天上午之前的代码用的挺好的，下午时候，我重新注册了一个号，怕豆瓣大号被封，想用小号爬，然后就开始出问题了，发现无法模拟登陆豆瓣了，开始想难道是账号的问题？就又修改成原来的账号和密码，发现仍然无法登陆

想不会这么衰吧，还没开始怕就被豆瓣封了？但是浏览器登录又没有任何问题，这个时候自己完全摸不着头脑，折腾了半天还是不能解决。

最后想起来有Fiddler 这个神器，就抓了一下request和response包，发现response headers里有一个Location，Raw文件里写着302 Found，一查，是链接被重定向了，Location里的就是新的重定向的链接，浏览器能够自动重定向，所以不会出问题，但是代码不会自动给你重定向。可是！！！！！蛋疼的是！！！我看了headers返回的Location链接！！！！不是和原来一毛一样吗！！！！！

傻逼的是又折腾了好久。。。结果！！！尼玛的链接竟然从http的变成了https的，我压根没留意到s的区别。。。浪费了我个吧小时- -#

把链接都改为https以后，昨天能用了，但今天写的时候，突然又出error了，

captchaAddr = soup.find('img',id='captcha_image')['src'] line 28

TypeError: 'NoneType' object is not subscriptable

是find最后返回了一个None，这表示没有找到验证码的图片，这个就是豆瓣的一个机制，不一定要输入验证码，所以可以稍微修改一下代码，最后的代码如下:

#-*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

import html5lib

import re

import urllib

s = requests.Session()

url1 = 'https://accounts.douban.com/login'

url2 = 'https://www.douban.com/people/****/contacts'

formdata={

"redir":"https://www.douban.com/",

"form_email":"your email",

"form_password":"your password",

#'captcha-solution':'blood',

#'captcha-id':'cRPGXEYPFHjkfv3u7K4Pm0v1:en',

"login":u"登录"

}

headers = {

"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36",

#"Location": "https://accounts.douban.com/login"

}

r1 = s.post(url1,data=formdata,headers=headers)

rcontent = r1.text

soup = BeautifulSoup(rcontent,"html5lib")

#安装了html5lib没用python本身的html解析库

captchaAddr = soup.find('img',id='captcha_image')['src']

if captchaAddr != None:

   reCaptchaID = r'<input type="hidden" name="captcha-id" value="(.*?)"/'

   captchaID = re.findall(reCaptchaID,rcontent)

   print(captchaID)

   urllib.request.urlretrieve(captchaAddr,"captcha.jpg")

   captcha = input('please input the captcha:')

   formdata['captcha-solution'] = captcha

   formdata['captcha-id'] = captchaID

   r1 = s.post(url1,data=formdata,headers=headers)

r2 = s.get(url2)

f = open('spider2.txt','w',encoding='utf-8')

f.write(r1.text)

f.close()

Python爬虫学习笔记——豆瓣登陆(三)的更多相关文章

Python爬虫学习笔记——豆瓣登陆(一)
#-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import html5lib import re import ...
Python爬虫学习笔记——豆瓣登陆(二)
昨天能够登陆成功,但是不能使用cookies,今天试了一下requests库的Session(),发现可以保持会话了,代码只是稍作改动. #-*- coding:utf-8 -*- import re ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
Python爬虫学习 - day2 - 站点登陆
利用Python完成简单的站点登陆最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的登陆抽屉新热榜的教程(因为它不需要验证码,目前还没有学会图像识别.哈哈),供大家 ...
Python爬虫学习笔记——防豆瓣反爬虫
开始慢慢测试爬虫以后会发现IP老被封,原因应该就是单位时间里面访问次数过多,虽然最简单的方法就是降低访问频率,但是又不想降低访问频率怎么办呢?查了一下最简单的方法就是使用转轮代理IP,网上找了一些方法 ...
Python爬虫学习笔记之模拟登陆并爬去GitHub
(1)环境准备: 请确保已经安装了requests和lxml库 (2)分析登陆过程: 首先要分析登陆的过程,需要探究后台的登陆请求是怎样发送的,登陆之后又有怎样的处理过程. 如果已经 ...
python爬虫学习笔记
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)“抓取系统”的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 简单来讲就是尽可 ...
一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记！
前言还记得是大学2年级的时候,偶然之间看到了学长在学习python:我就坐在旁边看他敲着代码,感觉很好奇.感觉很酷,从那之后,我就想和学长一样的厉害,就想让学长教我,请他吃了一周的饭,他答应了.从此 ...

随机推荐

arm裸机驱动错误总结
错误001:
后台获取不规则排列RadioButton组的值
获取多个RadioButton的值,我们一般会使用服务器控件RadioButtonList: <asp:RadioButtonList ID="rbl" runat=&quo ...
iOS之沙盒机制和如何获取沙盒路径
iOS APP可以在自己的沙盒里读写文件,但是,不可以访问其他APP的沙盒.每一个APP都是一个信息孤岛,相互是不可以进行通信的,唯独可以通过URL Scheme.沙盒里面的文件可以是照片.声音文件. ...
javaweb-dbcp2
package cn.itcast.utils; import java.io.InputStream;import java.sql.Connection;import java.sql.Drive ...
android手机连接PC无法正常安装驱动
工作当中我们经常会遇到Android手机连接PC的时候无法正确安装驱动,或者安装失败.当然找到正确的驱动文件时首选的解决方案,如果正确的驱动文件依旧无法安装成功我们可以打开我的电脑-->属性-- ...
Git 的安装和创建版本库。
Git 的优点就不再多说了 .直接进入正题吧 . 安装Git 首先可以尝试输入 Git 看看有没有反映 . $ git The program 'git' is currently not insta ...
14、SQL基础整理（存储过程）
存储过程procedure(proc) 数据库—可编程性—存储过程新建存储过程: create proc firstproc as select *from fenshu go 执行存储过程: 存储 ...
D - Charm Bracelet 背包问题
Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Submit Status Pra ...
前端学习资源（js）
JavaScript JavaScript | MDN JavaScript 秘密花园 JavaScript 标准参考教程(alpha) 给 JavaScript 初心者的 ES2015 实战 Col ...
Qt之镜像旋转
简述 Qt中可以对图片进行任何处理,改变亮度.灰度.透明度.大小.形状等,当然也可以进行镜像旋转! 简单的几行代码,有时就可以事半功倍...甚至图片不用经过美工处理就可以直接拿来使用! 简述实现原 ...

Python爬虫学习笔记——豆瓣登陆(三)

Python爬虫学习笔记——豆瓣登陆(三)的更多相关文章

随机推荐

热门专题