Python爬虫学习笔记——豆瓣登陆(一)

#-*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

import html5lib

import re

import urllib

url1 = 'http://accounts.douban.com/login'

url2 = 'http://www.douban.com/people/*****/contacts'

formdata={

"redir":"http://www.douban.com/",

"form_email":"************",

"form_password":"*******",

#'captcha-solution':'blood',

#'captcha-id':'cRPGXEYPFHjkfv3u7K4Pm0v1:en',

"login":"登录"

}

headers = {

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

    "Accept-Encoding":"gzip, deflate, sdch",

    "Accept-Language":"zh-CN,zh;q=0.8",

    "Referer":"http://accounts.douban.com/login",

    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"

}

r1 = requests.post(url1,data=formdata,headers=headers)

rcontent = r1.text

soup = BeautifulSoup(rcontent,"html5lib")

#安装了html5lib没用python本身的html解析库

captchaAddr = soup.find('img',id='captcha_image')['src']

reCaptchaID = r'<input type="hidden" name="captcha-id" value="(.*?)"/'

captchaID = re.findall(reCaptchaID,rcontent)

print(captchaID)

urllib.request.urlretrieve(captchaAddr,"captcha.jpg")

captcha = input('please input the captcha:')

formdata['captcha-solution'] = captcha

formdata['captcha-id'] = captchaID

r1 = requests.post(url1,data=formdata,headers=headers)

r2 = requests.get(url2,cookies=r1.cookies,headers=headers)

f = open('spider2.txt','w',encoding='utf-8')

f.write(r2.text)

f.close()

目前能够登陆成功，但是cookies不能用，容我再研究研究requests。。。

windows，python,sublime编码真是处处是坑，今天一直在折腾UTF-8和GBK编码的问题了，网上很多方法都试了最后都不管用

sublime的真的没辙了ctrl+b一直提示decode error，最后是直接cmd import module运行的，还是碰到了GBK编码问题，最后在open一个文件的时候，使用强制的encoding='utf-8'解决的。

PS：关于手动输入验证码，这个是参考下面的帖子的，其实我bs的库没怎么研究过，还不大懂，学python也没多久，再学习学习，看看是否能够自动识别，因为本身在做人工神经网络的毕设，不知道能不能使用。或者绕过验证码，貌似豆瓣有给api的，但是自己算边学边练习吧

参考链接：http://blog.csdn.net/andrewseu/article/details/47253791

http://blog.csdn.net/greatpresident/article/details/8209712

Python爬虫学习笔记——豆瓣登陆(一)的更多相关文章

Python爬虫学习笔记——豆瓣登陆(三)
之前是不会想到登陆一个豆瓣会需要写三次博客,修改三次代码的. 本来昨天上午之前的代码用的挺好的,下午时候,我重新注册了一个号,怕豆瓣大号被封,想用小号爬,然后就开始出问题了,发现无法模拟登陆豆瓣了,开 ...
Python爬虫学习笔记——豆瓣登陆(二)
昨天能够登陆成功,但是不能使用cookies,今天试了一下requests库的Session(),发现可以保持会话了,代码只是稍作改动. #-*- coding:utf-8 -*- import re ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
Python爬虫学习 - day2 - 站点登陆
利用Python完成简单的站点登陆最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的登陆抽屉新热榜的教程(因为它不需要验证码,目前还没有学会图像识别.哈哈),供大家 ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
Python爬虫学习笔记——防豆瓣反爬虫
开始慢慢测试爬虫以后会发现IP老被封,原因应该就是单位时间里面访问次数过多,虽然最简单的方法就是降低访问频率,但是又不想降低访问频率怎么办呢?查了一下最简单的方法就是使用转轮代理IP,网上找了一些方法 ...
Python爬虫学习笔记之模拟登陆并爬去GitHub
(1)环境准备: 请确保已经安装了requests和lxml库 (2)分析登陆过程: 首先要分析登陆的过程,需要探究后台的登陆请求是怎样发送的,登陆之后又有怎样的处理过程. 如果已经 ...
python爬虫学习笔记
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)“抓取系统”的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 简单来讲就是尽可 ...
Python、pip和scrapy的安装——Python爬虫学习笔记1
Python作为爬虫语言非常受欢迎,近期项目需要,很是学习了一番Python,在此记录学习过程:首先因为是初学,而且当时要求很快速的出demo,所以首先想到的是框架,一番查找选用了Python界大名鼎 ...

随机推荐

java基础之泛型
泛型(Generic type 或者generics)是对 Java 语言的类型系统的一种扩展,以支持创建可以按类型进行参数化的类.可以把类型参数看作是使用参数化类型时指定的类型的一个占位符,就像方法 ...
Unity截屏
方式一:直接使用unity自带的截图函数 Application.CaptureScreenshot(“imagename”); 保存路径: 在PC上保存路径为Application.dataPath ...
C语言中的getchar和putchar详解
首先给出<The_C_Programming_Language>这本书中的例子: #include <stdio.h> int main(){ int c; c ...
元素ID命名规范
因为本框架默认所有内容都位于一个Document中,所以为元素命名为ID的时候需要做到唯一性,如果确实不可避免的会出现有重读ID的现象,需要操作当前页片(页面片段,就是子页面)的时候,尽量用: $.C ...
namenode 和datanode无法启动，错误：FSNamesystem initialization failed. datanode.DataNode: Incompatible namespaceIDs
问题一: namenode无法启动,查看日志,错误信息如下: org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem ini ...
IOS开发中--点击imageView上的Button没有任何反应
点击imageView上的Button没有任何反应: 解决方法:设置图片的userInteractionEnabled为YES,使该imageView可以与用户进行交互
GoldenGate 之 Bounded Recovery说明
首先,我们来看两个OGG同步中可能的问题: l oracle在线日志包含已提交的和未提交的事务,但OGG只会将已提交的事务写入到队列文件.因此,针对未提交的事务,特别是未提交的长事务,OGG会怎样处理 ...
protected 和default的区别
default:包内可见,包外不可见 protected:包内可见,包外不可见,但是包外继承之后可见.
IIS 6.0 401 错误
1.错误号401.1 症状:HTTP 错误 401.1 - 未经授权:访问由于凭据无效被拒绝分析: 由于用户匿名访问使用的账号(默认是IUSR_机器名)被禁用,或者没有权限访问计算机,将造成用户无 ...
AutoReleasePool 和 ARC 以及Garbage Collection
AutoReleasePool autoreleasepool并不是总是被auto 创建,然后自动维护应用创建的对象. 自动创建的情况如下: 1. 使用NSThread的detachNewThread ...

Python爬虫学习笔记——豆瓣登陆(一)

Python爬虫学习笔记——豆瓣登陆(一)的更多相关文章

随机推荐

热门专题