crawler碎碎念5 豆瓣爬取操作之登录练习

import requests

import html5lib

import re

from bs4 import BeautifulSoup

s = requests.Session()　　　　　　#这里要提一点，就是session的话就是对会话的一种维持，因为request缺乏持续性，仅限于2个相邻的页面

url_login = 'http://accounts.douban.com/login'

url_contacts = 'https://www.douban.com/people/****/contacts'

formdata = {

'redir':'https://www.douban.com',　　　　　　#重定向

'form_email':'t.t.panda@hotmail.com',

'form_password':'xxxxxxxxxxxxxx'，

'login':u'登陆'            

 }

‘‘‘

关于字符串前面的功能的补充

1.r/R

表示非转义的原始字符串，比如在字符串中如果出现\n是换行，但是如果在字符串的前面添加r则表示\和n两个字符，一般常见于正则表达式中。

2.b

Python3里默认的str是(Python2里的)unicode, bytes是(Python2)的str, b前缀代表的就是bytes。 Python2里, b前缀没什么具体意义， 只是为了兼容Python3的这种写法。

3.u/U

表示unicode字符串 ，不是仅仅是针对中文, 可以针对任何的字符串，代表是对字符串进行unicode编码。 一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u；但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。 建议所有编码方式采用UTF-8。

 ’‘’

headers = ' 这里自己打开开发者工具查看浏览器，复制粘贴就行了'

 r = requestys.post(url_login,data = formdata,headers= headers)

content = r.text

soup = BeautifulSoup(content,'html5lib')

captcha = soup.findall('img',id = 'captcha_image')        #查看是否有验证码

if captcha:

　　captcha_url  = captcha['src']

　　re_captcha_id = r'<input type-"hidden"name="captcha-id" value = "(.*?)"/'

　　captcha_id = re.findall(re_captcha_id,content)

　　print(captcha_id)

　　print(captcha_url)

　　print(captcha_url)

　　capycha_text = input('please input the captcha:')

　　formdata['captacha-solution'] =captcha_text

　　formdata['captacha-id'] =captcha_id

 　　r = requests.post(url_login,data = formdata,headers = headers)

print(r.text)

r = s.get(url_conteacts)

with open('contacts.txt','w+',encoding = 'utf-8'') as f:

　　　　f.write(r.text)

但是我们也发现每一次登陆都要输入密码和账户，还要验证，这也实在是太麻烦了，所以可以通过cookies，这就是我们常说的那些记住当前网址的密码

import requests


headers = {........}

cookies = {...........}

url = 'xxxxxxxxxxxx'

r= requests.get(url,cookies=cookies,headers = headers)

print(r.text)

with open('sssss.txt','wb+') as f :

　　f.write(r.content)

这其实就是最基本的一个爬虫套路模板了

关于上面的那个爬虫，爬出来的其实是验证码的图片，还需要手动打开然后识别图片里面的数字再手动输入，这个其实也是很麻烦的

这里先给出思路以后验证（如果还记得的呼哈）

1，利用selenium打开图片所在网页，保存这张图片，把图片读取到百度识图的api中，得到的答案自动反馈给程序

2，有一种设想，既然最后他要验证你输入的验证码对不对，那是不是图片的网页信息里面就夹杂着要比对的信息，那我是不是可以直接爬取这个然后反馈给程序？

3，要么索性偷个懒，链接挂到网上的验证码识别平台（滑稽）

crawler碎碎念5 豆瓣爬取操作之登录练习的更多相关文章

crawler碎碎念6 豆瓣爬取操作之获取数据
import requests from lxml import etree s = requests.Session() for id in range(0,251,25): url ='https ...
python学习（七）--豆瓣爬取电影名，评分以及演员
import requestsimport re #爬取豆瓣电影排名pageNum = int(input("要查看第几页电影分数:"))#已知豆瓣默认每页展示20条#url= & ...
菜鸟学IT之豆瓣爬取初体验
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据: newsdf = pd.re ...
洗礼灵魂，修炼python（67）--爬虫篇—cookielib之爬取需要账户登录验证的网站
学完前面的教程,相信你已经能爬取大部分的网站信息了,但是当你爬的网站多了,你应该会发现一个新问题,有的网站需要登录账户才能看到更多的信息对吧?那么这种网站怎么爬取呢?这些登录数据就是今天要说的——co ...
爬虫之Beautfulsoup模块及新闻爬取操作
今日内容概要 IP代理池的概念及使用 requests其他方法补充 Beautifulsoup模块避免你自己写正则表达式利用该模块爬取京东的商品信息今日内容详细 IP代理池的概念及使用 1.有很 ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
Python爬取《冰雪奇缘2》豆瓣影评
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 刘铨@CCIS Lab PS:如有需要Python学习资料的小伙伴可 ...
go爬虫之爬取豆瓣电影
go爬取豆瓣电影好久没使用go语言做个项目了,上午闲来无事花了点时间使用golang来爬取豆瓣top电影,这里我没有用colly框架而是自己设计简单流程.mark一下思路定义两个channel, ...

随机推荐

Java内存溢出java.lang.OutOfMemoryError: PermGen space
今天把以前的一个项目部署在tomcat,启动没问题.因为用到了webservice,当调用webservice中的方法时一直报内存溢出异常 Exception in thread "http ...
【2016福建省夏令营Day1】数据结构
Problem 1 楼房(build.cpp/c/pas) [题目描述] 地平线(x轴)上有n个矩(lou)形(fang),用三个整数h[i],l[i],r[i]来表示第i个矩形:矩形左下角为(l[i ...
Squid使用账号密码进行认证
Squid 3.5支持ssl代理,为保证安全和滥用,可以使用简单的认证. Step1:在squid的配置文件中,添加如下: auth_param basic program /usr/lib64/sq ...
Github Pages 无法调用 node_modules 文件夹的解决方案
今天写一个demo,用npm安装的前端库,然后想在github的pages上展示出来发布到github后,发现node_modules文件夹下的js无法调用 google解决方案:新增一个名字为.n ...
boostrap-非常好用但是容易让人忽略的地方【7】：list-unstyled list-inline
无样式列表 list-unstyled:去掉ul的默认样式内联列表 list-inline:将ul子元素放置于同一行
com.mysql.jdbc.PacketTooBigException: Packet for query is too large (1680 > 1024). You can change this value on the server by setting the max_allowed_packet' variable.
这个错误是由于mysql的一个系统参数max_allowed_packet设置的值过小引起的解决这个错误的方法就是修改这个参数的值, linux系统中我们在etc目录下找到my.cnf这个文件,打开 ...
TCP/IP||Traceroute
1.概述由Van jacobson编写的工具,用于探索tcp/ip协议,使用ICMP报文和首部TTL字段,TTL字段由发送端设置一个8bit字段,初始值为RFC指定,当前值为64, 每个处理数据的路 ...
使用SonarQube+Eclipse来分析python代码
背景最近在项目中推广集成测试的理念以及相关工具,在jenkins中集成sonar去分析项目的java代码的时候,意外的发现,sonarqube上还有对应python的插件,而自己写的测试工具大部分都 ...
Eclipse+Tomcat+MAVEN开发环境配置
https://blog.csdn.net/zhshulin/article/details/30779873 补充: 1.eclipse配置tomcat window——preferences——s ...
JVM探秘：垃圾收集器
本系列笔记主要基于<深入理解Java虚拟机:JVM高级特性与最佳实践第2版>,是这本书的读书笔记. 垃圾收集器垃圾收集算法是是内存回收的方法论,垃圾收集器是内存回收的具体实现.不同的虚 ...

crawler碎碎念5 豆瓣爬取操作之登录练习

crawler碎碎念5 豆瓣爬取操作之登录练习的更多相关文章

随机推荐

热门专题