Python网络数据采集4-POST提交与Cookie的处理
Python网络数据采集4-POST提交与Cookie的处理
POST提交
之前访问页面都是用的get提交方式,有些网页需要登录才能访问,此时需要提交参数。虽然在一些网页,get方式也能提交参。比如https://www.some-web-site.com?param1=username¶m2=age就能直接访问该网页。但是在登录这种需要安全性的地方。还是通过表单提交的方式好。此时就需要用到post提交了。这在requests库中特别简单。指定data参数就行了。
表单提交例子这个网页有个表单。
<form action="processing.php" method="post">
First name: <input name="firstname" type="text"><br>
Last name: <input name="lastname" type="text"><br>
<input id="submit" type="submit" value="Submit">
</form>
method属性里可以看到提交方式是POST。action属性里可以看到,我们表单提交后实际上会转到processing.php这个页面进行表单处理。所以我们应该访问这个页面,进行表单参数的传递。
在往requests的data传入参数的时候,注意对应input标签的name属性就行。他们分别是firstname、lastname。
import requests
url = 'https://pythonscraping.com/pages/files/processing.php'
params = {'firstname': 'Sun', 'lastname': 'Haiyu'}
r = requests.post(url, data=params, allow_redirects=False)
print(r.text)
Hello there, Sun Haiyu!
上传文件
虽然在爬虫中,上传文件几乎用不到。但是有必要了解下基本用法。使用requests的files参数就可以轻松实现。
这个网页可以上传图片。同样是一个表单。
<form action="processing2.php" enctype="multipart/form-data" method="post">
Submit a jpg, png, or gif: <input name="uploadFile" type="file"><br>
<input type="submit" value="Upload File">
</form>
和上面例子一样,我们需要访问的实际页面是processing2.php,提交方法依然是POST。参数name为uploadFile。
import requests
url = 'https://pythonscraping.com/pages/files/processing2.php'
files = {'uploadFile': open('abc.PNG', 'rb')}
r = requests.post(url, files=files)
print(r.text)
Sorry, there was an error uploading your file.
代码是没有问题的,而且在浏览器里是上传也是这个结果。估计书中提供的网址有问题吧...
处理登录和Cookie
Cookie用来跟踪用户是否已经登录的状态信息。一旦网站认证了我们的登录,就会将cookie存到浏览器中,里面包含了服务器生成的令牌、登录有效时长、状态跟踪信息。当登陆有效时长达到,我们的登录状态就被清空,想要访问其他需要登录后才能访问的页面也就不能成功了。还是先登录,然后获取cookie。
<form action="welcome.php" method="post">
Username (use anything!): <input name="username" type="text"><br>
Password (try "password"): <input name="password" type="password"><br>
<input type="submit" value="Login">
</form>
可以看到,登录后会进入welcome.php,输入账号和密码(账号任意, 密码必须是password)。
登录成功后,可以使用get方式访问简介页面
注意由于requests.get('https://pythonscraping.com/pages/cookies/profile.php')不会知道我们“已经登录了”这个状态,所以直接访问是不行的。但是若是传入登录成功后得到的cookie,这个信息让浏览器知道我已经登录,所以请给我看profile.php,浏览器看到这个令牌就会同意。
import requests
url = 'https://pythonscraping.com/pages/cookies/welcome.php'
params = {'username': 'Ryan', 'password': 'password'}
r = requests.post(url, params)
print(r.cookies.get_dict())
res = requests.get('https://pythonscraping.com/pages/cookies/profile.php', cookies=r.cookies)
print(res.text)
{'loggedin': '1', 'username': 'Ryan'}
Hey Ryan! Looks like you're still logged into the site!
其他登录认证方式
还有一些登录认证方式,比如HTTP基本接入认证。使用requests的auth参数。
import requests
url = 'https://pythonscraping.com/pages/auth/login.php'
res = requests.get(url, auth=('sun', '123456'))
print(res.text)
<p>Hello sun.</p><p>You entered 123456 as your password.</p>
像上面那样,向auth传入一个含有两个元素的元组,分别是账号和密码。
by @sunhaiyu
2017.7.17
Python网络数据采集4-POST提交与Cookie的处理的更多相关文章
- 笔记之Python网络数据采集
笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, ...
- Python网络数据采集6-隐含输入字段
Python网络数据采集6-隐含输入字段 selenium的get_cookies可以轻松获取所有cookie. from pprint import pprint from selenium imp ...
- Python网络数据采集PDF高清完整版免费下载|百度云盘
百度云盘:Python网络数据采集PDF高清完整版免费下载 提取码:1vc5 内容简介 本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导.第 ...
- Python网络数据采集7-单元测试与Selenium自动化测试
Python网络数据采集7-单元测试与Selenium自动化测试 单元测试 Python中使用内置库unittest可完成单元测试.只要继承unittest.TestCase类,就可以实现下面的功能. ...
- Python网络数据采集3-数据存到CSV以及MySql
Python网络数据采集3-数据存到CSV以及MySql 先热热身,下载某个页面的所有图片. import requests from bs4 import BeautifulSoup headers ...
- [python] 网络数据采集 操作清单 BeautifulSoup、Selenium、Tesseract、CSV等
Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesseract.CSV等 Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesse ...
- Python网络数据采集2-wikipedia
Python网络数据采集2-wikipedia 随机链接跳转 获取维基百科的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...
- Python网络数据采集1-Beautifulsoup的使用
Python网络数据采集1-Beautifulsoup的使用 来自此书: [美]Ryan Mitchell <Python网络数据采集>,例子是照搬的,觉得跟着敲一遍还是有作用的,所以记录 ...
- Python网络数据采集PDF
Python网络数据采集(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q 提取码:febb 复制这段内容后打开百度网盘手 ...
随机推荐
- MFC简单绘制安卓机器人
原始日期:2014-03-29 20:35 众所周知,google的安卓机器人形象十分经典,包括眼睛的位置,胳膊以及天线的位置都是有固定位置和比例的,而且是最恰当的,看起来最美.而微软基础类库MFC绘 ...
- Angular中使用Swiper不能滑动的解决方法
Swiper是目前较为流行的移动端触摸滑动插件,因为其简单好用易上手,很受很多设计师的欢迎. 今天在使用Swiper的时候遇到这个问题: 使用angularjs动态循环生成swiper-slide类, ...
- win7老是弹出“Windows Media PIayer网络共享服务配置应用程序 已停止工作”
应是优化软件的时候把服务禁止启动了. 我的电脑 > 管理 > 服务和应用程序 > 服务 Windows Media Player Network Sharing Service 启动 ...
- CYQ.Data V5 分布式自动化缓存设计介绍(二)
前言: 最近一段时间,开始了<IT连>创业,所以精力和写的文章多数是在分享创业的过程. 而关于本人三大框架CYQ.Data.Aries.Taurus.MVC的相关文章,基本都很少写了. 但 ...
- MySQL数据表的创建、查看、插入
数据表:数据表(或称表)是数据库最重要的组成部分之一,是其他对象的基础. 1.首先我们打开一个数据库(这里我打开的是新创建的一个aaa数据库). 打开数据库:use + 数据库名; 2 ...
- Ubantu 16.4 samba安装配置
本文总结了Ubantu 16.04 环境下的samba安装.配置及使用.本文为原创,也是我的第一篇博客,以后会经常写博客,记录自己的学习.总结及研究,让博客见证着我成长的轨迹. 下文中的所有命令均使用 ...
- 2017寒假零基础学习Python系列之函数之 递归函数
什么是递归函数? 在函数内部,也可以继续调用其他函数,如果一个函数在内部调用本身,这个函数为递归函数举一个求n的阶乘的例子: def fact(n): if n == 1: return 1; els ...
- [图形学] 结束 [Unity Shader] 开始
历时4个月,终于把<计算机图形学 with OpenGL>啃完了.如果边上班边看,即使一年应该都看不完. 虽然书里用到的GLUT库应该已经废弃,但并不影响用它去理解图形学的内容,我只把它当 ...
- 角点检测和匹配——Harris算子
一.基本概念 角点corner:可以将角点看做两个边缘的交叉处,在两个方向上都有较大的变化.具体可由下图中分辨出来: 兴趣点interest point:兴趣点是图像中能够较鲁棒的检测出来的点,它不仅 ...
- python的高级应用
记录一下Python函数式编程,高级的几个BIF,高级官方库方面的用法和心得. 函数式编程 函数式编程是使用一系列函数去解决问题,按照一般编程思维,面对问题时我们的思考方式是"怎么干&quo ...