python 面对post分页爬虫

分享一则对于网抓中面对post请求访问的页面或者在分页过程中需要post请求才可以访问的内容！

面的post请求的网址是不可以零参访问网址的，所以我们在网抓的过程中需要给请求传表单数据，下面看一下网页中post请求的网址：

post请求状态码和get请求的状态码一致，但是在参数中我们可以看到表单数据有很多的参数：

其中的__VIEWSTATE是必须要传的参数，而这个参数是在源码中能获取到的，这个__VIEWSTATE是asp.net中特有的，所以只有在访问asp.net的网站的时候这个参数是必须传的，其他的网站，只要有参数变化的表单数据就需要传到post请求中！

我们在转页的过程中会看到类似于这样的表单，那后面的数字就是我们转页后的页码！所以我们的这个参数也要传，获取转页的页码的总数，同样可以在源码中获取，如果只显示了1234页，那就需要计算你需要的内容有多少个，每一页的内容个数，做一个取余算法就可以算出来了！

现在定义一个post_data：

 post_data={"__EVENTTARGET":"Pager1","__EVENTARGUMENT":page_num,"ddlManufacturer":"","Pager1_input":str(page_num-1)}

这是我自定义的post参数，page_num代表着分页的页码。

__VIEWSTATE是在源码中，这里分享的是xpath方法：

 a = doc.xpath('//input[@id="__VIEWSTATE"]')

 if len(a) > 0:

     post_data['__VIEWSTATE'] = a[0].get('value')

使用BeautifulSoup就是：

 soup = BeautifulSoup(h,"html.parser")

 a = soup.find('input',id='__VIEWSTATE')

 if a:

     post_data['__VIEWSTATE'] = a['value']

获取到重要的表单数据后，我们就只需要传参访问网页源码了！

 r2 = requests.post(url,data=post_data,headers=headers,timeout=20)

 ht2 = r2.content  #这里就是访问的网页源码！

xpath的解析代码： doc2 = HTML.document_fromstring(网页源码)

网页的简单post请求就是这样来传递参数，访问的！我自己还有很多的学习资料分享在607021567qq群里面了！还有微信飞机大战的源代码分享！

python 面对post分页爬虫的更多相关文章

Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
零基础入门Python实战:四周实现爬虫网站 Django项目视频教程
点击了解更多Python课程>>> 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程适用人群: 即将毕业的大学生,工资低工作重的白领,渴望崭露头角的职场新人, ...
Python - 面对对象(进阶)
目录 Python - 面对对象(进阶) 类的成员一. 字段二. 方法三. 属性类的修饰符类的特殊成员 Python - 面对对象(进阶) 类的成员一. 字段字段包括:普通字段和静态字段 ...
【Python】：简单爬虫作业
使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道使用python/casperjs编写终极爬虫-客户端App的抓取
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
洗礼灵魂，修炼python（69）--爬虫篇—番外篇之feedparser模块
feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom .使用它我们可从任何 RSS 或 Atom 订阅源得到标题.链接和文章的 ...
洗礼灵魂，修炼python（50）--爬虫篇—基础认识
爬虫 1.什么是爬虫爬虫就是昆虫一类的其中一个爬行物种,擅长爬行. 哈哈,开玩笑,在编程里,爬虫其实全名叫网络爬虫,网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者 ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...

随机推荐

oracle开启一个用户
我的工具,PL/SQL Developer(其他工具大同小意) 1.用系统管理员账号登入数据库账号是:sys, connect as:sysdba 登入进入如下页面. 2.查看所有用户( ...
python 携带cookie访问网站（python接口测试post）
最近在使用自己研究性能测试工具的时候想到,使用python向服务器不断发送数据以作为并发测试.大概情况如下: #coding=utf-8 import urllib2 import urllib im ...
吾八哥学Python(六)：运算符与表达式
上篇简单学习了数学运算符,今天来学习下完整的Python运算符与表达式,具体看下面的表格吧! 表1 运算符与它们的用法运算符名称说明例子 + 加两个对象相加 3 + 5得到8.’a’ + ‘ ...
张高兴的 Xamarin.Android 学习笔记：（一）环境配置
最近在自学 Xamarin 和 Android ,同时发现国内在做 Xamarin 的不多.我在自学中间遇到了很多问题,而且百度到的很多教程也有些过时,现在打算写点东西稍微总结下,顺便帮后人指指路了. ...
hibernate利用mysql的自增张id属性实现自增长id和手动赋值id并存
我们知道在mysql中如果设置了表id为自增长属性的话,insert语句中如果对id赋值(值没有被用到过)了,则插入的数据的id会为用户设置的值,并且该表的id的最大值会重新计算,以插入后表的id最大 ...
Python基础3切片，字符串的方法
切片:截取字符串某一段字符,并不改变原字符串.结构:[起始位置:终止位置:步长] 但不包括终止位置.所谓:顾头不顾尾索引:序列中每个元素都是有编号的,都是从0开始编号的.使用负数索引时,Pytho ...
VS2017生成解决方案报错，提示对路径的访问被拒绝
目前我用的vs2017的版本是15.3.5.生成解决方案有时会提示如下: 开始以为是权限的问题,找到相应的目录设置everyone权限,再次生成还是不行.重启VS试了下,还是不行. 最后无奈重启下电脑 ...
ALV添加文字输入框
一.业务场景在合同打印中,需要临时添加其他约定事项,在打印程序的ALV中添加其他事项字段,点击之后弹出文字输入窗口,点击确定,文字内容存表,并在ALV中展示,点击打印后,文字内容加载到smartfo ...
为什么国外的 App 很少会有开屏广告？
前言: 笔者在知乎看到这个问题,觉得这的确是一个值得关注和回答的现象,遂写了回答并整理成本文发布在此抛砖引玉,欢迎讨论. 正文: 古话说得好,先问是不是,再问为什么. 对于「国外的 App 很少有开屏 ...
(MariaDB)MySQL内置函数大全
html { font-family: sans-serif } body { margin: 0 } article,aside,details,figcaption,figure,footer,h ...

python 面对post分页爬虫

python 面对post分页爬虫的更多相关文章

随机推荐

热门专题