Python爬虫与一汽项目【三】爬取中国五矿集团采购平台

网站地址：http://ec.mcc.com.cn/b2b/web/two/indexinfoAction.do?actionType=showMoreCgxx&xxposition=cgxx

本来以为这是个老老实实的get请求，谁知道在翻页的时候发现提交请求的方式是post，

好在首页用get方式可以轻松获取到html源码，没有像之前的东方电气那么烦人。

在这里采用了简单的post提交方式，因此观察翻页即可发现，页面的改变和FormData有关

通过更改formdata中的currpage即可实现翻页提交。

使用post方式时，数据放在data或者body中，不能放在url中，放在url中将被忽略。

urllib2用一个Request对象来映射所提出的HTTP请求。

通过请求的地址创建一个Request对象，

通过调用urlopen并传入Request对象，将返回一个相关请求response对象，

这个应答对象如同一个文件对象，所以要在Response中调用.read()

def get_one_page(url,data):

    try:

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'

        }

        #将传过来的data进行编码，变成bytes格式的数据

        dataEncode = urllib.parse.urlencode(data).encode('utf-8')

        #获取网页响应内容，用到了urllib模块

        request = urllib.request.Request(url=url, headers=headers,data=dataEncode)

        response = urllib.request.urlopen(request)

        #获取应答对象

        return response.read().decode('utf-8')

    except RequestException:

        return None

　　主方法中构造data

def main():

    url = "http://ec.mcc.com.cn/b2b/web/two/indexinfoAction.do?actionType=showMoreCgxx&xxposition=cgxx"

    #构造post表单所提交的数据

    data = {

        'currpage': 1,

        'xxposition': 'cgxx'

    }

    html = get_one_page(url,data)

    print(html)

接下来可以通过循环构造最大页数，并将最大页传给data，循环获取每一页的内容即可。

#直接修改data的value值即可

    for i in range(2,page_num+1):

        data['currpage'] = i

Python爬虫与一汽项目【三】爬取中国五矿集团采购平台的更多相关文章

Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息
目标之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...
python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
Python爬虫与一汽项目【二】爬取中国东方电气集中采购平台
网站地址:https://srm.dongfang.com/bid_detail.screen 东方电气采购的页面看似很友好,实际上并不好爬取在观察网页的审查元素之后发现,1处的网页响应只是单纯的一 ...
Python爬虫与一汽项目【一】爬取中海油，邮政，国家电网问题总结
项目介绍中国海洋石油是爬取的第一个企业,之后依次爬取了,国家电网,中国邮政,这三家公司的源码并没有多大难度, 采购信息地址: 国家电网电子商务平台 http://ecp.sgcc.com.cn/pr ...
Python爬虫与一汽项目【综述】
项目来源这个爬虫项目是去年实验室去一汽后的第一个项目(基本交工,现在处于更新维护阶段).内容大概是,获取到全国31个省份政府的关于汽车的招标公告,再用图形界面的方式展示爬虫内容.在完成政府招标采购 ...
小白学 Python 爬虫（25）：爬取股票信息
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用"老龄智能"在百度百家号中搜索文章,爬取文章内容和相关信息. 观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道.首先看 ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
Python 爬虫练习（二）爬取补天公益SRC厂商域名URL (2017年11月22日)
介绍下: 补天是国内知名的漏洞响应平台,旨在企业和白帽子共赢. 白帽子在这里提交厂商漏洞,获得库币和荣誉,厂商从这里发布众测.获取漏洞报告和修复建议. 在2017年3月份之前,补天的厂商域名URL是非 ...

随机推荐

tp 5.0 mysql 事物
mysql 默认 MyISAM存储引擎,不支持事物处理,InnoDB存储引擎提供了具有提交.回滚和崩溃恢复能力的事务安全.但是对比Myisam的存储引擎,InnoDB写的处理效率差一些并且会占用更多 ...
实现全选、全不选功能 JQuery
<input type="checkbox" name="" id="checkAllChange" value="&quo ...
C# string contains 不区分大小写
一种方法是把字符串转成小写/大写,然后包含的字符串也写成小写 /大写另一种方法是: 1 string title = "STRING"; 2 bool contains = ti ...
NOIP 2017 解题报告
---恢复内容开始--- NOIP 2017 的题真的很难啊,怪不得当年我这个萌新爆零了(当然现在也是萌新)越学越觉得自己什么都不会. 想要成为强者要把这些好题都弄懂弄透至少现在6道题我都比较陌生 ...
Win10 将slim加入PYTHONPYTH
1.LINUX 命令 export PYTHONPATH=$PYTHONPATH:'pwd':'pwd'/slim 2.Windows 命令 SET PYTHONPATH=%cd%;%cd%\slim ...
获取本机IP地址的方法
public class Test { public static void main(String[] strings) { try { InetAddress candidateAddress = ...
Redis的数据结构之sorted-set
存储Sorted-Set Sorted-Set和Set的区别 Sorted-Set中的成员在集合中的位置是有序的存储Sorted-set常用命令添加元素获得元素删除元素范围查询扩展命令 z ...
btcpool之StratumServer
一.简介 StratumServer(简称sserver)接收JobMaker发送的stratumjob消息,从http api获取用户列表,对外部矿机提供服务. 二.处理stratumjob消息 s ...
Linux进程PRI与NI值
1.PRI -> 进程的优先级,大部分系统(Linux.UCOSII)都是数字越低优先级越高,进程就优先运行 , Linux中的PRI(new) = PRI(old) + nice ,其中 , ...
Windows Java安装
jdk安装与配置jdk for windows1.下载官网地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html2. ...

Python爬虫与一汽项目【三】爬取中国五矿集团采购平台

Python爬虫与一汽项目【三】爬取中国五矿集团采购平台的更多相关文章

随机推荐

热门专题