"```python

import requests

from fake_useragent import UserAgent # 随机ua库

class Boring():

def __init__(self, page_scope=(4, 7)):

    """

    :param page_scope: 页码范围

    """

    self.page_scope = page_scope

    self.all_id = self.get_all_company_id()

    self.enterprise_info = self.get_all_company_info()

    self.show_enterprise_info()

@property

def firefox_ua(self):

    """返回随机火狐UA头"""

    ua = UserAgent(use_cache_server=False)

    return {'User-Agent': ua.Firefox}  # ua.Firefox:随机生成火狐浏览器UA

def get_all_company_id(self):

    """

    将返回指定页码数内的公司的id

    :param start_page: 起始页码

    :param end_page: 结束页码

    """

    all_id = {}

    url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'  # 此连接见图1

    for page in range(self.page_scope[0], self.page_scope[1] + 1):

        json_text = requests.post(url, data=self.post_data(page), headers=self.firefox_ua).json()

        current_page_all_id = [dict['ID'] for dict in json_text['list']]

        all_id.setdefault(page, current_page_all_id)

    return all_id

def get_all_company_info(self):

    """开始获取公司信息"""

    url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'  # 见图3

    enterprise_info = {}

    for page in self.all_id:

        for id in self.all_id.get(page):

            response = requests.post(url, data={'id': id}, headers=self.firefox_ua)  # data={'id': id}:见图4

            if response.headers['Content-Type'] == 'application/json;charset=UTF-8':

                json_text = response.json()

                enterprise_info.setdefault(json_text.get('businessPerson'), json_text.get('epsName'))

                # 这里仅获取企业负责人和企业名

    return enterprise_info

def show_enterprise_info(self):

    [print(k, v) for k, v in self.enterprise_info.items()]

def post_data(self, page):

    """获取公司列表时要提交的form"""

    return {

        'on': 'true',

        'page': page,

        'pageSize': '15',

        'productName': '',

        'conditionType': '1',

        'applyname': '',

        'applysn': '',

    }  # 见图2

go

Boring()

【Python requests多页面爬取案例】的更多相关文章

python requests库网页爬取小实例：亚马逊商品页面的爬取
由于直接通过requests.get()方法去爬取网页,它的头部信息的user-agent显示的是python-requests/2.21.0,所以亚马逊网站可能会拒绝访问.所以我们要更改访问的头部信 ...
python requests库网页爬取小实例：百度/360搜索关键词提交
百度/360搜索关键词提交全代码: #百度/360搜索关键词提交import requestskeyword='Python'try: #百度关键字 # kv={'wd':keyword} #360关 ...
Python Requests库网络爬取全代码
#爬取京东商品全代码 import requestsurl = "http://item.jd.com/2967929.html"try: r = requests.get(url ...
python Requests库网络爬取IP地址归属地的自动查询
#IP地址查询全代码import requestsurl = "http://m.ip138.com/ip.asp?ip="try: r = requests.get(url + ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...
使用requests简单的页面爬取
首先安装requests库和准备User Agent 安装requests直接使用pip安装即可 pip install requests 准备User Agent,直接在百度搜索"UA查询 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
python爬爬爬之单网页html页面爬取
python爬爬爬之单网页html页面爬取作者:vpoet mail:vpoet_sir@163.com 注:随意copy 不用告诉我 #coding:utf-8 import urllib2 Re ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...

随机推荐

如何将旧Mac的数据迁移到新的MacBook Pro？
最新版的MacBook Pro已经上市,具有超凡魅力的Touch Bar开创了一个新时代.苗条的设计和华丽的显示效果也起到了推动运动的作用……!将数据从旧Mac传输到新Mac不再是一件漫长的事.您只需 ...
TC SRM556 OldBridges
题意有一个包含\(n\)个点的图,点的编号分别为\(0\)到\(n-1\).有若干双向边连接两个点,有些边可以经过无限次,有些边最多只能经过(双向)两次.Alice计划从\(a1\)到\(a2\)进 ...
用友UAP NC 开发环境抛出"JDK默认编辑器找不到"
此节点是升级65之前开发的,已经很久不使用,今天在开发环境使用,点查询抛出此异常. 最后问了人解决方法,就是往JRE系统库加入对应的jar包
Android studio中修改xml文件无效问题
昨天遇到的这个问题,在修改布局xml文件后保存,但运行时布局却并没有被修改,也就是说我的修改无效,今天参照了这篇文章中的方法终于解决了: https://blog.csdn.net/l_o_s/art ...
SQL Tuning Health-Check Script (SQLHC) (文档 ID 1366133.1)
Login to the database server and set the environment used by the Database Instance Download the &quo ...
UVA12716-连续区间内反向寻因子法
在涉及的题目中如果需要使用连续区间内的数据的因数,可以放弃使用%这种低效的方案,从因数的角度进行,UVA12716中对于代码的优化就利用了这个小技巧. 原题:https://vjudge.net/pr ...
简单记账本APP开发一
在对Android的一些基础的知识有了一定了解,以及对于AndroidStudio的如何使用有了一定的熟悉后,决定做一个简单的记账本APP 开发流程 1.记账本的页面 2.可以添加新的账目 (一)页 ...
为什么在linux系统下安装anaconda的时候会报错
报错界面一开始是在官网下载的最新的包,出现了上述的报错,但是换成清华镜像之后,就没有上述报错了? 我猜测可能是因为官网最新的版本的anaconda和你安装的python版本不兼容,而在镜像上的不是 ...
洛谷 pP2708 硬币翻转
题目描述从前有很多个硬币摆在一行,有正面朝上的,也有背面朝上的.正面朝上的用1表示,背面朝上的用0表示.现在要求从这行的第一个硬币开始,将前若干个硬币一起翻面,问如果要将所有硬币翻到正面朝上,最少要 ...
链表问题----删除倒数第K个节点
在单链表和双链表中删除倒数第K个节点分别实现两个函数,一个可以删除单链表中的倒数第K个节点,一个可以删除双链表中的倒数第k 个节点,要求时间复杂度是 O(N),空间复杂度是 O(1). [解析] 基 ...

【Python requests多页面爬取案例】

go

【Python requests多页面爬取案例】的更多相关文章

随机推荐

热门专题