(二)requests-爬取国家药监局生产许可证数据

首先访问这个页面 url = 'http://125.35.6.84:81/xk/'

我们的目标是抓取这里的每一个企业的详情页数据，但是可以发现这里只有企业的简介信息，所以这就意味着我们要发送两次get请求。

在写代码之前，我们可以大概看一下我们想要的数据大概在什么位置。

1. 我们打开一个公司的详情页

2. 右击检查，通过Response查找对应的目标数据

从这里我们可以看出，当前的数据是通过ajax请求动态加载出来的

3.查看头信息，以及参数信息

我们可以看出，当前的请求是post请求，所需要的参数是id，但是从以上的数据来看我们并没有发现哪里有id这个参数。因为我们将目光聚焦到首页。

4. 分析首页所返回的数据

同样是右击检查，打开抓包工具

从这里我们可以看出首页的数据也是通过ajax动态加载出来的，并且通过观察我们可以发现在ID的踪迹，至此我们就可以形成一条完整的思路。

5.我们可以看看首页的请求方式，与是否携带了参数

6. 思路：拿到首页的响应数据的ID，并以此为参数向详情页发送post请求，拿到每个详情页的详情数据。

7.代码实现：

import requests

import json

if __name__ == '__main__':

    # 获取各个企业id

    id_list = []

    # 这里的url并非是首页的url 首页中的所有企业信息都是通过ajax动态请求的 因此应查看对应包中的url

    url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'

    header = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'

    }

    # 获取前五页的数据

    for page in range(1, 5):

        page = str(page)

        # 首页请求所需参数

        data = {

            'on': 'true',

            'page': page,

            'pageSize': '15',

            'productName': '',

            'conditionType': '1',

            'applyname': '',

            'applysn': ''

        }

        # 向首页发送请求

        response = requests.post(url=url, data=data, headers=header)

        # 拿到json格式的数据

        info = response.json()

        # 拿到所有企业信息的列表

        target_id = info['list']

        for i in target_id:

            # 获取所有企业的id

            id_list.append(i['ID'])

        # 获取企业详情信息

    ret_list = []

    url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'

    # 获取所有企业的详情数据

    for i in id_list:

        data = {

            'id': i

        }

        ret = requests.post(url=url, data=data, headers=header)

        ret_list.append(ret.json())

    # 持久化存储

    fileName = 'files/药监总局.json'

    with open(fileName, 'w', encoding='utf-8') as f:

        f.write(json.dumps(ret_list, ensure_ascii=False))

    print('work is done')

(二)requests-爬取国家药监局生产许可证数据的更多相关文章

scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
selenium爬取qq空间，requests爬取雪球网数据
一.爬取qq空间好友动态数据 # 爬取qq空间好友状态信息(说说,好友名称),并屏蔽广告 from selenium import webdriver from time import sleep f ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
requests爬取百度音乐
使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来. 首先进行url分析,可以看到: 歌手网页: 薛之谦网页: 可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码: # -*- ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
Python爬虫入门——使用requests爬取python岗位招聘数据
爬虫目的使用requests库和BeautifulSoup4库来爬取拉勾网Python相关岗位数据爬虫工具使用Requests库发送http请求,然后用BeautifulSoup库解析HTML文 ...
Requests爬取网页的编码问题
Requests爬取网页的编码问题 import requests from requests import exceptions def getHtml(): try: r=requests.get ...
Python爬虫系列之爬取美团美食板块商家数据（二）
今天为大家重写一个美团美食板块小爬虫,说不定哪天做旅游攻略的时候也可以用下呢.废话不多说,让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: argpar ...

随机推荐

Serverless 场景排查问题利器 : 函数实例命令行操作
简介:实例命令行功能的推出希望能消除用户使用 Serverless 的"最后一公里",直接将真实的函数运行环境展现给用户. 背景介绍全托管的 Serverless 计算平台能给 ...
钉钉宜搭入选Forrester《中国低代码平台市场分析报告》
简介: 最新:钉钉宜搭入选Forrester<中国低代码平台市场分析报告>! 11月12日,全球知名研究机构Forrester发布<中国低代码平台市场分析报告(The State ...
技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」
简介: 阿里云技术专家李少锋(风泽)在Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站上的演讲整理稿件,本议题将介绍典型 CDC 入湖场景,以及如何使用 Pulsa ...
[Caddy2] 无法访问 Lets Encrypt OCSP 的解决方法
更换国内 DNS 为国外 DNS. Caddy 使用对应 DNS 的 provider. 重新运行即可获取到证书,Certificate obtained successfully. 其它参考: [C ...
007_Orcad运用Excel表格创建复杂元器件
007_Orcad运用Excel表格创建复杂元器件以AD9135为例,有88个引脚,如果一个一个输入引脚名,比较慢.用Excel做出引脚列表,比较快捷. 首先需要查询datasheet,用Solid ...
css的animate做一个信号动画
html <div class="jump flex-fs fadeAndScaleIn"> <span></span> <span> ...
关于Python中的None
关于Python中的None 注意到None这个类型是在做一道Python题目时,要求说如果传进函数的字符串是"None"则返回False,糟糕的是我并不知道如何判断是否是&quo ...
Solution Set - Splay
A[洛谷P3369]维护集合,支持插入,删除,查询\(x\)的排名,查询排名\(x\)的数,查询前驱,查询后继. B[洛谷P3391]维护一个序列,支持区间翻转. C[洛谷P3380]维护数列,支持单 ...
GDB 中内存打印命令
GDB 中使用 "x" 命令来打印内存的值,格式为 "x/nfu addr".含义为以 f 格式打印从 addr 开始的 n 个长度单元为 u 的内存值.参数具 ...
ios系统的css兼容问题处理和iOS上网页滑动不流畅问题
1.H5网页touch滑动的时候在苹果手机上出现不流畅的问题 -webkit-overflow-scrolling 用来控制元素在移动设备上是否使用滚动回弹效果. 解决办法:给所有网页添加如下样式 b ...

(二)requests-爬取国家药监局生产许可证数据

(二)requests-爬取国家药监局生产许可证数据的更多相关文章

随机推荐

热门专题