前言

有某个线上项目，没有接入工商接口，每次录入公司的时候，都要去天眼查、企查查或者其他公开数据平台，然后手动录入，一两个还好说，数量多了的重复操作就很烦，而且，部分数据是包含超链接，一不注意就点进去，又多了一个步骤。

因此，我就用Quicker写了一个数据抓取脚本，用来抓取一些公开的工商数据，逻辑很简单，知识点只有基础html、json节点提取。

Quicker脚本分享地址：https://getquicker.net/Sharedaction?code=f9963209-c56c-48b5-c379-08db2ab3ed80

实现逻辑

探索思路

天眼查的搜索框关联了一个快速查询的接口，可以根据关键字快速查询一个公司的基础信息，我们需要的是公司id，用来查询详细信息；
根据id是没法直接获取到公司的工商信息的（可能是我没花太长时间，没爬到相关的接口），但既然页面上是显示了的，那就能获取，不能爬接口就爬网页吧；
但是爬网页又遇到一个问题，直接通过get获取html文档的话，工商数据那一栏是没加载（无节点数据）的，初步估计设计上是嵌入式的延迟加载，要是浏览器载入加载后才能获取对应节点数据；
获取延迟加载的数据可以使用Quicker“浏览器控制”的等待浏览器加载完成实现，但这样还要调用浏览器进行模拟操作有点不合理，本来就不复杂的操作，搞得还有点麻烦了；
通过翻详情页面的html源码，我发现，工商数据并不是真正意义上的延迟加载，而是先获取到数据，挂载到资源，然后再响应式进行数据渲染，同时渲染的数据少点的话，比较节约资源，也就是说，实际上通过get获取到的html源码是包含了工商数据的，见下节点；

<script id="__NEXT_DATA__" type="application/json">{json}<script>

说来也奇怪，节点的类型是application/json的话，那就说明是数据通过json文件获取到，但我还是没查到到底是哪个接口获取的，有个包含了{id}.json的接口，但这个接口1是没返回数据，2是更改参数后会提示没权限，我相信深扒网页js脚本的话，应该是能找到方法的，但搞起来好麻烦，暂时不深究；

实现步骤

至此，开发逻辑明确，六步实现（实际上按照知识点来说，只有两个步骤，接口爬取和获取节点）：

第一步，根据关键字快速查询公司；
第二步，直接使用快速查询到的第一个公司，拿到其id；
第三步，使用id，get访问详情网页，获取网页源码；
第四步，读取html公司数据节点；
第五步，读取业务需求信息的json节点，重新组装拼接；
第六步，展示数据；

效果展示

脚本截图

效果演示，功能很简单

结语

这个脚本就是促进生产力的一个很好表现

Quicker快速开发，简单的网页数据爬取（示例，获取天眼查指定公司基础工商数据）的更多相关文章

关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
使用for或while循环来处理处理不确定页数的网页数据爬取
本文转载自以下网站: Python For 和 While 循环爬取不确定页数的网页 https://www.makcyun.top/web_scraping_withpython16.html 需 ...
python实现人人网用户数据爬取及简单分析
这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据( ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
Web Scraper——轻量数据爬取利器
日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据. 当我们着手准备收集数据时,面对低效的复制黏贴工作,一 ...
Ajax数据爬取
Ajax的基本原理以菜鸟教程的代码为例: XMLHTTPRequest对象是JS对Ajax的底层实现: var xmlhttp; if (window.XMLHttpRequest) { // IE ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
一个免费ss网站的数据爬取过程
一个免费ss网站的数据爬取过程 Apr 14, 2019 引言爬虫整体概况主要功能方法绕过DDOS保护(Cloudflare) post中参数a,b,c的解析 post中参数a,b,c的解析 p ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...

随机推荐

Windows如何生成公钥和私钥
Windows如何生成公钥和私钥方法一)使用git命令一. 首先安装git二. 桌面上右键 Git Bash Here三. 命令ssh-keygen -t rsa然后一直enter 四. 将公钥 ...
python播放音频文件
可在nano或者gax上面使用(已测试过) 将mp3文件转换为wav文件 trans_mp3_to_wav.py from pydub import AudioSegment # 这里filepath ...
Ubuntu22.04 KubeSphere 安装K8S集群
Ubuntu22.04 KubeSphere 安装K8S集群_Ri0n的博客-CSDN博客一.系统环境系统:Ubuntu 22.04集群IP分布hostname 角色 IP地址master mast ...
#Python #微信 #消息防撤回 Python实现微信防撤回
微信(WeChat)是腾讯公司于2011年1月21日推出的一款社交软件,8年时间微信做到日活10亿,日消息量450亿.在此期间微信也推出了不少的功能如:"摇一摇"."漂流 ...
Maven中的DependencyManagement 和 Dependencies
Maven 使用dependencyManagement 元素来提供了一种管理依赖版本号的方式. 通常会在一个组织或者项目的最顶层的父POM 中看到dependencyManagement 元素. 使 ...
Unity 2D 记录
Unity 2D 记录 1. 环境配置 1.1 下载安装unity hub和vs code 搜索unity hub 进行下载 https://unity.com/download 安装vs code ...
python3中的负数整除、求余问题
注:小白问题,大神们请忽略先看示例,非整除: >>> -10/3-3.3333333333333335>>> 10/-3-3.3333333333333335> ...
JAVA、Tomcat服务器
JAVA如何配置服务器 Tomcat服务器: 1．Web开发中的常见概念: (1)B/S系统和C/S系统 Brower/Server:浏览器服务器系统 ----- 网站 Client/Server ...
can't convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.
predict=predict.data.numpy() 这一行报错意思是:如果想把CUDA tensor格式的数据改成numpy时,需要先将其转换成cpu float-tensor随后再转到nump ...
【转】【进程管理】Linux进程调度：调度时机
转自:https://zhuanlan.zhihu.com/p/163728119 概述: 进程切换分为自愿(voluntary)和强制(involuntary)两种.通常自愿切换是指任务由于等待某种 ...

Quicker快速开发，简单的网页数据爬取（示例，获取天眼查指定公司基础工商数据）

前言