使用puppeteer爬取网页数据实践小结

简单介绍Puppeteer

Puppeteer是一个Node库，它通过DevTools协议提供高级API来控制Chrome或Chromium。Puppeteer默认以无头方式运行，但可以配置为有头方式运行。Puppeteer中文”木偶”，很贴切，它可以使用node程序来模拟人操作浏览器的行为，比如点击某个按钮等。

Puppeteer可以做什么

在浏览器中手动执行的大多数操作都可以使用Puppeteer完成！例如：

生成页面的屏幕截图和PDF。
抓取SPA（单页面应用程序）并生成预渲染内容（即“SSR”（服务器端渲染））。
自动化表单提交，UI测试，键盘输入等。
创建最新的自动化测试环境。使用最新的JavaScript和浏览器功能直接在最新版本的Chrome中运行测试。
捕获时间线跟踪您的网站，以帮助诊断性能问题。
测试Chrome扩展程序。

官网（入门一定要看的）

https://pptr.dev

一定使用async await来写异步，这样会更简洁

我的应用场景

我老婆有一份list，list中有1000个item左右，每个item需要在网站中搜索，点击进入详情，然后切换tab，点击进入另一个详情，然后得到某些信息。如果手动操作，大概操作完一个需要3分钟左右，累计需要3000分钟（50小时），每天投入1-2小时（大量重复的操作非常无趣，而且累）。我见此情景，分析了下系统，发现很难使用一些ajax的接口就达到目的，看来系统本身做了一些处理。所以我打算使用Puppeteer来帮老婆完成这个工作，大概花了2-3天时间，对Puppeteer有了一些初步的了解，并且爬取了第一步的数据。我打算分步骤抓取数据，递进的去得到最终的一份清单。

几个我用到的对象的关系

遇到的一些问题

1. 安装问题

完整安装：npm i puppeteer --save 需要设置下淘宝镜像源

+ puppeteer_download_host = https://npm.taobao.org/mirrors

2. ElementHandle类型的对象click方法不管用处理方法

启动代码如下

小结

Puppeteer总体来说非常好用，只不过是用过程中需要不断去看文档熟悉接口，是用来爬取各种网页内容的”利器”。这次我也支持接触了Puppeteer的以小部分功能而已，以后争取能够在更多合适的场景去使用它。

作者：张雪飞
出处：https://zhangxuefei.site/p/2210
版权说明：欢迎转载，但必须注明出处，并在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

使用puppeteer爬取网页数据实践小结的更多相关文章

使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
03：requests与BeautifulSoup结合爬取网页数据应用
1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com ...
使用XPath爬取网页数据
我们以我的博客为例,来爬取我所有写过的博客的标题. 首先,打开我的博客页面,右键“检查”开始进行网页分析.我们选中博客标题,再次右键“检查”即可找到标题相应的位置,我们继续点击右键,选择Copy,再点 ...
Selenium+Tesseract-OCR智能识别验证码爬取网页数据
1.项目需求描述通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库. 2.整体思路 1.通过Selenium技术,无窗口模式打开浏览器 ...
pycharm爬取网页数据
1 python环境的配置 1.1 安装python文件包,放到可以找到的位置 1.2 右键计算机->属性->高级环境设置->系统变量->Path->编辑->复制p ...
【推荐】oc解析HTML数据的类库（爬取网页数据）
TFhpple是一个用于解析html数据的第三方库,本人感觉功能还算可以,只不过在使用前必须配置项目. 配置 1.导入libxml2.tbd 2.设置编译路径使用这里使用一个例子来说明 http: ...

随机推荐

转载-ThreadPoolExecutor里面4种拒绝策略（详细）
原文链接:https://blog.csdn.net/wjs19930820/article/details/79849050 1 /** * 定义异步任务执行线程池 */ @Configuratio ...
LeetCode 705：设计哈希集合 Design HashSet
题目: 不使用任何内建的哈希表库设计一个哈希集合具体地说,你的设计应该包含以下的功能 add(value):向哈希集合中插入一个值. contains(value) :返回哈希集合中是否存在这个值. ...
virtualbox FAIL(0x80004005) VirtualBox VT-x is not available (VERR_VMX_NO_VMX)
virtualbox启动虚拟机报错: FAIL(0x80004005) VirtualBox VT-x is not available (VERR_VMX_NO_VMX),无法创建新任务这是win ...
知识图谱辅助金融领域NLP任务
从人工智能学科诞生之初起,自然语言处理(NLP)就是人工智能核心的研究问题之一.NLP的重要性是毋庸置疑的,它能够实现以自然语言交流为特征的高级人机交互,使机器能“阅读”所有以文字形式记录的人类知识, ...
Java设计模式：Proxy(代理)模式
概念定义代理模式是一种使用代理对象来执行目标对象的方法并在代理对象中增强目标对象方法的一种设计模式. 使用代理模式的原因有: 中介隔离作用:在某些情况下,一个客户类不想或者不能直接引用一个委托对象, ...
远程连接docker
vim /usr/lib/systemd/system/docker.service ExecStart=/usr/bin/dockerd -H tcp://0.0.0.0:2375 -H unix: ...
HTML常用标签二
图像标签和路径目录文件夹:普通的文件夹,里面存放了我们做页面需要的相关素材,比如html文件,图片等根目录:打开目录文件夹的第一层就是根目录路径相对路径以引用文件所在位置为参考基础,而建立出 ...
认识Metasploit框架
Metasploit基础认识Metaspliot框架 Metaspliot(MSF)渗透测试框架,提供众多的接口.选项.变量.模块以供渗透工作人员使用它完成一系列的渗透攻击. 渗透攻击(Expl ...
微信小程序踩坑日记4——真机端解析json数组和开发平台不一样
0. 引言环境:访问服务器端php,获取json数组,并渲染在前台问题描述:保证在开发平台上的正常运行,但是在真机端却出现了无法正确解析wx.request()返回的数据(特指无法解析res.da ...
SQL学习_SELECT
查询列: SQL:SELECT name FROM heros 多列查询: SQL:SELECT name, hp_max, mp_max, attack_max, defense_max FROM ...

使用puppeteer爬取网页数据实践小结

使用puppeteer爬取网页数据实践小结的更多相关文章

随机推荐

热门专题