使用Chrome快速实现数据的抓取（五）—

如果要以自动化的方式驱动Chrome进行数据抓取，必须实现Chrome Dev Protocol协议的客户端。这个协议本身并不复杂，我在之前的文章中也简单的介绍过一下。

Google本身有一个Node的实现chrome-remote-interface，对于其它语言，github上也有不少的实现，我也实现过一个，还是非常简单的。不过虽然实现这个协议非常简单，但原始的DevProtocol中是非常底层的API，要使用这些API实现数据抓取还是要进行许多的封装工作的。

为了更加简单的使用Headless Chrome，Google Chrome团队官方提供了另一个高等级API版本的Node js库puppeteer。相比底层API，这个要好用得多了。一个简单的示例如下：

const puppeteer = require('puppeteer'); 

(async () => {

　　const browser = await puppeteer.launch();

　　const page = await browser.newPage();

　　await page.goto('https://example.com');

　　await page.screenshot({path: 'example.png'});

　　await browser.close();

})();

这个库非常好用，有空的话后续我还会写一系列文章来介绍它。对它感兴趣的朋友可以先看看这篇文章：https://github.com/emadehsan/thal。

通过puppeteer，我们可以完成大部分web自动化的功能。不过，和底层的DevProtocol接口比起来，还是有一些功能缺失的。例如，对于某个页面，要想获取到其所有的http请求和响应数据就无法实现，而这些通过DevProtocol还是很容易实现的。虽然puppeteer的定位是高层api，如果能同时开放底层接口的话就更加好了。

使用Chrome快速实现数据的抓取（五）—— puppeteer的更多相关文章

使用Chrome快速实现数据的抓取（四）——优点
些一个抓取WEB页面的数据程序比较简单,大多数语言都有相应的HTTP库,一个简单的请求响应即可,程序发送Http请求给Web服务器,服务器返回HTML文件.交互方式如下: 在使用DevProtocol ...
使用Chrome快速实现数据的抓取（三）——JQuery
使用Chrome抓取页面一个非常方便的地方就是它可以执行JS,也就是说我们可以通过JS函数获取我们想要的数据.一个非常强大易用的库就是Jquery,本文就简单的介绍一下使用Chrome获取数据时Jqu ...
使用Chrome快速实现数据的抓取（二）——协议
在前面的文章简单的介绍了一下Chrome调试模式的启动方式,但前面的API只能做到简单的打开,关闭标签操作,当我们需要对某个标签页进行详细的操作时,则需要用到页面管理API.首先我们还是来回顾下获取页 ...
使用Chrome快速实现数据的抓取（一）——概述
对于一些简单的网页,我们可以非常容易的通过Develop Tool来获取其请求报文规律,并仿照其构建报文来获取页面信息.但是,随着网页越来越复杂,许多页面是由js动态渲染生成的.要获取这类信息,则需要 ...
HTTPS数据包抓取的可行性分析
HTTPS数据包抓取的可行性分析相信只要是从事软件开发, 多多少少都会涉及到数据包的抓取.常见的有网页数据抓取(即网页爬虫),应用程序数据包抓取等.网页数据抓取比较简单, 在chrome下可以非常方 ...
使用python和tableau对数据进行抓取及可视化
使用python和tableau对数据进行抓取及可视化本篇文章介绍使用python抓取贷款及理财平台的数据,并将数据拼接和汇总.最终通过tableau进行可视化.与之前的python爬虫文章不同之 ...
[Python] 糗事百科文本数据的抓取
[Python] 糗事百科文本数据的抓取源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
6 wireshark 安装使用数据包抓取
1.wireshark安装 2.开始使用 3.界面详情 4. 数据包抓取 5.过滤数据
pyspider 简单应用之快速问医生药品抓取（一）
网址:http://yp.120ask.com/search/-0-0--0-0-0-0.html from pyspider.libs.base_handler import * class Han ...

随机推荐

TF-图像的深度和通道的概念(转)
图像的深度和通道概念图像的深度: 图片是由一个个像素点构成的,所有不同颜色的像素点构成了一副完整的图像,计算机存储图片是以二进制来进行的. 1 bit : 用一位来存储,那么这个像素点的取值范围就是 ...
PV操作2011
Oracle 函数 “把当前的用户（审核人，审核通过后）插入到数据表中”
create or replace function mcode_apply_update_personnel(p_mca_no VARCHAR2, -- 参数(实参) p_action VARCHA ...
Linux学习笔记：cp和scp复制文件
拷贝文件和文件夹,在Linux上通过cp命令来实现. cp:用户当前机器的文件复制 scp:通过ssh本机和其他机器的文件复制 secure copy cp a.txt b.txt scp a.txt ...
MySQL学习笔记：while循环
思考:while循环是否只能使用在存储过程或者存储函数之中,不能直接在查询语句中使用? ———— 循环一般在存储过程和存储函数中使用. 直接放几个例子: 例一: 1.创建存储过程 DELIMITER ...
20165203 2017-2018-2 《Java程序设计》课程总结
20165203 2017-2018-2 <Java程序设计>课程总结一.每周作业及实验报告链接汇总我期望的师生关系(预备作业一):浅谈一下对师生关系的看法和对自己未来学习和生活的期望 ...
HBase（八）HBase的协处理器
一.协处理器简介 1. 起源 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和.计数.排序等操作.比如,在旧版本的(<0.92)Hbase 中,统计数 ...
day5作业购物商城+ATM
模拟实现一个ATM + 购物商城程序 1.额度 15000或自定义 2.实现购物商城,买东西加入购物车,调用信用卡接口结账 3.可以提现,手续费5% 4.每月22号出账单,每月10号为还款日,过期未还 ...
Loadrunner上传文件解决办法（大文件）
Loadrunner上传文件解决办法(大文件) 最近再做一个跟海量存储相关的项目测试,需要通过LR模拟用户大量上传和下载文件,请求是Rest或Soap,同时还要模拟多种大小尺寸不一的文件通常情况下, ...
.NET常用的异常类型及其中文说明
基异常类型: 类说明 System.Exception 所有异常的基类型 System.ApplicationException 发生非致命应用程序错误时引发的异常 System.SystemExc ...

使用Chrome快速实现数据的抓取（五）—— puppeteer

使用Chrome快速实现数据的抓取（五）—— puppeteer的更多相关文章

随机推荐

热门专题