转自: https://www.jianshu.com/p/a89d8d6c007b

作者: ppCode

puppeteer新手入门(chromium下载跳坑)

2017.12.27 15:13* 字数 854 阅读 2430评论 4喜欢 8

puppeteer简介

puppeteer 翻译是操纵木偶的人，利用这个工具，我们能做一个操纵页面的人。puppeteer是一个nodejs的库，支持调用Chrome的API来操纵Web，相比较Selenium或是PhantomJs,它最大的特点就是它的操作Dom可以完全在内存中进行模拟既在V8引擎中处理而不打开浏览器，而且关键是这个是Chrome团队在维护，会拥有更好的兼容性和前景。

puppeteer功能

生成页面的截图和PDF。
抓取SPA并生成预先呈现的内容（即“SSR”）。
从网站抓取你需要的内容。
自动表单提交，UI测试，键盘输入等
创建一个最新的自动化测试环境。使用最新的JavaScript和浏览器功能，直接在最新版本的Chrome中运行测试。
捕获您的网站的时间线跟踪，以帮助诊断性能问题。

puppeteer轻松入门

1. 环境和安装

Puppeteer 至少需要 Node v6.4.0，如要使用 async / await，只有 Node v7.6.0 或更高版本才支持。 node下载地址： https://nodejs.org/zh-cn/

2. 创建项目

2.1 创建test目录，进入目录执行npm init

2.2 安装 puppeteer

yarn add puppeteer 或者 npm i puppeteer

可能会出现以下报错:

ERROR: Failed to download Chromium r515411! Set "PUPPETEER_SKIP_CHROMIUM_DOWNLOA

D" env variable to skip download.

是因为在执行安装的过程中需要执行install.js，这里会下载Chromium,官网建议是进行跳过，我们可以执行 —ignore-scripts 忽略这个js执行。也可以通过设置环境变量set PUPPETEER_SKIP_CHROMIUM_DOWNLOAD=1阻止下载 Chromium （因为封网，直接下载会失败）

npm i --save puppeteer --ignore-scripts

2.3 手动下载Chromium

下载地址：https://download-chromium.appspot.com/ (打开蓝灯翻墙软件...)

把下载刚刚下载的文件解压出来会有chrome-win32文件夹，把里面的文件拷贝到项目新建的chromium文件夹中

2.4 新建index.js（截图功能）, 代码如下：

const puppeteer = require('puppeteer');

(async () => {

    const browser = await puppeteer.launch();

    const page = await browser.newPage();

    await page.goto('https://y.qq.com');

    await page.screenshot({path: 'yqq.png'});

    browser.close();

})();

打开cmd执行index.js

node index.js

这时候可能出现以下错误：

(node:8672) UnhandledPromiseRejectionWarning: Unhandled promise rejection (rejec

tion id: 1): AssertionError [ERR_ASSERTION]: Chromium revision is not downloaded

. Run "npm install"

(node:8672) [DEP0018] DeprecationWarning: Unhandled promise rejections are depre

cated. In the future, promise rejections that are not handled will terminate the

 Node.js process with a non-zero exit code.

显示chromium 未下载错误，因为chromium默认的下载路径是在node_modules/puppeteer/.local-chromium/目录，这时候我们的chromium是在项目根目录，所以需要配置指定路径，修改index.js文件()：

const puppeteer = require('puppeteer');

(async () => {

      const browser = await puppeteer.launch({

        executablePath: './chromium/chrome.exe',

        headless: false

      });

      const page = await browser.newPage();

      await page.goto('http://music.163.com/');

      await page.screenshot({path: 'music.png'});

      browser.close();

})();

puppeteer launch参数说明：

executablePath：运行Chromium或Chrome可执行文件的路径
headless：是否运行在浏览器headless模式，true为不打开浏览器执行，默认为true
timeout：等待浏览器实例启动的最长时间（以毫秒为单位）。默认为30000（30秒）。通过0禁用超时
args：传递给浏览器实例的其他参数

更多参数请参照官网，再次执行index.js可能出现以下错误：

Error: Protocol error (Page.getFrameTree): 'Page.getFrameTree' wasn 't found undefined

刚开始找了好久没找到答案，然后上万能的Google找了下，发现了类似的问题

image.png

可能是chromium的版本存在差异，然后重新在chromium官网下载最新版本解压到项目（要注意下相应系统chromium）

执行index.js，脚本运行chromium浏览器跳转到界面，截图保存到项目中，这样就成功了...

2.5 puppeteer相关地址

puppeteer神器官方文档，可以进行其他强大的功能开发...

puppeteer入门的更多相关文章

Puppeteer入门初探
本文来自网易云社区作者:唐钊最近在看 node 爬虫相关的一些东西,我记得还是很久以前常用的 node 爬虫工具还是 superagengt+cherrio,他们的思路是通过发起 http 请求然 ...
Puppeteer之大屏批量截图
事情的起因是客户三天两头的要求让我们给大屏截图,一定要最新的数据.所以我就自告奋勇研究了一下. puppeteer是一款headless浏览器,由谷歌官方维护.先看看puppeteer ...
爬虫利器 Puppeteer 实战
Puppeteer 介绍 Puppeteer 翻译是操纵木偶的人,利用这个工具,我们能做一个操纵页面的人.Puppeteer是一个Nodejs的库,支持调用Chrome的API来操纵Web,相比较Se ...
爬虫利器 Puppeteer
http://wintersmilesb101.online/2017/03/24/use-phantomjs-dynamic/ 一起学爬虫 Node.js 爬虫篇(三)使用 PhantomJS ...
【puppeteer+Node.js】学习
总结了一下有关puppeteer的学习的网站,以后还会继续更新 puppeteer 介绍 Puppeteer是一个通过DevTools Protocol控制headless chromium的高级no ...
WM_QUERYENDSESSION与WM_ENDSESSION
此文已由作者王荣涛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 首先XP系统和Vista以后的系统,这两个消息的处理方式是不同的. XP系统系统发送WM_QUERYEND ...
web开发资源导航
实用工具前端在线工具兼容性速查 html5兼容性查询 node-es6支持度 es6兼容性表查询设备es6支持度游览器H5支持度浏览器内核检测工具手机设备信息检测浏览器市场份额文档手册 ...
Puppeteer之爬虫入门
译者按: 本文通过简单的例子介绍如何使用Puppeteer来爬取网页数据,特别是用谷歌开发者工具获取元素选择器值得学习. 原文: A Guide to Automating & Scrapin ...
puppeteer （Nodejs版selenium ）快速入门
官网 https://pptr.dev/ api 与教程: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.mdhttp ...

随机推荐

LeetCode--No.016 3Sum Closest
16. 3Sum Closest Total Accepted: 86565 Total Submissions: 291260 Difficulty: Medium Given an array S ...
【xsy2332】Randomized Binary Search Tree DP+FFT
题目大意:给你一个$[0,1]$之间等概率随机序列,你需要把这个序列插入到一棵$treap$中,问这棵$treap$的期望深度,请对于$[1,n]$中的每个深度分别输出它的概率(实数,保留五位小数). ...
理解 Python 的执行方式，与字节码 bytecode 玩耍（上）
这里有个博客讲 Python 内部机制,已经有一些中文翻译. 可能因为我用的Python 3.5,例子跑起来有些不一样. 此外,我又查了其他一些参考资料,总结如下: Python 的执行方式先看一个 ...
html css 其他常用 onclick跳转
opacity: 0.5. 0-1 透明度 cursor: pointer;手指 clear:both 清楚浮动我是医生不是人文本内容超出框word-wrap:break-word; word-b ...
全网最详细的MyEclipse里如何正确新建普通的Java web项目并发布到Tomcat上运行成功【博主强烈推荐】（图文详解）
不多说,直接上干货! 首先,大家要明确,IDEA.Eclipse和MyEclipse等编辑器之间的新建和运行手法是不一样的. 如果是在eclipse里,则是File -> new -> ...
interface21 - web - DispatcherServlet（DispatcherServlet初始化流程）
前言最近打算花点时间好好看看spring的源码,然而现在Spring的源码经过迭代的版本太多了,比较庞大,看起来比较累,所以准备从最初的版本(interface21)开始入手,仅用于学习,理解其设计 ...
Python机器学习笔记：利用Keras进行分类预测
Keras是一个用于深度学习的Python库,它包含高效的数值库Theano和TensorFlow. 本文的目的是学习如何从csv中加载数据并使其可供Keras使用,如何用神经网络建立多类分类的数据进 ...
sip 注册流程
基本注册流程示意图: 注册流程描述如下: 1. SIP代理向SIP服务器发送REGISTER请求: 2. SIP服务器向SIP代理发送响应401,并在响应的消息头WWW ...
Animate.css(一款有意思的CSS3动画库)
官网:https://daneden.github.io/animate.css/ animate.css 是一款跨浏览器的动画库. 使用方式: 在页面的 <head>中引入样式文件: & ...
#10 Python字符串
前言通过上一节可知,Python6个序列的内置类型中,最常见的是列表和元组,但在Python中,最常用的数据类型却不是列表和元组,而是字符串.要想深入了解字符串,必须先掌握字符编码问题.因此本篇博文 ...

puppeteer入门