Pyppeteer

pyppeteer模块的基本使用

引言

Selenium 在被使用的时候有个麻烦事，就是环境的相关配置，得安装好相关浏览器，比如 Chrome、Firefox 等等，然后还要到官方网站去下载对应的驱动，最重要的还需要安装对应的 Python Selenium 库，确实是不是很方便，另外如果要做大规模部署的话，环境配置的一些问题也是个头疼的事情。那么本节就介绍另一个类似的替代品，叫做 Pyppeteer。

Pyppeteer简介

注意，本节讲解的模块叫做 Pyppeteer，不是 Puppeteer。Puppeteer 是 Google 基于 Node.js 开发的一个工具，有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作，当然也可以用作网络爬虫上，其 API 极其完善，功能非常强大。而 Pyppeteer 又是什么呢？它实际上是 Puppeteer 的 Python 版本的实现，但他不是 Google 开发的，是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。

在 Pyppetter 中，实际上它背后也是有一个类似 Chrome 浏览器的 Chromium 浏览器在执行一些动作进行网页渲染，首先说下 Chrome 浏览器和 Chromium 浏览器的渊源。

Chromium 是谷歌为了研发 Chrome 而启动的项目，是完全开源的。二者基于相同的源代码构建，Chrome 所有的新功能都会先在 Chromium 上实现，待验证稳定后才会移植，因此 Chromium 的版本更新频率更高，也会包含很多新的功能，但作为一款独立的浏览器，Chromium 的用户群体要小众得多。两款浏览器“同根同源”，它们有着同样的 Logo，但配色不同，Chrome 由蓝红绿黄四种颜色组成，而 Chromium 由不同深度的蓝色构成。

Pyppeteer 就是依赖于 Chromium 这个浏览器来运行的。那么有了 Pyppeteer 之后，我们就可以免去那些繁琐的环境配置等问题。如果第一次运行的时候，Chromium 浏览器没有安装，那么程序会帮我们自动安装和配置，就免去了繁琐的环境配置等工作。另外 Pyppeteer 是基于 Python 的新特性 async 实现的，所以它的一些执行也支持异步操作，效率相对于 Selenium 来说也提高了。

环境安装

由于 Pyppeteer 采用了 Python 的 async 机制，所以其运行要求的 Python 版本为 3.5 及以上
pip install pyppeteer

快速上手

- 爬取http://quotes.toscrape.com/js/ 全部页面数据

import asyncio
from pyppeteer import launch
from lxml import etree
async def main():
browser = await launch()
page = await browser.newPage()
await page.goto('http://quotes.toscrape.com/js/')
page_text = await page.content()
tree = etree.HTML(page_text)
div_list = tree.xpath('//div[@class="quote"]')
print(len(div_list))
await browser.close()
asyncio.get_event_loop().run_until_complete(main())

运行结果：10
解释：launch 方法会新建一个 Browser 对象，然后赋值给 browser，然后调用 newPage 方法相当于浏览器中新建了一个选项卡，同时新建了一个 Page 对象。然后 Page 对象调用了 goto 方法就相当于在浏览器中输入了这个 URL，浏览器跳转到了对应的页面进行加载，加载完成之后再调用 content 方法，返回当前浏览器页面的源代码。然后进一步地，我们用 pyquery 进行同样地解析，就可以得到 JavaScript 渲染的结果了。在这个过程中，我们没有配置 Chrome 浏览器，没有配置浏览器驱动，免去了一些繁琐的步骤，同样达到了 Selenium 的效果，还实现了异步抓取，爽歪歪！

详细用法

开启浏览器
- 调用 launch 方法即可，相关参数介绍：
  - ignoreHTTPSErrors (bool): 是否要忽略 HTTPS 的错误，默认是 False。
  - headless (bool): 是否启用 Headless 模式，即无界面模式，如果 devtools 这个参数是 True 的话，那么该参数就会被设置为 False，否则为 True，即默认是开启无界面模式的。
  - executablePath (str): 可执行文件的路径，如果指定之后就不需要使用默认的 Chromium 了，可以指定为已有的 Chrome 或 Chromium。
  - args (List[str]): 在执行过程中可以传入的额外参数。
  - devtools (bool): 是否为每一个页面自动开启调试工具，默认是 False。如果这个参数设置为 True，那么 headless 参数就会无效，会被强制设置为 False。
关闭提示条：”Chrome 正受到自动测试软件的控制”，这个提示条有点烦，那咋关闭呢？这时候就需要用到 args 参数了，禁用操作如下：
```
 
```
1. browser = await launch(headless=False, args=['--disable-infobars'])
处理页面显示问题:访问淘宝首页
```
 
```
1. import asyncio
2. from pyppeteer import launch
3. async def main():
4. browser = await launch(headless=False)
5. page = await browser.newPage()
6. await page.goto('https://www.taobao.com')
7. await asyncio.sleep(10)
8. asyncio.get_event_loop().run_until_complete(main())
发现页面显示出现了问题，需要手动调用setViewport方法设置显示页面的长宽像素。设置如下：
```
 
```
1. import asyncio
2. from pyppeteer import launch
3. width, height = 1366, 768
4. async def main():
5. browser = await launch(headless=False)
6. page = await browser.newPage()
7. await page.setViewport({'width': width, 'height': height})
8. await page.goto('https://www.taobao.com')
9. await asyncio.sleep(3)
10. asyncio.get_event_loop().run_until_complete(main())
执行js程序：拖动滚轮。调用evaluate方法。
```
 
```
1. import asyncio
2. from pyppeteer import launch
3. width, height = 1366, 768
4. async def main():
5. browser = await launch(headless=False)
6. page = await browser.newPage()
7. await page.setViewport({'width': width, 'height': height})
8. await page.goto('https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action=')
9. await asyncio.sleep(3)
10. #evaluate可以返回js程序的返回值
11. dimensions = await page.evaluate('window.scrollTo(0,document.body.scrollHeight)')
12. await asyncio.sleep(3)
13. print(dimensions)
14. await browser.close()
15. asyncio.get_event_loop().run_until_complete(main())
规避webdriver检测：
```
 
```
1. import asyncio
2. from pyppeteer import launch
3. async def main():
4. browser = await launch(headless=False, args=['--disable-infobars'])
5. page = await browser.newPage()
6. await page.goto('https://login.taobao.com/member/login.jhtml?redirectURL=https://www.taobao.com/')
7. await page.evaluate(
8. '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
9. await asyncio.sleep(10)
10. asyncio.get_event_loop().run_until_complete(main())
UA伪装：
```
 
```
1. await self.page.setUserAgent('xxx')
节点交互
```
 
```
1. import asyncio
2. from pyppeteer import launch
3. async def main():
4. # headless参数设为False，则变成有头模式
5. browser = await launch(
6. headless=False
7. )
8. page = await browser.newPage()
9. # 设置页面视图大小
10. await page.setViewport(viewport={'width': 1280, 'height': 800})
11. await page.goto('https://www.baidu.com/')
12. #节点交互
13. await page.type('#kw','周杰伦',{'delay': 1000})
14. await asyncio.sleep(3)
15. await page.click('#su')
16. await asyncio.sleep(3)
17. #使用选择器选中标签进行点击
18. alist = await page.querySelectorAll('.s_tab_inner > a')
19. a = alist[3]
20. await a.click()
21. await asyncio.sleep(3)
22. await browser.close()
23. asyncio.get_event_loop().run_until_complete(main())
综合练习
爬取头条和网易的新闻标题
```
 
```
1. import asyncio
2. from pyppeteer import launch
3. from lxml import etree
4. async def main():
5. # headless参数设为False，则变成有头模式
6. browser = await launch(
7. headless=False
8. )
9. page1 = await browser.newPage()
10. # 设置页面视图大小
11. await page1.setViewport(viewport={'width': 1280, 'height': 800})
12. await page1.goto('https://www.toutiao.com/')
13. await asyncio.sleep(2)
14. # 打印页面文本
15. page_text = await page1.content()
16. page2 = await browser.newPage()
17. await page2.setViewport(viewport={'width': 1280, 'height': 800})
18. await page2.goto('https://news.163.com/domestic/')
19. await page2.evaluate('window.scrollTo(0,document.body.scrollHeight)')
20. page_text1 = await page2.content()
21. await browser.close()
22. return {'wangyi':page_text1,'toutiao':page_text}
23. def parse(task):
24. content_dic = task.result()
25. wangyi = content_dic['wangyi']
26. toutiao = content_dic['toutiao']
27. tree = etree.HTML(toutiao)
28. a_list = tree.xpath('//div[@class="title-box"]/a')
29. for a in a_list:
30. title = a.xpath('./text()')[0]
31. print('toutiao:',title)
32. tree = etree.HTML(wangyi)
33. div_list = tree.xpath('//div[@class="data_row news_article clearfix "]')
34. print(len(div_list))
35. for div in div_list:
36. title = div.xpath('.//div[@class="news_title"]/h3/a/text()')[0]
37. print('wangyi:',title)
38. tasks = []
39. task1 = asyncio.ensure_future(main())
40. task1.add_done_callback(parse)
41. tasks.append(task1)
42. asyncio.get_event_loop().run_until_complete(asyncio.wait(tasks))
爬取结果：
toutiao: 「央视快评」坚守初心为国奉献
toutiao: 南航一A380客机北京降落时遭冰雹风挡现裂痕已平安降落无人受伤
toutiao: 美国正开启第二战场：围猎中国高科技企业 |“双线作战”战略意图
toutiao: 云南省陆良县：农民给供销社打“白条”
toutiao: 媒体：90后副县长若非靠拼爹上位需拿出业绩服众
toutiao: 南航A380飞北京客机遭遇冰雹袭击，挡风玻璃全碎
toutiao: 秘鲁北部发生7.8级地震
toutiao: 1958年，由捷克斯洛伐克援建的北京电影洗印厂曾为全国行业的老大
toutiao: 一箭60星，发射成功！马斯克卫星互联网计划启动
69
wangyi: 中美经贸摩擦背后：有人在干，有人在骗
wangyi: 华为回应个别标准组织撤销资格：产品服务不受影响
wangyi: 隔空约架?中方主播刘欣23年前就赢得国际演讲比赛
wangyi: 从钱学森到任正非中国教育有多少底气应对全球化
wangyi: 2个月内二度履新 35岁清华博士任安徽省直单位领导
wangyi: 南阳“水氢发动机汽车”引热议官方回应四大疑问
wangyi: 31岁北大博士跻身县委常委主笔6万字全县发展规划
wangyi: 干部退休15年后投案自首省委巡视办：头一次碰到
wangyi: 台湾被标注＂中国台湾省＂台外事部门要求更正被拒
wangyi: 190天3次现场办公!南阳领导为何钟爱青年汽车项目

Pyppeteer的更多相关文章

pyppeteer(python版puppeteer)基本使用
一.前言以前使用selenium的无头浏览器,自从phantomjs2016后慢慢不更新了之后,selenium也开始找下家,这时候谷歌的chrome率先搞出来无头浏览器并开放了各种api,随后fi ...
pyppeteer 报错-无法连接到浏览器
问题程序报错: Failed to connect to browser port: http://127.0.0.1:57899/json/version 原因虽然pyppeteer在首次启动时 ...
pyppeteer爬虫例子
如果在centos上使用,需要安装下面的依赖 yum install pango.x86_64 libXcomposite.x86_64 libXcursor.x86_64 libXdamage.x8 ...
pyppeteer使用笔记
pyppeteer -- python版本的puppeteer,一个强大的chronium headless浏览器API 最近搞天猫用了一波儿,记录一下. 先上文档: https://miyakogi ...
pyppeteer初尝滋味
最近在爬几个电商平台网站用的selenium一登录就会有验证,目前这些网站对selenium检测很严格因为不少大网站有对selenium的js监测机制.比如navigator.webdriver,n ...
pyppeteer的使用
pyppeteer的使用安装属于第三方模块进行安装. pip install pyppeteer 在Linux中,如果权限不够则加上. sudo pip install pyppeteer 使用 ...
网络爬虫之使用pyppeteer替代selenium完美绕过webdriver检测
1引言曾经使用模拟浏览器操作(selenium + webdriver)来写爬虫,但是稍微有点反爬的网站都会对selenium和webdriver进行识别,网站只需要在前端js添加一下判断脚本,很容 ...
pyppeteer进阶技巧
记录一下在使用pyppeteer过程中慢慢发现的一些稍微高级一点的用法. 一.拦截器简单用法拦截器作用于单个Page,即浏览器中的一个标签页.每初始化一个Page都要添加一下拦截器.拦截器实际上是 ...
爬虫的新模块pyppeteer的使用
安装 python3 -m pip install pyppeteer 最好是py3.5+ 手动安装你懂的,天朝网络环境很复杂,如果要用pyppeteer自己绑定的chromium,半天都下载不下来 ...

随机推荐

Type Erasure with Pokemon---swift的类型擦除
我感觉这个是swift的设计缺陷. 类型擦除:解决泛型类型作为公用类型的问题是抽象的公用机制的一种实现方式. 1)类型擦除并不能解决类型不一致的兼容问题,只能解决类似继承一致性的兼容问题. 2)擦除 ...
2019-11-29-win10-uwp-列表模板选择器
原文:2019-11-29-win10-uwp-列表模板选择器 title author date CreateTime categories win10 uwp 列表模板选择器 lindexi 20 ...
拒绝CPU挖矿矿工有责
长期以来CPU挖矿给挖矿行业带来持久的负面影响,因为CPU是电脑的核心设备,一挖矿就干不了别的了,大家是否可以达成共识拒绝CPU挖矿? 显卡挖矿刚好构建在不影响大众的日常工作生活对电脑的需求之上,家用 ...
MySQL入门——在Windows下安装MySQL
MySQL入门——在Windows下安装MySQL 摘要:本文主要说明了如何下Windows环境下安装MySQL. 查看电脑上是否安装了MySQL 打开cmd窗口,输入 services.msc 命令 ...
Java编程基础——流程控制
Java编程基础——流程控制摘要:本文主要介绍Java编程中的流程控制语句. 分类流程控制指的是在程序运行的过程中控制程序运行走向的方式.主要分为以下三种: 顺序结构:从上到下依次执行每条语句操作 ...
JavaScript调用百度地图
在网站开发过程中,经常会调用到地图,百度地图提供Web开发.Android开发.iOS开发API及SDK,百度地图JavaScript API可帮助您在网站中构建功能丰富.交互性强的地图应用,本篇博客 ...
记录vue用 html5+做移动APP 用barcode做扫一扫功能时安卓的bug(黑屏、错位等等)和解决方法
最近做项目时,要用到扫一扫二维码的功能,在html5+里面有提供barcode功能,于是照过来用了, 写的代码如下 : 扫码页面: <style lang="less" sc ...
python3偏函数
Python的functools模块提供了很多有用的功能,其中一个就是偏函数(Partial function).要注意,这里的偏函数和数学意义上的偏函数不一样. 通过设定参数的默认值,可以降低函数调 ...
常用的linux命令大全
之前做过两年的运维,用过很多命令,深切体会到某些linux命令熟练掌握后对效率提升有多大.举个简单的例子,在做了研发后经常会有跑一些数据,对于结果数据的处理,我们的产品同学一般都习惯于用excel做统 ...
HDU 1241 Oil Deposits 题解
Oil Deposits Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Tota ...