官方文档
启动pyppteer
切图
获取响应头，响应头状态，cookies
获取当前页面标题
获取页面html
- 第一种：获取整个页面html
- 第二种：只获取文本
注入JS，控制上下滚动
选择器
- 获取元素内部的文本、属性
- get_html
模拟输入，鼠标点击
taobao登录
- taobao修改检测浏览器
鼠标事件
键盘事件
使用ip代理ua

官方文档

https://miyakogi.github.io/pyppeteer/reference.html#mouse-class

启动pyppteer

import asyncio

from pyppeteer import launch

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

    # 打开一个页面

    page = await browser.newPage()

    # 超时间见 10000 毫秒

    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

    # 等待

    await asyncio.sleep(2)

    print(await page.content())  # 返回html代码

    resp_headers = res.headers  # 响应头

    resp_status = res.status  # 响应状态

# 程序启动入口

asyncio.get_event_loop().run_until_complete(main())

切图

# 设置页面视图大小

await page.setViewport(viewport={'width': 1280, 'height': 800})

# 是否启用JS，enabled设为False，则无渲染效果

await page.setJavaScriptEnabled(enabled=True)

# 超时间见 10000 毫秒

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

# 截图 保存图片

await page.screenshot({'path': 'cnblog.png'})

获取响应头，响应头状态，cookies

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

    # 打开一个页面

    page = await browser.newPage()

    # 超时间见 10000 毫秒

    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

    # 等待

    await asyncio.sleep(2)

	resp_headers = res.headers  # 响应头

    resp_status = res.status  # 响应状态

    cookies = page.cookies()

    print(resp_headers)

    print(resp_status)

    print(page.cookies())

# 程序启动入口

asyncio.get_event_loop().run_until_complete(main())

获取当前页面标题

print(await page.title())

获取页面html

import asyncio

from pyppeteer import launch

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

     # 打开一个页面

    page = await browser.newPage()

	# 是否启用JS，enabled设为False，则无渲染效果

    await page.setJavaScriptEnabled(enabled=True)

    # 超时间见 10000 毫秒

    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

    # 等待

    await asyncio.sleep(2)

    print(await page.content())  # 返回html代码

第一种：获取整个页面html

 res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

 # 等待

 await asyncio.sleep(2)

print(await page.content())  # 返回html代码

第二种：只获取文本

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)

print(content)

注入JS，控制上下滚动

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

# 滑到底部

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

# js

window.scrollTo(0,100)  # 向下滑动100

window.scrollTo(0,500)  # 向下滑动500

window.scrollTo(0,document.body.scrollHeight)  # 滑到底部

window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500

选择器

Page.querySelector()  # CSS选择器

Page.querySelectorAll()  # CSS选择器选所有

Page.xpath()  # xpath选择器

# 简写方式为：

Page.J(), Page.JJ(), and Page.Jx()

获取元素内部的文本、属性

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

# 方式一：获取h1标签内容--执行JS方式

element = await page.querySelector('h1')

title = await page.evaluate('(element) => element.textContent', element)

# 方式二：获取文本

element = await page.querySelector('h1')

title = await (await item.getProperty('textContent')).jsonValue()

# 方式三：获取属性src,href

element = await page.querySelector('h1')

title_link = await (await item.getProperty('href')).jsonValue()

get_html

async def get_html(url):

    browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])

    page = await  browser.newPage()

    res = await page.goto(url, options={'timeout': 3000})

    data = await page.content()

    title = await page.title()

    resp_cookies = await page.cookies()  # cookie

    resp_headers = res.headers  # 响应头

    resp_status = res.status  # 响应状态

    print(data)

    print(title)

    print(resp_headers)

    print(resp_status)

    return xxx

模拟输入，鼠标点击

# 模拟输入 账号密码  {'delay': rand_int()} 为输入时间

await page.type('#fm-login-id', "用户名")

await page.type('#fm-login-password', "密码", )

await page.waitFor(1000) # 等待时间

await page.click("#J_SubmitStatic")  # 点击

taobao登录

import asyncio

from pyppeteer import launch

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

    # 打开一个页面

    page = await browser.newPage()

    await page.setViewport(viewport={'width': 1280, 'height': 800})

    res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})

    await page.type('#fm-login-id', "123456")

    await page.type('#fm-login-password', "aaa", )

    await page.waitFor(1000)  # 等待时间

    slider = await page.querySelector('#nc_1_n1z') # 是否有滑块

    if slider:

        try:

            print('有滑块')

            await page.hover('#nc_1_n1z')  # 不同场景的验证码模块能名字不同。

            await page.mouse.down()

            await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})

            await page.mouse.up()

        except Exception as e:

            print(e)

            input('验证失败，人工登录：')

    else:

        print('没有滑块')

        input()

    await page.click("#login-form > div.fm-btn > button")  # 点击登录

# 程序启动入口

asyncio.get_event_loop().run_until_complete(main())

taobao修改检测浏览器

await page.evaluate(

        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')  # 以下为插入中间js，将淘宝会为了检测浏览器而调用的js修改其结果。

await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')

await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')

await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')

# 使用type选定页面元素，并修改其数值，用于输入账号密码，修改的速度仿人类操作，因为有个输入速度的检测机制

# 因为 pyppeteer 框架需要转换为js操作，而js和python的类型定义不同，所以写法与参数要用字典，类型导入

await page.type('.J_UserName', username, {'delay': input_time_random() - 50})

await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})

# await page.screenshot({'path': './headless-test-result.png'})    # 截图测试

def input_time_random():

    return random.randint(100, 151)

鼠标事件

.click()  # 点击按钮

.down()   # 按下按钮

.up()     # 释放按钮

.move()   # 移动光标

键盘事件

您可以使用down()，up()和 sendCharacter()手动触发事件，就好像事件是由真实键盘生成的一样。

await page.keyboard.press('ArrowLeft')

await page.keyboard.down('Shift')

for i in ' World':

    await page.keyboard.press('ArrowLeft')

await page.keyboard.up('Shift')

await page.keyboard.press('Backspace')

# Result text will end up saying 'Hello!'.

按下键盘A：

await page.keyboard.down('Shift')

await page.keyboard.press('KeyA')

await page.keyboard.press('Enter')

await page.keyboard.up('Shift')

注意

修饰键确实会影响down()。按住shift 将以大写形式键入文本。

参数：

key（str）–要按键的名称，例如ArrowLeft。

options（dict）–选项可以具有text字段，如果指定了此选项，则使用此文本生成输入事件。

使用ip代理ua

import asyncio

from pyppeteer import launch

async def register():

    browser = await launch({

        'headless': False,

        # 代理ip

        'args': ['--proxy-server=47.105.111.124:15525', ]

    })

    page = await browser.newPage()

    await page.setUserAgent(

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')

asyncio.get_event_loop().run_until_complete(register())

# 更多参数

args: [

            '--disable-setuid-sandbox',

            '--no-sandbox',

            '--proxy-server=10.24.51.125:8411',

            '--ignore-certificate-errors',

            '--window-size=375,812',

            '--remote-debugging-port=9222'

        ],

pyppteer下的更多相关文章

C++程序结构---1
C++ 基础教程Beta 版原作:Juan Soulié 翻译:Jing Xu (aqua) 英文原版本教程根据Juan Soulie的英文版C++教程翻译并改编. 本版为最新校对版,尚未定稿.如 ...
Android SwipeRefreshLayout 下拉刷新——Hi_博客 Android App 开发笔记
以前写下拉刷新感觉好费劲,要判断ListView是否滚到顶部,还要加载头布局,还要控制头布局的状态,等等一大堆.感觉麻烦死了.今天学习了SwipeRefreshLayout 的用法,来分享一下,有 ...
IE6、7下html标签间存在空白符，导致渲染后占用多余空白位置的原因及解决方法
直接上图:原因:该div包含的内容是靠后台进行print操作,输出的.如果没有输出任何内容,浏览器会默认给该空白区域添加空白符.在IE6.7下,浏览器解析渲染时,会认为空白符也是占位置的,默认其具有字 ...
Ubuntu下使用nvm
写在前面:刚写着写着博客就跨年了,希望新的一年大家万事如意,一切向"前"看! 安装 wget -qO- https://raw.githubusercontent.com/crea ...
Cmder--Windows下命令行利器
cmder cmder是一个增强型命令行工具,不仅可以使用windows下的所有命令,更爽的是可以使用linux的命令,shell命令. 安装包安装包链接下载后,直接解压即用. 修改命令提示符λ为 ...
NodeJs在Linux下使用的各种问题
环境:ubuntu16.04 ubuntu中安装NodeJs 通过apt-get命令安装后发现只能使用nodejs,而没有node命令如果想避免这种情况请看下面连接的这种安装方式: 拓展见:Linu ...
GreenDao 数据库：使用Raw文件夹下的数据库文件以及数据库升级
一.使用Raw文件夹下的数据库文件在使用GreenDao框架时,数据库和数据表都是根据生成的框架代码来自动创建的,从生成的DaoMaster中的OpenHelper类可以看出: public sta ...
[APUE]UNIX进程的环境(下)
一.共享库共享库使得可执行文件中不再需要包含常用的库函数,而只需在所有进程都可存取的存储区中保存这种库例程的一个副本.程序第一次执行的时候或第一次调用某个库函数的时候,用动态链接方法将程序与共享库函 ...
ASP.NET Aries 入门开发教程4：查询区的下拉配置
背景: 今天去深圳溜达了一天,刚回来,看到首页都是微软大法好,看来离.NET的春天就差3个月了~~ 回到正题,这篇的教程讲解下拉配置. 查询区的下拉配置: 1:查询框怎么配置成下拉? 在配置表头:格式 ...

随机推荐

TensorFlow-keras 100分类
import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' from tensorflow.python.keras.datasets import cifa ...
<algorithm>中sort()函数的用法
先说一下,本篇文章我没有讲sort()实现排序的原理,我写在另一篇文章中了,如果想了解的话,可以看一下,附上链接:https://www.cnblogs.com/buanxu/p/12772700.h ...
4.K均值算法--应用
1. 应用K-means算法进行图片压缩读取一张图片观察图片文件大小,占内存大小,图片数据结构,线性化用kmeans对图片像素颜色进行聚类获取每个像素的颜色类别,每个类别的颜色压缩图片生成: ...
think--数据库的设置
1.在项目下的Common下的Conf下的config.php 配置: 'DB_TYPE' => 'mysql', // 数据库类型 'DB_HOST' => 'localhost', / ...
Linux系统管理第三次作业账号管理权限及归属管理
1.创建/guanli 目录,在/guanli下创建zonghe 和 jishu 两个目录(一条命令) [root@localhost ~]# mkdir /guanli [root@localhos ...
Python内置函数enumerate()
enumerate()是Python的内置函数. help(enumerate) Help on class enumerate in module builtins: class enumerate ...
【Linux常见命令】mkdir命令
mkdir - make directories 例子: mkdir /data 在根目录/下创建data文件夹(目录) 语法: mkdir [-p] dirName 参数说明: -p 确保目录名称存 ...
mysql备份及恢复
第四章:MySQL数据库的备份与恢复 2016-09-30 00:58:05 标签:数据库备份工作原理数据库表 mysql source 原创 ...
ES6的let和const命令（一）
2019独角兽企业重金招聘Python工程师标准>>> ES6新增了let命令,用来声明变量.它的用法类似于var,但是所声明的变量,只在let命令所在的代码块内有效. let ...
JS异步与同步
这里展示一个操作场景:需要对数据进行异步处理,但这次操作可能会失败,所以需要定期对数据进行再次处理,直至处理成功. 实现:手动触发的处理以及定期触发的处理,是相同的,即可以抽取出来成一个公共函数,定期 ...

pyppteer下

官方文档

启动pyppteer

切图

获取响应头，响应头状态，cookies

获取当前页面标题

获取页面html

第一种：获取整个页面html

第二种：只获取文本

注入JS，控制上下滚动

选择器

获取元素内部的文本、属性

get_html

模拟输入，鼠标点击

taobao登录

taobao修改检测浏览器

鼠标事件

键盘事件

使用ip代理ua

pyppteer下的更多相关文章

随机推荐

热门专题