pyppteer下
官方文档
https://miyakogi.github.io/pyppeteer/reference.html#mouse-class
启动pyppteer
import asyncio
from pyppeteer import launch
async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
)
# 打开一个页面
page = await browser.newPage()
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
print(await page.content()) # 返回html代码
resp_headers = res.headers # 响应头
resp_status = res.status # 响应状态
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())
切图
# 设置页面视图大小
await page.setViewport(viewport={'width': 1280, 'height': 800})
# 是否启用JS,enabled设为False,则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 截图 保存图片
await page.screenshot({'path': 'cnblog.png'})
获取响应头,响应头状态,cookies
async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
)
# 打开一个页面
page = await browser.newPage()
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
resp_headers = res.headers # 响应头
resp_status = res.status # 响应状态
cookies = page.cookies()
print(resp_headers)
print(resp_status)
print(page.cookies())
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())
获取当前页面标题
print(await page.title())
获取页面html
import asyncio
from pyppeteer import launch
async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
)
# 打开一个页面
page = await browser.newPage()
# 是否启用JS,enabled设为False,则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
print(await page.content()) # 返回html代码
第一种:获取整个页面html
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
print(await page.content()) # 返回html代码
第二种:只获取文本
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)
print(content)
注入JS,控制上下滚动
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 滑到底部
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
# js
window.scrollTo(0,100) # 向下滑动100
window.scrollTo(0,500) # 向下滑动500
window.scrollTo(0,document.body.scrollHeight) # 滑到底部
window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500
选择器
Page.querySelector() # CSS选择器
Page.querySelectorAll() # CSS选择器选所有
Page.xpath() # xpath选择器
# 简写方式为:
Page.J(), Page.JJ(), and Page.Jx()
获取元素内部的文本、属性
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
# 方式一:获取h1标签内容--执行JS方式
element = await page.querySelector('h1')
title = await page.evaluate('(element) => element.textContent', element)
# 方式二:获取文本
element = await page.querySelector('h1')
title = await (await item.getProperty('textContent')).jsonValue()
# 方式三:获取属性src,href
element = await page.querySelector('h1')
title_link = await (await item.getProperty('href')).jsonValue()
get_html
async def get_html(url):
browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])
page = await browser.newPage()
res = await page.goto(url, options={'timeout': 3000})
data = await page.content()
title = await page.title()
resp_cookies = await page.cookies() # cookie
resp_headers = res.headers # 响应头
resp_status = res.status # 响应状态
print(data)
print(title)
print(resp_headers)
print(resp_status)
return xxx
模拟输入,鼠标点击
# 模拟输入 账号密码 {'delay': rand_int()} 为输入时间
await page.type('#fm-login-id', "用户名")
await page.type('#fm-login-password', "密码", )
await page.waitFor(1000) # 等待时间
await page.click("#J_SubmitStatic") # 点击
taobao登录
import asyncio
from pyppeteer import launch
async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
)
# 打开一个页面
page = await browser.newPage()
await page.setViewport(viewport={'width': 1280, 'height': 800})
res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})
await page.type('#fm-login-id', "123456")
await page.type('#fm-login-password', "aaa", )
await page.waitFor(1000) # 等待时间
slider = await page.querySelector('#nc_1_n1z') # 是否有滑块
if slider:
try:
print('有滑块')
await page.hover('#nc_1_n1z') # 不同场景的验证码模块能名字不同。
await page.mouse.down()
await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
await page.mouse.up()
except Exception as e:
print(e)
input('验证失败,人工登录:')
else:
print('没有滑块')
input()
await page.click("#login-form > div.fm-btn > button") # 点击登录
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())
taobao修改检测浏览器
await page.evaluate(
'''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''') # 以下为插入中间js,将淘宝会为了检测浏览器而调用的js修改其结果。
await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {}, }; }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')
# 使用type选定页面元素,并修改其数值,用于输入账号密码,修改的速度仿人类操作,因为有个输入速度的检测机制
# 因为 pyppeteer 框架需要转换为js操作,而js和python的类型定义不同,所以写法与参数要用字典,类型导入
await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})
# await page.screenshot({'path': './headless-test-result.png'}) # 截图测试
def input_time_random():
return random.randint(100, 151)
鼠标事件
.click() # 点击按钮
.down() # 按下按钮
.up() # 释放按钮
.move() # 移动光标
键盘事件
您可以使用down(),up()和 sendCharacter()手动触发事件,就好像事件是由真实键盘生成的一样。
await page.keyboard.press('ArrowLeft')
await page.keyboard.down('Shift')
for i in ' World':
await page.keyboard.press('ArrowLeft')
await page.keyboard.up('Shift')
await page.keyboard.press('Backspace')
# Result text will end up saying 'Hello!'.
按下键盘A:
await page.keyboard.down('Shift')
await page.keyboard.press('KeyA')
await page.keyboard.press('Enter')
await page.keyboard.up('Shift')
注意
修饰键确实会影响down()。按住shift 将以大写形式键入文本。
参数:
key(str)–要按键的名称,例如ArrowLeft。
options(dict)–选项可以具有text字段,如果指定了此选项,则使用此文本生成输入事件。
使用ip代理ua
import asyncio
from pyppeteer import launch
async def register():
browser = await launch({
'headless': False,
# 代理ip
'args': ['--proxy-server=47.105.111.124:15525', ]
})
page = await browser.newPage()
await page.setUserAgent(
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')
asyncio.get_event_loop().run_until_complete(register())
# 更多参数
args: [
'--disable-setuid-sandbox',
'--no-sandbox',
'--proxy-server=10.24.51.125:8411',
'--ignore-certificate-errors',
'--window-size=375,812',
'--remote-debugging-port=9222'
],
pyppteer下的更多相关文章
- C++程序结构---1
C++ 基础教程Beta 版 原作:Juan Soulié 翻译:Jing Xu (aqua) 英文原版 本教程根据Juan Soulie的英文版C++教程翻译并改编. 本版为最新校对版,尚未定稿.如 ...
- Android SwipeRefreshLayout 下拉刷新——Hi_博客 Android App 开发笔记
以前写下拉刷新 感觉好费劲,要判断ListView是否滚到顶部,还要加载头布局,还要控制 头布局的状态,等等一大堆.感觉麻烦死了.今天学习了SwipeRefreshLayout 的用法,来分享一下,有 ...
- IE6、7下html标签间存在空白符,导致渲染后占用多余空白位置的原因及解决方法
直接上图:原因:该div包含的内容是靠后台进行print操作,输出的.如果没有输出任何内容,浏览器会默认给该空白区域添加空白符.在IE6.7下,浏览器解析渲染时,会认为空白符也是占位置的,默认其具有字 ...
- Ubuntu下使用nvm
写在前面:刚写着写着博客就跨年了,希望新的一年大家万事如意,一切向"前"看! 安装 wget -qO- https://raw.githubusercontent.com/crea ...
- Cmder--Windows下命令行利器
cmder cmder是一个增强型命令行工具,不仅可以使用windows下的所有命令,更爽的是可以使用linux的命令,shell命令. 安装包 安装包链接 下载后,直接解压即用. 修改命令提示符λ为 ...
- NodeJs在Linux下使用的各种问题
环境:ubuntu16.04 ubuntu中安装NodeJs 通过apt-get命令安装后发现只能使用nodejs,而没有node命令 如果想避免这种情况请看下面连接的这种安装方式: 拓展见:Linu ...
- GreenDao 数据库:使用Raw文件夹下的数据库文件以及数据库升级
一.使用Raw文件夹下的数据库文件 在使用GreenDao框架时,数据库和数据表都是根据生成的框架代码来自动创建的,从生成的DaoMaster中的OpenHelper类可以看出: public sta ...
- [APUE]UNIX进程的环境(下)
一.共享库 共享库使得可执行文件中不再需要包含常用的库函数,而只需在所有进程都可存取的存储区中保存这种库例程的一个副本.程序第一次执行的时候或第一次调用某个库函数的时候,用动态链接方法将程序与共享库函 ...
- ASP.NET Aries 入门开发教程4:查询区的下拉配置
背景: 今天去深圳溜达了一天,刚回来,看到首页都是微软大法好,看来离.NET的春天就差3个月了~~ 回到正题,这篇的教程讲解下拉配置. 查询区的下拉配置: 1:查询框怎么配置成下拉? 在配置表头:格式 ...
随机推荐
- ES6让字符串String增加了哪些好玩的特性呢?
确实因为现在天气变热了,所以一天天的这么写我也很累.所以如果阅读的时候有什么错误还请大家指出来,不好意思.学习永无止境. OK,今天继续讲解ES6系列知识 学过上一节的解构赋值就知道,ES6确实给我们 ...
- MySQL如何创建一个好索引?创建索引的5条建议【宇哥带你玩转MySQL 索引篇(三)】
MySQL如何创建一个好索引?创建索引的5条建议 过滤效率高的放前面 对于一个多列索引,它的存储顺序是先按第一列进行比较,然后是第二列,第三列...这样.查询时,如果第一列能够排除的越多,那么后面列需 ...
- 当git上只做文件大小写重命名的修改时,如何躲坑
一. 提交时 假设修改ABC.java为Abc.java. 1.1 如果使用git命令进行仅涉及大小写的重命名 1.1.1 设置git库为大小写敏感(不建议) $ git config core.ig ...
- Service Location Protocol SLP
https://www.ibm.com/developerworks/cn/linux/l-slp/ 服务发现(service discovery) 是在网络环境中发现必须使用的服务的能力.例如,如果 ...
- javascript SDK开发之webpack打包支持对象展开运算符...
场景:使用了对象的展开运算符,webpack打包报错,错误如下:Parsing error: Unexpected token - 1.安装依赖 npm install babel-preset-st ...
- Java 数组 之 二维数组
转载于 : http://www.verejava.com/?id=16992693216433 public class BinaryArray { public static void main( ...
- 【总结】Centos中,Kerberos安装
1.安装软件包 安装必须的工具 bison, make, binutils 下载压缩包至/usr/local目录下,并解压 [root@localhost local]# ls krb5-1.14.t ...
- VB中使用字典存储类对象
2019独角兽企业重金招聘Python工程师标准>>> NODE类 Public pNext As NODE Public pPrev As NODE Public data As ...
- JAVA I/O 与装饰者模式UML图
- POJ 1905 Expanding Rods(二分)
Expanding Rods Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 20224 Accepted: 5412 Descr ...