笔记-selenium+chrome headless

1.      selenium+chrome headless

phantomjs与selenium分手了,建议使用其它无头浏览器。

chrome也提供了无头浏览器,找到对应版本搭建测试环境。

1.1.    常规使用

先上代码,下面是常用调用方式。

from selenium.webdriver.chrome.options import Options

url = 'https://www.guazi.com/bj/buy/'

urls = ['https://www.taobao.com/','https://www.tmall.com/','https://www.csdn.net/']

time1 = time.time()

try:

cookie_t = {}

chrome_option = Options()

chrome_option.add_argument('--headless')

#chrome_option.add_argument('--disable-gpu')

browser = webdriver.Chrome(chrome_options=chrome_option)

browser.get(url)

cookie_t['antipas'] = browser.get_cookie('antipas')['value']

print(cookie_t)

for _ in urls:

browser.get(_)

time.sleep(3)

with open('xxx.txt','a+',encoding='utf-8') as fi:

fi.write(browser.page_source)

browser.close()

except:

print('error')

finally:

browser.quit()

time2 = time.time()

print(time2-time1)

爬虫的代码有一点需要注意,需要操作事件的时候最好不要直接用相应的方法,比如click。最好嵌入js脚本的方式进行调用。因为爬虫的代码执行速度很快,前端元素结构往往反应不过来,从而找出元素不可见或者不存在的错误。

其它常用设置项:

# 设置代理

chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")

# 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152

browser = webdriver.Chrome(chrome_options = chromeOptions)

1.2.    更多设置及操作项

1.2.1.   对于浏览器窗口的操作

在浏览器中有些操作是使用系统原生的确认框,这时就无法通过定位元素的方式来操作我们需要的步骤。这种情况就要去操作浏览器的窗口来实现。

1.弹出窗口为Confirm类型

选择确认:

Alert al = driver.switchTo().alert();

al.accept();

选择取消:

Alert al = driver.switchTo().alert();

al.dismiss();

2.弹出窗口为Alert类型

Alert al = driver.switchTo().alert();

al.accept();

3.放大浏览器窗口

driver.manage().window().maximize();

4.关闭浏览器窗口

driver.quit();

driver.close();

5.刷新/前进/后退浏览器

driver.navigate().refresh();

driver.navigate().forward();

driver.navigate().back();

quit和close的区别在于,quit关闭整个浏览器的窗口;close关闭浏览器标签页。

1.2.2.   程序等待方式

在使用selenium的过程中,等待web加载时,通常要等待下一个元素出现再进行操作,这个过程中需要用到等待。selenium中有3种等待:webDriverWait()、implicitly_wait()、sleep().

1)sleep():强制等待,设置固定的休眠时间。任何情况下都等待设置的时间。

//引入前导入相应的包,单位为毫秒;

sleep(5);

2)implicitly_wait():隐式等待,等待一个元素被发现、命令完成,超出了设置的时间则跑出异常;

//设置脚本在查找元素时的最大等待时间

WebDriver driver = new ChromeDriver();

driver.manage().timeouts().implicitlyWait(15, TimeUnit.SECONDS);

3)webDriverWait():显示等待,明确要等待的元素在指定时间之内没找到,那么就抛出Exception.

//设置等待的时长,最长10S

WebDriverWait wait = new WebDriverWait(driver, 10);  wait.until(ExpectedConditions.presenceOfElementLocated(By.xpath("//div[@id='appContentContainer']/div/div/div[1]/div[2]/div/div/button")));

笔记-selenium+chrome headless的更多相关文章

  1. ubuntu服务器端使用无界面selenium+ chrome + headless

    本来想直接用Ubuntu系统里面的firefox来实现selenium自动操作签到的,但是总是出各种问题.没办法,改为Chrome.参考:Ubuntu 线上无界面服务器 使用selenium chro ...

  2. chrome浏览器爬虫WebDriverException解决采用python + selenium + chrome + headless模式

    WebDriverException: Message: unknown error: Chrome failed to start: crashed 第一种:如果出现下面情况: chrome浏览器有 ...

  3. selenium chrome headless无界面引擎

    注意:PhantomJS已被舍弃 chrome headless 在打开浏览器之前添加参数 import time import sys from selenium import webdriver ...

  4. Ubuntu 无界面使用selenium chrome + headless

    1. 安装 selenium : sudo pip install selenium 2. 安装 chromdriver: 进入 淘宝镜像源 下载 chromdriver, 可以查看 notes.tx ...

  5. Selenium + Chrome headless 报ERROR:gpu_process_transport_factory.cc(1007)] Lost UI shared context 可忽略并配置不输出日志

    Selenium不再推荐使用PhantomJS,会报如下警告 UserWarning: Selenium support for PhantomJS has been deprecated, plea ...

  6. selenium +chrome headless Adhoc模式渲染网页

    mannual和adhoc模式比较 Manual vs. Adhoc In the script above, we start the ChromeDriver server process whe ...

  7. selenium +chrome headless Manual 模式渲染网页

    可以看看这个里面的介绍,写得很好.https://duo.com/blog/driving-headless-chrome-with-python from selenium import webdr ...

  8. ubuntu中如何安装selenium+chrome(headless)无界面浏览器?

    selenium是一个Web的自动化测试工具,它可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生.但是它自身不带浏览器,不支持浏览器的功能,因此它 ...

  9. Selenium及Headless Chrome抓取动态HTML页面

    一般的的静态HTML页面可以使用requests等库直接抓取,但还有一部分比较复杂的动态页面,这些页面的DOM是动态生成的,有些还需要用户与其点击互动,这些页面只能使用真实的浏览器引擎动态解析,Sel ...

随机推荐

  1. html中的兼容 & 如何对网站的文件和资源进行优化

    一.1.双边距 BUG float引起的  使用display 2.超链接hover 点击后失效  使用正确的书写顺序 link visited hover active (可简单看成由 爱生恨 lo ...

  2. Azure CDN:氮气加速已开启,司机们请做好准备

    在上一周,我们向各位小伙伴介绍了通过 Azure CDN 高级版服务为 HTTPS 应用加速的做法,漏掉的小伙伴可以点击这里穿越回去补课哦.那我们今天讲点什么呢?当然是 CDN 最重要的价值:改善应用 ...

  3. 双网卡(一外一内)都启用,将内网卡默认网关去除即可正常连接Internet

  4. 《转化:提升网站流量和转化率的技巧》:结合市场营销六阶段理论,以SEM为手段,提高网站转化率的技巧

    全书结合市场营销的六阶段理论,讲述各阶段的营销方面的要点和网站上吸引访客的技巧.举了一些例子,列举了一些工具.当然都是美国市场中的例子和网站优化的工具. 没有太多的新意.没看过相关图书的可以看看.

  5. Gameplay Classes

    每个虚幻游戏类都是一个.h和一个.cpp组成. 类在虚幻中有便准的命名模式. 前缀: A继承于可量产的游戏性类.他们都是Actor,可以直接在游戏中生成. U继承于所有游戏性对象.不能在游戏中直接生成 ...

  6. hdu-2838 Cow Sorting---逆序对的花费

    题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=2838 题目大意: 就是求将之前的排列变成一个递增的排列,每交换两个数的代价为两个数的和,求变成递增的 ...

  7. 模拟停车POJ(3505)

    题目链接:http://poj.org/problem?id=3505 解题报告: #include <stdio.h> #include <iostream> #includ ...

  8. vuejs使用组件的细节点

    is属性 <div id='root'> <table> <tbody> <row></row> <row></row&g ...

  9. create-react-app项目使用假数据

    做新项目的时候,前端每次要等后端接口准备好再开始,就会延期,等后端接口准备好了,前端这边的项目又会相互紧张,如果前端跟后端同时进行,前期将框架,基础做好,定好接口文档,前端在后端没准备好接口的时候使用 ...

  10. jQuery序列化表单为JSON对象

    <form id="myform"> <table> <tr> <td>姓名:</td> <td> < ...