Selenium入门介绍
目录
Selenium概述
https://github.com/SeleniumHQ/selenium
https://www.selenium.dev/documentation/en/
Selenium是常用的Web自动化测试方案,也可以用来抓取一些页面数据。
三要素:WebDriver,IDE,Grid。
浏览器支持
1.真实浏览器
Chrome,Chromium,Firefox,Internet Explorer,Opera,Safari
2.模拟浏览器
HtmlUnit:Java语言绑定。
https://htmlunit.sourceforge.io/
PhantomJS:
工具库
1.Beautiful Soup
从HTML或XML文件中提取数据。
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ Beautiful Soup 4.4.0 文档
2.requests/urlib2
下载指定url的数据。
开发实践
第一步:安装Python
https://www.runoob.com/python/python-tutorial.html Python基础教程
https://www.python.org/downloads/ Python官网下载地址
将${PYTHON_HOME}和${PYTHON_HOME}/Scripts目录添加到PATH变量中。
python --version
Python 3.9.6
pip --version
pip 21.1.3 from d:\python39\lib\site-packages\pip (python 3.9)
第二步:安装selenium
pip install selenium
Collecting selenium
Downloading selenium-3.141.0-py2.py3-none-any.whl (904 kB)
|████████████████████████████████| 904 kB 64 kB/s
Collecting urllib3
Downloading urllib3-1.26.6-py2.py3-none-any.whl (138 kB)
|████████████████████████████████| 138 kB 94 kB/s
Installing collected packages: urllib3, selenium
Successfully installed selenium-3.141.0 urllib3-1.26.6
第三步:安装浏览器驱动
下载chrome浏览器驱动:https://sites.google.com/a/chromium.org/chromedriver/downloads
国内镜像:http://npm.taobao.org/mirrors/chromedriver/
将驱动程序路径添加到系统PATH变量中:
chromedriver --version
ChromeDriver 91.0.4472.101 (af52a90bf87030dd1523486a1cd3ae25c5d76c9b-refs/branch-heads/4472@{#1462})
第四部:在项目中调用浏览器驱动API访问页面,操作元素等操作
创建Python项目,实战Selenium操作浏览器。
https://www.selenium.dev/documentation/en/webdriver/
https://www.selenium.dev/documentation/en/driver_idiosyncrasies/ 驱动特性
等待
浏览器在加载页面时需要一定的时间,因此在Selenium中定位页面元素时也需要一定的等待时长,已确保页面被正常加载完毕并且可以定位到目标元素。
有4种实现等待的方式:
1.进程等待:
import time
time.sleep(10)
2.显示等待:设置一个满足某个条件的显示等待
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
WebDriverWait(driver, timeout=10).until(EC.element_to_be_clickable((By.ID, 'content_left')))
3.隐式等待
driver.implicitly_wait(3)
4.FluentWait等待
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
wait = WebDriverWait(driver, timeout=10, poll_frequency=1)
wait.until(EC.element_to_be_clickable((By.ID, 'content_left')))
特别注意:
Selenium中的显示等待和隐式等待不能一起混合使用,否则将可能会带来一起超出预期的效果。
定位元素
Selenium提供了8种不同的内置元素定位策略,如下所示。
假设DOM内容如下:
<ol id=cheese class="clazz1 clazz2">
<li id=cheddar name="cheddar">…
<li id=brie>…
<li id=rochefort>…
<li id=camembert>…
<li>
<a href="">test</a>
</li>
</ol>
定位单个元素
1.按元素ID定位
# 只定位一次目标元素
driver.find_element(By.ID, "cheese")
# 先定位到父元素,再缩小查找范围继续按ID定位元素
cheese = driver.find_element(By.ID, "cheese")
cheddar = cheese.find_element(By.ID, "cheddar")
2.根据css定位
cheddar = driver.find_element(By.CSS_SELECTOR, "#cheese #cheddar")
3.根据Class名称定位
# 查找元素的Class名称中包含指定值的元素,注意:传递的参数不能是一个复合class,如:'clazz1 clazz2'
driver.find_element(By.CLASS_NAME, 'clazz1')
4.根据元素Name属性定位
# 定位name属性匹配指定值的元素
driver.find_element(By.NAME, 'cheddar')
5.根据元素可视化文本定位
# 完全匹配元素可视化文本定位
driver.find_element(By.LINK_TEXT, 'test')
6.根据元素可视化文本子集定位
# 根据元素可视化文本部分字段值定位
driver.find_element(By.PARTIAL_LINK_TEXT, 'te')
7.根据元素标签名称定位
# 定位所有a标签元素
driver.find_element(By.TAG_NAME, 'a')
8.根据xpath表达式定位
# 根据xpath表达式定位
driver.find_element(By.XPATH, xpath表达式)
除了上述内置元素定位策略之外,Selenium 4还支持元素相对位置定位的方法。
使用CSS和Class定位时,可以使用SelectorGadget辅助获取。
使用XPath定位时,可以直接使用Chrome自带的开发者工具,选择元素之后复制对应的Xpath信息。
定位多个元素
在定位多个元素时跟定位单个元素使用相同的策略,不同之处在于返回值不再是单个元素,而是一个元素列表。
# 定位多个元素时返回一个列表,如果定位到的元素只有一个,也是返回一个列表(此时列表元素个数为1)
# 如果没有找到目标元素,则返回一个空列表
mucho_cheese = driver.find_elements(By.CSS_SELECTOR, "#cheese li")
获取HTML元素内容的方式
span:get_attribute('textContent')
textarea:get_attribute('textContent')
a:get_attribute('textContent')
p:get_attribute('textContent')
b:get_attribute('textContent')
h2:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text
div:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text
table.td:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text
em:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text
注意:属性get_attribute('innerHTML')获取的是该HTML标签以及所有子节点内容,结果是HTML标签内容。
另外,还可以使用多个class名称定位元素:
driver.find_elements_by_css_selector("div[class='value test']")
详见:Find div element by multiple class names?
【参考】
https://www.cnblogs.com/deliaries/p/14121204.html selenium加载cookie报错问题
Selenium入门介绍的更多相关文章
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
- 自动化测试Java一:Selenium入门
From: https://blog.csdn.net/u013258415/article/details/77750214 Selenium入门 欢迎阅读Selenium入门讲义,本讲义将会重点介 ...
- Selenium自动化测试Python一:Selenium入门
Selenium入门 欢迎阅读Selenium入门讲义,本讲义将会重点介绍Selenium的入门知识以及Selenium的前置知识. 自动化测试的基础 在Selenium的课程以前,我们先回顾一下软件 ...
- Selenium 工具介绍、安装、配置及使用
概念 selenium是一款跨平台开源工具,用于web的功能完整性測试,想做压力測试的能够换软件了 先看一眼官方站 http://docs.seleniumhq.org/download/ 首先要FQ ...
- web自动化-selenium 入门篇
selenium安装介绍 selenium是web浏览器的自动化工具 官网:https://www.selenium.dev 构成: WebDriver: 浏览器提供的浏览器api来控制浏览器(模拟用 ...
- C# BackgroundWorker组件学习入门介绍
C# BackgroundWorker组件学习入门介绍 一个程序中需要进行大量的运算,并且需要在运算过程中支持用户一定的交互,为了获得更好的用户体验,使用BackgroundWorker来完成这一功能 ...
- 初识Hadoop入门介绍
初识hadoop入门介绍 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. < ...
- [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)
最近在使用Python爬取网页内容时,总是遇到JS临时加载.动态获取网页信息的困难.例如爬取CSDN下载资源评论.搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题 ...
- JavaScript入门介绍(二)
JavaScript入门介绍 [函数] 函数function 是Javascript的基础模块单元,用于代码的复用.信息影藏和组合调用. function a(){} 函数对象Function Lit ...
- JavaScript入门介绍(一)
JavaScript入门介绍 [经常使用的调试工具][w3school.com.cn在线编辑] [Chrome浏览器 开发调试工具]按F121.代码后台输出调试:console.log("t ...
随机推荐
- [转帖]Rocksdb的优劣及应用场景分析
研究Rocksdb已经有七个月的时间了,这期间阅读了它的大部分代码,对底层存储引擎进行了适配,同时也做了大量的测试.在正式研究之前由于对其在本地存储引擎这个江湖地位的膜拜,把它想象的很完美,深入摸 ...
- [转帖]Jmeter脚本录:抓取https请求
Jmeter抓取http请求 https://blog.csdn.net/qq19970496/article/details/86595109 代理设置步骤请参照该篇文章.本文件只做补充HTTPS中 ...
- [转帖]docker使用buildx构建多平台(x86,arm64)构架镜像
https://blog.csdn.net/atzqtzq/article/details/128583331 配置文件激活buildx docker目前使用版本为Server Version: 20 ...
- [转帖]Cgroups资源限制
https://cloud.tencent.com/developer/article/2108816?areaSource=105001.13&traceId=QzVtWN5jGl8zeYZ ...
- 跨主机Docker容器通信的学习
背景 骨折在家找自己的人比较少. 又因为出不去也没法做运动,就不如将之前没学习深入的地方学习下 先是进行Docker 搭建 redis cluster的处理. 当时发现必须使用 --net=host进 ...
- web开发的模式的介绍与身份认证
web开发的模式的介绍 1.服务端渲染 2.前端端分离开发的web模式 服务端渲染优点与缺点 优点: 1.前端耗时少.因为服务器端负责动态生成HTML内容,浏览器只需要直接渲染页面即可.尤其是移动端更 ...
- NextJs 与 Tailwind 入门开发笔记
前言 距离上次更新已经过去好久了,之前我在 StarBlog 博客2023年底更新一览的文章里说要使用 Next.js 来重构博客前端,最近也确实用 next.js 做了两个小项目,一个是单点认证项目 ...
- Go 匿名函数与闭包
Go 匿名函数与闭包 匿名函数和闭包是一些编程语言中的重要概念,它们在Go语言中也有重要的应用.让我们来详细介绍这两个概念,并提供示例代码来帮助理解. 目录 Go 匿名函数与闭包 一.匿名函数(Ano ...
- ADB精简安卓系统:基础环境
KMSID: 80999 是否同步到KM: 是 是否原创: 是 标签: 游戏开发 允许复制: 是 允许评论: 是 允许导出PDF: 是 职业库分类: 游戏-游戏程序 查看权限:网易正式员工-公开, 网 ...
- 复原docker中容器的启动命令
复原 docker 容器的启动命令 前言 查看 docker 容器的启动命令 参考 复原 docker 容器的启动命令 前言 不规范的操作,在启动 docker 容器,没有留命令脚本,或者没有使用 d ...