目录

Selenium概述

https://github.com/SeleniumHQ/selenium

https://www.selenium.dev/documentation/en/

Selenium是常用的Web自动化测试方案,也可以用来抓取一些页面数据。

三要素:WebDriver,IDE,Grid。

浏览器支持

1.真实浏览器

Chrome,Chromium,Firefox,Internet Explorer,Opera,Safari

2.模拟浏览器

HtmlUnit:Java语言绑定。

https://htmlunit.sourceforge.io/

PhantomJS:

https://phantomjs.org/

工具库

1.Beautiful Soup

从HTML或XML文件中提取数据。

https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ Beautiful Soup 4.4.0 文档

2.requests/urlib2

下载指定url的数据。

开发实践

第一步:安装Python

https://www.runoob.com/python/python-tutorial.html Python基础教程

https://www.python.org/downloads/ Python官网下载地址

${PYTHON_HOME}${PYTHON_HOME}/Scripts目录添加到PATH变量中。

python --version

Python 3.9.6

pip --version

pip 21.1.3 from d:\python39\lib\site-packages\pip (python 3.9)

第二步:安装selenium

pip install selenium

Collecting selenium

Downloading selenium-3.141.0-py2.py3-none-any.whl (904 kB)

|████████████████████████████████| 904 kB 64 kB/s

Collecting urllib3

Downloading urllib3-1.26.6-py2.py3-none-any.whl (138 kB)

|████████████████████████████████| 138 kB 94 kB/s

Installing collected packages: urllib3, selenium

Successfully installed selenium-3.141.0 urllib3-1.26.6

第三步:安装浏览器驱动

下载chrome浏览器驱动:https://sites.google.com/a/chromium.org/chromedriver/downloads

国内镜像:http://npm.taobao.org/mirrors/chromedriver/

将驱动程序路径添加到系统PATH变量中:

chromedriver --version

ChromeDriver 91.0.4472.101 (af52a90bf87030dd1523486a1cd3ae25c5d76c9b-refs/branch-heads/4472@{#1462})

第四部:在项目中调用浏览器驱动API访问页面,操作元素等操作

创建Python项目,实战Selenium操作浏览器。

https://www.selenium.dev/documentation/en/webdriver/

https://www.selenium.dev/documentation/en/driver_idiosyncrasies/ 驱动特性

等待

浏览器在加载页面时需要一定的时间,因此在Selenium中定位页面元素时也需要一定的等待时长,已确保页面被正常加载完毕并且可以定位到目标元素。

有4种实现等待的方式:

1.进程等待:

import time

time.sleep(10)

2.显示等待:设置一个满足某个条件的显示等待

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By WebDriverWait(driver, timeout=10).until(EC.element_to_be_clickable((By.ID, 'content_left')))

3.隐式等待

driver.implicitly_wait(3)

4.FluentWait等待

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC wait = WebDriverWait(driver, timeout=10, poll_frequency=1)
wait.until(EC.element_to_be_clickable((By.ID, 'content_left')))

特别注意:

Selenium中的显示等待和隐式等待不能一起混合使用,否则将可能会带来一起超出预期的效果。

定位元素

Selenium提供了8种不同的内置元素定位策略,如下所示。

假设DOM内容如下:

<ol id=cheese class="clazz1 clazz2">
<li id=cheddar name="cheddar">…
<li id=brie>…
<li id=rochefort>…
<li id=camembert>…
<li>
<a href="">test</a>
</li>
</ol>

定位单个元素

1.按元素ID定位

# 只定位一次目标元素
driver.find_element(By.ID, "cheese") # 先定位到父元素,再缩小查找范围继续按ID定位元素
cheese = driver.find_element(By.ID, "cheese")
cheddar = cheese.find_element(By.ID, "cheddar")

2.根据css定位

cheddar = driver.find_element(By.CSS_SELECTOR, "#cheese #cheddar")

3.根据Class名称定位

# 查找元素的Class名称中包含指定值的元素,注意:传递的参数不能是一个复合class,如:'clazz1 clazz2'
driver.find_element(By.CLASS_NAME, 'clazz1')

4.根据元素Name属性定位

# 定位name属性匹配指定值的元素
driver.find_element(By.NAME, 'cheddar')

5.根据元素可视化文本定位

# 完全匹配元素可视化文本定位
driver.find_element(By.LINK_TEXT, 'test')

6.根据元素可视化文本子集定位

# 根据元素可视化文本部分字段值定位
driver.find_element(By.PARTIAL_LINK_TEXT, 'te')

7.根据元素标签名称定位

# 定位所有a标签元素
driver.find_element(By.TAG_NAME, 'a')

8.根据xpath表达式定位

# 根据xpath表达式定位
driver.find_element(By.XPATH, xpath表达式)

除了上述内置元素定位策略之外,Selenium 4还支持元素相对位置定位的方法。

使用CSS和Class定位时,可以使用SelectorGadget辅助获取。

使用XPath定位时,可以直接使用Chrome自带的开发者工具,选择元素之后复制对应的Xpath信息。

定位多个元素

在定位多个元素时跟定位单个元素使用相同的策略,不同之处在于返回值不再是单个元素,而是一个元素列表。

# 定位多个元素时返回一个列表,如果定位到的元素只有一个,也是返回一个列表(此时列表元素个数为1)
# 如果没有找到目标元素,则返回一个空列表
mucho_cheese = driver.find_elements(By.CSS_SELECTOR, "#cheese li")

获取HTML元素内容的方式

    span:get_attribute('textContent')
textarea:get_attribute('textContent')
a:get_attribute('textContent')
p:get_attribute('textContent')
b:get_attribute('textContent')
h2:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text
div:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text
table.td:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text
em:get_attribute('innerHTML'),获取纯文本内容:text,如:driver.find_element_by_xpath('xxx').text

注意:属性get_attribute('innerHTML')获取的是该HTML标签以及所有子节点内容,结果是HTML标签内容。

另外,还可以使用多个class名称定位元素:

driver.find_elements_by_css_selector("div[class='value test']")

详见:Find div element by multiple class names?

【参考】

https://www.cnblogs.com/deliaries/p/14121204.html selenium加载cookie报错问题

Selenium入门介绍的更多相关文章

  1. [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍

    前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...

  2. 自动化测试Java一:Selenium入门

    From: https://blog.csdn.net/u013258415/article/details/77750214 Selenium入门 欢迎阅读Selenium入门讲义,本讲义将会重点介 ...

  3. Selenium自动化测试Python一:Selenium入门

    Selenium入门 欢迎阅读Selenium入门讲义,本讲义将会重点介绍Selenium的入门知识以及Selenium的前置知识. 自动化测试的基础 在Selenium的课程以前,我们先回顾一下软件 ...

  4. Selenium 工具介绍、安装、配置及使用

    概念 selenium是一款跨平台开源工具,用于web的功能完整性測试,想做压力測试的能够换软件了 先看一眼官方站 http://docs.seleniumhq.org/download/ 首先要FQ ...

  5. web自动化-selenium 入门篇

    selenium安装介绍 selenium是web浏览器的自动化工具 官网:https://www.selenium.dev 构成: WebDriver: 浏览器提供的浏览器api来控制浏览器(模拟用 ...

  6. C# BackgroundWorker组件学习入门介绍

    C# BackgroundWorker组件学习入门介绍 一个程序中需要进行大量的运算,并且需要在运算过程中支持用户一定的交互,为了获得更好的用户体验,使用BackgroundWorker来完成这一功能 ...

  7. 初识Hadoop入门介绍

    初识hadoop入门介绍 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. < ...

  8. [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)

    最近在使用Python爬取网页内容时,总是遇到JS临时加载.动态获取网页信息的困难.例如爬取CSDN下载资源评论.搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题 ...

  9. JavaScript入门介绍(二)

    JavaScript入门介绍 [函数] 函数function 是Javascript的基础模块单元,用于代码的复用.信息影藏和组合调用. function a(){} 函数对象Function Lit ...

  10. JavaScript入门介绍(一)

    JavaScript入门介绍 [经常使用的调试工具][w3school.com.cn在线编辑] [Chrome浏览器 开发调试工具]按F121.代码后台输出调试:console.log("t ...

随机推荐

  1. [转帖]Prometheus 都可以采集那些指标?-- 常用 Exporter 合集

    Prometheus 可以通过各种 Exporter 来获取很多指标,并且只要符合 Prometheus 规范的都可以获取到,本文汇总一些常用的采集器到这里.  Prometheus Exporter ...

  2. Linux执行SQLSERVER语句的简单方法

    背景 因为WTF的原因.经常有人让执行各种乱七八槽的删除语句 因为产品支持了10多种数据库. 这个工作量非常复杂. 为了简单起见,想着能够批量执行部分SQL. 其他的都处理过了,但是SQLSERVER ...

  3. reposync与createrepo创建离线yum源的方法

    背景 昨天晚上进行了在线升级银河麒麟V10SP2的audit和mate-indicator的rpm包 今天想了下,如果机器无法上网. 必须得在公司内部搭建一套离线的rpm源进行处理 想了下还是使用re ...

  4. 什么是ChatGPT,什么是大模型prompt

    什么是ChatGpt ChatGPT是一个由美国的OpenAI公司开发的聊天机器人,它使用了大型语言模型,现在有GPT-3.GPT-3.5.GPT-4.0多个版本,目前还在快速发展,通过监督学习和强化 ...

  5. Unity2020或Unity2019安装后无法启动

    无法启动Unity 下载国际版的Unity2020,双击Unity.exe无法启动,通过Unity Hub也无法启动 ​ 原因 通过查看unity hub的日志发现Unity 启动的时候会检查 lie ...

  6. 【6】opencv采用映射技术实现鱼眼镜头校正和鱼眼镜头还原全景图。

    相关文章: [1]windows下安装OpenCV(4.3)+VS2017安装+opencv_contrib4.3.0配置 [2]Visual Studio 2017同时配置OpenCV2.4 以及O ...

  7. C++ Qt开发:数据库与TableView多组件联动

    Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍TableVi ...

  8. 3.3 DLL注入:突破会话0强力注入

    Session是Windows系统的一个安全特性,该特性引入了针对用户体验提高的安全机制,即拆分Session 0和用户会话,这种拆分Session 0和Session 1的机制对于提高安全性非常有用 ...

  9. 1.1 C++ STL 字符串构造函数

    String 字符串操作容器是C++标准中实现的重要容器,其主要用于对字符串的高效处理,它和C风格中的string.h并不是同一个库,两个库有极大的差距,C库中的string.h主要面向过程提供一些处 ...

  10. 【技能篇】解决vs编译器scanf等函数不安全问题【手把手操作-一分钟解决】

    [技能篇]解决Vs编译器scanf等函数不安全问题 文章目录 说在前面 博主给大家的福利 解决方案 解决过程 尾声 说在前面 大家刚开始学习编程的时候,使用vs编译器.使用scanf等函数的时候遇到的 ...