Selenium库

自动化测试工具，支持多种游览器

爬虫中主要用来解决JavaScript渲染的问题

安装Selenium

pip3 install selenium

安装游览器驱动

下载驱动地址：https://github.com/mozilla/geckodriver/releases/

用法

基本使用

from selenium import webdriver	#游览器驱动对象

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDirverWait

browser = webdriver.Chrome()	#申明游览器对象

try:

    browser.get('https://www.baidu.com')

    input = browser.find_element_by_id('kw')	#查找id为kw的元素

    input.send_keys('Python')	#向元素发送键，敲入Python

    input.send_keys(Keys.ENTER)	#敲入回车

    wait = WebDriverWait(browser,10)	#调用等待

    wait.untill(EC.presence_of_element_located((By.ID,'content_left')))#等待ID为content_left元素加载

    print(browser.current_url)		#打印当前的url

    print(browser.get_cookies())	#打印当前cookie

    print(browser.page_source)	#page_source，打印网页源代码

finally:

    browser.close()	#关掉游览器

声明游览器对象

from selenium import webdirver	#游览器驱动对象 

browser = webdriver.Chrome()

browser = webdriver.Firefox()	#申明游览器对象

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

访问页面

from selenium import webdirver	#游览器驱动对象 

browser = webdirver.Firefox()	#申明游览器对象

browser.get('https://taobao.com')

print(browser.page_source)	##page_source，打印网页源代码

browser.close()

查找元素

单个元素

from selenium import webdirver	#游览器驱动对象 

browser = webdirver.Firefox()	#申明游览器对象

browser.get('https://taobao.com')	

#三种方法查找

input_first = browser.find_element_by_id('q')	#查找id为q的元素

input_second = browser.find_element_by_css_selector('#q')	#使用css选择器查找

input_third = browser.find_element_by_xpath('//*[@id="q"]')	#使用xpath选择器查找

print(input_first,input_second,input_third)

browser.close

其他查找方法

fine_element_by_name
fine_element_by_xpath
fine_element_by_link_text
fine_element_by_partial_link_text
fine_element_by_tag_name
fine_element_by_class_name
fine_element_by_css_selector

通用查找方法

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Firefox()

browser.get('https://taobao.com')

input_first = browser.find_element(By.ID,'q')

print(input_first)

browser.close()

多个元素

与单个元素的区别是单元数是element，多元素是elements

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://taobao.com')

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

browser.close()

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Firefox()

browser.get('https://taobao.com')

lis = browser.find_elements(By.CSS_SELECTOR,'.service-bd li')

print(lis)

browser.close()

其他查找方法

fine_elements_by_name
fine_elements_by_xpath
fine_elements_by_link_text
fine_elements_by_partial_link_text
fine_elements_by_tag_name
fine_elements_by_class_name
fine_elements_by_css_selector

元素交互操作

对获取的元素调用交互方法

from selenium import webdriver

import time

browser = webdriver.Firefox()

browser.get('https://taobao.com')

input = browser.find_element_by_id('q')	#查找id为q的元素，实际是输入框

input.send_keys('iPhone')	#输入键为iPhone

time.sleep(1)	#等待一秒

input.clear()	#清空文本框

input.send_keys('iPad')	#输入键为iPad

button = browser.find_element_by_classs_name('btn-search')		#查找name为btn-search的元素

button.click()	#跳转请求为搜索结果

交互动作

将动作附加到动作链中串行执行

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Firefox()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-apl-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')	#切换到iframeResult元素里面

source = browser.find_element_by_css_selector('#draggable')	#查找draggable拖拽元素

target = browser.find_element_by_css_selector('#droppable')	#查找droppable被拖拽元素

actions = ActionChains(browser)	#申明动作对象

actions.drag_and_drop(source,atrget)	#进行拖拽

actions.perform()	#执行拖拽动作

执行JavaScript

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.zhihu.com/explore')

browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')#下拉到网页最下端

browser.execute_script('alert("To Bottom")')	#提示信息To Bottom

获取元素信息

获取属性

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Firefox()

url = 'https://www.zhihu.com/explore'

browser.get(url)

logo = browser.find_element_by_id('zh-top-link-logo')

print(logo)

print(logo.get_attribute('class'))

获取文本值

from selenium import webdriver

browser = webdriver.Firefox()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zh-top-link-logo')

print(input.text)

获取ID、位置、标签名、大小

from selenium import webdriver

browser = webdriver.Firefox()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zh-top-add-question')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

Frame

import time

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Firefox()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-apl-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')	#切换到iframeResult元素里面

source = browser.find_element_by_css_selector('#draggable')

print(source)

try:

    logo = browser.fine_element_by_class_name('logo')

except:

    print('NO LOGO')

browser.switch_to.parent_frame()	#切换到其他frame

logo = browser.find_element_by_class_naem('logo')

print(logo)

print(logo.text)

等待

隐式等待

当使用隐式等待执行测试的时候，如果webDriver没有在DOM中找到元素，将继续等待，超出设定时间后这抛出找不到元素异常。当查找元素或元素并没有立即出现的时候，隐式等待将等待一段时间再查早DOM，默认的时间是0。

from selenium import webdriver

browser = webdriver.Firefox()

browser.implicitly_wait(10)

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zh-top-add-question')

print(input)

显示等待

from selenium import webdriver	#游览器驱动对象

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Firefox()

url = 'https://www.taobao.com/'

browser.get(url)

wait = WebDriverWait(browser,10)

input = wait.unitil(EC.presence_of_element_located((By.ID,'q')))

button = waitunitil(EC.presence_to_be_clickable((By.CSS_SELECTOR,'.btn-search')))

print(input,button)

title_is 标题内容
title_contains 标题包含元素
presence_of_element_located 元素加载出，传入定位元组，如（By.ID，'p'）
visiblility_of_element_located 元素可见，传入定位元组
visiblility_of 可见，传入元素对象
presence_of_all_element_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame 加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM，可判断页面是否已经刷新
element_to_be_selected 元素可选择，传元素对象
element_location_to_be_selected 元素可选择，传入定位元组
element_selection_state_to_be 传入元素对象以及状态，相等返回True，否则False
element_location_selected_state_to_be 传入定位元组以及状态，相等返回True，否则False
alert_is_present 是否出现Alert

前进后退

import time

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.baidu.com/')

browser.get('https://www.taobao.com/')

browser.get('https://www.python.com/')

browser.back()

time.sleep(1)

browser.forward()

browser.close()

Cookies

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies())

browser.add_cookie({'name':'name','domain':'www.zhihu.com','value':'germey'})

print(browser.get_cookies())

browser.delete_all_cookies()

print(browser.get_cookies())

选项卡管理

import time

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.baidu.com/')

browser.execute_script('window.open()')

print(browser.window_handles)

browser.switch_to_window(browser.window_handles[1])

browser.get('https://www.taobao.com/')

time.sleep(1)

browser.switch_to_window(browser.window_handles[0])

browser.get('https://python.org/')

异常处理

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.baidu.com/')

browser.find_element_by_id('hello')

from selenium import webdriver

from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Firefox()

try:

    browser.get('https://www.baidu.com')

except TimeoutException:

    print('Time Out')

try:

    browser.find_element_by_id('hello')

except NoSuchElementException:

    print('No Elemet')

finally:

    browser.close()

Python Selenium库的更多相关文章

为采集动态网页安装和测试Python Selenium库
1. 引言上一篇<为编写网络爬虫程序安装Python3.5>中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经 ...
python——selenium库的使用
selenium 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Fire ...
python Selenium库的使用
一.什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行 ...
Python爬虫-- selenium库
selenium库 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(S ...
自动化选课(Python + selenium
前几天听到朋友说自己选课事情,突发奇想想要搞这样一个东西,但是由于各种原因只做到以下的完成度,具体的情况也会在解释的最后留下.这个只适用于曲师大的教务系统,因为用的这个系统来进行的一个调试,对于其 ...
python利用selenium库识别点触验证码
利用selenium库和超级鹰识别点触验证码(学习于静谧大大的书,想自己整理一下思路) 一.超级鹰注册:超级鹰入口 1.首先注册一个超级鹰账号,然后在超级鹰免费测试地方可以关注公众号,领取1000积分 ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
python爬虫笔记----4.Selenium库（自动化库）
4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver ...
PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...

随机推荐

java中如何能把一个字符串转成日期对象
题目3.1: 把一个字符串转成日期对象当我们想根据输入字符串得到一个日期对象时我们不知道,应该以什么格式写这个字符串,才能被系统正确解析,一种聪明的做法是,马克-to-win,我们先把日期对象根据 ...
解决IDEA中控制台输出乱码
1. 修改VM Options(2种方法) 第一种,直接修改Tomcat中的 VM Options,这种只对当前项目有效 (1)先点击 Run -> Edit Configurations- 2 ...
Java学习笔记（韩顺平教育 b站有课程）
Java重要特点面向对象(oop) 健壮性:强类型机制,异常处理,垃圾的自动收集跨平台性的 (一个编译好的.class可以在多个系统下运行) TEST.java -> TEST.class ...
Windows中Nginx配置nginx.conf不生效解决方法(路径映射)
Windows中Nginx配置nginx.conf不生效解决方法今天在做Nginx项目的时候,要处理一个路径映射问题, location /evaluate/ { proxy_pass http:/ ...
redis笔记补充
redis补充这篇文章是redis入门笔记的补充. 1.info命令用来显示服务的信息. info命令可以跟下面的选项: server: 关于 Redis 服务器的一些信息 clients: 客户 ...
c语言实现双链表的基本操作—增删改查
//初始化 Node*InitList() { Node*head=(Node*)malloc(sizeof(Node)); if(NULL==head) { printf("内存分配失败! ...
Oracle安装 - shmmax和shmall设置
一.概述在Linux上安装oracle,需要对内核参数进行调整,其中有shmmax和shmall这两个参数,那这两个参数是什么意思,又该如何设置呢? 二.官方文档在oracle的官方文档( htt ...
linux中rsync备份文件
linux中rsync备份文件备份文件的方式备份方式: cp : 本机复制 scp: 远程复制推(本地上传到远程服务器): scp 1.txt root@ip:[路径] [root@m01 ~] ...
linux权限问题，chmod命令
Linux系统中,每个用户的角色和权限划分的很细致也很严格,每个文件(目录)都设有访问许可权限,利用这种机制来决定某个用户通过某种方式对文件(目录)进行读.写.执行等操作. 操作文件或目录的用户,有3 ...
分布式应用运行时 Dapr 1.7 发布
Dapr 是一个开源.可移植的.事件驱动的运行时,可以帮助开发人员构建在云和边缘上运行的弹性的.微服务的.无状态和有状态应用程序,并且关注于业务逻辑而不用考虑分布式相关的问题. 分布式相关的问题交给D ...

Python Selenium库

Selenium库

安装Selenium

用法

基本使用

声明游览器对象

访问页面

查找元素

单个元素

其他查找方法

通用查找方法

多个元素

其他查找方法

元素交互操作

交互动作

执行JavaScript

获取元素信息

获取属性

获取文本值

获取ID、位置、标签名、大小

Frame

等待

隐式等待

显示等待

前进后退

Cookies

选项卡管理

异常处理

Python Selenium库的更多相关文章

随机推荐

热门专题