一.seleniu的简单使用

　　1.简单使用

'''

selenium:基于浏览器的自动化操作模块

    通过代码定制一些浏览器自动化操作,然后把该操作作用到浏览器

    1.pip install selenium

    2.导包:from selenium import webdriver

    3.下载浏览器的驱动程序

        下载地址:http://chromedriver.storage.googleapis.com/index.html

        版本的映射关系表:https://blog.csdn.net/huilan_same/article/details/51896672

    4.实例化一个浏览器对象(驱动程序)

    5.通过代码指定行为动作

'''

import time

from selenium import webdriver

#实例化一个浏览器对象

bro=webdriver.Chrome(executable_path='./chromedriver.exe')

time.sleep(2)

#浏览器获取页面

bro.get('http://baidu.com/')

time.sleep(2)

# 浏览器输入找到输入框,并输入数据

text_input=bro.find_element_by_id('kw')

text_input.send_keys('我草')

time.sleep(2)

#浏览器找到点击标签,并点击

btn=bro.find_element_by_id('su')

btn.click()

time.sleep(2)

#浏览器向下拖动滚动条

js='window.scrollTo(0,document.body.scrollHeight)'

bro.execute_script(js)

#获取当前浏览器显示的页面数据

page_text=bro.page_source#页面数据也包含动态加载出来的数据

print(page_text)

time.sleep(5)

bro.quit()

　　Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，还有Android、BlackBerry等手机端的浏览器。另外，也支持无界面浏览器PhantomJS。

from selenium import webdriver

browser = webdriver.Chrome()

browser = webdriver.Firefox()

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

　　2.元素定位

　　webdriver 提供了一系列的元素定位方法，常用的有以下几种：

id
name
class name
tag name
link text
partial link text
xpath
css selector
分别对应python webdriver 中的方法为：

find_element_by_id()

find_element_by_name()

find_element_by_class_name()

find_element_by_tag_name()

find_element_by_link_text()

find_element_by_partial_link_text()

find_element_by_xpath()

find_element_by_css_selector()
注意:返回的而是一个列表

注意:

1、find_element_by_xxx找的是第一个符合条件的标签，find_elements_by_xxx找的是所有符合条件的标签。
2、根据ID、CSS选择器和XPath获取，它们返回的结果完全一致。
3、另外，Selenium还提供了通用方法find_element()，它需要传入两个参数：查找方式By和值。实际上，它就是find_element_by_id()这种方法的通用函数版本，比如find_element_by_id(id)就等价于find_element(By.ID, id)，二者得到的结果完全一致。

　　获取元素的文本和属性

先定位到元素

　　　　然后调用.text或者get_attribute（）方法来取值

selenium获取的是elements的内容　　
find_element和find_elements的区别，
- find_element返回是一个elemnt对象，没有就报错
- find_elements返回是列表，没有返回空列表
- 判断是否有下一页的时候，使用find_elements根结果结果长度来判断
如果页面有ifframe，frame，则需要调用driver。switch_to.frame()方法切换到frame才能定位到元素
有的时候获取元素不到会报错是因为页面还没加载完就去获取，肯定报错，需要用到等待

　　3.节点交互

　　Selenium可以驱动浏览器来执行一些操作，也就是说可以让浏览器模拟执行一些动作。比较常见的用法有：输入文字时用send_keys()方法，

清空文字时用clear()方法，点击按钮时用click()方法。

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input = browser.find_element_by_id('q')

input.send_keys('MAC')

time.sleep(1)

input.clear()

input.send_keys('IPhone')

button = browser.find_element_by_class_name('btn-search')

button.click()

　　4.动作连

　　在上面的实例中，一些交互动作都是针对某个节点执行的。比如，对于输入框，我们就调用它的输入文字和清空文字方法；对于按钮，就调用它的点击方法。

其实，还有另外一些操作，它们没有特定的执行对象，比如鼠标拖曳、键盘按键等，这些动作用另一种方式来执行，那就是动作链。

比如，现在实现一个节点的拖曳操作，将某个节点从一处拖曳到另外一处，可以这样实现：

from selenium import webdriver

from selenium.webdriver import ActionChains

import time

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

# actions.drag_and_drop(source, target)

actions.click_and_hold(source).perform()

time.sleep(1)

actions.move_to_element(target).perform()

time.sleep(1)

actions.move_by_offset(xoffset=50,yoffset=0).perform()

actions.release()

　　5.执行js

　　对于某些操作，Selenium API并没有提供。比如，下拉进度条，它可以直接模拟运行JavaScript，此时使用execute_script()方法即可实现，代码如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

browser.execute_script('alert("123")')

　　6.获得节点信息

　　通过page_source属性可以获取网页的源代码，接着就可以使用解析库（如正则表达式、Beautiful Soup、pyquery等）来提取信息了。
不过，既然Selenium已经提供了选择节点的方法，返回的是WebElement类型，那么它也有相关的方法和属性来直接提取节点信息，如属性、文本等。这样的话，我们就可以不用通过解析源代码来提取信息了，非常方便。

from selenium import webdriver

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.amazon.cn/')

wait=WebDriverWait(browser,10)

wait.until(EC.presence_of_element_located((By.ID,'cc-lm-tcgShowImgContainer')))

tag=browser.find_element(By.CSS_SELECTOR,'#cc-lm-tcgShowImgContainer img')

#获取标签属性，

print(tag.get_attribute('src'))

#获取标签ID，位置，名称，大小（了解）

print(tag.id)

print(tag.location)

print(tag.tag_name)

print(tag.size)

browser.close()

　　7.延时等待

　　在Selenium中，get()方法会在网页框架加载结束后结束执行，此时如果获取page_source，可能并不是浏览器完全加载完成的页面，如果某些页面有额外的Ajax请求，我们在网页源代码中也不一定能成功获取到。所以，这里需要延时等待一定时间，确保节点已经加载出来。这里等待的方式有两种：一种是隐式等待，一种是显式等待。

　　1.隐式等待：

　　当使用隐式等待执行测试的时候，如果Selenium没有在DOM中找到节点，将继续等待，超出设定时间后，则抛出找不到节点的异常。换句话说，当查找节点而节点并

没有立即出现的时候，隐式等待将等待一段时间再查找DOM，默认的时间是0。示例如下：

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

#隐式等待:在查找所有元素时，如果尚未被加载，则等10秒

browser.implicitly_wait(10)

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

contents=browser.find_element_by_id('content_left') #没有等待环节而直接查找，找不到则会报错

print(contents)

browser.close()

　　　　2.显示等待：

　　隐式等待的效果其实并没有那么好，因为我们只规定了一个固定时间，而页面的加载时间会受到网络条件的影响。这里还有一种更合适的显式等待方法，它指定要查找的节点，然后指定一个最长等待时间。如果在规定时间内加载出来了这个节点，就返回查找的节点；如果到了规定时间依然没有加载出该节点，则抛出超时异常。

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

#显式等待：显式地等待某个元素被加载

wait=WebDriverWait(browser,10)

wait.until(EC.presence_of_element_located((By.ID,'content_left')))

contents=browser.find_element(By.CSS_SELECTOR,'#content_left')

print(contents)

browser.close()

　　3.强制等待

time.sleep（5）

　　8.cookie

　　使用Selenium，还可以方便地对Cookies进行操作，例如获取、添加、删除Cookies等。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies())
cookies={cookies['name']:cookies['value'] for cookie in  broser.get_cookies()}

browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})

print(browser.get_cookies())

browser.delete_all_cookies()

print(browser.get_cookies())

broser.delete_cookies('CookieName')
broser.delete_all_cookies()

　　9.异常处理

from selenium import webdriver

from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException

try:

    browser=webdriver.Chrome()

    browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

    browser.switch_to.frame('iframssseResult')

except TimeoutException as e:

    print(e)

except NoSuchFrameException as e:

    print(e)

finally:

    browser.close()

selenium模块的而简单使用的更多相关文章

爬虫基础(三)-----selenium模块应用程序
摆脱穷人思维 <三> : 培养"目标导向"的思维: 好项目永远比钱少,只要目标正确,钱总有办法解决. 一 selenium模块什么是selenium?seleni ...
爬虫之selenium模块
Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟 ...
Python爬虫——selenium模块
selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...
python 全栈开发，Day136(爬虫系列之第3章-Selenium模块)
一.Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全 ...
三: 爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...
7 selenium 模块
selenium 模块一.简介 1.Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. 2.自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接 ...
03 爬虫之selenium模块
selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. seleniu ...
Python学习--Selenium模块学习(2)
Selenium的基本操作获取浏览器驱动寻找方式 1. 通过手动指定浏览器驱动路径2. 通过 `$PATH`环境变量找寻浏览器驱动可参考Python学习--Selenium模块简单介绍(1) 控制 ...
3、爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...

随机推荐

location.reload() 和 location.replace()的区别和应用
首先介绍两个方法的语法: reload 方法,该方法强迫浏览器刷新当前页面.语法: location.reload([bForceGet]) 参数: bForceGet, 可选参数, 默认为 fals ...
HDU 2829 Lawrence (斜率优化DP或四边形不等式优化DP)
题意:给定 n 个数,要你将其分成m + 1组,要求每组数必须是连续的而且要求得到的价值最小.一组数的价值定义为该组内任意两个数乘积之和,如果某组中仅有一个数,那么该组数的价值为0. 析:DP状态方程 ...
JavaEE互联网轻量级框架整合开发（书籍）阅读笔记（5）：责任链模式、观察者模式
一.责任链模式.观察者模式 1.责任链模式:当一个对象在一条链上被多个拦截器处理(烂机器也可以选择不拦截处理它)时,我们把这样的设计模式称为责任链模式,它用于一个对象在多个角色中传递的场景. 2. ...
WOX快速搜索
WOX wox和mac上的Aflred类似,虽然在功能上稍有逊色,但是还是可以给我们使用windows电脑带来很多福利.首先你不需要在桌面放一堆应用软件的快捷方式,桌面可以非常干净整洁,想要打开某个应 ...
POJ - 1328 Radar Installation(贪心区间选点+小学平面几何)
Input The input consists of several test cases. The first line of each case contains two integers n ...
WinForm 中使用 Action 子线程对主线程控制进行访问
/// <summary> /// 开启新线程执行 /// </summary> /// <param name="sender"></p ...
认识学习MVC这家伙
通过最近的学习认识,只能感慨这玩意太强大了! 以前看了一些MVC的入门教程,看入门教程我感觉不能去体会它的强大,可以看看它的扩展点,通过扩展点去真正的试着了解它,体会它的强大. 它的验证.模型绑定提供 ...
《javascript 高级程序设计》笔记2 8~章
chapter 8 BOM(浏览器对象模型) window对象表示浏览器的一个实例. 直接在window对象上定义的属性可以通过delete操作符删除,而全局变量不可以. 窗口关系及框架位置操作 ...
hive默认分隔符
默认分隔符‘\001',对应ascii码SOH: 通过cat -A filename可以查看分隔符:
基于Haar特征的Adaboost级联人脸检测分类器
基于Haar特征的Adaboost级联人脸检测分类器基于Haar特征的Adaboost级联人脸检测分类器,简称haar分类器.通过这个算法的名字,我们可以看到这个算法其实包含了几个关键点:Haar特征 ...

selenium模块的而简单使用

一.seleniu的简单使用

1.简单使用

2.元素定位

3.节点交互

4.动作连

5.执行js

6.获得节点信息

7.延时等待

1.隐式等待：

2.显示等待：

3.强制等待

8.cookie

9.异常处理

selenium模块的而简单使用的更多相关文章

随机推荐

热门专题

　　1.简单使用

　　2.元素定位

　　3.节点交互

　　4.动作连

　　5.执行js

　　6.获得节点信息

　　7.延时等待

　　1.隐式等待：

　　　　2.显示等待：

　　3.强制等待

　　8.cookie

　　9.异常处理