一.seleniu的简单使用

　　1.简单使用

'''

selenium:基于浏览器的自动化操作模块

    通过代码定制一些浏览器自动化操作,然后把该操作作用到浏览器

    1.pip install selenium

    2.导包:from selenium import webdriver

    3.下载浏览器的驱动程序

        下载地址:http://chromedriver.storage.googleapis.com/index.html

        版本的映射关系表:https://blog.csdn.net/huilan_same/article/details/51896672

    4.实例化一个浏览器对象(驱动程序)

    5.通过代码指定行为动作

'''

import time

from selenium import webdriver

#实例化一个浏览器对象

bro=webdriver.Chrome(executable_path='./chromedriver.exe')

time.sleep(2)

#浏览器获取页面

bro.get('http://baidu.com/')

time.sleep(2)

# 浏览器输入找到输入框,并输入数据

text_input=bro.find_element_by_id('kw')

text_input.send_keys('我草')

time.sleep(2)

#浏览器找到点击标签,并点击

btn=bro.find_element_by_id('su')

btn.click()

time.sleep(2)

#浏览器向下拖动滚动条

js='window.scrollTo(0,document.body.scrollHeight)'

bro.execute_script(js)

#获取当前浏览器显示的页面数据

page_text=bro.page_source#页面数据也包含动态加载出来的数据

print(page_text)

time.sleep(5)

bro.quit()

　　Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，还有Android、BlackBerry等手机端的浏览器。另外，也支持无界面浏览器PhantomJS。

from selenium import webdriver

browser = webdriver.Chrome()

browser = webdriver.Firefox()

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

　　2.元素定位

　　webdriver 提供了一系列的元素定位方法，常用的有以下几种：

id
name
class name
tag name
link text
partial link text
xpath
css selector
分别对应python webdriver 中的方法为：

find_element_by_id()

find_element_by_name()

find_element_by_class_name()

find_element_by_tag_name()

find_element_by_link_text()

find_element_by_partial_link_text()

find_element_by_xpath()

find_element_by_css_selector()
注意:返回的而是一个列表

注意:

1、find_element_by_xxx找的是第一个符合条件的标签，find_elements_by_xxx找的是所有符合条件的标签。
2、根据ID、CSS选择器和XPath获取，它们返回的结果完全一致。
3、另外，Selenium还提供了通用方法find_element()，它需要传入两个参数：查找方式By和值。实际上，它就是find_element_by_id()这种方法的通用函数版本，比如find_element_by_id(id)就等价于find_element(By.ID, id)，二者得到的结果完全一致。

　　获取元素的文本和属性

先定位到元素

　　　　然后调用.text或者get_attribute（）方法来取值

selenium获取的是elements的内容　　
find_element和find_elements的区别，
- find_element返回是一个elemnt对象，没有就报错
- find_elements返回是列表，没有返回空列表
- 判断是否有下一页的时候，使用find_elements根结果结果长度来判断
如果页面有ifframe，frame，则需要调用driver。switch_to.frame()方法切换到frame才能定位到元素
有的时候获取元素不到会报错是因为页面还没加载完就去获取，肯定报错，需要用到等待

　　3.节点交互

　　Selenium可以驱动浏览器来执行一些操作，也就是说可以让浏览器模拟执行一些动作。比较常见的用法有：输入文字时用send_keys()方法，

清空文字时用clear()方法，点击按钮时用click()方法。

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input = browser.find_element_by_id('q')

input.send_keys('MAC')

time.sleep(1)

input.clear()

input.send_keys('IPhone')

button = browser.find_element_by_class_name('btn-search')

button.click()

　　4.动作连

　　在上面的实例中，一些交互动作都是针对某个节点执行的。比如，对于输入框，我们就调用它的输入文字和清空文字方法；对于按钮，就调用它的点击方法。

其实，还有另外一些操作，它们没有特定的执行对象，比如鼠标拖曳、键盘按键等，这些动作用另一种方式来执行，那就是动作链。

比如，现在实现一个节点的拖曳操作，将某个节点从一处拖曳到另外一处，可以这样实现：

from selenium import webdriver

from selenium.webdriver import ActionChains

import time

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

# actions.drag_and_drop(source, target)

actions.click_and_hold(source).perform()

time.sleep(1)

actions.move_to_element(target).perform()

time.sleep(1)

actions.move_by_offset(xoffset=50,yoffset=0).perform()

actions.release()

　　5.执行js

　　对于某些操作，Selenium API并没有提供。比如，下拉进度条，它可以直接模拟运行JavaScript，此时使用execute_script()方法即可实现，代码如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

browser.execute_script('alert("123")')

　　6.获得节点信息

　　通过page_source属性可以获取网页的源代码，接着就可以使用解析库（如正则表达式、Beautiful Soup、pyquery等）来提取信息了。
不过，既然Selenium已经提供了选择节点的方法，返回的是WebElement类型，那么它也有相关的方法和属性来直接提取节点信息，如属性、文本等。这样的话，我们就可以不用通过解析源代码来提取信息了，非常方便。

from selenium import webdriver

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.amazon.cn/')

wait=WebDriverWait(browser,10)

wait.until(EC.presence_of_element_located((By.ID,'cc-lm-tcgShowImgContainer')))

tag=browser.find_element(By.CSS_SELECTOR,'#cc-lm-tcgShowImgContainer img')

#获取标签属性，

print(tag.get_attribute('src'))

#获取标签ID，位置，名称，大小（了解）

print(tag.id)

print(tag.location)

print(tag.tag_name)

print(tag.size)

browser.close()

　　7.延时等待

　　在Selenium中，get()方法会在网页框架加载结束后结束执行，此时如果获取page_source，可能并不是浏览器完全加载完成的页面，如果某些页面有额外的Ajax请求，我们在网页源代码中也不一定能成功获取到。所以，这里需要延时等待一定时间，确保节点已经加载出来。这里等待的方式有两种：一种是隐式等待，一种是显式等待。

　　1.隐式等待：

　　当使用隐式等待执行测试的时候，如果Selenium没有在DOM中找到节点，将继续等待，超出设定时间后，则抛出找不到节点的异常。换句话说，当查找节点而节点并

没有立即出现的时候，隐式等待将等待一段时间再查找DOM，默认的时间是0。示例如下：

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

#隐式等待:在查找所有元素时，如果尚未被加载，则等10秒

browser.implicitly_wait(10)

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

contents=browser.find_element_by_id('content_left') #没有等待环节而直接查找，找不到则会报错

print(contents)

browser.close()

　　　　2.显示等待：

　　隐式等待的效果其实并没有那么好，因为我们只规定了一个固定时间，而页面的加载时间会受到网络条件的影响。这里还有一种更合适的显式等待方法，它指定要查找的节点，然后指定一个最长等待时间。如果在规定时间内加载出来了这个节点，就返回查找的节点；如果到了规定时间依然没有加载出该节点，则抛出超时异常。

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')

input_tag=browser.find_element_by_id('kw')

input_tag.send_keys('美女')

input_tag.send_keys(Keys.ENTER)

#显式等待：显式地等待某个元素被加载

wait=WebDriverWait(browser,10)

wait.until(EC.presence_of_element_located((By.ID,'content_left')))

contents=browser.find_element(By.CSS_SELECTOR,'#content_left')

print(contents)

browser.close()

　　3.强制等待

time.sleep（5）

　　8.cookie

　　使用Selenium，还可以方便地对Cookies进行操作，例如获取、添加、删除Cookies等。示例如下：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies())
cookies={cookies['name']:cookies['value'] for cookie in  broser.get_cookies()}

browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})

print(browser.get_cookies())

browser.delete_all_cookies()

print(browser.get_cookies())

broser.delete_cookies('CookieName')
broser.delete_all_cookies()

　　9.异常处理

from selenium import webdriver

from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException

try:

    browser=webdriver.Chrome()

    browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

    browser.switch_to.frame('iframssseResult')

except TimeoutException as e:

    print(e)

except NoSuchFrameException as e:

    print(e)

finally:

    browser.close()

selenium模块的而简单使用的更多相关文章

爬虫基础(三)-----selenium模块应用程序
摆脱穷人思维 <三> : 培养"目标导向"的思维: 好项目永远比钱少,只要目标正确,钱总有办法解决. 一 selenium模块什么是selenium?seleni ...
爬虫之selenium模块
Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟 ...
Python爬虫——selenium模块
selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...
python 全栈开发，Day136(爬虫系列之第3章-Selenium模块)
一.Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全 ...
三: 爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...
7 selenium 模块
selenium 模块一.简介 1.Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. 2.自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接 ...
03 爬虫之selenium模块
selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. seleniu ...
Python学习--Selenium模块学习(2)
Selenium的基本操作获取浏览器驱动寻找方式 1. 通过手动指定浏览器驱动路径2. 通过 `$PATH`环境变量找寻浏览器驱动可参考Python学习--Selenium模块简单介绍(1) 控制 ...
3、爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...

随机推荐

如何看待那些不能重现的bug？
在我们日常测试活动中,经常会发现一些bug,但是这些bug可能就是昙花一现,再也无法(或者很难)重现出来,内心灰常崩溃.那到底有哪些方面可能会导致这类的缺陷发生呢? 我以自己工作中所遇到的给出一些自己 ...
【2008nmj】Logistic回归二元分类感知器算法.docx
给你一堆样本数据(xi,yi),并标上标签[0,1],让你建立模型(分类感知器二元),对于新给的测试数据进行分类. 要将两种数据分开,这是一个分类问题,建立数学模型,(x,y,z),z指示[0,1], ...
python中的os模块几个常用的方法
os.getcwd() 得到当前工作目录,即当前python脚本工作的目录路径 os.remove(file):删除一个文件 os.mkdir(name):创建目录 os.path.exists(na ...
Python中多使用迭代器
英文原文出处:Use More Iterators 本文介绍将代码转换为使用迭代器的原因和实用技巧. 我最喜欢的Python语言的特色之一是生成器,它们是非常有用的,然而当阅读开源代码时,我很少遇到它 ...
C#帮助类：MD5加密
/// <summary> /// MD5加密 /// </summary> public class Md5 { /// <summary> /// MD5加密 ...
Android学习笔记 ImageSwitcher图片切换组件的使用
activity_main.xml <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android&qu ...
go 常见问题
以下是我在go项目中碰到问题 1. 如何只测试指定的test文件,而不是所有的单元测试都跑一遍. go tool vet -test -v src\github.com\astaxie\beego\c ...
Windows bat脚步同步时间
@echo onnet stop w32timew32tm /unregisterw32tm /registernet start w32timew32tm /config /manualpeerli ...
winform发布桌面程序后提示需开启“目录浏览”
把发布文件里的publish.htm名字改为index.htm就好了
题解 BZOJ 1002 【[FJOI2007]轮状病毒】
题目链接 emm…… 正解:矩阵树定理,但是本宝宝不会求基尔霍夫矩阵. 开始考场方法: 手动模拟$n=1--5$时的答案(数不大,~~画画就出来了~~要画上半个小时). 画出来,答案是这样的:$1$ ...

selenium模块的而简单使用

一.seleniu的简单使用

1.简单使用

2.元素定位

3.节点交互

4.动作连

5.执行js

6.获得节点信息

7.延时等待

1.隐式等待：

2.显示等待：

3.强制等待

8.cookie

9.异常处理

selenium模块的而简单使用的更多相关文章

随机推荐

热门专题

　　1.简单使用

　　2.元素定位

　　3.节点交互

　　4.动作连

　　5.执行js

　　6.获得节点信息

　　7.延时等待

　　1.隐式等待：

　　　　2.显示等待：

　　3.强制等待

　　8.cookie

　　9.异常处理