python3初识selenium

第一步：安装与配置

1.电脑上需要有火狐浏览器（默认安装在C:\Program Files (x86)\Mozilla Firefox目录下）。

2.使用pip install selenium安装好之后。

3.在这里https://github.com/mozilla/geckodriver/releases下载一个driver包，根据自己的系统决定下哪个，我下的是geckodriver-v0.11.1-win64.zip

4.把刚下好的包里面的exe文件拷贝到火狐浏览器目录下，然后把火狐浏览器的目录加入系统的环境变量里的PATH。

第二步：启动python，测试selenium

Example 0:

open a new Firefox browser

load the page at the given URL

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('http://seleniumhq.org/')

Example 1:

open a new Firefox browser

load the Yahoo homepage

search for “seleniumhq”

close the browser

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

browser = webdriver.Firefox()

browser.get('http://www.yahoo.com')

assert 'Yahoo' in browser.title

elem = browser.find_element_by_name('p')  # Find the search box

elem.send_keys('seleniumhq' + Keys.RETURN)

browser.quit()

更多例子，看官网：https://pypi.python.org/pypi/selenium/2.45.0

PS:最好用的一点是，可以通过browser.page_source来获得网页源码，传进BeautifulSoup里就可以啦~~~~~

PPS:当然，如果想操作chrome同样也是可以的，这时候需要一个chromedriver.exe，这个文件我是从这里下的：http://chromedriver.storage.googleapis.com/index.html?path=2.25/我下的是chromedriver_win32.zip。然后把里面的exe文件放进chrome的安装目录下，然后再把这个目录加入PATH就可以使用了。我的chrome安装目录是C:\Program Files (x86)\Google\Chrome\Application。

测试代码：

from selenium import webdriver

driver =  webdriver.Chrome()

driver.get("http://www.baidu.com")

driver.quit()

PPPS:然后，在使用的时候发现有时候会有页面加载很慢的情况，因为selenium是在页面完全加载完毕才会停止，然而这个在很多时候是没有必要的，这个时候可以自己手动设置超时时间。方法如下：（参考https://my.oschina.net/u/2344787/blog/400507?p={{page}}）

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

driver = webdriver.Firefox()

# 设定页面加载限制时间

driver.set_page_load_timeout(5)

driver.maximize_window()

try:

    driver.get('http://www.icourse163.org/')

except TimeoutException:

    driver.execute_script('window.stop()') #当页面加载时间超过设定时间，通过执行Javascript来stop加载，即可执行后续动作

一个例子：抓取中国裁判文书网

from selenium import webdriver

from bs4 import BeautifulSoup

import time

d = webdriver.Chrome()

d.get("http://wenshu.court.gov.cn/list/list/?sorttype=1&conditions=searchWord+QWJS+++全文检索:抢劫")

time.sleep(5) # 根据网络情况调整sleep时间

d.execute_script("""

var span = document.createElement(\"span\");

span.id = \"myspanspan\";

span.innerHTML = document.getElementById(\"resultList\").innerHTML;

var ele = document.body;

ele.appendChild(span);

""")

soup = BeautifulSoup(d.page_source,'html.parser',from_encoding='gb18030')

x = soup.find('span',{'id':'myspanspan'})

print(str(x))

d.close()

python3初识selenium的更多相关文章

ubuntu16.04 python3 安装selenium及环境配置
环境 ubuntu16.04 python3 安装selenium sudo pip3 install seleium 默认安装完是支持firefox,但是更新得太慢对于较新的firefox已经不支持 ...
5月25号开学! 第13期《python3自动化测试selenium+接口》课程，python零基础也能学
2019年第13期<python3自动化测试selenium+接口>课程,5月25号开学! 主讲老师:上海-悠悠上课方式:QQ群视频在线教学本期上课时间:5月25号-7月28号,每周 ...
Python3 使用selenium库登陆知乎并保存cookie为本地文件
Python3 使用selenium库登陆知乎并保存cookie为本地文件学习使用selenium库模拟登陆知乎,并将cookie保存为本地文件,然后供以后(requests模块)使用,用selen ...
初识selenium
今天尝试了一些selenium,感觉并没有想象中那么难.整理一篇笔记出来. 笔者使用的是Python+selenium.以下内容均是基于Windows系统和Python3.5.2. 首先是下载sele ...
Mac python3.5 + Selenium 开发环境配置
一. python 3.5 1. 下载 2. Mac默认为2.7,所以这里主要介绍如何将系统Python默认修改为3.5. 原理: 1)Mac自带的python环境在: python2.7: /Sys ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...
在Centos7下docker配置自动化环境镜像(python3.7+selenium 3.11+firefox 62+geckodriver 0.21）
最近在学习Docker,准备做自动化测试代码集成的功能.如下文章的前提是已经安装好linux系统,且成功安装好Docker. 接下来我会按步骤一步一步的对自动化需要的一些环境进行安装,如果没有特别说明 ...
Python3.5+selenium操作Chrome浏览器
1.安装selenium 命令提示符下输入: pip install selenium 2.下载chromedriver 点击下载 3.将解压后的chromedriver.exe放到chrome浏览器 ...
python3.x + selenium 3.x 遇到的问题：Exception ignored in: <bound method Service.__del__ of <selenium.webdriver.firefox.service.Service object at 0x0045E450>>
我解决了!!!from selenium import webdriverimport timedr = webdriver.Firefox(executable_path = '/Users/jin ...

随机推荐

多线程编程之Apue3rd_Chapter11之互斥锁_读写锁_自旋锁
学习了apue3rd的第11章,主要讲的是多线程编程.因为线程共享进程的资源比如堆和全局变量,多线程编程最重要的是,使用各种锁进行线程同步. 线程编程首先要学习的三个函数如下: #include &l ...
HyperLedger Fabric 1.4 区块链应用场景（3.1）
比特币是区块链应用最早的场景,随着比特币安全稳定运行多年以后,数字货币的场景应用遍地开花,各种山寨币泛滥,通过ICO(Initial Coin Offering 首次币发行)就能融到大量资金,上市后的 ...
匈牙利算法模板 hdu 1150 Machine Schedule（二分匹配）
二分图:https://blog.csdn.net/c20180630/article/details/70175814 https://blog.csdn.net/flynn_curry/artic ...
TreeMap与LinkedHashMap的区别
TreeMap是根据元素的内部比较器进行排序的,它可以根据key值的大小排序: LinkedHashMap是保持存放顺序的. TreeMap采用红黑树算法,遍历效率高: LinkedHashMap采用 ...
python2.7入门---SMTP发送邮件
SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式.python的smtplib提 ...
Android面试收集录蓝牙与WiFi
1.打开手机中的蓝牙功能有哪些方法? 法1:使用Intent ==>new Intent(BluetoothAdaper.ACTION_REQUEST_ENABLE); startActivi ...
MyEclipse10安装checkStyle与findBugs插件--详细完美结局-费元星
本人QQ:971751392(屌丝一枚) Myeclipse10安装checkStyle与findBugs插件详细完美结局方案: 资源一: http://download.csdn.net/detai ...
loadrunner创建测试脚本运行无响应不记录脚本
解决一运行User Generator直接程序卡死无响应的办法. (1)“我的电脑”点右键->属性->高级点选“性能”中的“设置” (2)打开对话框后,进入“数据执行保护”,如果空白框中 ...
Qt Qwdget 汽车仪表知识点拆解6 自定义控件
先贴上效果图,注意,没有写逻辑,都是乱动的这里说一下控件自定义图中标出的部分都是自定义的控件这里如果我们有批量类似的功能,就可以使用自定义控件的方式,这里我已下面的自定义控件说一下,上面的在上一 ...
fildder抓包工具详解
fildder页面介绍名称和含义名称含义 # 抓取HTTP Request的顺序,从1开始,以此递增 Result HTTP状态码 Protocol 请求使用的协议,如HTTP/HTTPS/FTP ...

python3初识selenium

python3初识selenium的更多相关文章

随机推荐

热门专题