0x01 初始化:
dcap = dict(DesiredCapabilities.PHANTOMJS) #一些属性的设置
dcap["phantomjs.page.settings.loadImages"] = False #为了速度不加载图片信息,这个根据需要使用
obj = webdriver.PhantomJS(desired_capabilities=dcap, service_args=['--ssl-protocol=any ']) #--ssl-protocol=any 可以处理https请求
#phantomjs安装路径设置为环境变量,不需要指定executable_path,否则需要指定路径:
self.obj = webdriver.PhantomJS(executable_path='C:\Anaconda3\envs\python2\phantomjs.exe',
desired_capabilities=self.dcap,
service_args=['--ssl-protocol=any '])
obj.set_window_size(1920, 1080) #设置页面尺寸
obj.switch_to.frame(0) #切换frame (有时候在一个页面上找不到这个控件,可能因为是不在一个frame下)
0x02 隐式等待implicitly_wait
obj.implicitly_wait(30)
obj.set_page_load_timeout(30)
obj.set_script_timeout(30)
隐式等待只需要设置一次,影响范围是全局的,每次driver找不到元素时,最大的等待时间为这里设置的值,超时会抛出异常。
0x03 显示等待WebDriverWait(driver,time).until(EC.method(特征)):
使用方法如下所示:
#EC:expected condition
userName = WebDriverWait(self.obj, 30).until(
EC.presence_of_element_located((By.ID, 'login-username'))
)
常用方法有:
EC.presence_of_element_located(By.ID,'verification-code-field') #通过元素ID名称查找
EC.presence_of_element_located(By.XPATH,'//*[@id="verification-code-field"]') #通过xpath表达式查找
EC.title_is('yahoo') #判断页面title是否跳转
EC.title_contains('yahoo ') #判断页面title是否包含某字符串
xpath可以直接chrome浏览器F12,对控件右键copy xpath获取
0x04 控件常用属性
userName = obj.find_element_by_xpath('//*[@id="login-username"]')
userName.send_keys('username***')
nextStep =obj.find_element_by_xpath('//*[@id="login-signin"]')
nextStop.click()
tag = obj.find_element_by_xpath('//*[@id="j-dynamicMobile-code"]')
tag.get_attribute('style') #获取html标签中style属性的值display: none; <div id = "j-dynamicMobile-code" style=display: none; ></div>
code_click = obj.find_element_by_xpath( '//*[@id="j-msg-verifyCode"]')
code_click.text #获取html标签中的text值text123456 <div id = "j-msg-verifyCode" >text123456</div>
0x05 页面常用属性
obj.title #获取页面title
obj.get_cookies() #获取cookies,list格式
obj.save_screenshot('1.png') #截屏
obj.current_url #当前页面url
obj.execute_script(js) #执行js脚本
其中get_cookies()获取的cookies格式如下:
[{u'domain': u'****
.com', u'name': u'YM.NEO_120471291574672572', u'expires': u'\u5468\u4e8c, 10 \u56db\u6708 2018 01:24:35 GMT', u'value': u'width=400&height=300', u'expiry': 1523323475, u'path': u'/', u'httponly': False, u'secure': False},
{u'domain': u'****
.com', u'name': u'AO', u'expires': u'\u5468\u516d, 09 \u4e00\u6708 2038 21:35:44 GMT', u'value': u'u=1', u'expiry': 2146685744, u'path': u'/', u'httponly': False, u'secure': False},
{u'domain': u'****
.com', u'name': u'SSL', u'expires': u'\u5468\u56db, 10 \u4e00\u6708 2019 13:20:15 GMT', u'value': u'v=1&s=JRss2by53Dp_UyAgHAnKtQ7WbHyBKh2YVVPNqJTMZ47CbXzGGr3PFR.8LSZjSyfcRnuxeBpqhUlQAACFV4LD8A--&kv=0&ku=ca.60NUxQ6IC9KaLQ5hR1YPMAduovCmJxi0Q2VkWPntcZTYU1SkzPN7nOc1uSxAIaqd.6mkNItze8BTfcbK0PiRX9c21QXWzx7b_lrq6iVQsrwhkVKvavdeX.oZZmr9xL0ichLzj18.HdSCvu3zBAuukYUb.VnVWxpYXsUZiAfc-~A', u'expiry': 1547126415, u'path': u'/', u'httponly': True, u'secure': True},
{u'domain': u'****
.com', u'name': u'Y', u'expires': u'\u5468\u56db, 10 \u4e00\u6708 2019 13:20:15 GMT', u'value': u'v=1&n=6p3rcmrtjkpr7&l=woe7pfn55vx38s3n6ab8nxgwpwha7fwxgvfxbcpf/o&p=o2rvvcn00000000&r=11k&lg=en-US&intl=us', u'expiry': 1547126415, u'path': u'/', u'httponly': False, u'secure': False},
{u'domain': u'****
.com', u'name': u'PH', u'expires': u'\u5468\u56db, 10 \u4e00\u6708 2019 13:20:15 GMT', u'value': u'fn=NYKBW_gBAPLJS0KnfA--&l=en-US&i=us', u'expiry': 1547126415, u'path': u'/', u'httponly': False, u'secure': False},
{u'domain': u'****
.com', u'name': u'F', u'expires': u'\u5468\u56db, 10 \u4e00\u6708 2019 13:20:15 GMT', u'value': u'd=Lph4flc9vLx42LHbzw2xpg6w1hwE02jYICiygdAC8MqZdQ--', u'expiry': 1547126415, u'path': u'/', u'httponly': True, u'secure': False},
{u'domain': u'****
.com', u'name': u'T', u'expires': u'\u5468\u56db, 10 \u4e00\u6708 2019 13:20:15 GMT', u'value': u'z=2pWVaB299ZaBRjRRa42/gO4MzUxMQY2NTczMDY1TjYyMDMxMD&a=QAE&sk=DAAIpmMzwKlcVe&ks=EAAz5.zbUZKYh8EJPb3NzxJDw--~G&kt=EAA44rjxv3eEkIzNGQZb_woVw--~I&ku=FAACZjNX655IPazEVYcTxc3MzzP1A1xQOZaKRBCAs.e2rx.Hr6DJJMlxFQ5nFK.xn55VIs9Jg9kCH4Wu6lR8tH3j4iiKUoAcJNvqbOYaWkAOpIYOD5og0Q74ZwJTrVN3i8BxcXBEp.OSmDN9nZyzQ_j3Ryi5_SCc1Uu83mz25_Ys9U-~A&d=bnMBeWFob28BZwE0QjJXVEFJRDZUV1c0Wk9GNkE3S1ZQTUpESQFzbAFOREkyTmdFeE1qQTBOekV5T1RFMU56UTJOekkxTnpJLQFhAVFBRQFhYwFBQkpHbVZlYwFhbAF0b21va28xMjM0NTY3OAFzYwFkZXNrdG9wX3dlYgFmcwFZX05zbUF4YVZXcDIBenoBMnBXVmFCQTdF&af=JnRzPTE1MTU1NDcyNTQmcHM9UE8wTHBSV281dE9YT01tYUdsWXIwQS0t', u'expiry': 1547126415, u'path': u'/', u'httponly': True, u'secure': True},
{u'domain': u'****
.com', u'name': u'B', u'expires': u'\u5468\u56db, 10 \u4e00\u6708 2019 13:20:15 GMT', u'value': u'2phekgdd5aqij&b=4&d=q5ScCIJpYFT.w1RzSOBSzDA_xpI-&s=c2&i=fbvNBhmwO6muMVqEznua', u'expiry': 1547126415, u'path': u'/', u'httponly': False, u'secure': False}
]
转换成dict格式的方法:
cookie_list =obj.get_cookies()
print cookie_list
cookie_dict = {}
for cookie in cookie_list:
cookie_dict[cookie['name']] = cookie['value']
return cookie_dict
- selenium + phantomjs 爬取落网音乐
题记: 作为一个业余程序猿,最大的爱好就是电影和音乐了,听音乐当然要来点有档次的.落网的音乐的逼格有点高,一听听了10年.学习python一久了,于是想用python技术把落网的音乐爬下来随便听. 目 ...
- 使用selenium+phantomJS实现网页爬取
有些网站反爬虫技术设计的非常好,很难采用WebClient等技术进行网页信息爬取,这时可以考虑采用selenium+phantomJS模拟浏览器(其实是真实的浏览器)的方式进行信息爬取.之前一直使用的 ...
- Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
- 数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置
数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby 数据抓取是一门艺术,和其他软件不同,世界上 ...
- 动态网页爬取例子(WebCollector+selenium+phantomjs)
目标:动态网页爬取 说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
- python+selenium自动化软件测试(第6章):selenium phantomjs页面解析使用
我们都知道Selenium是一个Web的自动化测试工具,可以在多平台下操作多种浏览器进行各种动作,比如运行浏览器,访问页面,点击按钮,提交表单,浏览器窗口调整,鼠标右键和拖放动作,下拉框和对话框处理等 ...
- 学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
- 利用Selenium+PhantomJS 实现截图
using OpenQA.Selenium; using OpenQA.Selenium.PhantomJS; using System; using System.Drawing; using Sy ...
- python selenium+phantomjs alert()弹窗报错
问题:用selenium+phantomjs 模拟登陆,网页用JavaScript的alert("登陆成功")弹出框,但是用switch_to_alert().accept()报错 ...
随机推荐
- 替换 MyEclipse 中已有的项目
一.删除 tomcat 中的项目 1.停止 tomcat 2.删除 tomcat 中的项目 选中项目,然后右键 - Remove deployment,这个可能需要一点时间 二.删除 MyEclips ...
- ECMAScript基本语法——⑥流程控制语句
if...else...switch...case... 在java中能接收的数据类型:byte .short.char.int.枚举类型(JDK5.0新增).String类型(JDK7.0新增) s ...
- Hadoop报错:org.apache.hadoop.security.AccessControlException: Permission denied: user=xxxx
问题出现原因: 因为远程提交hadoop的任务的情况下如果,没有hadoop 的系统环境变量,就会读取当前主机的用户名,所以Hadoop集群的节点中没有该用户名的权限,所以出现的异常. 解决方法: S ...
- 文件分配表(FAT)及其结构
原链接:https://blog.csdn.net/qianjintianguo/article/details/712590?utm_source=blogxgwz6 文件分配表(FAT)是文件管理 ...
- 求a^b的约数对mod取模
+; int prime[maxn]; void marktable(int n){ memset(prime,,sizeof(prime)); ;i<=n;i++){ ]]=i; ;j< ...
- C++面向对象编程实例
实例一.四位运算符操作 main.cpp. #include <iostream> #include "operator_1.h" #include <stdio ...
- ubuntu18.04 编译fortran出现 ‘没有f951这个文件’处理
机器自带了gcc所以可以编译fortran文件, 使用时, gcc **.for –o ***.out 提示,没有找到f951. 然后去网上找解决方案,有的人说在其他地方找到了f951,然后把他复制到 ...
- 二分-D - Can you solve this equation?
D - Can you solve this equation? Now,given the equation 8*x^4 + 7*x^3 + 2*x^2 + 3*x + 6 == Y,can you ...
- 模块二、shell脚本逻辑结构
七.if结构条件句知识与实践 (一)if条件句单双分支语法 1.单分支 if 条件 then 指令 fi 2.双分支 if 条件 then 指令 else 指令集2 fi (二)if条件句多分支语句 ...
- Cleaning Data in R
目录 R 中清洗数据 常见三种查看数据的函数 Exploring raw data 使用dplyr包里面的glimpse函数查看数据结构 \(提取指定元素 ```{r} # Histogram of ...