python爬虫之初始Selenium
1、初始
Selenium[1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。
2、使用方法
案例:
需求:
公司购买了一一批优科无线AP,本人刚涉足python爬虫行业,需要实现的功能就是,对好几十台优科无线AP进行定时重启。原来做过TP-LINK941n的无线路由器定时重启,按照原来的思路进行寻找方法-------抓包。通过抓取重启路由器的链接,对无线路由器进行定时重启(定时的事情就交给操作系统自带的任务计划)。然后就开始了抓包操作,然而最终还是以失败告终---也许因为我对抓包工具不太熟练。但是功能还是要必须实现,偶然听到朋友们之前提起的selenium可以模仿人的操作,进行爬虫操作。所以我就开始了对selenium的研究。
官方文档:http://selenium-python.readthedocs.io/waits.html#explicit-waits
1、路由器的登录界面

2、首先环境准备。
python3.5.2
pip9.0.1
pip3 install selenium
最新版谷歌浏览器(翻墙升级的事情就不再熬述)
最新版的webdriver(http://chromedriver.storage.googleapis.com/index.html)

注意:3.31才是最新版,可以打开文件夹进去看驱动的具体时间。
谷歌浏览器需要加上环境变量,将驱动文件放到谷歌浏览器的安装路径下面。
3、首先进行用户名和密码登录
导入模块
from selenium import webdriver
让程序打开浏览器,当然你也可以用其它浏览器,我在这里使用的是谷歌浏览器。
browser = webdriver.Chrome()
4、找到输入用户名和密码的地方。

5、复制这个标签的selector和XPath路径,哪个都可以的。在这里我用的是xpath。
# 获取用户名输入框
login_name = browser.find_element_by_xpath('//*[@id="login-username"]')
# 获取输入密码的输入框
login_pwd = browser.find_elements_by_xpath('//*[@id="password"]')[0]
#获取登录的按钮
button = browser.find_elements_by_xpath('//*[@id="loginform"]/input')[0]

6、拿到用户名和密码和点击登录的按钮,后我们需要给用户名和密码赋值和点击登录的按钮
#在输入用户名的位置输入用户名
login_name.send_keys('super')
#在输入密码的输入框输入密码
login_pwd.send_keys('gaosiedu.com')
#点击登录按钮
button.click()
7、登录成功后我们发现一个问题,无线AP后台页面用的是frame标签(涉及到了各种切,不过不要头疼看下面)
A是左边菜单栏,B是右边的内容栏,我们首先得进去A里面找到左边的点击重启的按钮,然后在切出来,再进去B的frame标签切进去拿到重启的按钮,点击操作。


#找到第一个frame标签(左侧栏)
browser.switch_to.frame("navframe")
#切换进去,执行Reboot Now这个按钮,
reboot_bo = browser.find_element_by_xpath('/html/body/dl[3]/dd/ul/li[2]/a')
#执行操作,得到右边Reboot Now的重启按钮
reboot_bo.click()
#跳出当前的frame标签
browser.switch_to.default_content()
#找到执行完后右边的frame标签
browser.switch_to.frame('mainframe')
#进入标签后找到重启的按钮
reboot_boot = browser.find_element_by_xpath('//*[@id="adminform"]/table/tbody/tr[1]/td/input[2]')
#执行重启的操作
reboot_boot.click()
8、大功告成,如果有60台无线AP的话还需要优化的地方很多。完整代码如下
import os
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC USER_NAME = 'super'
USER_PWD = 'gaosiedu.com'
PATH = os.getcwd()
browser = webdriver.Chrome()
web_wait = WebDriverWait(browser,10) #加载ip列表
def GET_Ip():
path = PATH+'\\ip_list.txt'
with open(path,'r') as file:
for ip in file.readlines():
ip = ip.strip()
reboot_spiders(ip) #重启方法
def reboot_spiders(ip_arg):
if len(ip_arg) > 0:
try:
browser.get("https://{IP}/login.asp".format(IP=ip_arg)) # 获取用户名输入框
login_name = web_wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="login-username"]')))
# 获取输入密码的输入框
login_pwd = web_wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="password"]')))
#获取登录的按钮
button = web_wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="loginform"]/input')))
#在输入用户名的位置输入用户名
login_name.send_keys(USER_NAME)
#在输入密码的输入框输入密码
login_pwd.send_keys(USER_PWD)
#点击登录按钮
button.click()
#分析已经登录的页面
#登录成功,开始分析页面!
#找到第一个frame标签(左侧栏)
browser.switch_to.frame("navframe")
#切换进去,执行Reboot Now这个按钮,
reboot_bo = web_wait.until(EC.presence_of_element_located((By.XPATH,'/html/body/dl[3]/dd/ul/li[2]/a')))
#执行操作,得到右边Reboot Now的重启按钮
reboot_bo.click()
#跳出当前的frame标签
browser.switch_to.default_content()
#找到执行完后右边的frame标签
browser.switch_to.frame('mainframe')
#进入标签后找到重启的按钮
reboot_boot = web_wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="adminform"]/table/tbody/tr[1]/td/input[2]')))
#执行重启的操作
reboot_boot.click()
#关闭浏览器
#完成后关闭
timee = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
s_log = "时间 %s ip地址[%s]重启成功" %(timee,ip_arg)
Success_log(s_log)
except Exception as e:
timeee = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
r_log = "时间 %s ip地址[%s]重启失败" %(timeee,ip_arg)
Error_log(r_log)
else:
pass def Error_log(args):
path = PATH+'\\error.txt'
with open(path, 'a+', encoding='utf-8') as file:
file.write('\n%s'%args)
file.close() def Success_log(args):
path = PATH+'\\success.txt'
with open(path,'a+',encoding='utf-8') as file:
file.write('\n%s'%args)
file.close() if __name__ == '__main__':
GET_Ip()
browser.quit()
源码
1、建立ip_list.txt文件,把ip地址如下面写进去。
172.16.5.2
172.16.5.1
172.16.5.5
172.16.5.50
172.16.5.51
2、本脚本提供了成功日志和错误日志
3、如果上线windows任务计划还需要有多地方需要注意,如有需要可以发邮件给我464774082@qq.com。
注意事项
github:https://github.com/MrLHD/Reboot_AP
Selenium操作:
详细操作可以看我的好朋友凡哥的博客,这里我就不再重述。
http://www.pythonsite.com/?p=188
python爬虫之初始Selenium的更多相关文章
- python爬虫动态html selenium.webdriver
python爬虫:利用selenium.webdriver获取渲染之后的页面代码! 1 首先要下载浏览器驱动: 常用的是chromedriver 和phantomjs chromedirver下载地址 ...
- Python爬虫之设置selenium webdriver等待
Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...
- PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用 什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
- python爬虫笔记----4.Selenium库(自动化库)
4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver ...
- [Python爬虫] 之一 : Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...
- 吴裕雄--天生自然PYTHON爬虫:使用Selenium爬取大型电商网站数据
用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urll ...
- Python爬虫——Scrapy整合Selenium案例分析(BOSS直聘)
概述 本文主要介绍scrapy架构图.组建.工作流程,以及结合selenium boss直聘爬虫案例分析 架构图 组件 Scrapy 引擎(Engine) 引擎负责控制数据流在系统中所有组件中流动,并 ...
- [Python爬虫] 之八:Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数 然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
- 【python爬虫】利用selenium和Chrome浏览器进行自动化网页搜索与浏览
功能简介:利用利用selenium和Chrome浏览器,让其自动打开百度页面,并设置为每页显示50条,接着在百度的搜索框中输入selenium,进行查询.然后再打开的页面中选中“Selenium - ...
随机推荐
- SQLite的原子提交--单文件场景
3. 单文件提交 我们首先概要说明SQLite在单个数据库文件上为了执行事务的原子提交而采取的步骤.在后面的部分将讨论如何设计文件格式以保护其在断电故障中损坏,以及原子提交在多个数据库上的执行. 3. ...
- tensorflow中的name_scope, variable_scope
在训练深度网络时,为了减少需要训练参数的个数(比如LSTM模型),或者是多机多卡并行化训练大数据.大模型等情况时,往往就需要共享变量.另外一方面是当一个深度学习模型变得非常复杂的时候,往往存在大量的变 ...
- BZOJ3577:玩手机(最大流,二维ST表)
Description 现在有一堆手机放在坐标网格里面(坐标从1开始),坐标(i,j)的格子有s_(i,j)个手机. 玩手机当然需要有信号,不过这里的手机与基站与我们不太一样.基站分为两种:发送站和接 ...
- sku回忆笔记
分类表:(商品分类编号, 分类名称, 父分类编号)(1, 男装, 0)(2, 裤子, 1)(3, 外套, 1)(4, 内裤, 1)(5, 袜子, 1) 商品表:(商品编号, 商品名称, 商品分类编号, ...
- NodeJS的优缺点
我们知道NodeJS是2009年5月,由Ryan Dahl开发,实质是对Chrome V8引擎进行了封装.Node.js对一些特殊用例进行优化,提供替代的API,使得V8在非浏览器环境下运行得更好,解 ...
- 关于CentOS7下docker-ce无法删除镜像的问题
未完待续.... 从旧版的docker删除后安装了新版的docker-ce 发现之前镜像无法删除,并且重新pull不能覆盖,会出现两个一模一样的镜像. [root@localhost ~]# dock ...
- centos7 搭建openvpn服务器
OpenVPN是一个开源代码的VPN应用程序,可让您在公共互联网上安全地创建和加入专用网络.相比pptp,openvpn更稳定.安全. 本篇博客主要介绍下面两点: 1. Centos 7下安装与配置O ...
- idea 2018.1 for mac JRebel破解
第一步: 在 Idea 中下载 Jrebel 路径:preferences-plugins-Browse repositories-直接搜索下载 Jrebel 第二步:配置反向代理工具 1.安装 ...
- Maven入门指南⑦:Maven的生命周期和插件
一个完整的项目构建过程通常包括清理.编译.测试.打包.集成测试.验证.部署等步骤,Maven从中抽取了一套完善的.易扩展的生命周期.Maven的生命周期是抽象的,其中的具体任务都交由插件来完成.Mav ...
- 深入源码理解ThreadLocal和ThreadLocalMap
一.ThreadLoacl的理解: 官方的讲: ThreadLocal是一个本地线程副本变量工具类,主要用于将私有线程和该线程存放的副本对象做一个映射,各个线程之间的变量互不干扰 通俗的讲: Thre ...