解析导航栏的url--selnium,beautifulsoup实战
前段时间做ui自动化测试的时候,导航栏菜单始终有点问题,最后只好直接获取到url,然后直接使用driver.get(url)进入页面;
包括做压测的时候,比如我要找出所有报表菜单的url,这样不可能手动去一个一个找出来,然后复制,这样浪费时间,并且也容易漏掉,所以我就写了个脚本来干这事;
首先说下思路:登录-->获取所有的a标签-->筛选掉不用的标签-->打印或者保存到文件中

其中我获取页面所有的标签使用了两种方法,webdriver和beautifulsoup4,两种的区别:1、beautifulsoup4来解析的时候,比较稳定,并且速度快,2、webdriver可能简单一点吧,我推荐是用beautifulsoup4;之所以是用webdriver登录,是因为用webdriver登录简单,不像requests来请求的话,第一次还要分析url,参数之类的,用webdriver的话,只需要定位几个元素就ok了,何乐而不为呢。。。
下面我将两种方式的运行时间、最终的解析结果:


下面的是第一种方式:使用beautifulsoup4来解析:
#coding=utf-8 """
是为了获取XXX系统菜单的url
使用的是selenium登录,获取网页的内容,然后用beautifulsoup来解析
"""
import unittest
import time
from selenium import webdriver
from bs4 import BeautifulSoup # 登录url
url = 'http://XXXX.XXXX.com/' # 系统的url
username = 'XXXX'
password = 'XXXXX' class GetUrl(unittest.TestCase):
def setUp(self):
self.dr = webdriver.Chrome()
self.dr.get(url) def tearDown(self):
self.dr.quit() def _login(self):
self.dr.find_element_by_id('username').send_keys(username) # 输入用户名
self.dr.find_element_by_id('password').send_keys(password) # 输入密码
# self.dr.find_element_by_id('verifycode').send_keys('XXXXX') 这里原来是需要验证码的,后来取消掉了
self.dr.find_element_by_id('weblogin').click() # 点击登录按钮
time.sleep(3) def _gethtmlcontent(self):
"""获取当前页面的html的所有内容"""
content = self.dr.page_source # 将该页面的内容 返回给content保存起来方便后面解析
return content def _geturl(self,pagesource):
"""
找出所有的a标签,然后筛选掉非导航连接的a标签。返回的是一个dict
"""
result = dict()
soup = BeautifulSoup(pagesource, "lxml")
eles = soup.find_all("a")
flag = 0
for ele in eles:
if '#' in ele['href']:
continue
tmp = ele.string
if tmp is not None and '@' not in tmp:
flag += 1
ele_url = ele['href'].split('?')[0]
# print('{0} ==> {1}'.format(tmp,ele_url))
result[tmp] = ele_url # print('Find out {0} datas.'.format(len(result)))
return result def _writetotxt(self,contents):
"""
将结果写入文件中
"""
print('写入开始')
with open('urlcontent.txt','w') as f:
for title,value in contents.items():
f.write('{0} ==> {1}\n'.format(title,value))
print('写入完毕') def test_run(self):
self._login()
pagesources = self._gethtmlcontent()
result = self._geturl(pagesources)
self._writetotxt(result) if __name__ == '__main__':
unittest.main()
第二种全都是使用webdriver来解析的:
#coding=utf-8 """
是为了获取XXX系统菜单的url
使用的是selenium登录,查找元素,获取元素的属性
"""
from selenium import webdriver
import unittest
import time # 登录url
url = 'http://XXX.XXX.com/'
username = 'XXX'
password = 'XXX' class GetUrl(unittest.TestCase):
def setUp(self):
self.dr = webdriver.Chrome()
self.dr.get(url) def tearDown(self):
self.dr.quit() def _login(self):
# time.sleep(2)
self.dr.find_element_by_id('username').send_keys(username)
self.dr.find_element_by_id('password').send_keys(password)
# self.dr.find_element_by_id('verifycode').send_keys('XXXXX')
self.dr.find_element_by_id('weblogin').click()
time.sleep(3) def _geturl(self):
# 这里返回的是一个list,然后里面是一个个字典
result = list()
eles = self.dr.find_elements_by_css_selector('menu.u-menu a')
for ele in eles:
tmp = dict()
href = ele.get_attribute('href').split('?')[0]
# 获取菜单 的名称
name = ele.get_attribute('innerHTML')
if "<i>" not in name:
tmp['name'] = name.strip()
tmp['href'] = href
result.append(tmp)
# print('name: {0},href: {1}'.format(name,href))
return result def _writetotxt(self,contents):
print("一共{0}条数据".format(len(contents)))
print('写入开始')
with open('urlcontent.txt','w') as f:
for content in contents:
f.write('{0} ==> {1}\n'.format(content['name'],content['href']))
print('写入完毕') def test_run(self):
self._login()
self._writetotxt(self._geturl()) if __name__ == '__main__':
unittest.main()
好了,就到这里吧。。。
解析导航栏的url--selnium,beautifulsoup实战的更多相关文章
- 解析导航栏的url
前段时间做ui自动化测试的时候,导航栏菜单始终有点问题,最后只好直接获取到url,然后直接使用driver.get(url)进入页面: 包括做压测的时候,比如我要找出所有报表菜单的url,这样不可能手 ...
- day77:luffy:导航栏的实现&DjangoRestFramework JWT&多条件登录
目录 1.导航栏的实现 2.登录前戏:用户表初始化 3.DjangoRestFramework JWT 4.多条件登录 5.登录状态的判断和退出登录 1.导航栏的实现 1.设计导航栏的model模型类 ...
- Android ActionBar完全解析,使用官方推荐的最佳导航栏(下) .
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/25466665 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
- Html5 学习笔记 【PC固定布局】 实战2 导航栏搜索区域
<!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="UTF-8& ...
- Html5 学习笔记 【PC固定布局】 实战1 导航栏
导航栏html文件: <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=& ...
- Android ActionBar完全解析,使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
- Android ActionBar全然解析,使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc.我翻译之后又做了些加工 ...
- 【转】Android ActionBar完全解析,使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
- Bootstrap 学习笔记 项目实战 响应式导航栏
导航代码HTML: <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=&q ...
随机推荐
- Xamarin开发Android笔记:拍照或相册选取图片角度问题
在开发Android应用的时候,可能会遇到类似微信朋友圈中拍照或相册选取图片的场景,拍照或选取图片之后在显示的时候却发现图片的角度不对,明明是竖版拍照,显示出来缺失躺着的. 这是因为在某些特定手机上例 ...
- Angular ngClick 阻止冒泡和默认行为
这其实是一个很简单的问题,如果你认真查看过Angular官方的API文档,本来不想记录的.但是这个问题不止一次的被人问起,所以今天在记录在这里. 在Angular中已经对一些ng事件如ngClick, ...
- 远程调试Java程序
java 可以以调试模式启动,启动后可以使用 jdb 对程序进行调试.以调试模式启动,需要加入以下参数: java -Xdebug -Xrunjdwp:transport=dt_socket,addr ...
- redis使用心得
原创文章转载请注明出处:@协思, http://zeeman.cnblogs.com redis是继memcached之后兴起的内存数据库,作者非常崇尚简洁高效,力求以最简单的方式最高效的解决问题 ...
- onSingleTapUp()和onSingleTapConfirmed()的区别
onSingleTapUp() - 在按下并抬起时发生,只要符合这个条件就触发该函数,没有任何附加条件. onSingleTapConfirmed() 同上者,但有附加条件,就是Android会确保单 ...
- 网络异步编程(C#)团购课
新生命开发团队大石头讲解网络异步编程(C#) 内容:网络编程基础.IOCP.APM.SAEA 时长:2~3小时 价格:20元,20人及以上成团,http://item.taobao.com/item. ...
- .NET面试基础知识
1. 什么是Asp.Net? 答:Asp.Net是一种基于.NET平台下的动态web开发技术,它使用的是codebehind(代码后置技术),可以将前台呈现和后台代码进行有效的分离. 2. ...
- sonne_game网站开发02spring+mybatis框架搭建
从最开始搭框架谈起,而且,我不仅仅会讲how,还会努力讲why.因为对于web开发,由于有太多好的框架.组件.工具,使得how往往不是那么深刻,背后的why更值得专研.如果有初学者关注我这个系列,也一 ...
- CocoaPods 深入使用
在 CocoaPods 使用中介绍了基本的使用 写项目的时候想用到 SQLite.swift第三方库,但是问题来了 pod search SQLite.swift //执行这条语句,搜索不到结果 但 ...
- WebApi系列~安全校验中的防篡改和防复用
回到目录 web api越来越火,因为它的跨平台,因为它的简单,因为它支持xml,json等流行的数据协议,我们在开发基于面向服务的API时,有个问题一直在困扰着我们,那就是数据的安全,请求的安全,一 ...