解析导航栏的url--selnium，beautifulsoup实战

前段时间做ui自动化测试的时候，导航栏菜单始终有点问题，最后只好直接获取到url，然后直接使用driver.get(url)进入页面；

包括做压测的时候，比如我要找出所有报表菜单的url，这样不可能手动去一个一个找出来，然后复制，这样浪费时间，并且也容易漏掉，所以我就写了个脚本来干这事；

首先说下思路：登录-->获取所有的a标签-->筛选掉不用的标签-->打印或者保存到文件中

其中我获取页面所有的标签使用了两种方法，webdriver和beautifulsoup4，两种的区别：1、beautifulsoup4来解析的时候，比较稳定，并且速度快，2、webdriver可能简单一点吧，我推荐是用beautifulsoup4；之所以是用webdriver登录，是因为用webdriver登录简单，不像requests来请求的话，第一次还要分析url，参数之类的，用webdriver的话，只需要定位几个元素就ok了，何乐而不为呢。。。

下面我将两种方式的运行时间、最终的解析结果：

下面的是第一种方式：使用beautifulsoup4来解析：

 #coding=utf-8

 """

 是为了获取XXX系统菜单的url

 使用的是selenium登录，获取网页的内容，然后用beautifulsoup来解析

 """

 import unittest

 import time

 from selenium import webdriver

 from bs4 import BeautifulSoup

 # 登录url

 url = 'http://XXXX.XXXX.com/' # 系统的url

 username = 'XXXX'

 password = 'XXXXX'

 class GetUrl(unittest.TestCase):

     def setUp(self):

         self.dr = webdriver.Chrome()

         self.dr.get(url)

     def tearDown(self):

         self.dr.quit()

     def _login(self):

         self.dr.find_element_by_id('username').send_keys(username) # 输入用户名

         self.dr.find_element_by_id('password').send_keys(password) # 输入密码

         # self.dr.find_element_by_id('verifycode').send_keys('XXXXX') 这里原来是需要验证码的，后来取消掉了

         self.dr.find_element_by_id('weblogin').click() # 点击登录按钮

         time.sleep(3)

     def _gethtmlcontent(self):

         """获取当前页面的html的所有内容"""

         content = self.dr.page_source # 将该页面的内容 返回给content保存起来方便后面解析

         return content

     def _geturl(self,pagesource):

         """

         找出所有的a标签，然后筛选掉非导航连接的a标签。返回的是一个dict

         """

         result = dict()

         soup = BeautifulSoup(pagesource, "lxml")

         eles = soup.find_all("a")

         flag = 0

         for ele in eles:

             if '#' in ele['href']:

                 continue

             tmp = ele.string

             if tmp is not None and '@' not in tmp:

                 flag += 1

                 ele_url = ele['href'].split('?')[0]

                 # print('{0} ==> {1}'.format(tmp,ele_url))

                 result[tmp] = ele_url

         # print('Find out {0} datas.'.format(len(result)))

         return result

     def _writetotxt(self,contents):

         """

         将结果写入文件中

         """

         print('写入开始')

         with open('urlcontent.txt','w') as f:

            for title,value in contents.items():

                 f.write('{0} ==> {1}\n'.format(title,value))

         print('写入完毕')

     def test_run(self):

         self._login()

         pagesources = self._gethtmlcontent()

         result = self._geturl(pagesources)

         self._writetotxt(result)

 if __name__ == '__main__':

     unittest.main()

第二种全都是使用webdriver来解析的：

 #coding=utf-8

 """

 是为了获取XXX系统菜单的url

 使用的是selenium登录，查找元素，获取元素的属性

 """

 from selenium import webdriver

 import unittest

 import time

 # 登录url

 url = 'http://XXX.XXX.com/'

 username = 'XXX'

 password = 'XXX'

 class GetUrl(unittest.TestCase):

     def setUp(self):

         self.dr = webdriver.Chrome()

         self.dr.get(url)

     def tearDown(self):

         self.dr.quit()

     def _login(self):

         # time.sleep(2)

         self.dr.find_element_by_id('username').send_keys(username)

         self.dr.find_element_by_id('password').send_keys(password)

         # self.dr.find_element_by_id('verifycode').send_keys('XXXXX')

         self.dr.find_element_by_id('weblogin').click()

         time.sleep(3)

     def _geturl(self):
　　　　　　# 这里返回的是一个list，然后里面是一个个字典

         result = list()

         eles = self.dr.find_elements_by_css_selector('menu.u-menu a')

         for ele in eles:

             tmp = dict()

             href = ele.get_attribute('href').split('?')[0]

             # 获取菜单 的名称

             name = ele.get_attribute('innerHTML')

             if "<i>" not in name:

                 tmp['name'] = name.strip()

                 tmp['href'] = href

                 result.append(tmp)

                 # print('name: {0},href: {1}'.format(name,href))

         return result

     def _writetotxt(self,contents):

         print("一共{0}条数据".format(len(contents)))

         print('写入开始')

         with open('urlcontent.txt','w') as f:

             for content in contents:

                 f.write('{0} ==> {1}\n'.format(content['name'],content['href']))

         print('写入完毕')

     def test_run(self):

         self._login()

         self._writetotxt(self._geturl())

 if __name__ == '__main__':

     unittest.main()

好了，就到这里吧。。。

解析导航栏的url--selnium，beautifulsoup实战的更多相关文章

解析导航栏的url
前段时间做ui自动化测试的时候,导航栏菜单始终有点问题,最后只好直接获取到url,然后直接使用driver.get(url)进入页面: 包括做压测的时候,比如我要找出所有报表菜单的url,这样不可能手 ...
day77:luffy:导航栏的实现&DjangoRestFramework JWT&多条件登录
目录 1.导航栏的实现 2.登录前戏:用户表初始化 3.DjangoRestFramework JWT 4.多条件登录 5.登录状态的判断和退出登录 1.导航栏的实现 1.设计导航栏的model模型类 ...
Android ActionBar完全解析，使用官方推荐的最佳导航栏(下) .
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/25466665 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
Html5 学习笔记【PC固定布局】实战2 导航栏搜索区域
<!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="UTF-8& ...
Html5 学习笔记【PC固定布局】实战1 导航栏
导航栏html文件: <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=& ...
Android ActionBar完全解析，使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
Android ActionBar全然解析，使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc.我翻译之后又做了些加工 ...
【转】Android ActionBar完全解析，使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
Bootstrap 学习笔记项目实战响应式导航栏
导航代码HTML: <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=&q ...

随机推荐

Kylin查询性能低下原因分析
在处理指数行情数据时(IDXD),我遇到一个KYLIN性能查询低下的问题,非常奇怪.经过一番研究发现了其中的原因并顺利解决: 症状: select count(*) from sensitop.idx ...
RCP：为指定的导航器添加上下文菜单
可以参考Eclipse的Help->Help Content下的: Platform Plug-in Developer Guide > Programmer's Guide > P ...
坑爹的BufferManager
特别记录一下国内外各种关于 Socket 的例子或开源项目,大部分都采用了 BufferManager.cs(代码类似). 也不知道是哪一个坑货写的.有一定几率会导致内存无法复用,导致数据是上一个的 ...
[安卓] 19、一个蓝牙4.0安卓DEMO
一.工程结构&概述整个应用包含两个按钮,一个是搜索所有蓝牙设备,另一个是连接所有蓝牙设备~ 下面是整个工程的文件结构: 二.代码业务流程跟踪 2.1.两个按钮下面讲讲该工程里的主要跳转流程 ...
Office 2016 正式发布——新特性预览
今天微软又发生了一件大事!Windows Office 2016正式发布,这标志着Windows Office 又达到了一个新的里程碑! 全新的Office 发布为Office 365 用户带来了新的 ...
Mysql日常开发注意要点
1.MySQL存储引擎介绍 MyISAM:低版本MySQL默认的MySQL插件式存储引擎,存储文件易损坏,不支持事务.InnoDB:目前默认的MySQL存储引擎,用于事务处理应用程序,具有众多特性,包 ...
Vue.js2.0从入门到放弃---入门实例
最近,vue.js越来越火.在这样的大浪潮下,我也开始进入vue的学习行列中,在网上也搜了很多教程,按着教程来做,也总会出现这样那样的问题(坑啊,由于网上那些教程都是Vue.js 1.x版本的,现在用 ...
Ubuntu & MacOS安装Mysql & connector
Ubuntu & MacOS安装Mysql & connector 1. 安装MySql sudo apt-get install mysql-server apt-get insta ...
telnet命令——连接服务器
Telnet协议是TCP/IP协议族中的一员,是Internet远程登陆服务的标准协议和主要方式.它为用户提供了在本地计算机上完成远程主机工作的能力.在终端使用者的电脑上使用telnet程序,用它连接 ...
DOM_06之定时器、事件、cookie
1.定时器:①任务函数:函数结尾判断临界值:②启动定时器:a.周期性:timer=setInterval(任务函数,interval):b.一次性:timer=setTimeout(任务函数,wait ...

解析导航栏的url--selnium，beautifulsoup实战

解析导航栏的url--selnium，beautifulsoup实战的更多相关文章

随机推荐

热门专题