BeatifulSoup在测试工作中的应用

　　近期要做一个项目，重复性劳动比较多，小伙伴建议我用Jsoup，但是由于项目紧急，我直接选择了BeautifulSoup，关键原因是我Java语言不如Python掌握的熟练啊！所以，查了一圈它的中文文档，发现还可以，上手入门不难。这是BeautifulSoup的中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 。简单介绍下项目背景：有上百个PC页面需要检查文字是否含有某个关键词语，这个词语我们叫它“计算机”吧，排查“计算机”和“jisuanji”拼音不分大小写。之前和同事做过seo相关的项目，要检查html文档中head中的meta标签。她当时用的jsoup，我就想到我是否也能，所以也专门请教了以前做爬虫的朋友，他们直接给我推荐的这个模块BeautifulSoup。

　　实现思路：

　　一、读取文档

　　　　这部分是urls在excel文档中第5列，这个文件是自己写的配置文件，所以用列索引读取就行，这部分作为公用方法拿出来用。　

#coding=utf-8

import pandas as pd

def ge_url():

    data = pd.read_excel("urls.xlsx",sheet_name="Sheet1",usecols=[4],names=None)

    data.values.tolist()

    list_url=[]

    for i in data.values.tolist():

        list_url.append(i[0])

    return list_url

　　二、解析文档：head和body分别解析　　　

#coding=utf-8

from bs4 import BeautifulSoup

import requests

import re

import get_url

urls=[]

urls = get_url.ge_url()

print(urls)

for url in urls:

    re_content = requests.get(url).content

    # 构造函数可以指定解析器

    soup = BeautifulSoup(re_content,'html.parser')

    #先判断head

    docu_head = soup.head

    list_head=[]

    print("++++++++++++++++++++++++++++++++++++")

    #声明jisuanji或者计算机字符串匹配正则表达式的对象，不区分大小写

    parttern = re.compile(r'jisuanji|计算机',flags=re.I)

    #寻找所有head的子节点

    for item in soup.head.contents:

        list_head.extend(parttern.findall(str(item)))

        if list_head !=[]:

           print("HEAD+THIS URL IS ILLEGAL!"+url+str(list_head))

    print("===============================================")

    #后判断body

    list_body=[]

    #查找body的所有子孙节点

    docu_body = soup.body.descendants

    for child in docu_body:

        list_body.extend(parttern.findall(str(child)))

        if list_body!=[]:

            print("BODY+THIS URL IS ILLEGAL!"+url+str(list_body))

　　三、正则表达式匹配

　　　　代码在上面贴了

就是这样，最后检测除了很多资源文件的引用的静态资源有关键词。这样大大的节省了自己的测试时间。

BeatifulSoup在测试工作中的应用的更多相关文章

测试工作中经常用到的几个Linux命令（第一弹）
自己平时测试工作中经常要在Linux下搭建测试环境,有涉及到启动/终止服务器,修改tomcat配置文件,偶尔碰到端口被占用... 这时就不得不需要一些基本的Linux命令来处理遇到的这些问题(顺便迈向 ...
测试工作中经常用到的一丢Linux命令
自己平时测试工作中经常要在Linux下搭建测试环境,有涉及到启动/终止服务器,修改tomcat配置文件,偶尔碰到端口被占用... 这时就不得不需要一些基本的Linux命令来处理遇到的这些问题 1.cd ...
测试工作中ADB命令实战
作者:TT,<测试架构师>微信公众号作者大家能点击进来,说明还是对ADB有所了解或听说过的,可能也会比较熟练的掌握了这些命令,下面描述如有不对的地方,欢迎指正和交流学习,请多指教! 一. ...
[工作中的设计模式]享元模式模式FlyWeight
一.模式解析 Flyweight在拳击比赛中指最轻量级,即“蝇量级”或“雨量级”,这里选择使用“享元模式”的意译,是因为这样更能反映模式的用意.享元模式是对象的结构模式.享元模式以共享的方式高效地支持 ...
LoadRunner测试场景中添加负载生成器
如何在LoadRunner测试场景中添加负载生成器本文对如何在LoadRunner的测试场景中添加负载生成器,如何使用负载生成器的方法,总结形成操作指导手册,以指导测试人员指导开展相关工作. 1.什 ...
运维工作中sed常规操作命令梳理
sed是一个流编辑器(stream editor),一个非交互式的行编辑器.它一次处理一行内容.处理时,把当前处理的行存储在临时缓冲区中,称为"模式空间",接着用sed命令处理缓冲 ...
Hbase的安装测试工作
Hbase的安装测试工作: 安装:http://www.cnblogs.com/neverwinter/archive/2013/03/28/2985798.html 测试:http://www.cn ...
工作中常用的QTP操作Excel函数
前言本文只是对工作中常用的EOM相关函数的整理,并不是要写个大而全的操作手册,如果想对EOM有更多的了解可以参考QTP的帮助文档或查看QTP安装目录\CodeSamplesPlus\UsingExc ...
linux工作中遇到的问题总结---更新中
今天这个,严格来说不算一篇文章,我只想把我工作中遇到的问题分享给大家,让大家少犯错误. 1.安装rmp包时出现错误 :header V3 DSA signature: nokey ,key id .. ...

随机推荐

linux内存优化之手工释放linux内存
先介绍下free命令 Linux free命令用于显示内存状态. free指令会显示内存的使用情况,包括实体内存,虚拟的交换文件内存,共享内存区段,以及系统核心使用的缓冲区等. 语法: free [- ...
mysql 操作数据库
创建数据库 CREATE {DATABASE | SCHEMA} [IF NOT EXISTS] db_name(数据库名字) #添加 IF NOT EXISTS,如果已有数据库,将会提醒,不会出现错 ...
Git 高级用法，你会了吗？
请注意我有意跳过了 git commit.git pull/push 之类的基本命令,这份小抄的主题是 git 的一些「高级」用法. 导航 -- 跳到之前的分支 git checkout - 查看历史 ...
HCIA——应用层常用协议
DNS协议 1.什么是DNS协议呢? DNS协议简单来说就是为IP取一个别名的系统(叫域名如www.baidu.com),最终目的是便于我们记忆. 一个域名可能有多个IP,同样一个IP可能也会有多个域 ...
C语言/C++编译环境的设置！有的人还没开始就卡住了！
本地环境设置如果您想要设置 C++ 语言环境,您需要确保电脑上有以下两款可用的软件,文本编辑器和 C++ 编译器. 文本编辑器这将用于输入您的程序.文本编辑器包括 Windows Notepad. ...
go xpath
package main import ( "fmt" "github.com/antchfx/htmlquery" "net/http" ...
BOOST 条件变量使用
代码: // boost库条件变量使用测试 #include <iostream> #include <boost/thread.hpp> using namespace ...
Linux命令行bash的快捷键
提升效率锁屏 Ctrl + s 敲什么命令没反应,但是敲上去了,屏幕上不做任何反应 Ctrl + q 再解锁例如: 先Ctrl + s 锁屏然后在命令行敲入 [root@C8-1 ~]# rm ...
puk1521 赫夫曼树编码
Description An entropy encoder is a data encoding method that achieves lossless data compression by ...
【16】进大厂必须掌握的面试题-100个python面试
我们整理了Python面试的主要问题清单,分为7个部分: 基本面试问题 OOPS面试问题基本的Python程序 Python库面试问题数据分析面试题选择题(MCQ) 基本的Python面试问题 ...

BeatifulSoup在测试工作中的应用

BeatifulSoup在测试工作中的应用的更多相关文章

随机推荐

热门专题