BeautifulSoup库用于从HTML或XML文件中提取数据。它可以自动将复杂的HTML文档转换为树形结构,并提供简单的方法来搜索文档中的节点,使得我们可以轻松地遍历和修改HTML文档的内容。广泛用于Web爬虫和数据抽取应用程序中。

读者如果需要使用这个库,同样需要执行pip命令用以安装:

21.8.1 属性定位链接

通过HTML属性我们可以轻松的实现对特定页面特定元素的提取,如下代码我们首先封装两个函数,其中get_page_attrs函数用于一次性解析需求,函数search_page则用于多次对页面进行解析,这两个函数如果传入attribute属性则用于提取属性内的参数,而传入text则用于提取属性自身文本。

import requests
from bs4 import BeautifulSoup header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98"} # 参数1: 解析页面URL
# 参数2: 需要解析的页面定位
# 参数3: 提取标签属性
# 参数4:设置超时时间
# 参数5:设置返回类型(attribute 返回属性字段,text 返回文本字段)
def get_page_attrs(url,regx,attrs,timeout,type):
respon_page = []
try:
respon = requests.get(url=url, headers=header, timeout=timeout)
if respon.status_code == 200:
if respon != None:
soup = BeautifulSoup(respon.text, "html.parser")
ret = soup.select(regx)
for item in ret:
if type == "attribute":
respon_page.append( str(item.attrs[attrs] ))
if type == "text":
respon_page.append(str(item.get_text())) return respon_page
else:
return None
except Exception:
return None
return None # 对页面多次搜索
# 参数1: 需要解析的html文本
# 参数2: 需要解析的页面定位
# 参数3: 提取标签属性
# 参数5:设置返回类型(attribute 返回属性字段,text 返回文本字段)
def search_page(data,regx,attrs,type):
respon_page = []
if data != None:
soup = BeautifulSoup(data, "html.parser")
ret = soup.select(regx)
for item in ret:
if type == "attribute":
respon_page.append( str(item.attrs[attrs] ))
if type == "text":
respon_page.append(str(item.get_text()))
return respon_page

通过使用上述两个封装函数,读者就可以轻松的实现对特定网页页面元素的定位,首先我们通过CSS属性定位一篇文章中的图片链接,这段代码如下;

if __name__ == "__main__":
# 通过CSS属性定位图片
ref = get_page_attrs("https://www.cnblogs.com/LyShark/p/15914868.html",
"#cnblogs_post_body > p > img",
"src",
5,
"attribute"
)
print(ref)

当上述代码运行后,即可提取出特定网址链接内,属性#cnblogs_post_body > p > img中图片的src属性,并提取出图片属性attribute自身参数。

接着我们继续使用该函数实现定位文章列表功能,文章列表的定位同理,此处第二个参数应修改为href属性,如下代码分别使用两种方式实现对文章列表的定位功能;

if __name__ == "__main__":
# 定位文章列表,两种方式均可
ref = get_page_attrs("https://www.cnblogs.com/lyshark",
"#mainContent > div > div > div.postTitle > a",
"href",
5,
"attribute"
)
print(ref) ref = get_page_attrs("https://www.cnblogs.com/lyshark",
"div[class='day'] div[class='postCon'] div a",
"href",
5,
"attribute"
)
print(ref)

代码运行后即可输出lyshark网站中主页所有的文章地址信息,输出如下图所示;

当需要定位文章内容时,我们只需要将第二个属性更改为空格,并将第四个属性修改为text此时则代表只提取属性内的文本。

if __name__ == "__main__":
# 定位文章文本字段
ref = get_page_attrs("https://www.cnblogs.com/lyshark",
"div[class='day'] div[class='postCon'] div[class='c_b_p_desc']",
"",
5,
"text"
) for index in ref:
print(index)

运行上述代码片段,即可提取出主页中所有的文本信息,如下图所示;

如果需要在同一个页面中多次定位那么就需要使用search_page函数了,如下代码中我们需要在一个页面内寻找两个元素,此时就需要定位两次;

if __name__ == "__main__":
respon = requests.get(url="https://yiyuan.9939.com/yyk_47122/", headers=header, timeout=5) ref = search_page(respon.text,
"body > div.hos_top > div > div.info > div.detail.word-break > h1 > a",
"",
"text"
)
print(ref) ref = search_page(respon.text,
"body > div.hos_top > div > div.info > div.detail.word-break > div.tel > span",
"",
"text"
)
print(ref)

代码运行后,即可通过依次请求,分别输出该页面中的两个元素,如下图所示;

21.8.2 查询所有标签

使用find_all函数,可实现从HTMLXML文档中查找所有符合指定标签和属性的元素,返回一个列表,该函数从用于精确过滤,可同时将该页中符合条件的数据一次性全部筛选出来。

其基本语法为:

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)
  • name:标签名或列表,用于查找指定标签名的元素,如果为 True 或 None,则查找所有标签元素
  • attrs:字典,用于指定属性名和属性值,用于查找具有指定属性名和属性值的元素
  • recursive:布尔值,表示是否递归查找子标签,默认为 True
  • text:字符串或正则表达式,用于匹配元素的文本内容
  • limit:整数,限制返回的匹配元素的数量
  • kwargs:可变参数,用于查找指定属性名和属性值的元素

我们以输出CVE漏洞列表为例,通过使用find_all查询页面中所有的a标签,并返回一个列表,通过对列表元素的解析,依次输出该漏洞的序号,网址,以及所对应的编号信息。

import re
import requests
from bs4 import BeautifulSoup header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98"} # 查找文中 所有a标签 且类名是c_b_p_desc_readmore的 并提取出其href字段
# print(bs.find_all('a',class_='c_b_p_desc_readmore')[0]['href']) # 提取 所有a标签 且id等于blog_nav_admin 类等于menu 并提取出其href字段
# print(bs.find_all('a',id='blog_nav_admin',class_='menu')[0]['href'])
# print(bs.find_all('a',id='blog_nav_admin',class_='menu')[0].attrs['href']) if __name__ == "__main__":
url = "https://cassandra.cerias.purdue.edu/CVE_changes/today.html"
new_cve = []
ret = requests.get(url=url, headers=header, timeout=5)
soup = BeautifulSoup(ret.text, 'html.parser')
for index in soup.find_all('a'):
href = index.get('href')
text = index.get_text()
cve_number = re.findall("[0-9]{1,}-.*",index.get_text())
print("序号: {:20} 地址: {} CVE-{}".format(text,href,cve_number[0]))

读者可自行运行上述代码,即可匹配出当前页面中所有的CVE漏洞编号等,如下图所示;

21.8.3 取字串返回列表

在BeautifulSoup4中,stripped_strings是一个生成器对象,用于获取HTML标签内所有文本内容的迭代器。它会自动去除每个文本的前后空格和换行符,只返回纯文本字符串。stripped_strings可以用于处理HTML文档中的多行文本、空格等特殊符号,也可用于将元素下面的所有字符串以列表的形式返回。

import requests
from bs4 import BeautifulSoup header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98"} if __name__ == "__main__":
ret = requests.get(url="https://www.cnblogs.com/lyshark", headers=header, timeout=3)
text = str(ret.content.decode('utf-8')) bs = BeautifulSoup(text, "html.parser")
ret = bs.select('#mainContent > div > div > div.postTitle > a > span') for i in ret:
# 提取出字符串并以列表的形式返回
string_ = list(i.stripped_strings)
print(string_)

运行后即可获取选中元素的字符串内容,并通过list将其转换为列表格式,如下图所示;

通过find_all以及stripped_strings属性我们实现一个简单的抓取天气的代码,以让读者可以更好的理解该属性是如何被使用的,如下代码所示;

from bs4 import BeautifulSoup
import requests head = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
ret = requests.get(url="http://www.weather.com.cn/textFC/beijing.shtml", headers=head, timeout=3)
text = str(ret.content.decode('utf-8')) bs = BeautifulSoup(text,"html.parser") # 定位到第一个标签上
bs.find_all('div',class_='conMidtab')[1] # 在conMidtab里面找tr标签并从第3个标签开始保存
tr = bs.find_all('tr')[2:] for i in tr:
# 循环找代码中的所有td标签
td = i.find_all('td')
# 找所有的td标签,并找出第一个td标签
city_td = td[0]
# 获取目标路径下所有的子孙非标签字符串,自动去掉空字符串
city = list(city_td.stripped_strings)[0]
# 取出度数的标签
temp = td[-5]
temperature = list(temp.stripped_strings)[0]
print('城市:{} 温度:{}'.format(city,temperature))

我们以提取北京天气为案例,当运行代码后即可取出北京市所有地区的气温数据,如下图所示;

本文作者: 王瑞

本文链接: https://www.lyshark.com/post/ac89ee84.html

版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!

21.8 Python 使用BeautifulSoup库的更多相关文章

  1. Python爬虫-- BeautifulSoup库

    BeautifulSoup库 beautifulsoup就是一个非常强大的工具,爬虫利器.一个灵活又方便的网页解析库,处理高效,支持多种解析器.利用它就不用编写正则表达式也能方便的实现网页信息的抓取 ...

  2. python之BeautifulSoup库

    1. BeautifulSoup库简介 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.lxml 只会局部遍历 ...

  3. Python安装BeautifulSoup库(Windows平台下)

    简介 参照官网Beautiful Soup4.4.0文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 安装步骤 1.到https:// ...

  4. python爬虫BeautifulSoup库class_

    因为class是python的关键字,所以在写过滤的时候,应该是这样写: r = requests.get(web_url, headers=headers) # 向目标url地址发送get请求,返回 ...

  5. python中BeautifulSoup库中find函数

    http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#contents 简单的用法: find(name, at ...

  6. Python爬虫小白入门(三)BeautifulSoup库

    # 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...

  7. python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化

    实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...

  8. python下载安装BeautifulSoup库

    python下载安装BeautifulSoup库 1.下载https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/ 2.解压到解压 ...

  9. python BeautifulSoup库的基本使用

    Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以 ...

  10. python爬虫学习(一):BeautifulSoup库基础及一般元素提取方法

    最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...

随机推荐

  1. Day07_Java_作业

    A:简答题 1. 构造方法的作用是什么?构造方法的特点是什么?构造方法的注意事项? 构造方法中可不可以写return语句呢? 2. 一个类的缺省构造方法可以有参数吗? 3. 静态代码块和构造代码块的特 ...

  2. MAUI Blazor Android 输入框软键盘遮挡问题

    前言 最近才发现MAUI Blazor Android存在输入框软键盘遮挡这个问题,搜索了一番,原来这是安卓webview一个由来已久的问题,还好有大佬提出了解决方案 AndroidBug5497Wo ...

  3. 【技术实战】Vue技术实战【五】

    需求实战一 效果展示 代码展示 <template> <div class="home-component"> <div class="pr ...

  4. 注意!JAVA中的值传递

    前言:今天在解决一个问题时,程序总是不能输出正确值,分析逻辑思路没问题后,发现原来是由于函数传递导致了这个情况. LeetCode 113 问题:给你二叉树的根节点root和一个整数目标和target ...

  5. AWD-PWN流量监控与抄流量反打

    RE手 在AWD中比较做牢,队伍里也没pwn手,在awd出现pwn靶机比较坐牢.之前都不知道pwn靶机可以抄流量反打. 参考pwn_waf:https://github.com/i0gan/pwn_w ...

  6. P1113 杂务 (DAG拓扑排序--DP)

    这是一道拓扑排序的模板题 0 额. 所需的前置知识: 图论相关的基本概念 建图,存图 图的遍历 非常入门的DP 下面进入正文 1 引入 拓扑排序是一类用于处理 DAG(Directed acyclic ...

  7. AI绘画StableDiffusion:云端在线版免费使用笔记分享-Kaggle版

    玩AI绘画(SD),自己电脑配置不够?今天给大家介绍一下如何baipiao在线版AI绘画StableDiffusion. Kaggle 是世界上最大的数据科学社区,拥有强大的工具和资源,可帮助您实现数 ...

  8. MIT 6.828 Lab实验记录 —— lab1 Booting PC

    实验参考信息 MIT 6.828 lab1 讲义地址 MIT 6.828 课程 Schedule MIT 6.828 lab 环境搭建参考 MIT 6.828 lab 工具guide Brennan' ...

  9. datetime去除时分秒

    datetime.datetime.now().replace(microsecond=0)

  10. 为什么创建 Redis 集群时会自动错开主从节点?

    哈喽大家好,我是咸鱼 在<一台服务器上部署 Redis 伪集群>这篇文章中,咸鱼在创建 Redis 集群时并没有明确指定哪个 Redis 实例将担任 master,哪个将担任 slave ...