BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库，它能够将 HTML 或 XML 转化为可定位的树形结构，并提供了导航、查找、修改功能，它会自动将输入文档转换为 Unicode 编码，输出文档转换为 UTF-8 编码。

BeautifulSoup 支持 Python 标准库中的 HTML 解析器和一些第三方的解析器，默认使用 Python 标准库中的 HTML 解析器，默认解析器效率相对比较低，如果需要解析的数据量比较大或比较频繁，推荐使用更强、更快的 lxml 解析器。

1 安装

1）BeautifulSoup 安装
如果使用 Debain 或 ubuntu 系统，可以通过系统的软件包管理来安装：apt-get install Python-bs4，如果无法使用系统包管理安装，可以使用 pip install beautifulsoup4 来安装。

2）第三方解析器安装
如果需要使用第三方解释器 lxml 或 html5lib，可是使用如下命令进行安装：apt-get install Python-lxml(html5lib) 和 pip install lxml(html5lib)。

看一下主要解析器和它们的优缺点：

解析器	使用方法	优势	劣势
Python标准库	`BeautifulSoup(markup, "html.parser")`	Python的内置标准库；执行速度适中；文档容错能力强。	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差。
lxml HTML 解析器	`BeautifulSoup(markup, "lxml")`	速度快；文档容错能力强。	需要安装C语言库。
lxml XML 解析器	`BeautifulSoup(markup, ["lxml-xml"])` `BeautifulSoup(markup, "xml")`	速度快；唯一支持XML的解析器。	需要安装C语言库
html5lib	`BeautifulSoup(markup, "html5lib")`	最好的容错性；以浏览器的方式解析文档；生成HTML5格式的文档。	速度慢；不依赖外部扩展。

2 快速上手

将一段文档传入 BeautifulSoup 的构造方法，就能得到一个文档的对象，可以传入一段字符串或一个文件句柄，示例如下：

1）使用字符串
我们以如下一段 HTML 字符串为例：

html = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>BeautifulSoup学习</title>
</head>
<body>
Hello BeautifulSoup
</body>
</html>
'''

使用示例如下：

from bs4 import BeautifulSoup
#使用默认解析器
soup = BeautifulSoup(html,'html.parser')
#使用 lxml 解析器
soup = BeautifulSoup(html,'lxml')

2）本地文件
还以上面那段 HTML 为例，将上面 HTML 字符串放在 index.html 文件中，使用示例如下：

#使用默认解析器
soup = BeautifulSoup(open('index.html'),'html.parser')
#使用 lxml 解析器
soup = BeautifulSoup(open('index.html'),'lxml')

2.1 对象的种类

BeautifulSoup 将 HTML 文档转换成一个树形结构，每个节点都是 Python 对象，所有对象可以归纳为4种：Tag，NavigableString，BeautifulSoup，Comment。

1）Tag 对象
Tag 对象与 HTML 或 XML 原生文档中的 tag 相同，示例如下：

soup = BeautifulSoup('<title>BeautifulSoup学习</title>','lxml')
tag = soup.title
tp =type(tag)
print(tag)
print(tp)

#输出结果
'''
<title>BeautifulSoup学习</title>
<class 'bs4.element.Tag'>
'''

Tag 有很多方法和属性，这里先看一下它的的两种常用属性：name 和 attributes。

我们可以通过 .name 来获取 tag 的名字，示例如下：

soup = BeautifulSoup('<title>BeautifulSoup学习</title>','lxml')
tag = soup.title
print(tag.name)

#输出结果
#title

我们还可以修改 tag 的 name，示例如下：

tag.name = 'title1'
print(tag)

#输出结果
#<title1>BeautifulSoup学习</title1>

一个 tag 可能有很多个属性，先看一它的 class 属性，其属性的操作方法与字典相同，示例如下：

soup = BeautifulSoup('<title class="tl">BeautifulSoup学习</title>','lxml')
tag = soup.title
cls = tag['class']
print(cls)

#输出结果
#['tl']

我们还可以使用 .attrs 来获取，示例如下：

ats = tag.attrs
print(ats)

#输出结果
#{'class': ['tl']}

tag 的属性可以被添加、修改和删除，示例如下：

#添加 id 属性
tag['id'] = 1

#修改 class 属性
tag['class'] = 'tl1'

#删除 class 属性
del tag['class']

2）NavigableString 对象
NavigableString 类是用来包装 tag 中的字符串内容的，使用 .string 来获取字符串内容，示例如下：

str = tag.string

可以使用 replace_with() 方法将原有字符串内容替换成其它内容，示例如下：

tag.string.replace_with('BeautifulSoup')

3）BeautifulSoup 对象
BeautifulSoup 对象表示的是一个文档的全部内容，它并不是真正的 HTML 或 XML 的 tag，因此它没有 name 和 attribute 属性，为方便查看它的 name 属性，BeautifulSoup 对象包含了一个值为 [document] 的特殊属性 .name，示例如下：

soup = BeautifulSoup('<title class="tl">BeautifulSoup学习</title>','lxml')
print(soup.name)

#输出结果
#[document]

4）Comment 对象
Comment 对象是一个特殊类型的 NavigableString 对象，它会使用特殊的格式输出，看一下例子：

soup = BeautifulSoup('<title class="tl">Hello BeautifulSoup</title>','html.parser')
comment = soup.title.prettify()
print(comment)

#输出结果
'''
<title class="tl">
 Hello BeautifulSoup
</title>
'''

我们前面看的例子中 tag 中的字符串内容都不是注释内容，现在将字符串内容换成注释内容，我们来看一下效果：

soup = BeautifulSoup('<title class="tl"><!--Hello BeautifulSoup--></title>','html.parser')
str = soup.title.string
print(str)

#输出结果
#Hello BeautifulSoup

通过结果我们发现注释符号  被自动去除了，这一点我们要注意一下。

2.2 搜索文档树

BeautifulSoup 定义了很多搜索方法，我们来具体看一下。

1）find_all()
find_all() 方法搜索当前 tag 的所有 tag 子节点，方法详细如下：find_all(name=None, attrs={}, recursive=True, text=None,limit=None, **kwargs)，来具体看一下各个参数。

name 参数可以查找所有名字为 name 的 tag，字符串对象会被自动忽略掉，示例如下：

soup = BeautifulSoup('<title class="tl">Hello BeautifulSoup</title>','html.parser')
print(soup.find_all('title'))

#输出结果
#[<title class="tl">Hello BeautifulSoup</title>]

attrs 参数定义一个字典参数来搜索包含特殊属性的 tag，示例如下：

soup = BeautifulSoup('<title class="tl">Hello BeautifulSoup</title>','html.parser')
soup.find_all(attrs={"class": "tl"})

调用 find_all() 方法时，默认会检索当前 tag 的所有子孙节点，通过设置参数 recursive=False，可以只搜索 tag 的直接子节点，示例如下：

soup = BeautifulSoup('<html><head><title>Hello BeautifulSoup</title></head></html>','html.parser')
print(soup.find_all('title',recursive=False))

#输出结果
#[]

通过 text 参数可以搜搜文档中的字符串内容，它接受字符串、正则表达式、列表、True，示例如下：

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup('<head>myHead</head><title>BeautifulSoup</title>','html.parser')
#字符串
soup.find_all(text='BeautifulSoup')

#正则表达式
soup.find_all(soup.find_all(text=re.compile('title')))

#列表
soup.find_all(soup.find_all(text=['head','title']))

#True
soup.find_all(text=True)

limit 参数与 SQL 中的 limit 关键字类似，用来限制搜索的数据，示例如下：

soup = BeautifulSoup('<a id="link1" href="http://example.com/elsie">Elsie</a><a id="link2" href="http://example.com/elsie">Elsie</a>','html.parser')
soup.find_all('a', limit=1)

我们经常见到 Python 中 *arg 和 **kwargs 这两种可变参数，*arg 表示非键值对的可变数量的参数，将参数打包为 tuple 传递给函数； **kwargs 表示关键字参数，参数是键值对形式的，将参数打包为 dict 传递给函数。

使用多个指定名字的参数可以同时过滤 tag 的多个属性，如：

soup = BeautifulSoup('<a id="link1" href="http://example.com/elsie">Elsie</a><a id="link2" href="http://example.com/elsie">Elsie</a>','html.parser')
soup.find_all(href=re.compile("elsie"),id='link1')

有些 tag 属性在搜索不能使用，如 HTML5 中的 data-* 属性，示例如下：

soup = BeautifulSoup('<div data-foo="value">foo!</div>')
soup.find_all(data-foo='value')

首先当我在 Pycharm 中输入 data-foo='value' 便提示语法错误了，然后我不管提示直接执行提示 SyntaxError: keyword can't be an expression 这个结果也验证了 data-* 属性在搜索中不能使用。我们可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的 tag，示例如下：

print(soup.find_all(attrs={'data-foo': 'value'}))

2）find()
方法详细如下：find(name=None, attrs={}, recursive=True, text=None,**kwargs)，我们可以看出除了少了 limit 参数，其它参数与方法 find_all 一样，不同之处在于：find_all() 方法的返回结果是一个列表，find() 方法返回的是第一个节点，find_all() 方法没有找到目标是返回空列表，find() 方法找不到目标时，返回 None。来看个例子：

soup = BeautifulSoup('<a id="link1" href="http://example.com/elsie">Elsie</a><a id="link2" href="http://example.com/elsie">Elsie</a>','html.parser')
print(soup.find_all('a', limit=1))
print(soup.find('a'))

#输出结果
'''
[<a href="http://example.com/elsie" id="link1">Elsie</a>]
<a href="http://example.com/elsie" id="link1">Elsie</a>
'''

从示例中我们也可以看出，find() 方法返回的是找到的第一个节点。

3）find_parents() 和 find_parent()
find_all() 和 find() 用来搜索当前节点的所有子节点，find_parents() 和 find_parent() 则用来搜索当前节点的父辈节点。

4）find_next_siblings() 和 find_next_sibling()
这两个方法通过 .next_siblings 属性对当前 tag 所有后面解析的兄弟 tag 节点进行迭代，find_next_siblings() 方法返回所有符合条件的后面的兄弟节点，find_next_sibling() 只返回符合条件的后面的第一个tag节点。

5）find_previous_siblings() 和 find_previous_sibling()
这两个方法通过 .previous_siblings 属性对当前 tag 前面解析的兄弟 tag 节点进行迭代，find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点，find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点。

6）find_all_next() 和 find_next()
这两个方法通过 .next_elements 属性对当前 tag 之后的 tag 和字符串进行迭代，find_all_next() 方法返回所有符合条件的节点，find_next() 方法返回第一个符合条件的节点。

7）find_all_previous() 和 find_previous()
这两个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代，find_all_previous() 方法返回所有符合条件的节点，find_previous() 方法返回第一个符合条件的节点。

2.3 CSS选择器

BeautifulSoup 支持大部分的 CSS 选择器，在 Tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数，即可使用 CSS 选择器的语法找到 tag，返回类型为列表。示例如下：

soup = BeautifulSoup('<body><a id="link1" class="elsie">Elsie</a><a id="link2" class="elsie">Elsie</a></body>','html.parser')
print(soup.select('a'))

#输出结果
#[<a clss="elsie" id="link1">Elsie</a>, <a clss="elsie" id="link2">Elsie</a>]

通过标签逐层查找

soup.select('body a')

找到某个 tag 标签下的直接子标签

soup.select('body > a')

通过类名查找

soup.select('.elsie')
soup.select('[class~=elsie]')

通过 id 查找

soup.select('#link1')

使用多个选择器

soup.select('#link1,#link2')

通过属性查找

soup.select('a[class]')

通过属性的值来查找

soup.select('a[class="elsie"]')

查找元素的第一个

soup.select_one('.elsie')

查找兄弟节点标签

#查找所有
soup.select('#link1 ~ .elsie')
#查找第一个
soup.select('#link1 + .elsie')

Python爬虫（三）：BeautifulSoup库的更多相关文章

Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
Python爬虫之BeautifulSoup库
1. BeautifulSoup 1.1 解析库 1)Python标准库 # 使用方法 BeautifulSoup(markup, "html.parser") # 优势 Pyth ...
python爬虫之urllib库（三）
python爬虫之urllib库(三) urllib库访问网页都是通过HTTP协议进行的,而HTTP协议是一种无状态的协议,即记不住来者何人.举个栗子,天猫上买东西,需要先登录天猫账号进入主页,再去 ...
python爬虫之urllib库（一）
python爬虫之urllib库(一) urllib库 urllib库是python提供的一种用于操作URL的模块,python2中是urllib和urllib2两个库文件,python3中整合在了u ...
Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解本章内容如下: 什么是Selenium selenium基本使用声明浏览器对象访问页面查找元素多个元素查找元素交互操作交互动作执行JavaS ...
python下载安装BeautifulSoup库
python下载安装BeautifulSoup库 1.下载https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/ 2.解压到解压 ...
python爬虫之urllib库（二）
python爬虫之urllib库(二) urllib库超时设置网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
Mac os 下 python爬虫相关的库和软件的安装
由于最近正在放暑假,所以就自己开始学习python中有关爬虫的技术,因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑. 一. 相关软件的安装: 1. h ...
通过哪吒动漫豆瓣影评，带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】
久旱逢甘霖西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...

随机推荐

舍得（学习html几天）
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Python 命令行之旅：使用 argparse 实现 git 命令
作者:HelloGitHub-Prodesire HelloGitHub 的<讲解开源项目>系列,项目地址:https://github.com/HelloGitHub-Team/Arti ...
redis desktop manager安装及连接方式
1.下载安装包官网下载地址:https://redisdesktop.com/pricing 官网下载需要付费使用再此附上一个免费的破解版本,绿色安全可用链接:https://pan.baidu ...
ZOJ -2112 Dynamic Rankings 主席树待修改的区间第K大
Dynamic Rankings 带修改的区间第K大其实就是先和静态区间第K大的操作一样.先建立一颗主席树, 然后再在树状数组的每一个节点开线段树(其实也是主席树,共用节点), 每次修改的时候都按照树 ...
briup_jdbc自建工具类终极版
总结:此次构建工具类,难点在于查询,所需要的功能是不管是 oracle还是mysql 都可以连接,并且提供所需要的实体类,都可以将查询内容封装到实体类中去遇到的难点连接时,是从prppert ...
用lnmp架构部署wordpress网站详细步骤
用lnmp架构部署wordpress网站 ①.下载和上传网站代码用winscp或者xftp, 或者xshell下执行rz命令进行上传网站的包文件. ②.解压程序代码,并将程序代码保存到站点目录,并进 ...
SpringBoot启动原理
SpringBoot启动原理我们开发任何一个Spring Boot项目,都会用到如下的启动类: @SpringBootApplication public class Application { p ...
asp.net core 使用 signalR（一）
asp.net core 使用 signalR(一) Intro SignalR 是什么? ASP.NET Core SignalR 是一个开源代码库,它简化了向应用添加实时 Web 功能的过程. 实 ...
springboot数据库主从方案
本篇分享数据库主从方案,案例采用springboot+mysql+mybatis演示:要想在代码中做主从选择,通常需要明白什么时候切换数据源,怎么切换数据源,下面以代码示例来做阐述: 搭建测试环境(1 ...
渗透测试----access偏移注入
偏移注入指access偏移注入,由于数据库结构的问题,偏移注入只适用于access数据库.对于access数据库来说,无论是逐字猜解还是联合查询注入,都是需要我们能够猜到用户名和密码的列名(字段),才 ...

Python爬虫（三）：BeautifulSoup库