BeautifulSoup官方介绍：

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.

官方网站：https://www.crummy.com/software/BeautifulSoup/

BeautifulSoup安装

在"C:\Windows\System32"中找到"cmd.exe"，使用管理员身份运行，在命令行中输入：“pip install beautifulsoup4”运行。

C:\Windows\system32>pip install beautifulsoup4

Requirement already satisfied (use --upgrade to upgrade): beautifulsoup4 in c:\users\lei\appdata\local\programs\python\p

ython35\lib\site-packages\beautifulsoup4-4.5.-py3..egg

You are using pip version 8.1., however version 9.0. is available.

You should consider upgrading via the 'python -m pip install --upgrade pip' command.

提示pip版本过低，使用 python -m pip install --upgrade pip 进行升级。

Beautiful Soup库的安装测试：

from bs4 import BeautifulSoup

soup = BeautifulSoup('<p>data</p>','html.parser')

演示HTML页面地址:http://www.cnblogs.com/yan-lei

>>> import requests

>>> from bs4 import BeautifulSoup

>>> r = requests.get("http://www.cnblogs.com/yan-lei/")

>>> demo = r.text

>>> soup = BeautifulSoup(demo,"html.parser")

>>> soup

Beautiful Soup库的使用

以HTML为例，任何HTML文件都是有一组"<>"组织起来的，其实就是标签，标签之间形成了上下游关系，形成了标签树。BeautifulSoup库是解析、遍历、维护“标签树”的功能库

<p>..</p>:标签Tag

标签Name一般成对出现
属性Attributes 0个或多个

Beautiful Soup库的引用

Beautiful Soup库，也叫beautfulsoup4 或bs4。约定引用方式如下，即主要是用BeautifulSoup类。

from bs4 import BeautifulSoup

import bs4

Beautiful Soup类

将标签树转换为BeautifulSoup类，此时我们将HTML、标签树、BeautifulSoup类等价

from bs4 import BeautifulSoup

soup1 = BeautifulSoup("<html>data</html>","html.parser")

soup2 = BeautifulSoup(open("D://demo.html",'rb'),"html.parser")

使用 soup2 = BeautifulSoup(open("D://demo.html"),"html.parser") 报错：

Traceback (most recent call last):

  File "<stdin>", line , in <module>

  File "C:\Users\lei\AppData\Local\Programs\Python\Python35\lib\site-packages\beautifulsoup4-4.5.0-py3.5.egg\bs4\__init_

_.py", line 191, in __init__

UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

BeautifulSoup对应一个HTML/XML文档的全部内容。

Beautiful Soup库解析器

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,'xml')	pip install lxml
html5lib的解析器	BeautifulSoup(mk,'html5lib')	pip install html5lib

Beautiful Soup类的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，<p>...</p>的名字是'p'，格式：<tag>.name
Attributes	标签的属性，字典形式的组织，格式：<tag>.attrs
NavigleString	标签内非属性字符串，<>...</>中字符串，格式<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

Tag标签：任何存在于HTML语法中的标签都可以用soup.<tag>访问获得；当HTML文档中存在多个相同<tag>对应内容时，soup.<tag>返回第一个。
Tag的名字（name）：每个<tag>都有自己的名字，通过<tag>.name获取，字符串类型。
Tag的attrs（属性）：一个<tag>可以有0个或多个属性，字典类型。
Tag的NavigableString：NavigableString可以跨越多个层次
Tag的Comment：Comment是一种特殊类型。

>>> import requests

>>> from bs4 import BeautifulSoup

>>> r = requests.get('http://www.cnblogs.com/yan-lei/')

>>> html = r.text

>>> soup = BeautifulSoup(html,'html.parser')

>>> soup.title

<title>Python学习者 - 博客园</title>

>>> soup.a

<a name="top"></a>

>>> soup.a.name

'a'

>>> soup.a.parent.name

'body'

>>> soup.a.attrs

{'name': 'top'}

>>> type(soup.a)

<class 'bs4.element.Tag'>

>>> type(soup.a.attrs)

<class 'dict'>

>>> soup.h1.string

'Python学习者'

>>> type(soup.h1.string)

<class 'bs4.element.NavigableString'>

基于bs4库的HTML内容遍历方法

HTML中 <...>构成了所属关系，形成了标签的树形结构，有三种遍历方式。

使用以下的HTML进行测试：E:\BeautifulSoupTest.html

<html>

    <head>

        <meta charset="utf-8">

        <title>BeautifulSoup</title>

    </head>

    <body>

        <div id="header">

            <h1  style="font-size:16px;text-align:center">这里是标题</h1>

        </div>

        <div id="nav">

            <h1>左导航</h1>

        </div>

        <div id="main">

            <p>第一段</p>

            <p>第二段</p>

            <img src="test.jpg"/>

            <p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>

        </div>

        <div id="footer">

            <h1>底边</h1>

        </div>

    </body>

</html>

标签树的下行遍历

属性	说明
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

BeautifulSoup类是标签树的根节点

>>> from bs4 import BeautifulSoup

>>> soup = BeautifulSoup(open('E:\\BeautifulSoupTest.html','rb'),'html.parser')

>>> soup.head.contents #返回的是列表

['\n', <meta charset="utf-8">

<title>BeautifulSoup</title>

</meta>]

>>> len(soup.body.contents)

9

>>> for child in soup.body.children:   # 遍历儿子节点

...     print(child)

...

<div id="header">

<h1 style="font-size:16px;text-align:center">这里是标题</h1>

</div>

<div id="nav">

<h1>左导航</h1>

</div>

<div id="main">

<p>第一段</p>

<p>第二段</p>

<img src="test.jpg">

<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>

</img></div>

<div id="footer">

<h1>底边</h1>

</div>

>>> for child in soup.body.descendants:  # 遍历子孙节点

...     print(child)

...

<div id="header">

<h1 style="font-size:16px;text-align:center">这里是标题</h1>

</div>

<h1 style="font-size:16px;text-align:center">这里是标题</h1>

这里是标题

<div id="nav">

<h1>左导航</h1>

</div>

<h1>左导航</h1>

左导航

<div id="main">

<p>第一段</p>

<p>第二段</p>

<img src="test.jpg">

<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>

</img></div>

<p>第一段</p>

第一段

<p>第二段</p>

第二段

<img src="test.jpg">

<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>

</img>

<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>

<a href="http://www.cnblogs.com/yan-lei/">博客园</a>

博客园

<div id="footer">

<h1>底边</h1>

</div>

<h1>底边</h1>

底边

for child in soup.body.children:   # 遍历儿子节点

    print(child)

for child in soup.body.descendants:  # 遍历子孙节点

    print(child)

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

>>> for parent in soup.a.parents:

...     if parent is None:

...             print(parent)

...     else:

...             print(parent.name)

...

p

img

div

body

html

[document]

# 判断所有先辈节点，包括soup本身，所以要区别判断

for parent in soup.a.parents:

    if parent is None:

            print(parent)

    else:

            print(parent.name)

标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

*所有的平行遍历发生在同一个父节点下的各节点间。

# div标签下一个平行节点标签

soup.div.next_sibling

# div标签上一个平行节点标签

soup.div.previous_sibling

# 遍历后续节点

for sibling in soup.div.next_sibling:

    print(sibling) 

# 遍历前续节点

for sibling in soup.div.previous_sibling:

    print(sibling)

基于bs4库的HTML格式输出

bs4库的prettify()方法

.prettify()为HTML文本<>及其内容增加'\n'

.prettify()可用于标签，方法：<tag>.prettify()

print(soup.prettify())

bs4库将任何HTML输入都变成utf-8编码，Python 3.x默认支持编码是utf-8，解析无障碍。

信息标记的三种形式

信息的标记：

标记后的信息可形成信息组织结构，增加了信息维度
标记后的信息可用于通信、存储或展示
标记的结构与信息一样具有重要价值
标记后的信息更利于程序的理解和运用

HTML的信息标记：

HTML是WWW（World Wide Web）的信息组织方式。

HTML通过预定义的<>...</>标签形式组织不同类型的信息。

XML eXtensible Markup Language

XML格式是基于HTML格式发展以来的一种通用的信息格式。

XML基本格式：<name> ... </name>
空元素缩写形式：<name />
注释书写形式：

JSON JavaScript Object Notation

有类型的键值对 key:value

使用 "" 表达是字符串类型，没有字符串则是数字类型。

YAML YAML Ain't Markup Language

无类型键值对 key:value

通过缩进表达所属关系

- 表达并列关系
| 表达整块数据
# 表示注释

key : value

key : #Comment

-value1

-value2

key :

    subkey : subvalue

三种信息标记形式的比较：

XML 最早的通用信息标记语言，可扩展性好，但繁琐。Internet上的信息交互与传递。

JSON 信息有类型，适合程序处理（js），较XML简洁。移动应用云端和节点的信息通信，无注释。

YAML 信息无类型，文本信息比例最高，可读性好。各类系统的配置文件，有注释易读。

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息。

XML JSON YAML

需要标记解析器例如bs4库的标签树遍历

优点：信息解析准确

缺点：提取过程繁琐，速度慢。

方法二：无视标记形式，直接搜索关键信息。

搜索

对信息的文本查找函数即可。

优点：提取过程简介，速度较快。

缺点：提取结果准确性与信息内容相关。

方法三：融合方法

融合方法：结合形式解析与搜索方法，提取关键信息。

基于bs4库的HTML内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型，存储查找结果。

name：对标签名称的检索字符串。
attrs：对标签属性值的检索字符串，可标注属性检索。
recursive：是否对子孙全部检索，默认True。
string：<>...</>中字符串区域的检索字符串。

<tag>(..) 等价于 <tag>.find_all(..)

soup(..) 等价于 soup.find_all(..)

>>> soup.div()

[<h1 style="font-size:16px;text-align:center">这里是标题</h1>]

>>> for tag in soup.find_all(True):  # 返回所有的标签

...     print(tag.name)

...

html

head

meta

title

body

div

h1

div

h1

div

p

p

img

p

a

div

h1

扩展方法

方法	说明
<>.find()	搜索且只返回一个结果，自负串类型，同.find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同find_all()参数
<>.find_parent()	在先辈节点中返回一个结果，字符串类型，同.find()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_next_sibling()	在后续平行节点中返回一个结果，字符串类型，同.find()参数
<>.find_previous_siblings()	在前序节点中搜索，返回列表类型，同.find_all()参数
<>.find_previous_sibling()	在前序节点中返回一个结果，字符串类型，同.find()参数

Python网络爬虫与信息提取（二）—— BeautifulSoup的更多相关文章

Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)
学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime Text集成ide:Pychar ...
Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
python网络爬虫-入门（二）
为什么要学网络爬虫可以替代人工从网页中找到数据并复制粘贴到excel中,这种重复性的工作不仅浪费时间还一不留神还会出错----解决无法自动化和无法实时获取数据对于这些公开数据的应用价值,我 ...
PYTHON网络爬虫与信息提取[BeautifulSoup](单元四)
1 简介 from bs4 import BeautifulSoup soup=BeautifulSoup(<p>data</p>,'html.parser') 2 基本元素 ...

随机推荐

【玩转树莓派】使用 sinopia 搭建私有 npm 服务器
简介使用 sinopia 的好处是,node系的工程师,内部协作时,使用自有 npm 包,会非常方便:另外,sinopia,会缓存已经下载过的包,可以在相当程度上,加速 npm install 相关 ...
Python 日志处理（三）日志状态码分析、浏览器分析
在企业中,从日志中提取数据进行分析,可以帮助企业更加了解用户行为,用户最感兴趣的产品或者内容,分析得到数据后,可以决定企业在今后的走向. 从这些日志数据中,比较重要的有: 1. 用户访问最多的url, ...
let和const命令
let命令 1.let用来声明变量,类似于var,但只在代码块内有效. { let a = 1; var b = 2; } console.log(a); //a is not defined con ...
SoapUI实践：自动化测试、压力测试、持续集成
因为项目的原因,前段时间研究并使用了 SoapUI 测试工具进行自测开发的 api.下面将研究的成果展示给大家,希望对需要的人有所帮助. SoapUI 是什么? SoapUI 是一个开源测试工具,通过 ...
如何优化Cocos2d-X游戏的内存
在游戏项目优化中都会碰到一个问题,如何既能减少内存又能尽量减少包的大小?在实际项目中有些经验分享一下,事实上2D游戏中最占内存的就是图片资源,一张图片使用不同的纹理格式带来的性能差异巨大,下表是我在I ...
常用接口简析1---IEnumerable、IEnumerator简析
常用接口的解析(链接) 1.IEnumerable深入解析 2.IComparable.IComparable接口解析 3.IList.IList接口解析引言: IEnumerable和I ...
.net 通用面试题
1. private. protected. public. internal 修饰符的访问权限. private : 私有成员, 在类的内部才可以访问 public : 公共成员,完全公开,没有访问 ...
win下搭建python3+PyQt5+eric6环境
一.安装python3 1.下载python3的安装包,默认安装即可,注意勾选 Add Python 3.6 to Path .但是这样默认安装的路径太长,不太方便找到,可选择定制安装,自己定义安装路 ...
javascript的BOM，DOM对象
BOM对象 window对象所有浏览器都支持 window 对象.概念上讲.一个html文档对应一个window对象.功能上讲: 控制浏览器窗口的.使用上讲: window对象不需要创建对象,直接使 ...
在cmd中运行android.bat报出空指针异常
因启动SDK manager和启动AVD manager 都发生闪退现象,网上很多方法都无法解决又在cmd 中执行运行 D:\Program Files\Android_SDK\sdk\tools& ...

Python网络爬虫与信息提取（二）—— BeautifulSoup