Beautiful Soup库也称为beautiful4库、bs4库,它可用于解析HTML/XML,并将所有文件、字符串转换为'utf-8'编码。HTML/XML文档是与“标签树一一对应的。具体地说,Beautiful Soup库是可以解析、遍历、维护HTML/XML文件的“标签树”的功能库。本文总结了BeautifulSoup的基本使用方法。

一、Beautiful Soup库基本元素


库的比较常见的引用方式如下

from bs4 import BeautifulSoup #从Beautiful Soup库引入BeautifulSoup类
import bs4 #直接引入Beautiful Soup库

Beautiful Soup库可用的解析器有以下4种:

  • bs4的HTML解析器:BeautifulSoup(mk, 'html.parser')
  • lxml的HTML解析器:BeautifulSoup(mk, 'lxml')
  • lxml的XML解析器:BeautifulSoup(mk, 'xml')
  • html5lib的解析器:BeautifulSoup(mk, 'html5lb')

BeautifulSoup类对应一个HTML/XML文档的全部内容,其5种基本元素罗列如下:

  • Tag:标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾
  • Name:标签的名字,<p>...</p>的名字是'p',格式<tag>.name
  • Attributes:标签的属性,字典形式组织,格式<tag>.attrs
  • NavigableString:标签内非属性字符串,<>...</>中字符串,格式<tag>.string
  • Comment:标签内字符串的注释部分,一种特殊的Comment类型

下面一段运行实例,其中demo是一段HTML代码

我们看一下a标签,其父标签以及祖父标签的名字

接下来,解析a标签的属性

从中可以看到,属性是字典类型。

再看一看标签本身的类型

标签的NavigableString元素

获取标签的Comment(与获取NavigableString比较)

p标签包含b标签,然而p.string并不包含b标签,这说明NavigableString是可以跨越多个标签层次的。

二、利用Beautiful Soup库遍历HTML内容


前面提到,HTML文档其实就是一棵标签树。对HTML的遍历即是对标签树的遍历。遍历的方式分为上行遍历、下行遍历和平行遍历。

2.1 标签树的下行遍历

标签树的下行遍历包含三个属性

  • .contents:子节点的列表,将<tag>所有儿子节点存入列表
  • .children:子节点的迭代类型,与.content相似,用于循环遍历儿子节点
  • .descendants:子孙节点的迭代类型,包含所有子孙节点,用于循环遍历

使用.contents获取子节点列表的示例如下

一般地,如果要遍历子节点,可以用如下代码框架

for child in soup.body.children:
print(child)

如果要遍历子孙节点,则可以用如下代码框架

for child in soup.body.descendents:
print(child)

2.2 标签树的上行遍历

上行遍历包含的属性罗列如下:

  • .parent:节点的父亲标签
  • .parents:节点先辈标签的迭代模型,用于循环遍历先辈节点

下面是使用.parent获取父标签的一段实例

这里看到,html是最高级的标签,因此其父标签即为自己。

一般地,对标签树进行上行遍历,可采用如下代码框架

for parent in soup.a.parents:
if parent is None:
print(parent)
else:
print(parent.name)

相应给出一段运行实例:打印所有先辈标签的名字

2.3 标签树的平行遍历

Beautiful Soup库提供以下四种平行遍历属性:

  • .next_sibling:返回按照HTML文本顺序的下一个平行节点标签
  • .previous_sibling:返回按照HTML文本顺序的上一个平行节点标签
  • .next_siblings:迭代类型,返回按照HTML文本顺序的后续所有平行节点标签
  • .previous_siblings:迭代类型,返回按照HTML文本顺序的前续所有平行节点标签

值得注意的是,平行遍历是在同一个父节点下建立的。

一段运行实例

最后,soup.a.previous_sibling.previous_sibling没有输出,说明a标签的前一个再前一个节点标签为空。

一般地,标签树的平行遍历可采用如下代码框架

for sibling in soup.a.next_siblings: #遍历后续节点
print(sibling)
for sibling in soup.a.previous_siblings: #遍历前续节点
print(sibling)

三、基于Beautiful Soup库的HTML格式输出


bs4库提供了prettify()方法,用于对HTML的内容给出更友好的输出。

下面是一段运行实例

看到pretiffy()在每个标签后添加了换行符'\n'。将相关信息打印出来,得到如下结果

prettify()也可以对某一个标签进行处理,示例如下

相关内容为笔者根据中国大学MOOC网站嵩天教授的python爬虫课程所撰写的学习笔记,感谢中国MOOC学习平台提供的学习资源与嵩老师的授课。

python网络爬虫学习笔记(二)BeautifulSoup库的更多相关文章

  1. python网络爬虫学习笔记

    python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

  2. python网络爬虫学习笔记(一)Request库

    一.Requests库的基本说明 引入Rquests库的代码如下 import requests 库中支持REQUEST, GET, HEAD, POST, PUT, PATCH, DELETE共7个 ...

  3. 关于Python网络爬虫实战笔记③

    Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则 也就是, http://blog.sina ...

  4. python爬虫学习(一):BeautifulSoup库基础及一般元素提取方法

    最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...

  5. 关于Python网络爬虫实战笔记①

    python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...

  6. 《精通python网络爬虫》笔记

    <精通python网络爬虫>韦玮 著 目录结构 第一章 什么是网络爬虫 第二章 爬虫技能概览 第三章 爬虫实现原理与实现技术 第四章 Urllib库与URLError异常处理 第五章 正则 ...

  7. Python网络爬虫学习总结

    1.检查robots.txt 让爬虫了解爬取该网站时存在哪些限制. 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索. 2.检查网站地图(robots.txt文件中发现的Sitemap文件) ...

  8. python网络爬虫(三)requests库的13个控制访问参数及简单案例

    酱酱~小编又来啦~

  9. python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化

    实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...

随机推荐

  1. you-get 下载视频

    亲测有效,没在别的平台试,道理是相通的 平台:Windows 10 所需工具: python3,pip3,you-get 步骤流程: 正确安装python3,配置环境变量 (目前使用的是3.6+) 打 ...

  2. Matlab中的rectangle函数

    rectangle函数功能:创建二维矩形对象. rectangle('Position',[x,y,w,h])从点(x,y)开始绘制一个宽w高h的矩形,对坐标轴数据单元指定值.注意,按指定的比例显示矩 ...

  3. HTTP Post multipart/form-data支持

    最近需要向平台发送录像文件,但是Skynet没有multipart/form-data的Post请求支持,写篇blog记录一下 skynet有自带简单的httpc,里面有post方法.但是这个post ...

  4. 基本的java加密算法MD5等等

    简单的java加密算法有: BASE64       严格地说,属于编码格式,而非加密算法 MD5             (Message Digest algorithm 5,信息摘要算法) SH ...

  5. oracle数据库连接缓慢

    今天连接数据库时非常的慢,大概将近1分钟,才能连上,感觉不对,登录数据库所在的服务器,进行检查,常规的内存.硬盘.CPU全都正常,然后想要进入oracle用户时报错了:su: cannot set u ...

  6. C语言简单计算一元二次方程

    #include <stdio.h> #include <math.h> /*计算一元二次方程的根*/ void Cal(double a,double b,double c) ...

  7. 第二章代替netcat连接无响应

    按照书上的代码手打到电脑上以后,在两个终端输入了./bhnet.py -l -p 9999 -c和./bhnet.py -t localhost -p 9999之后发现没什么反映,所以又用nmap 1 ...

  8. 2018-2019-2 20165313 Exp3 免杀原理与实践

    实践内容(3.5分) 1.1 正确使用msf编码器,msfvenom生成如jar之类的其他文件,veil-evasion,自己利用shellcode编程等免杀工具或技巧:(1.5分) 1.2 通过组合 ...

  9. centos7进单用户

    当重启linux系统,进入系统选择页面的时候,按e 在linux16那一行最后面添加 init=/bin/sh 按ctrl+c 挂载根分区,可读写 mount / -o rw, remount

  10. 汇编实验一 查看CPU和内存,用机器指令和汇编语言指令编程

    在装完DosBox环境之后,就可以用debug模式进行汇编指令的编程了. 实验内容:      首先用a指令进行数据的储存,然后用t命令进行调试. 可以发现ax,bx在不同的命令下发生了改变,cs的地 ...