上篇博客说了正则表达式，但是正则学起来比较费劲，写的时候也不好写，这次说下Beautiful Soup怎么用，这个模块是用来解析html的，它操作很简单，用起来比较方便，比正则学习起来简单多了。

这是第三方模块需要安装

pip install beautifulsoup4

pip install lxml

Beautiful Soup对象

Beautiful将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种：

Tag

标签，通过html的标签取到内容，比如说a标签，如果有多个的话，取的是第一个。

html = """

<html><head><title>BestTest</title></head>

<body>

<div>

<p class="content">最专业的软件测试培训

<a href="http://www.besttest.cn" class="link" id="link1"></a>,

<a href="http://www.besttest.cn/page/3.html" class="link" id="link2">BestTest性能测试</a> and

<a href="http://www.besttest.cn/page/47.html" class="link" id="link3">BestTest自动化测试</a>;

课程详情请点击上面的链接.</p>

<p class="content">.这是广告植入.</p>

<p class="title">BestTest is best</p>

</div>

</body>

</html>

"""

obj = BeautifulSoup(html,'lxml')#后面是指定使用lxml解析，lxml解析速度比较快，容错高。

print(obj.prettify()) #格式化输出html

print(obj.title) #取title这个标签里面的内容

print(obj.p)

#tag有两个属性，一个是name，一个是attr

# name ，name这个属性就是标签的名字，比如说a标签就是打印的name就是a

# attrs，attrs这个是这个tag的属性，比如说上面a标签的属性有 class、href、id ，他是一个字典

#既然attrs是一个字典，那就能通过key来取值

print(obj.a.name) #a标签的name，也就是a

print(obj.a.attrs) #a标签的属性，也就是class href id这些，以及对应的值是什么

print(obj.a.attrs['href']) #取到a标签的href熟悉，也就是，http://www.besttest.cn

print(obj.a.attrs.get('href')) #因为attrs是一个字典，所以也可以用.get方法取值和上面的中括号取值一样

NavigableString

也就是内容，获取到一个标签里面的内容，文字，比如说上面title标签里面内容获取到，也就是besttest直接用tag.string即可。

print(obj.title.string) #BestTest

print(obj.a.string) #首页

print(type(obj.title.string)) # <class 'bs4.element.NavigableString'> NavigableString的类型

Beautifulobj

Beautifulobj对象就是代表整个html，比如说上面的obj就是Beautifulobj对象，通过它来操作各个标签

1	print(type(obj)) #Beautifulobj对象

Comment

Comment 对象是一个特殊类型的 NavigableString对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。例如上面的一个a标签里面，首页是被注释了的。

print(obj.a.string) #首页，不包括 注释的

print(type(obj.a.string)) # <class 'bs4.element.Comment'> Comment类型

#这其实是注释的内容，咱们用string取出来的时候是不带注释符号的所以这里要注意一下

重点操作

上面的都是通过某个标签获取到的，如果想直接获取到某些标签，获取包含某些属性的就要用其他的方法了。

搜索标签

# find_all方法 find_all( name , attrs , recursive , text , **kwargs )

#find_all方法用来搜索当前所有的tag，判断是否符合过滤条件，如果符合的话，返回符合条件的列表

print(obj.find_all('p'))#找到所有p标签

print(obj.find_all(['a','p']))#找到所有a和p标签

#指定属性

print(obj.find_all(id='link1')) #找到id为link1的

print(obj.find_all(id=['link1','link2'])) #找到id为link1和link2的

#因为class在python里面是关键字，如果要找class属性的，不能直接写class，要写class_

print(obj.find_all(class_='link')) #class为link的，

print(obj.find_all(class_=['link','content']))#class为link和conent的

print(obj.find_all(attrs={'class':'link','id':'link1'})) #多个属性也可以直接写成一个字典，把属性名写成key，值写成value

print(obj.find_all('p',class_='content')) #从p标签里面找到class为conent的

print(type(obj.find(class_='link')))#find方法和findall方法的区别是，findall会返回所有的标签，放到一个list里面

#find方法返回的是一个标签，找到多个的话，取第一个。其他用法都是一样的

css选择器

css选择器就是通过css获取元素的方式来获取html的标签，如果对css比较熟悉的人用起来就很方便了，在css选择器中 "." 代表选择的class，"#"代表选择的id。

print('p',obj.select('p')) #通过标签选择

print(obj.select('a')) #通过标签选择

print(obj.select('.content'))#通过类名选择

print(obj.select('#link1'))#通过id选择

print(obj.select('p .link'))#组合查找，找p标签下面class为title的

print(obj.select('p #link1'))#组合查找，找p标签下面id为link1的

print(obj.select('a#link1'))#组合查找，找a标签里面id为link1的，和不加空格的区别是，在同级别找的

print(obj.select('p > a'))#标签组合查找，找到p标签下面的a标签

print(obj.select('a[class=link]'))#属性查找，找到a标签下面class为link的

print(obj.select('p a[href=http://www.besttest.cn/page/47.html]'))#组合使用，从p标签下面的a标签找到href为http://www.besttest.cn/page/47.html的

节点内容

节点就是怎么获取html的各个节点，比如说和div同级的其他div，div下面的子标签等等。

# contents tag 的 .contents 属性可以将tag的子节点以列表的方式输出

#children children和contents一样，也是获取子节点，只不过children不是列表，而是一个生成器

print(obj.div.contents) #获取到div下面的所有tag

print(obj.div.children) #这个是一个生成器，打印出来是一个生成器对象，想获取的话，就要循环了

for chil in obj.div.children:

print(chil)

# 通过contents以及children都是获取子节点，如果想要获取子孙节点可以通过descendants

# print(obj.descendants)同时这种获取的结果也是一个迭代器

# 父节点和祖先节点

# 通过obj.a.parent就可以获取父节点的信息

# 通过obj.a.parents可以获取祖先节点，这个方法返回的结果是一个列表，会分别将a标签的父节点的信息存放到列表中，以及父节点的父节点也放到列表中，并且最后还会讲整个文档放到列表中，所有列表的最后一个元素以及倒数第二个元素都是存的整个文档的信息

# 兄弟节点

# obj.a.next_siblings 获取后面的兄弟节点

# obj.a.previous_siblings 获取前面的兄弟节点

# obj.a.next_sibling 获取下一个兄弟标签

# obj.a.previous_sinbling 获取上一个兄弟标签

总结

主要说了怎么获取到html里面的各种标签、元素，修改和删除没有写，因为爬虫一般用不到修改，获取数据就够了。find_all()和css选择器都很常用，如果对css比较熟悉的话，建议使用css选择器。标签搜索和css选择器这里非常的常用。

爬虫学习笔记（五） Beautiful Soup使用的更多相关文章

吴裕雄--天生自然python学习笔记：Beautiful Soup 4.2.0模块
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Python学习笔记之Beautiful Soup
如何在Python3.x中使用Beautiful Soup 1.BeautifulSoup中文文档:http://www.crummy.com/software/BeautifulSoup/bs3/d ...
C#可扩展编程之MEF学习笔记(五)：MEF高级进阶
好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...
（转）Qt Model/View 学习笔记 (五)——View 类
Qt Model/View 学习笔记 (五) View 类概念在model/view架构中,view从model中获得数据项然后显示给用户.数据显示的方式不必与model提供的表示方式相同,可以与 ...
java之jvm学习笔记五(实践写自己的类装载器)
java之jvm学习笔记五(实践写自己的类装载器) 课程源码:http://download.csdn.net/detail/yfqnihao/4866501 前面第三和第四节我们一直在强调一句话,类 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Learning ROS for Robotics Programming Second Edition学习笔记(五) indigo computer vision
中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...
scrapy爬虫学习系列五：图片的抓取和下载
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
Typescript 学习笔记五：类
中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...

随机推荐

poj 3104 晾衣服问题最大化最小值
题意:n件衣服各含有ai水分,自然干一分钟一个单位,放烘干机一分钟k个单位,问:最短时间? 思路: mid为最短时间如果 a[i]-mid>0说明需要放入烘干机去烘干烘干的时间为x 那么满 ...
策略模式—Java实现（转）
1. 现实需求客户有了新的需求,这时我们直接新增策略即可,改很少的代码.基本符合我们面向对象原则中的开闭原则(对扩展开放,对修改关系),实现了高内聚低耦合. 2. 策略模式定义策略模式,又叫算法簇 ...
Patrick and Shopping
Patrick and Shopping 今天 Patrick 等待着他的朋友 Spongebob 来他家玩.为了迎接 Spongebob,Patrick 需要去他家附近的两家商店买一些吃的.他家 ...
51nod_1154 回文串的划分
说实话..最开始看这题感觉一定好难...好高大上...我的马拉车还不熟....这种..但是本着做不出来也要至少看看的心态,吧个题看完了..然后简单的想了想,好像是个挺直观的动态规划,因为看到数据几乎就 ...
线段树[To be continued]
目录数据结构--线段树一.定义二.性质三.基本操作 0.结构体 1.建树 2.单点查询 3.单点修改 4.区间修改 5.区间查询四.题目单点修改.区域查询模板五.鸣谢学姐的Blog 百 ...
sqoop安装和使用
下载版本:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网:http://mirror.bit.edu.cn/apache/sqoop/1.4.6/ jdbc ...
android基础知识杂记
Activity中获取视图组件对象:public View findViewById(@IdRes int id) 该方法以组件的资源ID为参数,返回一个视图对象View,需要强转成具体的视图类对象. ...
Asp.net页面生命周期详解任我行（3）-服务器处理请求详细过程
前言百度了一下才知道,传智的邹老师桃李满天下呀,我也是邹老师的粉丝,最开始学习页面生命周期的时候也是看了邹老师的视频. 本人是参考了以下前辈的作品,本文中也参合了本人心得,绝非有意盗版,旨在传播,最 ...
Python+Selenium练习篇之18-获取元素上面的文字
本文介绍如何通过Selenium方法来获取某一个元素的text属性值.在很多自动化测试脚本中,需要多次获取元素的text值,拿过来进行对比和匹配.例如,在一个登陆界面,如果不输入用户名和密码,直接点击 ...
二分 by zzt
#include <bits/stdc++.h> using namespace std; /* Problem description: There is an array A, the ...

爬虫学习笔记（五） Beautiful Soup使用