背景

在Python去写爬虫，网页解析等过程中，比如：

如何用Python，C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站

常常需要涉及到HTML等网页的解析。

当然，对于简单的HTML中内容的提取，Python内置的正则表达式Re模块，就足够用了，

但是对于复杂的HTML的处理，尤其是一些非法的，有bug的html代码的处理，那么最好还是用专门的HTML的解析的库。

Python中的，专门用于HTML解析的库，比较好用的，就是BeautifulSoup。

BeautifulSoup简介

Python中，专门用于HTML/XML解析的库；

特点是：

即使是有bug，有问题的html代码，也可以解析。

功能很强大；

BeautifulSoup的主页是：

http://www.crummy.com/software/BeautifulSoup/

BeautifulSoup的版本

BeautifulSoup主要有两个版本：

BeautifulSoup 3

之前的，比较早的，是3.x的版本。

BeautifulSoup 3的在线文档

中文版的是：

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

下载BeautifulSoup 3

http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/

中可以下载到很多版本，比如我常用的3.0.6的版本：

BeautifulSoup-3.0.6.py

http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/BeautifulSoup-3.0.6.py

BeautifulSoup 4：缩写为bs4

最新的v4版本的BeautifulSoup，改名为bs4了。

注意：

使用bs4时，导入BeautifulSoup的写法是：

1	`from` `bs4` `import` `BeautifulSoup;`

然后就可以像之前3.x中一样，直接使用BeautifulSoup了。

详见：

【已解决】Python3中，已经安装了bs4（Beautifulsoup 4）了，但是却还是出错：ImportError: No module named BeautifulSoup

bs4的在线文档

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

下载bs4

http://www.crummy.com/software/BeautifulSoup/bs4/download/

可以下载到对应的bs4的版本，比如：

此时最新的版本是：

beautifulsoup4-4.1.3.tar.gz

http://www.crummy.com/software/BeautifulSoup/bs4/download/beautifulsoup4-4.1.3.tar.gz

BeautifulSoup的用法

如何安装BeautifulSoup

3.0.6之前：无需安装，放到和Python文件同目录下即可使用

3.0.6之前，都是不需要安装的，所以使用起来最简单，直接下载对应的版本，比如：

http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/BeautifulSoup-3.0.6.py

得到了BeautifulSoup-3.0.6.py，然后改名为：BeautifulSoup.py

然后，放到和你当前的python文件同目录下，比如我当前python文件是：

D:\tmp\tmp_dev_root\python\beautifulsoup_demo\beautifulsoup_demo.py

那就放到

D:\tmp\tmp_dev_root\python\beautifulsoup_demo\

下面，和beautifulsoup_demo.py同目录。

3.0.6之后：需要安装BeautifulSoup后才可使用

关于如何安装一个Python的第三方模块，简单说就是，进入对应目录，运行：

1	`setup.py` `install`

详细解释可参考：

【总结】Python安装第三方的库、package的方法

如何使用BeautifulSoup

在你的Python文件，此处为beautifulsoup_demo.py，中直接import即可。

关于示例html代码，比如使用：

【教程】抓取网并提取网页中所需要的信息之 Python版

使用BeautifulSoup提取html中的某个内容

关于最简单的，最基本的用法，提取html中的某个内容，具体用法，就死使用对应的find函数。

完整代码是：

#!/usr/bin/python

# -*- coding: utf-8 -*-

"""

Function:

【教程】Python中第三方的用于解析HTML的库：BeautifulSoup

http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup

Author: Crifan Li

Version: 2012-12-26

Contact: admin at crifan dot com

"""

from BeautifulSoup import BeautifulSoup;

def beautifulsoupDemo():

demoHtml = """

<html>

<body>

<div class="icon_col">

<h1 class="h1user">crifan</h1>

</div>

</body>

</html>

""";

soup = BeautifulSoup(demoHtml);

print "type(soup)=",type(soup); #type(soup)= <type 'instance'>

print "soup=",soup;

# 1. extract content

# method 1: no designate para name

#h1userSoup = soup.find("h1", {"class":"h1user"});

# method 2: use para name

h1userSoup = soup.find(name="h1", attrs={"class":"h1user"});

# more can found at:

#http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#find%28name,%20attrs,%20recursive,%20text,%20**kwargs%29

print "h1userSoup=",h1userSoup; #h1userSoup= <h1 class="h1user">crifan</h1>

h1userUnicodeStr = h1userSoup.string;

print "h1userUnicodeStr=",h1userUnicodeStr; #h1userUnicodeStr= crifan

if __name__ == "__main__":

beautifulsoupDemo();

输出为：

D:\tmp\tmp_dev_root\python\beautifulsoup_demo>beautifulsoup_demo.py

type(soup)= <type 'instance'>

soup=

<html>

<body>

<div class="icon_col">

<h1 class="h1user">crifan</h1>

</div>

</body>

</html>

h1userSoup= <h1 class="h1user">crifan</h1>

h1userUnicodeStr= crifan

使用BeautifulSoup修改/改变/替换原先html中的某个内容

如果需要改变原先html中的某个值，可以参考官网解释：

修改属性值

后来证实，只能改（Tag的）中的属性的值，不能改（Tag的）的值本身

完整示例代码为：

#!/usr/bin/python

# -*- coding: utf-8 -*-

"""

Function:

【教程】Python中第三方的用于解析HTML的库：BeautifulSoup

http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup

Author: Crifan Li

Version: 2013-02-01

Contact: admin at crifan dot com

"""

from BeautifulSoup import BeautifulSoup;

def beautifulsoupDemo():

demoHtml = """

<html>

<body>

<div class="icon_col">

<h1 class="h1user">crifan</h1>

</div>

</body>

</html>

""";

soup = BeautifulSoup(demoHtml);

print "type(soup)=",type(soup); #type(soup)= <type 'instance'>

print "soup=",soup;

print '{0:=^80}'.format(" 1. extract content ");

# method 1: no designate para name

#h1userSoup = soup.find("h1", {"class":"h1user"});

# method 2: use para name

h1userSoup = soup.find(name="h1", attrs={"class":"h1user"});

# more can found at:

#http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#find%28name,%20attrs,%20recursive,%20text,%20**kwargs%29

print "h1userSoup=",h1userSoup; #h1userSoup= <h1 class="h1user">crifan</h1>

h1userUnicodeStr = h1userSoup.string;

print "h1userUnicodeStr=",h1userUnicodeStr; #h1userUnicodeStr= crifan

print '{0:=^80}'.format(" 2. demo change tag value and property ");

print '{0:-^80}'.format(" 2.1 can NOT change tag value ");

print "old tag value=",soup.body.div.h1.string; #old tag value= crifan

changedToString = u"CrifanLi";

soup.body.div.h1.string = changedToString;

print "changed tag value=",soup.body.div.h1.string; #changed tag value= CrifanLi

print "After changed tag value, new h1=",soup.body.div.h1; #After changed tag value, new h1= <h1 class="h1user">crifan</h1>

print '{0:-^80}'.format(" 2.2 can change tag property ");

soup.body.div.h1['class'] = "newH1User";

print "changed tag property value=",soup.body.div.h1; #changed tag property value= <h1 class="newH1User">crifan</h1>

if __name__ == "__main__":

beautifulsoupDemo();

总结

更多的，用法和使用心得，部分内容，已整理到：

【总结】Python的第三方库BeautifulSoup的使用心得

【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项

Python中第三方的用于解析HTML的库：BeautifulSoup的更多相关文章

Python中第三方模块requests解析
一.简述 Requests HTTP Library 二.模块框架 ''' __version__ _internal_utils adapters api auth certs compat coo ...
Python中第三方库Requests库的高级用法详解
Python中第三方库Requests库的高级用法详解虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人实在感觉不好.它已经不适合现在的时代, ...
python中format函数用于字符串的格式化
python中format函数用于字符串的格式化通过关键字 print('{名字}今天{动作}'.format(名字='陈某某',动作='拍视频'))#通过关键字 grade = {'name' : ...
Python基础【3】:Python中的深浅拷贝解析
深浅拷贝在研究Python的深浅拷贝区别前需要先弄清楚以下的一些基础概念: 变量--引用--对象(可变对象,不可变对象) 切片(序列化对象)--拷贝(深拷贝,浅拷贝) 我是铺垫~ 一.[变量--引用 ...
Python中的MRO(方法解析顺序)[转载]
本文转载至: http://hanjianwei.com/2013/07/25/python-mro/ 对于支持继承的编程语言来说,其方法(属性)可能定义在当前类,也可能来自于基类,所以在方法调用时就 ...
【转】python中的闭包详细解析
一.什么是闭包? 如果一个内嵌函数访问外部嵌套函数作用域的变量,并返回这个函数,则这个函数就是闭包闭包必须满足三个条件: 1. 必须有一个内嵌函数 2. 内嵌函数必须引用外部嵌套函数中的变量 ...
python中函数的参数解析
python中函数的各种参数梳理: 1.形参:函数定义时传入的参数 2.实参:函数调用时传入的参数 (有形参必传实参,形参里自身特点可不传的,可传可不传) 3.缺省参数:不传为默认值,传了会覆盖(下面 ...
python中if __name__ == '__main__': 解析
当你打开一个.py文件时,经常会在代码的最下面看到if __name__ == '__main__':,现在就来介绍一下它的作用. 模块是对象,并且所有的模块都有一个内置属性 __name__.一 ...
python中 urllib, urllib2, httplib, httplib2 几个库的区别
转载摘要: 只用 python3, 只用 urllib 若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urll ...

随机推荐

EditPlus软件自动补全文档htmlbar.acp设置及模板文件格式
1.在htmlbar.acp文件末尾添加如下内容,可自动补全: #T=HTML <html> ^! </html> #T=HEAD <head> ^ ...
微信小程序scroll-view滚动一次多次触发的问题解决方案
最近使用微信小程序开发的时候,需要用scroll-view的bindscrolltolower事件,控制加载下一页的内容.但是发现在ios里,下拉滚动一次,事件触发两次,导致重复加载数据. 经过百度和 ...
OOP跟我来
世界一切归于尘土 all is object 两大杀手锏:对象类三大武器:封装:继承:多态 #!/usrself=Nonepython # -*- coding: utf-8 -*- # ...
深入理解java虚拟机《一》
一.java发展史 1995.5.23 Oak语言改名为java,sun正式发布java 1.0版本 1996.1.23 JDK 1.0发布,java语言第一个正式版本运行环境主要包括:java虚拟 ...
scott 本月报将收录移动Web加速技术的主要进展，欢迎读者一起完善，投稿邮箱：openweb@baidu.com
_trackPageview 功能说明用于发送某个URL的PV统计请求,适用于统计AJAX.异步加载页面,友情链接,下载链接的流量. 代码语法 _czc.push(["_trackPage ...
YOLOv3训练自己的数据
1. 下载预训练权重文件 YOLOv3使用在Imagenet上预训练好的模型参数(文件名称: darknet53.conv.74,大小76MB)基础上继续训练. darknet53.conv.74下 ...
Canvas 渲染模式
1. Canvas Canvas Component 是UI布局和渲染的抽象空間,所有的UI都必須在此元素之下(子物件),简单来说 Canvas 就是渲染 UI 的組件. 2. Render Mode ...
Ubuntu文件系统
(). 关于Linux中的文件: (). 在Linux系统中, 一切都是文件 : 所有数据都是文件,包括设备. (). 最小的数据存储单元也是文件. (). 文件系统: 文件系统就是文件的组织和管理方 ...
Docker CE安装
#添加账户docker useradd docker passwd docker (密码docker) #设置sudo权限 visudo root ALL=(ALL) ALL 后添加一行: docke ...
VScode编辑器使用
快捷键: shift + alt + F 格式化

Python中第三方的用于解析HTML的库：BeautifulSoup

背景

BeautifulSoup简介

BeautifulSoup的版本

BeautifulSoup 3

BeautifulSoup 3的在线文档

下载BeautifulSoup 3

BeautifulSoup 4：缩写为bs4

bs4的在线文档

下载bs4

BeautifulSoup的用法

如何安装BeautifulSoup

3.0.6之前：无需安装，放到和Python文件同目录下即可使用

3.0.6之后：需要安装BeautifulSoup后才可使用

如何使用BeautifulSoup

使用BeautifulSoup提取html中的某个内容

使用BeautifulSoup修改/改变/替换原先html中的某个内容

总结

Python中第三方的用于解析HTML的库：BeautifulSoup的更多相关文章

随机推荐

热门专题