pythn BeautifulSoup
http://rsj217.diandian.com/post/2012-11-01/40041235132
Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。
Beautiful Soup 的官方文档齐全,将官方给出的例子实践一遍就能掌握。官方英文文档,中文文档
一 安装 Beautiful Soup
安装 BeautifulSoup 很简单,下载 BeautifulSoup 源码。解压运行
python setup.py install 即可。
测试安装是否成功。键入 import BeautifulSoup 如果没有异常,即成功安装
二 使用 BeautifulSoup
1. 导入BeautifulSoup ,创建BeautifulSoup 对象
|
1
2
3
4
5
6
7
8
9
10
11
12
|
from BeautifulSoup import BeautifulSoup # HTMLfrom BeautifulSoup import BeautifulStoneSoup # XMLimport BeautifulSoup # ALL doc = [ '<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.', '<p id="secondpara" align="blah">This is paragraph <b>two</b>.', '</html>']# BeautifulSoup 接受一个字符串参数soup = BeautifulSoup(''.join(doc)) |
2. BeautifulSoup对象简介
用BeautifulSoup 解析 html文档时,BeautifulSoup将 html文档类似 dom文档树一样处理。BeautifulSoup文档树有三种基本对象。
2.1. soup BeautifulSoup.BeautifulSoup
|
1
2
|
type(soup)<class 'BeautifulSoup.BeautifulSoup'> |
2.2. 标记 BeautifulSoup.Tag
|
1
2
|
type(soup.html)<class 'BeautifulSoup.Tag'> |
2.3 文本 BeautifulSoup.NavigableString
|
1
2
|
type(soup.title.string)<class 'BeautifulSoup.NavigableString'> |
3. BeautifulSoup 剖析树
3.1 BeautifulSoup.Tag对象方法
获取 标记对象(Tag)
标记名获取法 ,直接用 soup对象加标记名,返回 tag对象.这种方式,选取唯一标签的时候比较有用。或者根据树的结构去选取,一层层的选择
|
1
2
3
4
5
6
7
|
>>> html = soup.html>>> html<html><head><title>Page title</title></head><body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body></html>>>> type(html)<class 'BeautifulSoup.Tag'>>>> title = soup.title<title>Page title</title> |
content方法
content方法 根据文档树进行搜索,返回标记对象(tag)的列表
|
1
2
|
>>> soup.contents[<html><head><title>Page title</title></head><body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body></html>] |
|
1
2
3
4
5
6
|
>>> soup.contents[0].contents[<head><title>Page title</title></head>, <body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body>]>>> len(soup.contents[0].contents)2>>> type(soup.contents[0].contents[1])<class 'BeautifulSoup.Tag'> |
使用contents向后遍历树,使用parent向前遍历树
next 方法
获取树的子代元素,包括 Tag 对象 和 NavigableString 对象。。。
|
1
2
3
4
|
>>> head.next<title>Page title</title>>>> head.next.nextu'Page title' |
|
1
2
3
4
5
|
>>> p1 = soup.p>>> p1<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>>>> p1.nextu'This is paragraph' |
nextSibling 下一个兄弟对象 包括 Tag 对象 和 NavigableString 对象
|
1
2
3
4
|
>>> head.nextSibling<body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body>>>> p1.next.nextSibling<b>one</b> |
与 nextSibling 相似的是 previousSibling,即上一个兄弟节点。
replacewith方法
将对象替换为,接受字符串参数
|
1
2
3
4
5
6
7
8
9
10
11
12
|
>>> head = soup.head>>> head<head><title>Page title</title></head>>>> head.parent<html><head><title>Page title</title></head><body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body></html>>>> head.replaceWith('head was replace')>>> head<head><title>Page title</title></head>>>> head.parent>>> soup<html>head was replace<body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body></html>>>> |
搜索方法
搜索提供了两个方法,一个是 find,一个是findAll。这里的两个方法(findAll和 find)仅对Tag对象以及,顶层剖析对象有效,但 NavigableString不可用。
findAll(name, attrs, recursive, text, limit, **kwargs)
接受一个参数,标记名
寻找文档所有 P标记,返回一个列表
|
1
2
3
4
|
>>> soup.findAll('p')[<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>, <p id="secondpara" align="blah">This is paragraph<b>two</b>.</p>]>>> type(soup.findAll('p'))<type 'list'> |
寻找 id="secondpara"的 p 标记,返回一个结果集
|
1
2
3
|
>>> pid = type(soup.findAll('p',id='firstpara'))>>> pid<class 'BeautifulSoup.ResultSet'> |
传一个属性或多个属性对
|
1
2
3
4
5
|
>>> p2 = soup.findAll('p',{'align':'blah'})>>> p2[<p id="secondpara" align="blah">This is paragraph<b>two</b>.</p>]>>> type(p2)<class 'BeautifulSoup.ResultSet'> |
利用正则表达式
|
1
2
|
>>> soup.findAll(id=re.compile("para$"))[<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>, <p id="secondpara" align="blah">This is paragraph<b>two</b>.</p>] |
读取和修改属性
|
1
2
3
4
5
6
7
8
9
10
11
12
|
>>> p1 = soup.p>>> p1<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>>>> p1['id']u'firstpara'>>> p1['id'] = 'changeid'>>> p1<p id="changeid" align="center">This is paragraph<b>one</b>.</p>>>> p1['class'] = 'new class'>>> p1<p id="changeid" align="center" class="new class">This is paragraph<b>one</b>.</p>>>> |
剖析树基本方法就这些,还有其他一些,以及如何配合正则表达式。具体请看官方文档
3.2 BeautifulSoup.NavigableString对象方法
NavigableString 对象方法比较简单,获取其内容
|
1
2
3
4
5
6
7
8
9
|
>>> soup.title<title>Page title</title>>>> title = soup.title.next>>> titleu'Page title'>>> type(title)<class 'BeautifulSoup.NavigableString'>>>> title.stringu'Page title' |
至于如何遍历树,进而分析文档,已经 XML 文档的分析方法,可以参考官方文档。
pythn BeautifulSoup的更多相关文章
- Python爬虫小白入门(三)BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
- 使用beautifulsoup与requests爬取数据
1.安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2.常见问题 1> lxml安装问题 如果遇到lxm ...
- BeautifulSoup :功能使用
# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Envirom ...
- BeautifulSoup研究一
BeautifulSoup的文档见 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 其中.contents 会将换行也记录为一个子节 ...
- BeautifulSoup
参考:http://www.freebuf.com/news/special/96763.html 相关资料:http://www.jb51.net/article/65287.htm 1.Pytho ...
- BeautifulSoup Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
BeautifulSoup很赞的东西 最近出现一个问题:Python 3.3 soup=BeautifulSoup(urllib.request.urlopen(url_path),"htm ...
- beautifulSoup(1)
import re from bs4 import BeautifulSoupdoc = ['<html><head><title>Page title</t ...
- python BeautifulSoup模块的简要介绍
常用介绍: pip install beautifulsoup4 # 安装模块 from bs4 import BeautifulSoup # 导入模块 soup = BeautifulSoup(ht ...
- BeautifulSoup 的用法
转自:http://cuiqingcai.com/1319.html Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python ...
随机推荐
- Javascript之三种按钮点击事件
学习Javascript必须要先掌握基本的事件方法和语法,这些都是我们学过的也是最基本的.以前忘了总结,所以现在回顾,综合地总结一下,温故而知新. Javascript有三种按钮点击事件,分别为ale ...
- 牢记!SQL Server数据库开发的二十一条注意点
如果你正在负责一个基于SQL Server的项目,或者你刚刚接触SQL Server,你都有可能要面临一些数据库性能的问题,这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS). ...
- 图片上传即时显示javascript代码
这是基于javascript的一种图片上传即时显示方法,测试结果IE6和火狐浏览器可以正常使用.google浏览器不兼容. 这种方法兼容性比较差,仅供参考,建议使用ajax方法来即时显示图片. 1.首 ...
- linux umount 提示device is busy 的解决
linux umount 提示"device is busy" 终极解决 为了干净地关闭或热交换 UNIX 或类 UNIX 系统上的存储硬件,必须能够卸载使用此设备上的存储的所有文件系统.但是,如果正 ...
- .NET 的webservice例子
因为项目的需要,可能会经常性的需要调用接口,或者写一些接口.现在提供一些简单的例子给大家参考 写接口: [WebServiceBinding(ConformsTo = WsiProfiles.Basi ...
- oracle是数据库的学习第一节:数据库的安装
一.本地oracle服务器 1.安装oracle服务器,可以到oracle官方网站上下载与自己电脑匹配的服务器,一般用10g,或者11g; 2.打开cmd,打开sql*plus,之后可以写SQL语句了 ...
- Xcode6模拟器时BUG导致键盘无法弹出
Xcode 6.X版本可能会出现虚拟键盘无法调出,并在控制台出现如下提示:Can't find keyplane that supports type 5 for keyboard iPhone-Po ...
- memset与NULL区别
memset与NULL区别 NULL与0 的区别 为什么强调一个malloc对应一个free 在一个结构体malloc,然后free,但是她的成员变量的malloc并没有free,还需要特别的free ...
- 完美高仿精仿京东商城手机客户端android版源码
完美高仿精仿京东商城手机客户端android版源码,是从安卓教程网那边转载过来的,这款应用源码非常不错的,也是一个非常优秀的应用源码的,希望能够帮到学习的朋友. _js_op> <igno ...
- 锋利的jquery-validation
jquery插件 jquery插件项目托管于gitHub,项目地址https://github.com/jquery/plugins.jquery.com jquery插件的使用 表单验证插件 现在网 ...