pythn BeautifulSoup
http://rsj217.diandian.com/post/2012-11-01/40041235132
Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。
Beautiful Soup 的官方文档齐全,将官方给出的例子实践一遍就能掌握。官方英文文档,中文文档
一 安装 Beautiful Soup
安装 BeautifulSoup 很简单,下载 BeautifulSoup 源码。解压运行
python setup.py install 即可。
测试安装是否成功。键入 import BeautifulSoup 如果没有异常,即成功安装
二 使用 BeautifulSoup
1. 导入BeautifulSoup ,创建BeautifulSoup 对象
1
2
3
4
5
6
7
8
9
10
11
12
|
from BeautifulSoup import BeautifulSoup # HTML from BeautifulSoup import BeautifulStoneSoup # XML import BeautifulSoup # ALL doc = [ '<html><head><title>Page title</title></head>' , '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.' , '<p id="secondpara" align="blah">This is paragraph <b>two</b>.' , '</html>' ] # BeautifulSoup 接受一个字符串参数 soup = BeautifulSoup(''.join(doc)) |
2. BeautifulSoup对象简介
用BeautifulSoup 解析 html文档时,BeautifulSoup将 html文档类似 dom文档树一样处理。BeautifulSoup文档树有三种基本对象。
2.1. soup BeautifulSoup.BeautifulSoup
1
2
|
type (soup) < class 'BeautifulSoup.BeautifulSoup' > |
2.2. 标记 BeautifulSoup.Tag
1
2
|
type (soup.html) < class 'BeautifulSoup.Tag' > |
2.3 文本 BeautifulSoup.NavigableString
1
2
|
type (soup.title.string) < class 'BeautifulSoup.NavigableString' > |
3. BeautifulSoup 剖析树
3.1 BeautifulSoup.Tag对象方法
获取 标记对象(Tag)
标记名获取法 ,直接用 soup对象加标记名,返回 tag对象.这种方式,选取唯一标签的时候比较有用。或者根据树的结构去选取,一层层的选择
1
2
3
4
5
6
7
|
>>> html = soup.html >>> html < html >< head >< title >Page title</ title ></ head >< body >< p id = "firstpara" align = "center" >This is paragraph< b >one</ b >.</ p >< p id = "secondpara" align = "blah" >This is paragraph< b >two</ b >.</ p ></ body ></ html > >>> type(html) < class 'BeautifulSoup.Tag'> >>> title = soup.title < title >Page title</ title > |
content方法
content方法 根据文档树进行搜索,返回标记对象(tag)的列表
1
2
|
>>> soup.contents [<html><head><title>Page title< / title>< / head><body><p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p><p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>< / body>< / html>] |
1
2
3
4
5
6
|
>>> soup.contents[ 0 ].contents [<head><title>Page title< / title>< / head>, <body><p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p><p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>< / body>] >>> len (soup.contents[ 0 ].contents) 2 >>> type (soup.contents[ 0 ].contents[ 1 ]) < class 'BeautifulSoup.Tag' > |
使用contents
向后遍历树,使用parent
向前遍历树
next 方法
获取树的子代元素,包括 Tag 对象 和 NavigableString 对象。。。
1
2
3
4
|
>>> head. next <title>Page title< / title> >>> head. next . next u 'Page title' |
1
2
3
4
5
|
>>> p1 = soup.p >>> p1 <p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p> >>> p1. next u 'This is paragraph' |
nextSibling 下一个兄弟对象 包括 Tag 对象 和 NavigableString 对象
1
2
3
4
|
>>> head.nextSibling <body><p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p><p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>< / body> >>> p1. next .nextSibling <b>one< / b> |
与 nextSibling 相似的是 previousSibling,即上一个兄弟节点。
replacewith方法
将对象替换为,接受字符串参数
1
2
3
4
5
6
7
8
9
10
11
12
|
>>> head = soup.head >>> head <head><title>Page title< / title>< / head> >>> head.parent <html><head><title>Page title< / title>< / head><body><p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p><p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>< / body>< / html> >>> head.replaceWith( 'head was replace' ) >>> head <head><title>Page title< / title>< / head> >>> head.parent >>> soup <html>head was replace<body><p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p><p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>< / body>< / html> >>> |
搜索方法
搜索提供了两个方法,一个是 find,一个是findAll。这里的两个方法(findAll和 find)仅对Tag对象以及,顶层剖析对象有效,但 NavigableString不可用。
findAll(
name, attrs, recursive, text, limit, **kwargs)
接受一个参数,标记名
寻找文档所有 P标记,返回一个列表
1
2
3
4
|
>>> soup.findAll( 'p' ) [<p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p>, <p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>] >>> type (soup.findAll( 'p' )) < type 'list' > |
寻找 id="secondpara"的 p 标记,返回一个结果集
1
2
3
|
>>> pid = type (soup.findAll( 'p' , id = 'firstpara' )) >>> pid < class 'BeautifulSoup.ResultSet' > |
传一个属性或多个属性对
1
2
3
4
5
|
>>> p2 = soup.findAll( 'p' ,{ 'align' : 'blah' }) >>> p2 [<p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>] >>> type (p2) < class 'BeautifulSoup.ResultSet' > |
利用正则表达式
1
2
|
>>> soup.findAll( id = re. compile ( "para$" )) [<p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p>, <p id = "secondpara" align = "blah" >This is paragraph<b>two< / b>.< / p>] |
读取和修改属性
1
2
3
4
5
6
7
8
9
10
11
12
|
>>> p1 = soup.p >>> p1 <p id = "firstpara" align = "center" >This is paragraph<b>one< / b>.< / p> >>> p1[ 'id' ] u 'firstpara' >>> p1[ 'id' ] = 'changeid' >>> p1 <p id = "changeid" align = "center" >This is paragraph<b>one< / b>.< / p> >>> p1[ 'class' ] = 'new class' >>> p1 <p id = "changeid" align = "center" class = "new class" >This is paragraph<b>one< / b>.< / p> >>> |
剖析树基本方法就这些,还有其他一些,以及如何配合正则表达式。具体请看官方文档
3.2 BeautifulSoup.NavigableString对象方法
NavigableString 对象方法比较简单,获取其内容
1
2
3
4
5
6
7
8
9
|
>>> soup.title <title>Page title< / title> >>> title = soup.title. next >>> title u 'Page title' >>> type (title) < class 'BeautifulSoup.NavigableString' > >>> title.string u 'Page title' |
至于如何遍历树,进而分析文档,已经 XML 文档的分析方法,可以参考官方文档。
pythn BeautifulSoup的更多相关文章
- Python爬虫小白入门(三)BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
- 使用beautifulsoup与requests爬取数据
1.安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2.常见问题 1> lxml安装问题 如果遇到lxm ...
- BeautifulSoup :功能使用
# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Envirom ...
- BeautifulSoup研究一
BeautifulSoup的文档见 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 其中.contents 会将换行也记录为一个子节 ...
- BeautifulSoup
参考:http://www.freebuf.com/news/special/96763.html 相关资料:http://www.jb51.net/article/65287.htm 1.Pytho ...
- BeautifulSoup Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
BeautifulSoup很赞的东西 最近出现一个问题:Python 3.3 soup=BeautifulSoup(urllib.request.urlopen(url_path),"htm ...
- beautifulSoup(1)
import re from bs4 import BeautifulSoupdoc = ['<html><head><title>Page title</t ...
- python BeautifulSoup模块的简要介绍
常用介绍: pip install beautifulsoup4 # 安装模块 from bs4 import BeautifulSoup # 导入模块 soup = BeautifulSoup(ht ...
- BeautifulSoup 的用法
转自:http://cuiqingcai.com/1319.html Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python ...
随机推荐
- jQuery API 3.1.0 速查表-打印版
jQuery API 3.1.0 速查表-打印图,(API来自:http://jquery.cuishifeng.cn/index.html)
- Contoso 大学 - 6 – 更新关联数据
原文 Contoso 大学 - 6 – 更新关联数据 By Tom Dykstra, Tom Dykstra is a Senior Programming Writer on Microsoft's ...
- 本招聘信息2014年长期有效!杭州派尔科技高薪诚聘android开发(10K-20K),web前端开发(8K-15K),IOS开发(15K-25K)
杭州派尔科技有限公司发展至今,离不开员工的无私奉献和辛勤耕耘,在努力创造更好成绩的同时,公司也不忘回馈每一位员工的努力与付出.1.全面的绩效考核机制,让发展空间近在眼前!公司力争让每一位员工都了解自己 ...
- Swift构造器(Initializer)与析构器(Deinitializer)
为了初始化结构体和类等类型的实例属性. 默认构造器 struct Fahrenheit { var temperature: Doubleinit(){ temperature = 32.0 } } ...
- SQL之存储过程,仿数组
create procedure update_ERPTreeList(@s1 varchar(),@s2 varchar()) As Begin declare @ss1 varchar(),@ss ...
- ViewTreeObserver类概述
ViewTreeObserver 版本:Android 3.0 r1 结构 继承关系 public final class ViewTreeObserver extends Object java.l ...
- 关于css3 中filter的各种特效
做项目时遇到了一个有趣的css特效. 目前各大浏览器对于css3的兼容已经非常好了,最新版本都可以支持css3,老版本的ie9以下的还是不支持,不过这不是重点,微软都准备放弃这些老古董了. 现在规范中 ...
- JSON对象(自定义对象)
JSON对象(自定义对象) 1.什么是JSON对象 JSON对象是属性的无序集合,在内存中也表现为一段连续的内存地址(堆内存) 1)JSON对象是属性的集合 2)这个集合是没有任何顺序的 2.JSON ...
- Remote Desktop Organizer远程桌面管理软件的基本使用和介绍
<Remote Desktop Organizer>是一款用于远程桌面管理的软件.软件支持windows平台运行. Remote Desktop Organizer 是一款 Windows ...
- [转]mysql-5.6.17-win32免安装版配置
1. 下载mysql-5.6.17-win32:官网下载地址百度 2. 解压到自定义目录,我这里演示的是D:\wamp\mysql\ 3. 复制根目录下的my-default.ini,改名为my.in ...