用python解析html--SGMLParser

sgmllib.py 包含一个重要的类: SGMLParser。SGMLParser 将 HTML 分解成有用的片段，比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段，它会根据所发现的数据，调用一个自身内部的方法。为了使用这个分析器，您需要子类化 SGML- Parser类，并且覆盖这些方法。

SGMLParser类里面包含了很多内部方法，开始读取html后，遇到相应的数据就会调用其对应的方法，最重要的方法有三个：

start_tagname(self, attrs)
end_tagname(self)
handle_data(self, text)
tagname就是标签名称，比如当遇到<pre>，就会调用start_pre，遇到</pre>，就会调用 end_pre，attrs即为标签的参数，以[(attribute, value), (attribute, value), ...]的形式传回，我们要做的就是在其子类重载自己感兴趣标签对应的函数。

一个经典的例子：

from sgmllib import SGMLParser
class URLLister(SGMLParser):
self.urls = []
def start_a(self, attrs):
href = [v for k, v in attrs if k=='href']
if href:
self.urls.extend(href)

顾名思义，这个类的作用就是把html中的所有连接（<a>标签）中的地址（href属性的值）提取出来，放到一个list里面，很实用的功能。^^

比如处理下面的html：

<tr>
<td height="207" colspan="2" align="left" valign="top" class="normal">
Damien Rice - 《0》
<a href="http://galeki.xy568.net/music/Delicate.mp3">1. Delicate</a>
<a href="http://galeki.xy568.net/music/Volcano.mp3">2. Volcano</a>
<a href="http://galeki.xy568.net/music/The Blower's Daughter.mp3">3. The Blower's Daughter</a>
<a href="http://galeki.xy568.net/music/Cannonball.mp3">4. Cannonball </a>
<a href="http://galeki.xy568.net/music/Older Chests.mp3">5. Order Chests</a>
<a href="http://galeki.xy568.net/music/Amie.mp3">6. Amie</a>
<a href="http://galeki.xy568.net/music/Cheers Darlin'.mp3">7. Cheers Darling</a>
<a href="http://galeki.xy568.net/music/Cold Water.mp3">8. Cold water</a>
<a href="http://galeki.xy568.net/music/I Remember.mp3">9. I remember</a>
<a href="http://galeki.xy568.net/music/Eskimo.mp3">10. Eskimo</a>
</td>
</tr>

很乱对吧？下面让举个例子利用URLLister提取出上面mp3下载的地址：

date="上面那一堆…………"
lister=URLLister()
lister.feed(date)
用feed()把要处理的html传递给对象实体，然后我们来看看处理结果：

print lister.urls
显示：

['http://galeki.xy568.net/music/Delicate.mp3',
'http://galeki.xy568.net/music/Volcano.mp3',
"http://galeki.xy568.net/music/The Blower's Daughter.mp3",
'http://galeki.xy568.net/music/Cannonball.mp3',
'http://galeki.xy568.net/music/Older Chests.mp3',
'http://galeki.xy568.net/music/Amie.mp3',
"http://galeki.xy568.net/music/Cheers Darlin'.mp3",
'http://galeki.xy568.net/music/Cold Water.mp3',
'http://galeki.xy568.net/music/I Remember.mp3',
'http://galeki.xy568.net/music/Eskimo.mp3']
好了，是不是很方便？现在我们知道了如何处理标签中的属性，那么如何处理标签包含的文字呢？就是上面列出的handle_data(self, text)，当遇到标签内的内容，就会调用这个函数，传入的text自然就是标签内的内容了，不过，如何筛选出感兴趣标签内的内容呢？比如上面歌曲的列表，这时候就要配合start_tagname、end_tagname，用做标记的方法来达到这个目的：

class ListName(SGMLParser):
is_a=""
name=[]
def start_a(self, attrs):
self.is_a=1
def end_a(self):
self.is_a=""
def handle_data(self, text):
if self.is_a:
self.name.append(text)

这里添加了一个is_a标记，再在handle_date中添加一个if，也就是说，仅仅在a标签内，才会把标签里的内容加到name[]里去。

看看结果：

listname=ListName()
listname.feed(date)
print listname.name

显示:

['1.Delicate', '2.Volcano', "3.The Blower's Daughter",
'4.Cannonball ', '5.Order Chests', '6.Amie',
'7.Cheers Darling', '8.Cold water', '9.I remember',
'10.Eskimo']
OK，搞定～

SGMLParser内置的方法不仅仅只有这三个，还有处理注释的handle_comment，还有处理声明的handle_decl等等等等，不过使用方法和上面的基本相同，不再多写了。

用python解析html--SGMLParser的更多相关文章

使用Python解析JSON数据
使用Python解析百度API返回的JSON格式的数据 # coding:utf-8 # !/usr/bin/env python import matplotlib.pyplot as plt fr ...
使用Python解析JSON数据的基本方法
这篇文章主要介绍了使用Python解析JSON数据的基本方法,是Python入门学习中的基础知识,需要的朋友可以参考下: ----------------------------------- ...
python解析robot framework的output.xml，并生成html
一.背景 Jenkins自动构建RF脚本,生成的RF特有HTML报告不能正常打开. 需求:用Python解析测试报告的xml数据,放在普通HTML文件中打开二.output.xml数据三.用pyh ...
python 解析json loads dumps
认识引用模块重要函数案例排序缩进参数压缩参考认识 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.它基于JavaScript(Standa ...
Python解析器源码加密系列之（二）：一次使用标准c的FILE*访问内存块的尝试
摘要:由于近期打算修改Python解释器以实现pyc文件的加密/解密,出于保密的要求,解密之后的数据只能放在内存中,不能写入到文件中.但是后续的解析pyc文件的代码又只能接受FILE*作为入参,所以就 ...
python 解析XML python模块xml.dom解析xml实例代码
分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...
python解析xml模块封装代码
在python中解析xml文件的模块用法,以及对模块封装的方法.原文转自:http://www.jbxue.com/article/16586.html 有如下的xml文件:<?xml vers ...
python解析xml之lxml
虽然python解析xml的库很多,但是,由于lxml在底层是用C语言实现的,所以lxml在速度上有明显优势.除了速度上的优势,lxml在使用方面,易用性也非常好.这里将以下面的xml数据为例,介绍l ...
Python解析生成XML-ElementTree VS minidom
OS:Windows 7 关键字:Python3.4,XML,ElementTree,minidom 本文介绍用Python解析生成以下XML: <Persons> <Person& ...
python解析xml
python解析xml import xml.dom.minidom as minidom dom = minidom.parse("aa.xml") root = dom.get ...

随机推荐

算法笔记_096:蓝桥杯练习算法提高求最大值（Java）
目录 1 问题描述 2 解决方案 1 问题描述问题描述给n个有序整数对ai bi,你需要选择一些整数对使得所有你选定的数的ai+bi的和最大.并且要求你选定的数对的ai之和非负,bi之和非负 ...
Windows下如何安装 Composer
如何安装 Composer Windows下如何安装 Composer 下载 Composer 安装前请务必确保已经正确安装了 PHP.打开命令行窗口并执行 php -v 查看是否正确输出版本号. 打 ...
ps修图之——四步去修图后的毛边
PS修图时,多数PS工具都会在图片的边源处留下很多毛边如下图: 这个时候很多新手店主会非常苦脑,会退回原始图片上反复修图起图.可是结果也不怎么满意,当然也许有些店主会有其它方法. 其实不用那么麻烦,只 ...
解决 SQL Server2012附加出错的问题
附加数据库出错无法打开文件号 0 的文件操作系统错误根据错误提示:权限不足,添加相应权限就OK 步骤:1,右键单击要附加的数据库,选择安全选项卡选择用户:“Authenticated Users ...
unity3d动态操作组件
利用范型,动态操作组件(添加或删除) e.AddComponent<CubeTranslate> ();//动态添加组件 Destroy (e.GetComponent<CubeTr ...
unity3d贴图2D
在GUI上绘制图片步骤如下: 1.定义一个2D图片纹理变量: public Texture2D pic; 2.关联变量和贴图的关系: 在布局界面选中MainCamera,找到右侧属性列表中的pic选项 ...
匿名类型使用泛型T linq返回dynamic类型的匿名实体如何把匿名类型.GetType()返回的对象传进泛型里面 EF实体查询出的数据List<T>转DataTable出现【DataSet 不支持 System.Nullable<>】的问题
[100分]紧急求助:LinQ下使用IQueryable<T>如何将返回类型<T>使用匿名类型问题描述如下:我有一个方法如下:public IQueryable Dissen ...
vue cli3.0 build 打包的 js 文件添加版本号解决 js 缓存问题
在 vue.config.js 的文件中加入下面这段话 // vue.config.jsconst Timestamp = new Date().getTime();module.exports = ...
工作总结 .ToString("000000")
; ");//000123 指定格式 Console.WriteLine(ssp); ; ");//123456789 超过了返回原值 Console.WriteLine(ss);
（41）JS运动之右側中间悬浮框（对联悬浮框）
<!DOCTYPE HTML> <html> <head> <meta charset="utf-8"> <title> ...

用python解析html--SGMLParser

用python解析html--SGMLParser的更多相关文章

随机推荐

热门专题