'''
HTMLParser类中,定义了很多的方法,但是很多方法都是没有实现的,
这需要我们继承HTMLParser类,自己去实现一些方法
如: # Overridable -- handle start tag
def handle_starttag(self, tag, attrs):
pass # Overridable -- handle end tag
def handle_endtag(self, tag):
pass # Overridable -- handle character reference
def handle_charref(self, name):
pass # Overridable -- handle entity reference
def handle_entityref(self, name):
pass # Overridable -- handle data
def handle_data(self, data):
pass # Overridable -- handle comment
def handle_comment(self, data):
pass # Overridable -- handle declaration
def handle_decl(self, decl):
pass # Overridable -- handle processing instruction
def handle_pi(self, data):
pass '''

下面是我做的demo

运行效果:

Python 3.3.2 (v3.3.2:d047928ae3f6, May 16 2013, 00:03:43) [MSC v.1600 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> ================================ RESTART ================================
>>>
开始读取文件:[c:\test\hongten.html]
源html:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title> Python Html module </title>
<meta name="Generator" content="EditPlus">
<meta name="Author" content="Hongten">
<meta name="Keywords" content="hongten,python">
<meta name="Description" content="this blogs is about python">
</head>
<!-- this is comment-->
<body>
<table border = "">
<tr>
<td>
Author
</td>
<td>
Hongten
</td>
<td>
Mail
</td>
<td>
hongtenzone@foxmail.com
</td>
</tr>
<tr>
<td>
Blog
</td>
<td>
<a href="http://www.blogs.com/hongten">http://www.blogs.com/hongten</a>
</td>
<td>
QQ
</td>
<td>
648719819
</td>
</tr>
</table>
</body>
</html> ##################################################
遇到声明:DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" 开始处理:DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"
遇到数据:
开始处理: 遇到起始标签:html 开始处理:html
遇到数据:
开始处理: 遇到起始标签:head 开始处理:head
遇到数据:
开始处理: 遇到起始标签:title 开始处理:title
遇到数据: Python Html module 开始处理: Python Html module
遇到结束标签:title 开始处理:title
遇到数据:
开始处理: 遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理: 遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理: 遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理: 遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理: 遇到结束标签:head 开始处理:head
遇到数据:
开始处理: 遇到注释: this is comment 开始处理: this is comment
遇到数据:
开始处理: 遇到起始标签:body 开始处理:body
遇到数据:
开始处理: 遇到起始标签:table 开始处理:table
遇到数据:
开始处理: 遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
Author
开始处理:
Author 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
Hongten
开始处理:
Hongten 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
Mail
开始处理:
Mail 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
hongtenzone@foxmail.com
开始处理:
hongtenzone@foxmail.com 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理: 遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
Blog
开始处理:
Blog 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
开始处理: 遇到起始标签:a 开始处理:a
遇到数据:http://www.blogs.com/hongten 开始处理:http://www.blogs.com/hongten
遇到结束标签:a 开始处理:a
遇到数据:
开始处理: 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
QQ
开始处理:
QQ 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到起始标签:td 开始处理:td
遇到数据:
648719819
开始处理:
648719819 遇到结束标签:td 开始处理:td
遇到数据:
开始处理: 遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理: 遇到结束标签:table 开始处理:table
遇到数据:
开始处理: 遇到结束标签:body 开始处理:body
遇到数据:
开始处理: 遇到结束标签:html 开始处理:html
遇到数据:
开始处理: >>>

HTMLParser会对html文档进行解析处理

=============================================

代码部分:

=============================================

 #python html.parser

 #Author  : Hongten
#Mailto : hongtenzone@foxmail.com
#Blog : http://www.cnblogs.com/hongten
#QQ : 648719819
#Create : 2013-08-26
#Version : 1.0 import os
from html.parser import HTMLParser '''
在HTMLParser类中,定义了很多的方法,但是很多方法都是没有实现的,
这需要我们继承HTMLParser类,自己去实现一些方法
如: # Overridable -- handle start tag
def handle_starttag(self, tag, attrs):
pass # Overridable -- handle end tag
def handle_endtag(self, tag):
pass # Overridable -- handle character reference
def handle_charref(self, name):
pass # Overridable -- handle entity reference
def handle_entityref(self, name):
pass # Overridable -- handle data
def handle_data(self, data):
pass # Overridable -- handle comment
def handle_comment(self, data):
pass # Overridable -- handle declaration
def handle_decl(self, decl):
pass # Overridable -- handle processing instruction
def handle_pi(self, data):
pass ''' #global var
HTML_FILE = ''
HTML_STR = '' class MyHTMLParser(HTMLParser):
'''
MyHTMLParser类继承HTMLParser类,
然后去实现HTMLParser的一些方法
'''
def handle_starttag(self, tag, attrs):
print("遇到起始标签:{} 开始处理:{}".format(tag, tag))
def handle_endtag(self, tag):
print("遇到结束标签:{} 开始处理:{}".format(tag, tag))
def handle_data(self, data):
print("遇到数据:{} 开始处理:{}".format(data, data))
def handle_comment(self, data):
print('遇到注释:{} 开始处理:{}'.format(data, data))
def handle_decl(self, decl):
print('遇到声明:{} 开始处理:{}'.format(decl, decl)) def parser_test(html_str):
'''解析html源文件'''
parser = MyHTMLParser(strict = False)
parser.feed(html_str)
parser.close() def read_html_file(path):
'''读取html文件源文件信息'''
content = ''
if os.path.exists(path):
print('开始读取文件:[{}]'.format(path))
with open(path, 'r') as pf:
for line in pf:
content += line
pf.close()
return content
else:
print('the path [{}] dosen\'t exist!'.format(path))
return content def init():
#html源文件位置
global HTML_FILE
HTML_FILE = 'c:\\test\\hongten.html'
#html源文件的内容
global HTML_STR
HTML_STR = read_html_file(HTML_FILE) def main():
init()
print('源html:\n{}'.format(HTML_STR))
print('#' * 50)
parser_test(HTML_STR) if __name__ == '__main__':
main()

python开发_HTMLParser_html文档解析的更多相关文章

  1. python开发_tarfile_文档归档压缩|解压缩

    ''' python中的tarfile模块实现文档的归档压缩和解压缩 功能: 把工作空间下面的所有文件,打包生成一个tar文件 同时提供一个方法把该tar文件中的一些文件解压缩到 指定的目录中 ''' ...

  2. 【转】Python之xml文档及配置文件处理(ElementTree模块、ConfigParser模块)

    [转]Python之xml文档及配置文件处理(ElementTree模块.ConfigParser模块) 本节内容 前言 XML处理模块 ConfigParser/configparser模块 总结 ...

  3. ios-XML文档解析之SAX解析

    首先SAX解析xml *xml文档的格式特点是节点,大体思路是把每个最小的子节点作为对象的属性,每个最小子节点的'父'节点作为对象,将节点转化为对象,输出. 每个节点都是成对存在的,有开始有结束.有始 ...

  4. WEB前端开发规范文档(转)

    http://codeguide.bootcss.com/  编写灵活.稳定.高质量的 HTML 和 CSS 代码的规范上面的文档 再结合下面的规范: 无论是从技术角度还是开发视角,对于web前端开发 ...

  5. python+selenium自动化软件测试(第12章):Python读写XML文档

    XML 即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进 行定义的源语言.xml 有如下特征: 首先,它是有标签对组成:<aa></aa> ...

  6. 网站开发进阶(三十八)Web前端开发规范文档你需要知道的事

    Web前端开发规范文档你需要知道的事 规范目的 为提高团队协作效率, 便于后台人员添加功能及前端后期优化维护, 输出高质量的文档, 特制订此文档. 本规范文档一经确认, 前端开发人员必须按本文档规范进 ...

  7. Web前端开发规范文档你需要知道的事

    Web前端开发规范文档你需要知道的事 规范目的 为提高团队协作效率, 便于后台人员添加功能及前端后期优化维护, 输出高质量的文档, 特制订此文档. 本规范文档一经确认, 前端开发人员必须按本文档规范进 ...

  8. WEB前端开发规范文档[转]

    为新项目写的一份规范文档, 分享给大家. 我想前端开发过程中, 无论是团队开发, 还是单兵做站, 有一份开发文档做规范, 对开发工作都是很有益的. 本文档由本人编写, 部分意见来源于网络, 以此感谢, ...

  9. 使用Python操作Excel文档(一)

    Python | 使用Python操作Excel文档(一) 0 前言 在阅读本文之前,请确保您已满足或可能满足以下条件: 请确保您具备基本的Python编程能力. 请确保您会使用Excel. 请确保您 ...

随机推荐

  1. HTTP与HTTPS相关知识

    URL的开头一般会有http或https,这是访问资源需要的协议类型.有时还会看到ftp.sftp.smb开头的URL,这些都是协议类型.一般使用得最多的还是http和https. HTTP HTTP ...

  2. MIUI7,Android版本5.0.2,一个程序发送自定义广播,另一个程序没有接收到

    对照<第一行代码——Android>进行学习,第五章中说到广播包的相关知识,前面获取广播等程序例程都可以跑的通,但是在5.3.2节中,程序A发送自定义广播,并接收自定义广播,同时程序B也接 ...

  3. 转载-SVN常用命令

    SVN(Subversion)是一个自由.开源的项目源代码版本控制工具.目前,绝大多数开源软件和企业代码管理,都使用SVN作为代码版本管理软件. Subversion将文件存放在中心版本库里,这个版本 ...

  4. C++ 之Boost 实用工具类及简单使用

    本文将介绍几个 Boost 实用工具类,包括 tuple.static_assert.pool.random 和 program_options等等.需要对标准 STL 具备一定的了解才能充分理解本文 ...

  5. Python_oldboy_自动化运维之路(四)

    本节内容 集合 字符编码与转码 函数语法及基本特性 函数参数与局部变量 返回值和嵌套函数 递归 匿名函数 高阶函数 1.集合 集合是一个无序的,不重复的数据组合,它的主要作用如下: 去重,把一个列表变 ...

  6. tensorflow session 和 graph

    graph即tf.Graph(),session即tf.Session(),很多人经常将两者混淆,其实二者完全不是同一个东西. graph定义了计算方式,是一些加减乘除等运算的组合,类似于一个函数.它 ...

  7. phpStudy配置https

    phpStudy配置https 1.打开vhosts-conf配置文件 2.在配置文件中增加如下内容 server { listen 443; server_name tam.gogugong.com ...

  8. wpf tooltip 样式自定义

    <Style BasedOn="{StaticResource {x:Type ToolTip}}" TargetType="ToolTip"> & ...

  9. HBase应用之微博案例

    一. 需求分析 1) 微博内容的浏览,数据库表设计 2) 用户社交体现:关注用户,取关用户 3) 拉取关注的人的微博内容 二. 代码实现 代码设计总览: 1.创建命名空间以及表名的定义 //获取配置 ...

  10. Keras中RNN不定长输入的处理--padding and masking

    在使用RNN based model处理序列的应用中,如果使用并行运算batch sample,我们几乎一定会遇到变长序列的问题. 通常解决变长的方法主要是将过长的序列截断,将过短序列用0补齐到一个固 ...