python开发_HTMLParser_html文档解析

'''

    在HTMLParser类中，定义了很多的方法，但是很多方法都是没有实现的，

    这需要我们继承HTMLParser类，自己去实现一些方法

    如：

    # Overridable -- handle start tag

    def handle_starttag(self, tag, attrs):

        pass

    # Overridable -- handle end tag

    def handle_endtag(self, tag):

        pass

    # Overridable -- handle character reference

    def handle_charref(self, name):

        pass

    # Overridable -- handle entity reference

    def handle_entityref(self, name):

        pass

    # Overridable -- handle data

    def handle_data(self, data):

        pass

    # Overridable -- handle comment

    def handle_comment(self, data):

        pass

    # Overridable -- handle declaration

    def handle_decl(self, decl):

        pass

    # Overridable -- handle processing instruction

    def handle_pi(self, data):

        pass

'''

下面是我做的demo

运行效果：

Python 3.3.2 (v3.3.2:d047928ae3f6, May 16 2013, 00:03:43) [MSC v.1600 32 bit (Intel)] on win32

Type "copyright", "credits" or "license()" for more information.

>>> ================================ RESTART ================================

>>>

开始读取文件:[c:\test\hongten.html]

源html:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<html>

 <head>

  <title> Python Html module </title>

  <meta name="Generator" content="EditPlus">

  <meta name="Author" content="Hongten">

  <meta name="Keywords" content="hongten,python">

  <meta name="Description" content="this blogs is about python">

 </head>

 <!-- this is  comment-->

 <body>

    <table border = "">

        <tr>

            <td>

            Author

            </td>

            <td>

            Hongten

            </td>

            <td>

            Mail

            </td>

            <td>

            hongtenzone@foxmail.com

            </td>

        </tr>

        <tr>

            <td>

            Blog

            </td>

            <td>

            <a href="http://www.blogs.com/hongten">http://www.blogs.com/hongten</a>

            </td>

            <td>

            QQ

            </td>

            <td>

            648719819

            </td>

        </tr>

    </table>

 </body>

</html>

##################################################

遇到声明:DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" 开始处理:DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"

遇到数据:

 开始处理:

遇到起始标签:html 开始处理:html

遇到数据:

  开始处理:

遇到起始标签:head 开始处理:head

遇到数据:

   开始处理:

遇到起始标签:title 开始处理:title

遇到数据: Python Html module  开始处理: Python Html module

遇到结束标签:title 开始处理:title

遇到数据:

   开始处理:

遇到起始标签:meta 开始处理:meta

遇到数据:

   开始处理:

遇到起始标签:meta 开始处理:meta

遇到数据:

   开始处理:

遇到起始标签:meta 开始处理:meta

遇到数据:

   开始处理:

遇到起始标签:meta 开始处理:meta

遇到数据:

  开始处理:

遇到结束标签:head 开始处理:head

遇到数据:

  开始处理:

遇到注释: this is  comment 开始处理: this is  comment

遇到数据:

  开始处理:

遇到起始标签:body 开始处理:body

遇到数据:

     开始处理:

遇到起始标签:table 开始处理:table

遇到数据:

         开始处理:

遇到起始标签:tr 开始处理:tr

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

            Author

             开始处理:

            Author

遇到结束标签:td 开始处理:td

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

            Hongten

             开始处理:

            Hongten

遇到结束标签:td 开始处理:td

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

            Mail

             开始处理:

            Mail

遇到结束标签:td 开始处理:td

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

            hongtenzone@foxmail.com

             开始处理:

            hongtenzone@foxmail.com

遇到结束标签:td 开始处理:td

遇到数据:

         开始处理:

遇到结束标签:tr 开始处理:tr

遇到数据:

         开始处理:

遇到起始标签:tr 开始处理:tr

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

            Blog

             开始处理:

            Blog

遇到结束标签:td 开始处理:td

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

             开始处理:

遇到起始标签:a 开始处理:a

遇到数据:http://www.blogs.com/hongten 开始处理:http://www.blogs.com/hongten

遇到结束标签:a 开始处理:a

遇到数据:

             开始处理:

遇到结束标签:td 开始处理:td

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

            QQ

             开始处理:

            QQ

遇到结束标签:td 开始处理:td

遇到数据:

             开始处理:

遇到起始标签:td 开始处理:td

遇到数据:

            648719819

             开始处理:

            648719819

遇到结束标签:td 开始处理:td

遇到数据:

         开始处理:

遇到结束标签:tr 开始处理:tr

遇到数据:

     开始处理:

遇到结束标签:table 开始处理:table

遇到数据:

  开始处理:

遇到结束标签:body 开始处理:body

遇到数据:

 开始处理:

遇到结束标签:html 开始处理:html

遇到数据:

 开始处理:

>>>

HTMLParser会对html文档进行解析处理

=============================================

代码部分：

=============================================

 #python html.parser

 #Author  : Hongten

 #Mailto  : hongtenzone@foxmail.com

 #Blog    : http://www.cnblogs.com/hongten

 #QQ      : 648719819

 #Create  ： 2013-08-26

 #Version : 1.0

 import os

 from html.parser import HTMLParser

 '''

     在HTMLParser类中，定义了很多的方法，但是很多方法都是没有实现的，

     这需要我们继承HTMLParser类，自己去实现一些方法

     如：

     # Overridable -- handle start tag

     def handle_starttag(self, tag, attrs):

         pass

     # Overridable -- handle end tag

     def handle_endtag(self, tag):

         pass

     # Overridable -- handle character reference

     def handle_charref(self, name):

         pass

     # Overridable -- handle entity reference

     def handle_entityref(self, name):

         pass

     # Overridable -- handle data

     def handle_data(self, data):

         pass

     # Overridable -- handle comment

     def handle_comment(self, data):

         pass

     # Overridable -- handle declaration

     def handle_decl(self, decl):

         pass

     # Overridable -- handle processing instruction

     def handle_pi(self, data):

         pass

 '''

 #global var

 HTML_FILE = ''

 HTML_STR = ''

 class MyHTMLParser(HTMLParser):

     '''

     MyHTMLParser类继承HTMLParser类，

     然后去实现HTMLParser的一些方法

     '''

     def handle_starttag(self, tag, attrs):

         print("遇到起始标签:{} 开始处理:{}".format(tag, tag))

     def handle_endtag(self, tag):

         print("遇到结束标签:{} 开始处理:{}".format(tag, tag))

     def handle_data(self, data):

         print("遇到数据:{} 开始处理:{}".format(data, data))

     def handle_comment(self, data):

         print('遇到注释:{} 开始处理:{}'.format(data, data))

     def handle_decl(self, decl):

         print('遇到声明:{} 开始处理:{}'.format(decl, decl))

 def parser_test(html_str):

     '''解析html源文件'''

     parser = MyHTMLParser(strict =  False)

     parser.feed(html_str)

     parser.close()

 def read_html_file(path):

     '''读取html文件源文件信息'''

     content = ''

     if os.path.exists(path):

         print('开始读取文件:[{}]'.format(path))

         with open(path, 'r') as pf:

             for line in pf:

                 content += line

             pf.close()

             return content

     else:

         print('the path [{}] dosen\'t exist!'.format(path))

         return content

 def init():

     #html源文件位置

     global HTML_FILE

     HTML_FILE = 'c:\\test\\hongten.html'

     #html源文件的内容

     global HTML_STR

     HTML_STR = read_html_file(HTML_FILE)

 def main():

     init()

     print('源html:\n{}'.format(HTML_STR))

     print('#' * 50)

     parser_test(HTML_STR)

 if __name__ == '__main__':

     main()

python开发_HTMLParser_html文档解析的更多相关文章

python开发_tarfile_文档归档压缩|解压缩
''' python中的tarfile模块实现文档的归档压缩和解压缩功能: 把工作空间下面的所有文件,打包生成一个tar文件同时提供一个方法把该tar文件中的一些文件解压缩到指定的目录中 ''' ...
【转】Python之xml文档及配置文件处理（ElementTree模块、ConfigParser模块）
[转]Python之xml文档及配置文件处理(ElementTree模块.ConfigParser模块) 本节内容前言 XML处理模块 ConfigParser/configparser模块总结 ...
ios-XML文档解析之SAX解析
首先SAX解析xml *xml文档的格式特点是节点,大体思路是把每个最小的子节点作为对象的属性,每个最小子节点的'父'节点作为对象,将节点转化为对象,输出. 每个节点都是成对存在的,有开始有结束.有始 ...
WEB前端开发规范文档（转）
http://codeguide.bootcss.com/ 编写灵活.稳定.高质量的 HTML 和 CSS 代码的规范上面的文档再结合下面的规范: 无论是从技术角度还是开发视角,对于web前端开发 ...
python+selenium自动化软件测试(第12章)：Python读写XML文档
XML 即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言.xml 有如下特征: 首先,它是有标签对组成:<aa></aa> ...
网站开发进阶(三十八)Web前端开发规范文档你需要知道的事
Web前端开发规范文档你需要知道的事规范目的为提高团队协作效率, 便于后台人员添加功能及前端后期优化维护, 输出高质量的文档, 特制订此文档. 本规范文档一经确认, 前端开发人员必须按本文档规范进 ...
Web前端开发规范文档你需要知道的事
Web前端开发规范文档你需要知道的事规范目的为提高团队协作效率, 便于后台人员添加功能及前端后期优化维护, 输出高质量的文档, 特制订此文档. 本规范文档一经确认, 前端开发人员必须按本文档规范进 ...
WEB前端开发规范文档[转]
为新项目写的一份规范文档, 分享给大家. 我想前端开发过程中, 无论是团队开发, 还是单兵做站, 有一份开发文档做规范, 对开发工作都是很有益的. 本文档由本人编写, 部分意见来源于网络, 以此感谢, ...
使用Python操作Excel文档（一）
Python | 使用Python操作Excel文档(一) 0 前言在阅读本文之前,请确保您已满足或可能满足以下条件: 请确保您具备基本的Python编程能力. 请确保您会使用Excel. 请确保您 ...

随机推荐

Resouce, platform_device 和 platform_driver 的关系【转】
转自:http://blog.csdn.net/uruita/article/details/7278313 從2.6版本開始引入了platform這個概念,在開發底層驅動程序時,首先要確認的就是設備 ...
word文档下划线无法显示的解决方法
在编辑文档的时候经常会遇到下划线无法显示的情况,如图: 如果遇到不能在姓名后面加下划线的情况,我们该怎么做? 请看下面的图解: 1.首先点击左上角的office图标 2.点击右下角“word选项” 3 ...
2017 ACM-ICPC 亚洲区（西安赛区）网络赛 Coin 概率+矩阵快速幂
题目链接: https://nanti.jisuanke.com/t/17115 题意: 询问硬币K次,正面朝上次数为偶数. 思路: dp[i][0] = 下* dp[i-1][0] + 上*dp[i ...
php环境搭建（window环境下 eclipse+Wampserver）
看了好多的环境搭建感觉好复杂呀,自己搞了一下简单的可以用了 php的手册 http://www.php.net/manual/zh/ 一,下载 1,下载eclipse http://www.ecl ...
Win2003不显示移动硬盘、U盘解决方法
Win2003已经识别出了“移动硬盘”,只是没有分配盘符. 解决方法:插入移动硬盘,右键单击“我的电脑”,选择“管理”,进入“计算机管理”,点击“存储”下面的“磁盘管理”.可以看到现在计算机中有两个磁 ...
Python爬虫学习1: Requests模块的使用
Requests函数库是学习Python爬虫必备之一, 能够帮助我们方便地爬取. Requests: 让HTTP服务人类. 本文主要参考了其官方文档. Requests具有完备的中英文文档, 能完全满 ...
TF-图像的深度和通道的概念(转)
图像的深度和通道概念图像的深度: 图片是由一个个像素点构成的,所有不同颜色的像素点构成了一副完整的图像,计算机存储图片是以二进制来进行的. 1 bit : 用一位来存储,那么这个像素点的取值范围就是 ...
bash常用快捷键和命令
在使用Linux的时候,最常见的终端解释器就是bash了.bash下有很多技巧,我知道这么几个: 0.关于按键模式bash默认的按键模式是emacs风格的.你也可以通过set -i vi设定为vi风格 ...
中断、轮询、事件驱动、消息驱动、数据流驱动(Flow-Driven)？
轮询.事件驱动.消息驱动.流式驱动 ---数据流驱动 Unidirectional Architecture? 中断.事件.消息这样一种机制来实现更好的在多任务系统里运行... 阻塞,非阻塞同步,异步 ...
21 包含min函数的栈
定义栈的数据结构,请在该类型中实现一个能够得到栈最小元素的min函数. C++: class Solution { private: stack<int> dataStack ; stac ...

python开发_HTMLParser_html文档解析

python开发_HTMLParser_html文档解析的更多相关文章

随机推荐

热门专题