HTMLParser 笔记

# 关于html.parse.HTMLParser的使用

from html.parser import HTMLParser

class MyHtmlParser(HTMLParser):

    # 使用“<!DOCTYPE html>”将会被调出来

    def handle_decl(self, decl):

        # 实现基类的方法

        HTMLParser.handle_decl(self, decl)

        # 自定义输出

        print('decl {}'.format(decl))

    # 开始标签

    def handle_starttag(self, tag, attrs):

        HTMLParser.handle_starttag(self, tag, attrs)

        print("start tag is <{}>".format(tag))

    # 结束标签

    def handle_endtag(self, tag):

        HTMLParser.handle_endtag(self, tag)

        print("end tag is </{}>".format(tag))

    # 打印数据

    def handle_data(self, data):

        HTMLParser.handle_data(self, data)

        print('data is {}'.format(data))

    # 打印单标签

    def handle_startendtag(self, tag, attrs):

        HTMLParser.handle_startendtag(self, tag, attrs)

        print('单标签: {}'.format(tag))

    # 打印注释

    def handle_comment(self, data):

        HTMLParser.handle_comment(self, data)

        print("comment is /*{}*/".format(data))

    # 关闭

    def close(self):

        HTMLParser.close(self)

        print('Close...')

my_html_parser = MyHtmlParser()  # 调用解析函数

# HTMLParser.feed()进行解析

my_html_parser.feed("<html><head><title>Test</title></head><body><h1>Parse me!<br /></h1></body></html>")

my_html_parser.close()  # 文件结束的处理方法,貌似可以释放缓冲区

"""

D:\笔记\python电子书\Python3>python index.py

start tag is <html>

start tag is <head>

start tag is <title>

data is Test

end tag is </title>

end tag is </head>

start tag is <body>

start tag is <h1>

data is Parse me!

start tag is <br>

end tag is </br>

单标签: br

end tag is </h1>

end tag is </body>

end tag is </html>

Close...

"""

"""

附加笔记：

HTMLParser.reset():重置实例,丢失所有未处理的数据,这被称为隐式实例化时间

HTMLParser.getpos():返回当前行数和偏移量信息

"""

HTMLParser 笔记的更多相关文章

【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
Python学习笔记（四十）— 内置模块（9）HTMLParser
摘抄自:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001432002312 ...
NuGet学习笔记3——搭建属于自己的NuGet服务器
文章导读创建NuGetServer Web站点发布站点到IIS 添加本地站点到包包数据源在上一篇NuGet学习笔记(2) 使用图形化界面打包自己的类库中讲解了如何打包自己的类库,接下来进行最重 ...
NuGet学习笔记(3) 搭建属于自己的NuGet服务器
文章导读创建NuGetServer Web站点发布站点到IIS 添加本地站点到包包数据源在上一篇NuGet学习笔记(2) 使用图形化界面打包自己的类库中讲解了如何打包自己的类库,接下来进行最重 ...
NuGet学习笔记(2) 使用图形化界面打包自己的类库
上文NuGet学习笔记(1) 初识NuGet及快速安装使用说到NuGet相对于我们最重要的功能是能够搭建自己的NuGet服务器,实现公司内部类库的轻松共享更新.在安装好NuGet扩展后,我们已经能够通 ...
IOS学习笔记25—HTTP操作之ASIHTTPRequest
IOS学习笔记25—HTTP操作之ASIHTTPRequest 分类: iOS2012-08-12 10:04 7734人阅读评论(3) 收藏举报 iosios5网络wrapper框架新浪微博 A ...
NuGet学习笔记（转）
NuGet学习笔记(1)——初识NuGet及快速安装使用 http://kb.cnblogs.com/page/143190/ 1. NuGet是什么? NuGet is a Visual Studi ...
NuGet学习笔记(2)——使用图形化界面打包自己的类库
上文NuGet学习笔记(1) 初识NuGet及快速安装使用说到NuGet相对于我们最重要的功能是能够搭建自己的NuGet服务器,实现公司内部类库的轻松共享更新.在安装好NuGet扩展后,我们已经能够通 ...
NuGet学习笔记(3)——搭建属于自己的NuGet服务器(转)
在上一篇NuGet学习笔记(2) 使用图形化界面打包自己的类库中讲解了如何打包自己的类库,接下来进行最重要的一步,从零开始搭建属于自己的NuGet服务器,诚然园子里及其它很多地方已经有完全写好的Nu ...

随机推荐

Vue项目初始化
1. 生成项目模板 vue init <模板名> 本地文件夹名称2. 进入到生成目录里面 cd xxx npm install3. npm run dev vue项目模板介绍: simpl ...
并发的HTTP请求，apache是如何响应的，以及如何调用php文件的
作者:酒窝链接:https://www.zhihu.com/question/23786410/answer/153455460来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ...
审计系统---堡垒机项目之strace追踪ssh
strace 追踪ssh的进程ID,记录操作的命令[实际上是内核里面记录的东西],进行操作日志的Py解析达到效果. 修改ssh源码添加访问标志位源码下载:[本文示例:openssh-7.4p1.ta ...
2017ICPC北京赛区网络赛 Minimum（数学+线段树）
描述 You are given a list of integers a0, a1, …, a2^k-1. You need to support two types of queries: 1. ...
org.springframework.dao.InvalidDataAccessApiUsageException报错
2018-01-09 18:12:29,980 [qtp1501019626-21] ERROR - 外部接口调用方法[TestController$$EnhancerBySpringCGLIB$$8 ...
Notepad++同一窗口显示左右显示两份文档
Notepad++同一窗口显示左右显示两份文档直接打开一份文档,test1.txt 再打开第二份文档,test2.txt,会显示成这样: 两份文档是以标签的形式展示的,有时需要同时查看两份文档, ...
【转】IPV6的地址类型
http://blog.sina.com.cn/s/blog_8d795a0f01018hiz.html <IPV6的地址类型>IPV6的地址类型可分为三大类: 1.单播地址 2.组播地 ...
java pojo类
POJO POJO是Plain OrdinaryJava Object的缩写可以当作简单的Java对象实际就是普通JavaBeans 外文名 POJO 实际意义普通JavaBeans 全 ...
Django中的Templates
1.定义: 定义和flask框架中的是一样的,唯一的不同就是Django中有自己的模板引擎,并非Jinja2,因此有一些不同之处. 2.模板的设置在 settings.py 中设置 TEMPLAT ...
SQLAlchemy中表结构的一对一
1.先导入相对应的库 from flask import Flask from flask_sqlalchemy import SQLAlchemy import pymysql pymysql.in ...

HTMLParser 笔记

HTMLParser 笔记的更多相关文章

随机推荐

热门专题