Python—解析HTML页面（HTMLParser）

HTMLParser类的定义及常用方法

类的定义

HTMLParser主要是用来解析HTML文件（包括HTML中无效的标记）。
参数convert_charrefs表示是否将所有的字符引用自动转化为Unicode形式，Python3.5以后默认是True。
HTMLParser可以接收相应的HTML内容，并进行解析，遇到HTML的标签会自动调用相应的handler（处理方法）来处理，用户需要自己创建相应的子类来继承HTMLParser，并且复写相应的handler方法。
HTMLParser不会检查开始标签和结束标签是否是一对。

常用方法

HTMLParser.feed(data)：接收一个字符串类型的HTML内容，并进行解析。
HTMLParser.close()：当遇到文件结束标签后进行的处理方法。如果子类要复写该方法，需要首先调用HTMLParser累的close()。
HTMLParser.reset()：重置HTMLParser实例，该方法会丢掉未处理的html内容。
HTMLParser.getpos()：返回当前行和相应的偏移量。
HTMLParser.handle_starttag(tag, attrs)：对开始标签的处理方法。例如<div id="main">，参数tag指的是div，attrs指的是一个（name,Value)的列表，即列表里面装的数据是元组。
HTMLParser.handle_endtag(tag)：对结束标签的处理方法。例如</div>，参数tag指的是div。
HTMLParser.handle_startendtag(tag, attrs)：识别没有结束标签的HTML标签，例如<img />等。
HTMLParser.handle_data(data)：对标签之间的数据的处理方法。<tag>test</tag>，data指的是“test”。
HTMLParser.handle_comment(data)：对HTML中注释的处理方法。

解释部分：

tag表示的是html标签，attrs是一个列表，列表元素为一个个“(属性，值)”形式的元组。
HTMLParser会自动将tag和attrs都转为小写。

实例应用

try:

    from HTMLParser import HTMLParser

except:

    from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

    def __init__(self):

        HTMLParser.__init__(self)

        self.data = []   # 定义data数组用来存储html中的数据

        self.links = []  

    def handle_starttag(self, tag, attrs):

        print('<%s>' % tag)

        if tag == "a":

            if len(attrs) == 0: pass

            else:

                for (variable, value)  in attrs:

                    if variable == "href":

                        self.links.append(value)

    def handle_endtag(self, tag):

        print('</%s>' % tag)

    def handle_startendtag(self, tag, attrs):

        print('<%s/>' % tag)

    def handle_data(self, data):

        print('data===>', data)

    def handle_comment(self, data):

        print('<!--', data, '-->')

    def handle_entityref(self, name):

        print('&%s;' % name)

    def handle_charref(self, name):

        print('&#%s;' % name)

if __name__ == "__main__":

    html_code = '''<html>

			<head>这是头标签</head>

			<body>

			    <!-- test html parser -->

			    <p>Some <a href=\"#\">html</a> HTML&nbsp;Ӓ Ӓtutorial...<br>END</p>

			</body></html>'''

    parser = MyHTMLParser()

    parser.feed(html_code)

    parser.close()

    print(parser.data)

    print(parser.links)

处理HTML转义字符

在 HTML 中 <、>、& 等字符有特殊含义（<，> 用于标签中，& 用于转义），他们不能在 HTML 代码中直接使用，如果要在网页中显示这些符号，就需要使用 HTML 的转义字符串（Escape Sequence），例如 < 的转义字符是 <，浏览器渲染 HTML 页面时，会自动把转移字符串换成真实字符。

转义字符（Escape Sequence）由三部分组成：第一部分是一个 & 符号，第二部分是实体（Entity）名字，第三部分是一个分号。比如，要显示小于号（<），就可以写 <。

html = '&lt;abc&gt;'

# 反转义：方式1

try:

    from HTMLParser import HTMLParser

except:

    from html.parser import HTMLParser

html_parser = HTMLParser()

text = html_parser.unescape(html)

print(text)

# 反转义：方式2

import html

text = html.unescape('a=1&b=2')

print(text)

# 转义

import cgi

html = cgi.escape(text)

print(html)

https://www.liaoxuefeng.com/wiki/897692888725344/966401234683424　

https://www.liaoxuefeng.com/wiki/1016959663602400/1017784593019776

https://baijiahao.baidu.com/s?id=1637614366297669334&wfr=spider&for=pc

Python—解析HTML页面（HTMLParser）的更多相关文章

Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
深入学习Python解析并解密PDF文件内容的方法
前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...
深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
使用Python解析JSON数据
使用Python解析百度API返回的JSON格式的数据 # coding:utf-8 # !/usr/bin/env python import matplotlib.pyplot as plt fr ...
使用Python解析JSON数据的基本方法
这篇文章主要介绍了使用Python解析JSON数据的基本方法,是Python入门学习中的基础知识,需要的朋友可以参考下: ----------------------------------- ...
python解析robot framework的output.xml，并生成html
一.背景 Jenkins自动构建RF脚本,生成的RF特有HTML报告不能正常打开. 需求:用Python解析测试报告的xml数据,放在普通HTML文件中打开二.output.xml数据三.用pyh ...
python 解析json loads dumps
认识引用模块重要函数案例排序缩进参数压缩参考认识 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.它基于JavaScript(Standa ...
Android开发探秘之三：利用jsoup解析HTML页面
这节主要是讲解jsoup解析HTML页面.由于在android开发过程中,不可避免的涉及到web页面的抓取,解析,展示等等,所以,在这里我主要展示下利用jsoup jar包来抓取cnbeta.com网 ...

随机推荐

spark graphX作图计算
一.使用graph做好友推荐 import org.apache.spark.graphx.{Edge, Graph, VertexId} import org.apache.spark.rdd.RD ...
PHP安装扩展补充说明
上一篇文章中用到了,php的sodium扩展,那么如何安装PHP扩展呢?基于我之前踩过的一些坑,大致整理了几种安装php扩展的方法.已安装sodium为例 1.先做点准备工作,安装sodium依赖 r ...
Hbase初识
简介数据模型相关数据库典型应用优势劣势 key-value Redis 缓存快速查询存储数据缺乏结构化列族 Cassandra,Hbase 分布式的文件系统,大规模的数据存储易于分布 ...
【Android - IPC】之AIDL简介
参考资料: 1.<Android开发艺术探索>第二章2.4.4 2.Android AIDL Binder框架解析:http://blog.csdn.net/lmj623565791/ar ...
Scrapy持久化存储-爬取数据转义
Scrapy持久化存储爬虫爬取数据转义问题使用这种格式,会自动帮我们转义 'insert into wen values(%s,%s)',(item['title'],item['content' ...
pngquant——一个好用的png压缩工具
一个可以进行有损图片压缩的命令行工具和代码库. 网址:https://pngquant.org/ 1.为什么选择pngquant 传说中的神器——tinyPng 我们现在用的工具——ImageAlph ...
java8 按两个属性分组，并返回扁平List； stream排序
--------------- java8 按两个属性分组,并返回扁平List /** * 设置大区小区分组排序 * @param dtoList */ private List<Perform ...
Linux命令行初学（一）
linux命令大全:https://www.linuxcool.com/ 大概了解到有哪些命令,如果有需要的话可以在该网站上查询. 另外在实验楼学习了一些基础,该篇博客就此次对linux命令行的学习进 ...
LeetCode-7.reverse-integer 【翻转字符串】【数学】
PS: 第一次写文章好累啊,没想到这么短的文章写完这么累,大家给我点反馈,多给我留言啊.
超好用的自带火焰图的 Java 性能分析工具 Async-profiler 了解一下
如果你经常遇到 Java 线上性能问题束手无策,看着线上服务 CPU 飙升一筹莫展,发现内存不断泄露满脸茫然.别慌,这里有一款低开销.自带火焰图.让你大呼好用的 Java 性能分析工具 - async ...