python模块之HTMLParser之穆雪峰的案例(理解其用法原理)

# -*- coding: utf-8 -*-

#python 27

#xiaodeng

#python模块之HTMLParser之穆雪峰的案例(理解其用法原理)

#http://www.cnblogs.com/xiaowuyi/archive/2012/10/15/2721658.html

#常见做法：首先，我们需要定义一个新的HTMLParser类，以覆盖handle_starttag()方法，我们将使用这个方法来显示所有标签的HRef属性值。

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):

        #print('<开始标签:%s>' % tag)

        #print '---------some img--------'

        if tag=='img':

            #print attrs#[('src', 'python-logo.png'), ('alt', 'The Python logo')]

            for k ,v in attrs:

                print k,v

        else:

            pass

    def handle_endtag(self, tag):

        print('<结束标签：/%s>' % tag)

    def handle_startendtag(self, tag, attrs):

        print('<%s/>' % tag)

    def handle_data(self, data):

        print 'data:',data

    def handle_comment(self, data):

        print '<!-- -->',data

    def handle_decl(self, decl):

        print '文档类型声明:',decl

    '''

    def handle_entityref(self, name):#处理一些特殊字符，以&开头的

        print('&%s;' % name)

    def handle_charref(self, name):#处理特殊字符串，就是以&#开头的，一般是内码表示的字符

        print('&#%s;' % name)

    '''

parser = MyHTMLParser()

content=''''<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"

<html>

    <head>

    </head>

        <body>

            <p>Some

                <a href=\"#\">html</a> tutorial...<br>END

                <!-- i am Notes Content-->

                <img src="python-logo.png" alt="The Python logo">

            </p>

        </body>

</html>

'''

import urllib

html=urllib.urlopen('http://www.163.com').read()

#parser.feed(html)

parser.feed(content)

parser.close()

python模块之HTMLParser之穆雪峰的案例(理解其用法原理)的更多相关文章

python模块介绍- HTMLParser 简单的HTML和XHTML解析器
python模块介绍- HTMLParser 简单的HTML和XHTML解析器 2013-09-11 磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq ...
python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用) import HTMLPar ...
python模块之HTMLParser抓页面上的所有URL链接
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser抓页面上的所有URL链接 import urllib #MyParse ...
python模块之HTMLParser解析出URL链接
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser解析出URL链接 #http://www.cnblogs.com/mf ...
python模块之HTMLParser
HTMLParser是python用来解析html的模块.它可以分析出html里面的标签.数据等等,是一种处理html的简便途径. HTMLParser采用的是一种事件驱动的模式,当HTMLParse ...
python模块学习---HTMLParser(解析HTML文档元素)
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...
python模块之HTMLParser简介
html.parser是一个非常简单和实用的库,它的核心是HTMLParser类. 工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法向前迭代各个标签,并调用对应 ...
python模块使用案例
python模块使用案例一.使用MySQLdb模块代码示例: # 导入 MySQLdb模块 import MySQLdb # 和服务器建立链接,host是服务器ip,我的MySQL数据库搭建在本机, ...
Python模块、包、异常、文件(案例)
Python模块.包.异常.文件(案例) python.py #模块 # Python中的模块(Module),是一个Python文件,以.py文件结尾,包含了Python对象定义和Python语句, ...

随机推荐

如何解决rar文件解压缩失败
附件经常会是一系列的压缩文件,下载是默认文件名是一个随机数字.因而下载完会出现压缩文件解压缩失败解决方法:下载时重命名为带一定顺序的文件名,如文件1,文件2,文件3等如何解决单个文件解压失败?论坛中 ...
统计学中RR OR AR HR的区别
一.相对危险度(RR)——队列研究中分析暴露因素与发病的关联程度队列研究是选择暴露及未暴露于某一因素的两组人群,追踪其各自的发病结局,比较两组发病结局的差异,从而判定暴露因素与疾病有无关联及关联大小 ...
利用rest-framework实现django应用的分页功能
自定义分页的类,继承 PageNumberPagination class StandardResultsSetPagination(PageNumberPagination): page_size ...
git如何上传所有的新文件 gitlab如何上传所有的新文件 git本地覆盖服务器强制本地覆盖服务器
原文地址: https://blog.csdn.net/qq_28093585/article/details/78749153 目的描述:新建的git项目,项目中有许多要从本地上传到git仓库的新 ...
标识符（IDentifier）
ylbtech-Miscellaneos:标识符(IDentifier) A,返回顶部 1, 标识符(IDentifier)是指用来标识某个实体的一个符号.在不同的应用环境下有不同的含义. 在日常生活 ...
EF6源码学习-准备篇
现在对于.net开发人员来说EF已经很流行了,虽然我在2010年的时候就用过EF,也看过几本书,但是还没有仔细研究EF的code, 曾经也尝试阅读EF5的源代码,后来由于时间关系也没有坚持住.现在计划 ...
C/C++二叉树搜索树操作集
啥是二叉查找树在数据结构中,有一个奇葩的东西,说它奇葩,那是因为它重要,这就是树.而在树中,二叉树又是当中的贵族.二叉树的一个重要应用是它们在查找中的应用,于是就有了二叉查找树. 使二叉树成为一颗二 ...
VS单元测试中Assert类的用法
首先说介绍一下,Assert类所在的命名空间为Microsoft.VisualStudio.TestTools.UnitTesting 在工程文件中只要引用Microsoft.VisualStudio ...
js遍历jstl数组
查询到在js中可以使用jstl <script> <c:forEach items="${channel.templates}" var="templa ...
Linq-批量删除方法
linq中批量删除用DeleteAllOnSubmit,里面的参数是数据集传入某要删除的ID列表,使用对象的Contains方法与数据库中值比较,相同就删除. //批量删除 public void ...

python模块之HTMLParser之穆雪峰的案例(理解其用法原理)

python模块之HTMLParser之穆雪峰的案例(理解其用法原理)的更多相关文章

随机推荐

热门专题