http://blog.csdn.net/my2010sam/article/details/14526223

---------------------

对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理它主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以handler_开头的函数即可。这几个函数包括:

  • handle_startendtag  处理开始标签和结束标签
  • handle_starttag     处理开始标签,比如<xx>   tag不区分大小写
  • handle_endtag       处理结束标签,比如</xx>
  • handle_charref      处理特殊字符串,就是以&#开头的,一般是内码表示的字符
  • handle_entityref    处理一些特殊字符,以&开头的,比如 &nbsp;
  • handle_data         处理数据,就是<xx>data</xx>中间的那些数据
  • handle_comment      处理注释
  • handle_decl         处理<!开头的,比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
  • handle_pi           处理形如<?instruction>的东西

def handle_starttag(self,tag,attr):
        #注意:tag不区分大小写,此时也可以解析 <A 标签

        # SGMLParser 会在创建attrs 时将属性名转化为小写。

        if tag=='a':
            for href,link in attr:
                if href.lower()=="href":

                        pass

 

1. 基本解析,找到开始和结束标签

  1. <span style="font-size:18px;">#coding:utf-8
  2. from HTMLParser import HTMLParser
  3. '''''
  4. HTMLParser的成员函数:
  5. handle_startendtag  处理开始标签和结束标签
  6. handle_starttag     处理开始标签,比如<xx>
  7. handle_endtag       处理结束标签,比如</xx>
  8. handle_charref      处理特殊字符串,就是以&#开头的,一般是内码表示的字符
  9. handle_entityref    处理一些特殊字符,以&开头的,比如
  10. handle_data         处理数据,就是<xx>data</xx>中间的那些数据
  11. handle_comment      处理注释
  12. handle_decl         处理<!开头的,比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
  13. handle_pi           处理形如<?instruction>的东西
  14. '''
  15. class myHtmlParser(HTMLParser):
  16. #处理<!开头的内容
  17. def handle_decl(self,decl):
  18. print 'Encounter some declaration:'+ decl
  19. def handle_starttag(self,tag,attrs):
  20. print 'Encounter the beginning of a %s tag' % tag
  21. def handle_endtag(self,tag):
  22. print 'Encounter the end of a %s tag' % tag
  23. #处理注释
  24. def handle_comment(self,comment):
  25. print 'Encounter some comments:' + comment
  26. if __name__=='__main__':
  27. a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\
  28. <html><head><!--insert javaScript here!--><title>test</title><body><a href="http: //www.163.com">链接到163</a></body></html>'
  29. m=myHtmlParser()
  30. m.feed(a)
  31. m.close()
  32. 输出结果:
  33. Encounter some declaration:DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"
  34. Encounter the beginning of a html tag
  35. Encounter the beginning of a head tag
  36. Encounter some comments:insert javaScript here!
  37. Encounter the beginning of a title tag
  38. Encounter the end of a title tag
  39. Encounter the beginning of a body tag
  40. Encounter the beginning of a a tag
  41. Encounter the end of a a tag
  42. Encounter the end of a body tag
  43. Encounter the end of a html tag</span>

2. 解析html的超链接和链接显示的内容  

  1. <span style="font-size:18px;">#coding:utf-8
  2. from HTMLParser import HTMLParser
  3. class myHtmlParser(HTMLParser):
  4. def __init__(self):
  5. HTMLParser.__init__(self)
  6. self.flag=None
  7. # 这里重新定义了处理开始标签的函数
  8. def handle_starttag(self,tag,attrs):
  9. # 判断标签<a>的属性
  10. if tag=='a':
  11. self.flag='a'
  12. for href,link in attrs:
  13. if href=='href':
  14. print "href:",link
  15. def handle_data(self,data):
  16. if self.flag=='a':
  17. print "data:",data.decode('utf-8')
  18. if __name__ == '__main__':
  19. a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\
  20. <html><head><!--insert javaScript here!--><title>test</title><body><a href="http: //www.163.com">链接到163</a></body></html>'
  21. m=myHtmlParser()
  22. m.feed(a)
  23. m.close()
  24. 输出结果:
  25. href: http: //www.163.com
  26. data: 链接到163</span>

或:

    1. <span style="font-size:18px;">#coding:utf-8
    2. from  HTMLParser import HTMLParser
    3. import urllib2
    4. class myparser(HTMLParser):
    5. # 继承父类初始化方法,并添加一个tag属性
    6. def __init__(self):
    7. HTMLParser.__init__(self)
    8. self.tag = None
    9. def handle_decl(self,decl):
    10. print u"声明:",decl
    11. def handle_starttag(self,tag,attrs):
    12. print u"开始标签;",tag
    13. # 判断是否是a开头的标签
    14. if tag=='a' and len(attrs):
    15. #设置 self.tag 标记
    16. self.tag='a'
    17. for href,link in attrs:
    18. if href=='href':
    19. print href+":"+link
    20. def handle_endtag(self,tag):
    21. print u"结束标签:",tag
    22. def handle_data(self,data):
    23. #处理 a 标签开头的数据
    24. if self.tag=='a':
    25. print u"数据内容:",data.decode("utf-8")
    26. def handle_comment(self,comm):
    27. print u"注释:",comm
    28. if __name__ == '__main__':
    29. a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\
    30. <html><head><!--insert javaScript here!--><title>test</title><body><a href="http: //www.163.com">链接到163</a><a href="http: //www.baidu.com">百度</a></body></html>'
    31. m = myparser()
    32. m.feed(a)
    33. 结果:
    34. 声明: DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"
    35. 开始标签; html
    36. 开始标签; head
    37. 注释: insert javaScript here!
    38. 开始标签; title
    39. 结束标签: title
    40. 开始标签; body
    41. 开始标签; a
    42. href:http: //www.163.com
    43. 数据内容: 链接到163
    44. 结束标签: a
    45. 开始标签; a
    46. href:http: //www.baidu.com
    47. 数据内容: 百度
    48. 结束标签: a
    49. 结束标签: body
    50. 结束标签: html</span>

Python之HTML的解析(网页抓取一)的更多相关文章

  1. Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取

    区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

  2. Python开发爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

    所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...

  3. Python实现简单的网页抓取

    现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程 第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...

  4. Python网络爬虫笔记(一):网页抓取方式和LXML示例

    (一)   三种网页抓取方法 1.    正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了. 2.    Beautiful Soup 模块使用Python编写,速度慢. ...

  5. Python爬虫之三种网页抓取方法性能比较

    下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式   如果你对正则表达式还不熟悉,或是需要一些提 ...

  6. python网络爬虫-动态网页抓取(五)

    动态抓取的实例 在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...

  7. python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]

    目录 前言 一.BeautifulSoup的基本语法 二.爬取网页图片 扩展学习 后记 前言 本章同样是解析一个网页的结构信息 在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...

  8. python网络爬虫-静态网页抓取(四)

    静态网页抓取 在网站设计中,纯HTML格式的网页通常被称之为静态网页,在网络爬虫中静态网页的数据比较容易抓取,因为说有的数据都呈现在网页的HTML代码中.相对而言使用Ajax动态加载的玩个的数据不一定 ...

  9. python爬虫之分析Ajax请求抓取抓取今日头条街拍美图(七)

    python爬虫之分析Ajax请求抓取抓取今日头条街拍美图 一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...

随机推荐

  1. HDU 5980 Find Small A (水题)

    题意:众所周知,字符 'a' 的ASCII码为97.现在,找出给定数组中出现了多少次 'a' .注意,此处的数字为计算机中的32位整数.这表示, 1个数字由四个字符组成(一个字符由8位二进制数组成). ...

  2. hdu1053

    #include<iostream> #include<algorithm> using namespace std; bool cmp(int a,int b) { retu ...

  3. angular使用base64的encode和decode

    var app = angular.module("encodeDecode", []); app.controller("encodeDecodeCtrl", ...

  4. APP中的存储路径

    访问SD卡 所需权限  <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/& ...

  5. C# Newtonsoft.Json不序列字段

    [JsonObject(MemberSerialization.OptOut)] public class employeePersonalForm { [JsonIgnore] public str ...

  6. MySQL的CURRENT_DATE(),NOW(),DATE_FORMAT()函数的应用,类型转换及操作汇总

    内容简介 datetime类型和timestamp类型的取值范围,CURRENT_DATE()函数应用,NOW()函数应用,DATE_FROMAT()函数取星期,日期.字符串.时间戳相互转换等. 时间 ...

  7. 置换群(本蒟蒻瞎BB的)(未完)

    置换群(本蒟蒻瞎BB的)(未完) 群的定义 给定一个集合\(G=\{a, b, c...\}\)和集合\(G\)上的二元运算*,并满足: 封闭性:\(\forall a, b \in G, \exis ...

  8. Problem C: [noip2016十连测第五场]travel (构造+贪心)

    题面 https://www.lydsy.com/JudgeOnline/upload/201610/statements(1).pdf 题解 好神仙的贪心-- 首先无解的情况很容易判断,就是\(l= ...

  9. OSD

    OSD(on-Screen Display)屏幕单式调节方式 主要功能是显示一个用户控制界面和一些系统状态信息. 简单点说:OSD技术就是在屏幕的原有图像上面叠加显示相关信息(包括文字.图片等)的技术 ...

  10. Linux调优(内存,CPU)

    一.相关概念简介 system call:系统调用 time slice:cpu时间片 O(1):Linux系统进程调度器 page frame:分页 RSS:常驻内存集,无法被页面化的数据 MMU: ...