Python HTML解析模块HTMLParser(爬虫工具)

简介

　　先简略介绍一下。实际上，HTMLParser是python用来解析HTML的内置模块。它可以分析出HTML里面的标签、数据等等，是一种处理HTML的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以"handle_"开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以"handle_"开头的函数即可。这几个函数包括：
（1）handle_startendtag 　　处理开始标签和结束标签（即单标签）
（2）handle_starttag     　　   处理开始标签，比如<xx>
（3）handle_endtag       　　处理结束标签，比如</xx>
（4）handle_charref      　　   处理特殊字符串，就是以&#开头的，一般是内码表示的字符
（5）handle_entityref   　　   处理一些特殊字符，以&开头的，比如  
（6）handle_data         　　   处理数据，就是<xx>data</xx>中间的那些数据
（7）handle_comment          处理注释
（8）handle_decl         　　    处理<!开头的，比如<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
（9）handle_pi           　　      处理形如<?instruction>的东西

实例

　　OK，废话少说，直接上手，来一个简单的爬虫实例——抓取贴吧图片。

 from html.parser import HTMLParser

 from urllib import request

 class MyHTMLParser(HTMLParser):     # 创建HTML解析类

     def __init__(self):

         HTMLParser.__init__(self)

         self.gifs_urls = []         # 创建列表，保存gif

         self.jpgs_urls = []         # 创建列表，保存jpg

     # 重写HTMLParser中的内置方法

     def handle_starttag(self, tags, attrs):  # 处理起始标记

         if tags == 'img':   # 处理图片

             for attr in attrs:

                 for t in attr:

                     if 'gif' in t and 'https' in t:

                         self.gifs_urls.append(t)    # 添加到gif列表

                     elif 'jpg' in t and 'https' in t:

                         self.jpgs_urls.append(t)    # 添加到jpg列表

                     else:

                         pass

     # 自定义的方法

     def get_gifs(self):     # 返回gif列表

         return self.gifs_urls

     def get_jpgs(self):     # 返回jpg列表

         return self.jpgs_urls

     # 自定义的方法，获取页面

     def getHTML(self,url):

         req=request.Request(url,method='GET')

         html=request.urlopen(req,timeout=30)

         return html.read()

     # 自定义的方法，批量下载图片

     def downImgs(self,img_urls,n=10,path='Image/'):

         count=1

         for url in img_urls:

             request.urlretrieve(url=url,filename='{0}{1}{2}'.format(path,count,'.jpg'))

             count=count+1

             if count == n + 1:

                 print('共下载%d张图片' %(n))

                 return

 if __name__ == '__main__':

     Url = 'http://tieba.baidu.com/p/2256306796'

     HtmlParser=MyHTMLParser()

     Html=HtmlParser.getHTML(Url)

     # print(Html)

     HtmlParser.feed(str(Html))      #开始解析HTML，自动调用HTMLParser中的内置方法

     HtmlParser.downImgs(HtmlParser.get_jpgs())

　　至此，转载请注明出处。

Python HTML解析模块HTMLParser(爬虫工具)的更多相关文章

Python HTML解析器BeautifulSoup(爬虫解析器)
BeautifulSoup简介我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...
关于解决Python中requests模块在PyCharm工具中导入问题
问题引入: 今天在学习Python网络请求的时候,导入requests模块时一直报红色波浪线,如图: 反复折腾,一直以为自己没有安装requests模块,反复安装反复卸载: 安装方法: 首先 cd 进 ...
python 配置文件解析模块 configparser
import ConfigParser //实例化cf = ConfigPraser.ConfigPraser()cf.read("配置文件") //获取所有sections.也就 ...
面试官问我：如何在 Python 中解析和修改 XML
摘要:我们经常需要解析用不同语言编写的数据.Python提供了许多库来解析或拆分用其他语言编写的数据.在此 Python XML 解析器教程中,您将学习如何使用 Python 解析 XML. 本文分享 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫工具集合
python爬虫工具集合大家一起来整理吧!强烈建议PR.这是初稿,总是有很多问题,而且考虑不全面,希望大家支持! 源文件主要针对python3 常用库 urllib Urllib是python提供 ...
Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗
介绍本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容. 为了知道POST方法所需要传 ...
python爬虫工具
一直都听说python写爬虫工具非常方便,为了获取数据,我也要写点爬虫,但是python太灵活了,不知道python爬虫要哪些框架,要了解,比如beatiful soup,scrapy, 爬虫的额主要 ...
python命令行参数解析模块argparse和docopt
http://blog.csdn.net/pipisorry/article/details/53046471 还有其他两个模块实现这一功能,getopt(等同于C语言中的getopt())和弃用的o ...

随机推荐

Shell中判断文件,目录是否存在
一. 具体每个选项对应的判断内容: -e filename 如果 filename存在,则为真 -d filename 如果 filename为目录,则为真 -f filename 如果 filena ...
Spring框架(2)---IOC装配Bean(xml配置方式)
IOC装配Bean (1)Spring框架Bean实例化的方式提供了三种方式实例化Bean 构造方法实例化(默认无参数,用的最多) 静态工厂实例化实例工厂实例化下面先写这三种方法的applicat ...
五款实用免费的Python机器学习集成开发环境（5 free Python IDE for Machine Learning）（图文详解）
前言集成开发环境(IDE)是提供给程序员和开发者的一种基本应用,用来编写和测试软件.一般而言,IDE 由一个编辑器,一个编译器(或称之为解释器),和一个调试器组成,通常能够通过 GUI(图形界面)来 ...
pip install 安装出现问题：UnicodeEncodeError: 'ascii' codec can't encode characters in position XX的解决办法
pip install 安装出现问题:UnicodeEncodeError: 'ascii' codec can't encode characters in position XX的解决办法转自c ...
leetcode — maximum-subarray
/** * * Source : https://oj.leetcode.com/problems/maximum-subarray/ * * Created by lverpeng on 2017/ ...
oracle12c创建用户提示ORA-65096：公用用户名或角色无效
1.背景以前一直用的是oracle11g,创建用户一直没有问题, 今天在oracle12c上创建用户,报错了.如下图: 我很郁闷, 就打开了oracle官方网站找了下, 发现创建用户是有限制的. 2 ...
JavaScript之ECMA对象的学习
从传统意义上来说,ECMAScript 并不真正具有类.事实上,除了说明不存在类,在 ECMA-262 中根本没有出现“类”这个词.ECMAScript 定义了“对象定义”,逻辑上等价于其他程序设计语 ...
python集合类型
集合类型简介集合也是容器,其内元素都是无序.唯一.不可变的.它常用来做成员测试.移除重复数据.数据计算(比如交集.并集.差集). 集合Set是dict的无value版.集合也使用大括号包围: > ...
[React] react.js的一些库和用法
React性能优化记录一次利用 Timeline/Performance工具进行 React性能优化的真实案例 http://www.jianshu.com/p/9b0e9ef0a607 React ...
C# 实现Jwtbearer Authentication
Jwtbearer Authentication 什么是JWT JWT(JSON Web Token), 顾名思义就是在Web上以JSON格式传输的Token(RFC 7519). 该Token被设计 ...

Python HTML解析模块HTMLParser(爬虫工具)

简介

实例

Python HTML解析模块HTMLParser(爬虫工具)的更多相关文章

随机推荐

热门专题