Python HTML解析模块HTMLParser(爬虫工具)

简介

　　先简略介绍一下。实际上，HTMLParser是python用来解析HTML的内置模块。它可以分析出HTML里面的标签、数据等等，是一种处理HTML的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以"handle_"开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以"handle_"开头的函数即可。这几个函数包括：
（1）handle_startendtag 　　处理开始标签和结束标签（即单标签）
（2）handle_starttag     　　   处理开始标签，比如<xx>
（3）handle_endtag       　　处理结束标签，比如</xx>
（4）handle_charref      　　   处理特殊字符串，就是以&#开头的，一般是内码表示的字符
（5）handle_entityref   　　   处理一些特殊字符，以&开头的，比如  
（6）handle_data         　　   处理数据，就是<xx>data</xx>中间的那些数据
（7）handle_comment          处理注释
（8）handle_decl         　　    处理<!开头的，比如<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
（9）handle_pi           　　      处理形如<?instruction>的东西

实例

　　OK，废话少说，直接上手，来一个简单的爬虫实例——抓取贴吧图片。

 from html.parser import HTMLParser

 from urllib import request

 class MyHTMLParser(HTMLParser):     # 创建HTML解析类

     def __init__(self):

         HTMLParser.__init__(self)

         self.gifs_urls = []         # 创建列表，保存gif

         self.jpgs_urls = []         # 创建列表，保存jpg

     # 重写HTMLParser中的内置方法

     def handle_starttag(self, tags, attrs):  # 处理起始标记

         if tags == 'img':   # 处理图片

             for attr in attrs:

                 for t in attr:

                     if 'gif' in t and 'https' in t:

                         self.gifs_urls.append(t)    # 添加到gif列表

                     elif 'jpg' in t and 'https' in t:

                         self.jpgs_urls.append(t)    # 添加到jpg列表

                     else:

                         pass

     # 自定义的方法

     def get_gifs(self):     # 返回gif列表

         return self.gifs_urls

     def get_jpgs(self):     # 返回jpg列表

         return self.jpgs_urls

     # 自定义的方法，获取页面

     def getHTML(self,url):

         req=request.Request(url,method='GET')

         html=request.urlopen(req,timeout=30)

         return html.read()

     # 自定义的方法，批量下载图片

     def downImgs(self,img_urls,n=10,path='Image/'):

         count=1

         for url in img_urls:

             request.urlretrieve(url=url,filename='{0}{1}{2}'.format(path,count,'.jpg'))

             count=count+1

             if count == n + 1:

                 print('共下载%d张图片' %(n))

                 return

 if __name__ == '__main__':

     Url = 'http://tieba.baidu.com/p/2256306796'

     HtmlParser=MyHTMLParser()

     Html=HtmlParser.getHTML(Url)

     # print(Html)

     HtmlParser.feed(str(Html))      #开始解析HTML，自动调用HTMLParser中的内置方法

     HtmlParser.downImgs(HtmlParser.get_jpgs())

　　至此，转载请注明出处。

Python HTML解析模块HTMLParser(爬虫工具)的更多相关文章

Python HTML解析器BeautifulSoup(爬虫解析器)
BeautifulSoup简介我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...
关于解决Python中requests模块在PyCharm工具中导入问题
问题引入: 今天在学习Python网络请求的时候,导入requests模块时一直报红色波浪线,如图: 反复折腾,一直以为自己没有安装requests模块,反复安装反复卸载: 安装方法: 首先 cd 进 ...
python 配置文件解析模块 configparser
import ConfigParser //实例化cf = ConfigPraser.ConfigPraser()cf.read("配置文件") //获取所有sections.也就 ...
面试官问我：如何在 Python 中解析和修改 XML
摘要:我们经常需要解析用不同语言编写的数据.Python提供了许多库来解析或拆分用其他语言编写的数据.在此 Python XML 解析器教程中,您将学习如何使用 Python 解析 XML. 本文分享 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫工具集合
python爬虫工具集合大家一起来整理吧!强烈建议PR.这是初稿,总是有很多问题,而且考虑不全面,希望大家支持! 源文件主要针对python3 常用库 urllib Urllib是python提供 ...
Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗
介绍本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容. 为了知道POST方法所需要传 ...
python爬虫工具
一直都听说python写爬虫工具非常方便,为了获取数据,我也要写点爬虫,但是python太灵活了,不知道python爬虫要哪些框架,要了解,比如beatiful soup,scrapy, 爬虫的额主要 ...
python命令行参数解析模块argparse和docopt
http://blog.csdn.net/pipisorry/article/details/53046471 还有其他两个模块实现这一功能,getopt(等同于C语言中的getopt())和弃用的o ...

随机推荐

短视频 SDK 6大功能技术实现方式详解
第三方短视频解决方案作为快速切入短视频行业的首选方式,选择一款功能齐全.性能优异的短视频解决方案十分重要. 今天我们来谈谈短视频 SDK 6大重要功能点及其技术实现方式. 短视频拍摄断点续拍指在拍 ...
HPE服务器做raid5阵列
HPE服务器做阵列的详细步骤: 注意:HPE服务器加硬盘需要安装配套的扩展笼~~~ 1.首先服务器开机,出现下图界面按F10. 2.然后在下图中选择HPE interlligent Provision ...
cp2102 驱动 win7x64 -2018
试了好多种网上的驱动,都不行,要么是报错要么是安装没反应之后意外遇见驱动官网?里面真全 url:https://www.silabs.com/products/development-tools/s ...
C++版 - LeetCode 144. Binary Tree Preorder Traversal (二叉树先根序遍历，非递归)
144. Binary Tree Preorder Traversal Difficulty: Medium Given a binary tree, return the preorder trav ...
java~springboot~h2数据库在单元测试中的使用
单元测试有几点要说的事实上springboot框架是一个tdd框架,你在进行建立项目时它会同时建立一个单元测试项目,而我们的代码用例可以在这个项目里完成,对于单元测试大叔有以下几点需要说明一下: 单 ...
java --Integer 学习
本文版权归远方的风lyh和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 在网上看到一个面试题,没有完全做, 本代码基于JDK8 //下面代码运行结果是 public class ...
CentOS安装使用.netcore极简教程（免费提供学习服务器）
本文目标是指引从未使用过Linux的.Neter,如何在CentOS7上安装.Net Core环境,以及部署.Net Core应用. 仅针对CentOS,其它Linux系统类似,命令环节稍加调整: 需 ...
php安装grpc报No releases available for package解决方法
1.pecl.php.net搜索相应grpc的下载文件,这里找了个stable版本 https://pecl.php.net/get/grpc-1.17.0.tg 2.wge下载+pecl insta ...
十分钟了解ZAB（Zookeeper Atomic Broadcast）协议
Zookeeper基于ZAB(Zookeeper Atomic Broadcast),实现了主备模式下的系统架构,保持集群中各个副本之间的数据一致性. ZAB协议定义了选举(election).发现( ...
Linux上磁盘热插拔
首先获取scsi设备的信息. [root@server2 ~]# lsscsi [:::] disk VMware, VMware Virtual S 1.0 /dev/sda [:::] cd/dv ...

Python HTML解析模块HTMLParser(爬虫工具)

简介

实例

Python HTML解析模块HTMLParser(爬虫工具)的更多相关文章

随机推荐

热门专题