HtmlParser的使用-爬虫学习（三）

　　关于这个HtmlParser的学习资料，网上真的很匮乏，这个好用的东西不要浪费啊，所以我在这里隆重的介绍一下。

　　HtmlParser是一个用来解析HTML文件的Java包，主要用于转换盒抽取两个方面。

　　利用HtmlParser，你可以实现下面的内容的抽取：

　　a.文本抽取　　b.链接抽取　　c.资源抽取。可以搜集到图像和声音文件等资源

　　d.链接检查。保证链接是有用的　　e.站点检查，可以查看页面不同版本之间的差异

　　利用HtmlParser，你可以利用它的转换功能，主要体现在几个方面：

　　a.URL重写。能够修正页面中的错误链接　　b.广告清楚。清除页面中的广告内容和指向广告的链接

　　c.将HTML页面转化成XML页面　　d.HTML页面的清理

　　我们开始学习了，我们先来看看这个包中的类的大体框架：

　　在org.htmlparser包下，有几个接口和类：

　　　　Parser类：这个是HtmlParser的核心类，主要的完成对Html页面的分析工具，通过这个类我们可以得到这个页面的各种信息。

　　　　　　Parser()：无参数的构造方法。

　　　　　　Parser(String resource)：根据String参数构建对象，这个参数可以是URL或者本地文件的路径。

　　　　　　Parser(URLConnection connection)：根据一个URLConnection对象构建对象。

　　　　　　createParser(String html, String charset)：通过路径名创建对象，并且设置编码格式。

　　　　　　elements()：返回这个类的元素节点的迭代器，通过这个迭代器我们遍历页面的节点。

　　　　　　setURL():设置这个Parser类要解析的页面的地址。

　　　　　　parset():根据一个NodeFilter，也就是一个过滤器去获取过滤剩下的页面信息。

　　　　　　visitAllNodeWith(NodeVisitor visitor)：通过一个NodeVisitor去遍历所有的节点。

　　小试牛刀(这个只是简单的使用，具体的类看下面的介绍)：

    @Test

    public void testVisitAllNodeWith() throws Exception {

        Parser parser = new Parser();

        parser.setURL("http://www.google.cn");

        parser.setEncoding(parser.getEncoding());

        NodeVisitor visitor = new NodeVisitor() {

            public void visitTag(Tag tag) {

                System.out.println("*************************");

                System.out.println(tag.getTagName());

                System.out.println("*************************");

            }

        };

        parser.visitAllNodesWith(visitor);

    }

    @Test

    public void testElements() throws Exception {

        Parser parser = new Parser();

        parser.setURL("http://www.google.cn");

        parser.setEncoding(parser.getEncoding());

        NodeIterator iterator = parser.elements();

        while(iterator.hasMoreNodes()) {

            Node node = iterator.nextNode();

            System.out.println("*************************");

            System.out.println(node.getText());

            System.out.println("*************************");

        }

    }

　　　　Node接口：这个接口就好像定义了一颗树来表示一个HTML页面，定义获取父子兄弟节点的方法，定义了节点到对应节点的html文本的方法，从上面的图中我们看到有AbstractNode这个类，这个是Node的实现类，起到形成树形结构的作用，在HTML页面中有三种类型的Node，RemarkNode代表html中的注释，TagNode代表标签节点，TextNode代表文本节点。

　　　　　　getChildren()：获取子节点，返回一个NodeList对象。

　　　　　　getFirstChildren():获取第一个子节点，返回一个Node对象。

　　　　　　getLastChildren()：获取最后一个子节点，返回一个Node对象。

　　　　　　getPreviousSibling()：获取前一个兄弟节点。

　　　　　　getNextSibling():获取后一个兄弟节点。

　　　　　　getParent():获取父节点。

　　　　　　getText():获得文本内容。

　　　　　　toPlainTextString():获取纯文本信息。

　　　　　　toHtml():获取Html信息。

　　　　　　accept(NodeVisitor visitor):对这个node应用visitor。

为了方法大家观看，还是自己写一个Html，然后练练方法：

node.html

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<html>

    <head>

        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

        <title>Title Node</title>

    </head>

    <body>

        <!-- remark -->

        <h1>H1 Node</h1>

        <div id="d1">

            <div id="d2">

                <a>Div Node</a>

            </div>

        </div>

    </body>

</html>

测试方法：

    @Test

    public void testNode() throws Exception {

        Parser parser = new Parser();

        parser.setURL("src/node.html");

        parser.setEncoding(parser.getEncoding());

        NodeIterator iterator = parser.elements();

        while(iterator.hasMoreNodes()) {

            Node node = iterator.nextNode();

            System.out.println("*************************");

            System.out.println("Text:" + node.getText());

            System.out.println("PlainText:" + node.toPlainTextString());

            System.out.println("ToHtml:" + node.toHtml());

            System.out.println("*************************");

        }

    }

　　　　Remark接口：这个接口代表了注释。实现类有RemarkNode，这个类代表了注释节点。

　　　　　　getText():获取文本。

　　　　　　setText():设置文本。

　　　　Tag接口：这个接口就代表了Html页面的标签，实现类有TagNode，就是标签节点。

　　　　　　getAttribute(String name)：根据name拿到该标签的属性，当然有对应的setAttribute方法。

　　　　　　getTagName():拿到这个标签的名字。

　　　　　　toTagHtml():返回这个标签的html。

　　　　Text接口：这个接口代表Html的文本，实现类有TextNode，就是文本节点。

　　　　　　getText():拿到文本值。

　　　　　　setText():设置文本值。

　　　　NodeFilter接口：这个接口定义的是过滤器，通过各种各样的过滤器可以筛选出特定的节点，具体的应用看下面的org.htmlparser.filters包下的类的应用，

　　　　　　accept(Node node)：这个方法的返回值是boolean，方法的作用就是判断要不要保留这个节点。

　　在org.htmlparser.visitors包下，有一个很重要的类NodeVisitor，下面讲解一下：

　　　　NodeVisitor类：通过这个visitor我们可以遍历树的每一个节点，对于一个符合条件的节点，我们还可以进行适当的处理。

　　　　　　visitRemarkNode(Remark remark):访问remark类型的节点，通过重写这个方法可以实现对这个remark类型节点的特定操作。

　　　　　　visitStringNode(Text text)：访问Text类型的节点，通过重写这个方法可以实现对这个Text类型节点的特定操作。

　　　　　　visitTag(Tag tag)：访问Tag类型的节点，通过重写这个方法可以实现对这个Tag类型节点的特定操作。

小试牛刀：

public class MyVisitor extends NodeVisitor{

    public MyVisitor() {

    }

    public void visitTag(Tag tag) {

        if(tag.getTagName().equals("BODY"))

            System.out.println("**********body**************");

        System.out.println("TagName:" + tag.getTagName());

    }

    public void visitStringNode(Text text) {

        System.out.println("text" + text.getText());

    }

    public static void main(String[] args) throws Exception{

        Parser parser = new Parser("src/node.html");

        MyVisitor visitor = new MyVisitor();

        parser.visitAllNodesWith(visitor);

    }

}

　　在org.htmlparset.filters包下，有着很多过滤器，每个过滤器类都有自己特定的作用：

　　　　判断类Filter：

　　　　　　TagNameFilter

　　　　　　HasAttributeFilter

　　　　　　HasChildFilter

　　　　　　HasParentFilter

　　　　　　HasSiblingFilter

　　　　　　IsEqualFilter

　　　　逻辑运算Filter：

　　　　　　AndFilter

　　　　　　NotFilter

　　　　　　OrFilter

　　　　　　XorFilter

　　　　其他Filter：

　　　　　　NodeClassFilter

　　　　　　StringFilter

　　　　　　LinkStringFilter

　　　　　　LinkRegexFilter

　　　　　　RegexFilter

　　　　　　CssSelectorNodeFilter

下面是一个关于TagNameFilter的小试牛刀：

    @Test

    public void testTagNameFilter() throws Exception{

        Parser parser = new Parser("src/node.html");

        NodeFilter filter = new TagNameFilter("DIV");

        NodeList nodeList = parser.extractAllNodesThatMatch(filter);

        if(nodeList != null) {

            for(int i = 0; i < nodeList.size(); i++) {

                Node node = nodeList.elementAt(i);

                System.out.println("Text:" + node.getText());

                System.out.println("****************************");

            }

        }

    }

HtmlParser的使用-爬虫学习（三）的更多相关文章

Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
day48-python爬虫学习三
Python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能.他们两个最显着的差异如下: urllib2可以接受一个Request对象,并以此可以来设置一个URL的h ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
scrapy爬虫学习系列三：scrapy部署到scrapyhub上
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
爬虫学习之基于Scrapy的爬虫自动登录
###概述在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取.我们对网络爬虫有了一个比较初级的认识,只要发起请求获 ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

随机推荐

js日期操作
1.最基本的日期操作 var mydate = new Date(); set/get FullYear,Month,Date,Hour,Minutes,Second可以随意拼接 toLocale ...
java 服务治理办法
在大规模服务化之前.应用可能仅仅是通过RMI或Hessian等工具.简单的暴露和引用远程服务,通过配置服务的URL地址进行调用.通过F5等硬件进行负载均衡. (1) 当服务越来越多时.服务URL配置管 ...
BZOJ 1004 HNOI2008 Cards Burnside引理
标题效果:特定n张卡m换人,编号寻求等价类数据保证这m换人加上置换群置换后本身构成 BZOJ坑爹0.0 条件不那么重要出来尼玛怎么做 Burnside引理--昨晚为了做这题硬啃了一晚上白书0.0 都 ...
ocp11g培训内部教材_051课堂笔记(047)_SQL
OCP 051课堂笔记目录 OCP 051课堂笔记... 1 第一章.Oracle命令类别:... 4 第二章.SQL的基本函数... 4 2.1 单行函数与多行函数... 4 2.2 单行函数的几 ...
浅谈JavaScript中继承的实现
谈到js中的面向对象编程,都有一个共同点,选择原型属性还是构造函数,两者各有利弊,而就片面的从js的对象创建以及继承的实现两个方面来说,官方所推荐的是两个相结合,各尽其责,各取其长,在前面的例子中,我 ...
《剑指offer》相应在线测试地址
<剑指Offer>面试题集收录汇总面试题1 赋值运算符函数不适合在线模式面试题2 实现Singleton模式不适合在线模式面试题3 二维数组中的查找已收录面试题4 替换空格 ...
csu 1503: 点弧之间的距离-湖南省第十届大学生计算机程序设计大赛
这是--比量p并用交点连接中心不上弧.在于:它至p距离.是不是p与端点之间的最短距离 #include<iostream> #include<map> #include< ...
android屏蔽home键的实现
Android中,网上很多屏蔽Home键都智能在4.0以下运行,在4.0以及以上运行直接崩溃. 需要这样更改(来源:http://androidmaster.iteye.com/): @Overrid ...
饼干怪兽和APT攻击
APT攻击就像一个孩子,你通过各种方式窃取他们的大脑要拿出饼干,为了防止恶意攻击,过失作为母亲未能发现和防止饼干盗窃贼如.于她仅仅监视厨房椅子.衣柜门或烤箱门的开启.建立起有效防御目标攻击与APT攻击 ...
crm创建和编辑全局选项集
一个选项集就是可包含在一个实体中的某种类型的字段.它定义一组选项.当一个选项集显示在窗口中时,将使用下拉列表控件.当在 Advanced Find 中显示时,则使用选择列表控件.有时,开发者将选项集称 ...

HtmlParser的使用-爬虫学习（三）

HtmlParser的使用-爬虫学习（三）的更多相关文章

随机推荐

热门专题