HtmlParser基础教程分类： C_OHTERS 2014-05-22 11:33 1649人阅读评论(1) 收藏

1、相关资料

官方文档：http://htmlparser.sourceforge.net/samples.html

API：http://htmlparser.sourceforge.net/javadoc/index.html

其它HTML 解释器：jsoup等。由于HtmlParser自2006年以后就再没更新，目前很多人推荐使用jsoup代替它。

2、使用HtmlPaser的关键步骤

（1）通过Parser类创建一个解释器

（2）创建Filter或者Visitor

（3）使用parser根据filter或者visitor来取得所有符合条件的节点

（4）对节点内容进行处理

3、使用Parser的构造函数创建解释器

Parser()

Zero argument constructor.

Parser(Lexer lexer)

Construct a parser using the provided lexer.

Parser(Lexer lexer, ParserFeedback fb)

Construct a parser using the provided lexer and feedback object.

Parser(String resource)

Creates a Parser object with the location of the resource (URL or file).

Parser(String resource, ParserFeedback feedback)

Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in.

Parser(URLConnection connection)

Construct a parser using the provided URLConnection.

Parser(URLConnection connection, ParserFeedback fb)

Constructor for custom HTTP access.

对于大多数使用者来说，使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser，或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单，是针对调试和跟踪分析过程的，一般不需要改变。而使用Lexer则是一个相对比较高级的话题，放到以后再讨论吧。

这里比较有趣的一点是，如果需要设置页面的编码方式的话，不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说，好像这是应该用得比较多的一个方法。

4、HtmlPaser使用Node对象保存各节点信息

（1）访问各个节点的方法

Node getParent ()：取得父节点

NodeList getChildren ()：取得子节点的列表

Node getFirstChild ()：取得第一个子节点

Node getLastChild ()：取得最后一个子节点

Node getPreviousSibling ()：取得前一个兄弟（不好意思，英文是兄弟姐妹，直译太麻烦而且不符合习惯，对不起女同胞了）

Node getNextSibling ()：取得下一个兄弟节点

（2）取得Node内容的函数

String getText ()：取得文本

String toPlainTextString()：取得纯文本信息。

String toHtml () ：取得HTML信息（原始HTML）

String toHtml (boolean verbatim)：取得HTML信息（原始HTML）

String toString ()：取得字符串信息（原始HTML）

Page getPage ()：取得这个Node对应的Page对象

int getStartPosition ()：取得这个Node在HTML页面中的起始位置

int getEndPosition ()：取得这个Node在HTML页面中的结束位置

5、使用Filter访问Node节点及其内容

（1）Filter的种类

顾名思义，Filter就是对于结果进行过滤，取得需要的内容。

所有的Filter均实现了NodeFilter接口，此接口只有一个方法Boolean accept(Node node)，用于确定某个节点是否属于此Filter过滤的范围。

HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。

判断类Filter：

TagNameFilter

HasAttributeFilter

HasChildFilter

HasParentFilter

HasSiblingFilter

IsEqualFilter

逻辑运算Filter：

AndFilter

NotFilter

OrFilter

XorFilter

其他Filter：

NodeClassFilter

StringFilter

LinkStringFilter

LinkRegexFilter

RegexFilter

CssSelectorNodeFilter

除此以外，可以自定义一些Filter，用于完成特殊需求的过滤。

（2）Filter的使用示例

以下示例用于提取HTML文件中的链接

[java] view
plain copy

package org.ljh.search.html;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
//本类创建用于HTML文件解释工具
public class HtmlParserTool {
// 本方法用于提取某个html文档中内嵌的链接
public static Set<String> extractLinks(String url, LinkFilter filter) {
Set<String> links = new HashSet<String>();
try {
// 1、构造一个Parser，并设置相关的属性
Parser parser = new Parser(url);
parser.setEncoding("gb2312");
// 2.1、自定义一个Filter，用于过滤<Frame >标签，然后取得标签中的src属性值
NodeFilter frameNodeFilter = new NodeFilter() {
@Override
public boolean accept(Node node) {
if (node.getText().startsWith("frame src=")) {
return true;
} else {
return false;
}
}
};
//2.2、创建第二个Filter，过滤<a>标签
NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);
//2.3、净土上述2个Filter形成一个组合逻辑Filter。
OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);
//3、使用parser根据filter来取得所有符合条件的节点
NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);
//4、对取得的Node进行处理
for(int i = 0; i<nodeList.size();i++){
Node node = nodeList.elementAt(i);
String linkURL = "";
//如果链接类型为<a />
if(node instanceof LinkTag){
LinkTag link = (LinkTag)node;
linkURL= link.getLink();
}else{
//如果类型为<frame />
String nodeText = node.getText();
int beginPosition = nodeText.indexOf("src=");
nodeText = nodeText.substring(beginPosition);
int endPosition = nodeText.indexOf(" ");
if(endPosition == -1){
endPosition = nodeText.indexOf(">");
}
linkURL = nodeText.substring(5, endPosition - 1);
}
//判断是否属于本次搜索范围的url
if(filter.accept(linkURL)){
links.add(linkURL);
}
}
} catch (ParserException e) {
e.printStackTrace();
}
return links;
}
}

程序中的一些说明：

（1）通过Node#getText()取得节点的String。

（2）node instanceof TagLink，即<a/>节点，其它还有很多的类似节点，如tableTag等，基本上每个常见的html标签均会对应一个tag。官方文档说明如下：

org.htmlparser.nodes	The nodes package has the concrete node implementations.
org.htmlparser.tags	The tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

其中用到的LinkFilter接口定义如下：

[java] view
plain copy

package org.ljh.search.html;
//本接口所定义的过滤器，用于判断url是否属于本次搜索范围。
public interface LinkFilter {
public boolean accept(String url);
}

测试程序如下：

[java] view
plain copy

package org.ljh.search.html;
import java.util.Iterator;
import java.util.Set;
import org.junit.Test;
public class HtmlParserToolTest {
@Test
public void testExtractLinks() {
String url = "http://www.baidu.com";
LinkFilter linkFilter = new LinkFilter(){
@Override
public boolean accept(String url) {
if(url.contains("baidu")){
return true;
}else{
return false;
}
}
};
Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);
Iterator<String> it = urlSet.iterator();
while(it.hasNext()){
System.out.println(it.next());
}
}
}

输出结果如下：

http://www.hao123.com

http://www.baidu.com/

http://www.baidu.com/duty/

http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=

http://music.baidu.com

http://ir.baidu.com

http://www.baidu.com/gaoji/preferences.html

http://news.baidu.com

http://map.baidu.com

http://music.baidu.com/search?fr=ps&key=

http://image.baidu.com

http://zhidao.baidu.com

http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=

http://www.baidu.com/more/

http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w

http://wenku.baidu.com

http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=

https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://www.baidu.com/cache/sethelp/index.html

http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt

http://tieba.baidu.com/f?kw=&fr=wwwt

http://home.baidu.com

https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://v.baidu.com

http://e.baidu.com/?refer=888

;

http://tieba.baidu.com

http://baike.baidu.com

http://wenku.baidu.com/search?word=&lm=0&od=0

http://top.baidu.com

http://map.baidu.com/m?word=&fr=ps01000

HtmlParser基础教程分类： C_OHTERS 2014-05-22 11:33 1649人阅读评论(1) 收藏的更多相关文章

【Solr专题之九】SolrJ教程分类： H4_SOLR/LUCENCE 2014-07-28 14:31 2351人阅读评论(0) 收藏
一.SolrJ基础 1.相关资料 API:http://lucene.apache.org/solr/4_9_0/solr-solrj/ apache_solr_ref_guide_4.9.pdf:C ...
【Lucene4.8教程之二】索引 2014-06-16 11:30 3845人阅读评论(0) 收藏
一.基础内容 0.官方文档说明 (1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates ...
百度编辑器UEditor ASP.NET示例Demo 分类： ASP.NET 2015-01-12 11:18 346人阅读评论(0) 收藏
在百度编辑器示例代码基础上进行了修改,封装成类库,只需简单配置即可使用. 完整demo下载版权声明:本文为博主原创文章,未经博主允许不得转载.
基于命令行编译打包phonegap for android应用分类： Android Phonegap 2015-05-10 10:33 73人阅读评论(0) 收藏
也许你习惯了使用Eclipse编译和打包Android应用.不过,对于使用html5+js开发的phonegap应用,本文建议你抛弃Eclipse,改为使用命令行模式,绝对的快速和方便. 一直以来,E ...
hdu 1050 (preinitilization or postcleansing, std::fill) 分类： hdoj 2015-06-18 11:33 34人阅读评论(0) 收藏
errors, clauses in place, logical ones, should be avoided. #include <cstdio> #include <cstr ...
Least Common Ancestors 分类： ACM TYPE 2014-10-19 11:24 84人阅读评论(0) 收藏
#include <iostream> #include <cstdio> #include <cstring> #include <cmath> #i ...
二分图匹配（KM算法）n^4 分类： ACM TYPE 2014-10-04 11:36 88人阅读评论(0) 收藏
#include <iostream> #include<cstring> #include<cstdio> #include<cmath> #incl ...
Beautiful People 分类： Brush Mode 2014-10-01 14:33 100人阅读评论(0) 收藏
Beautiful People Time Limit: 10000/5000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) ...
Segment Tree with Lazy 分类： ACM TYPE 2014-08-29 11:28 134人阅读评论(0) 收藏
#include<stdio.h> #include<string.h> #include<algorithm> using namespace std; stru ...

随机推荐

BOM 请给javascript一个说法-------Day33
楼市低迷,业主是不是该要个说法.黄金暴跌,谁来给大妈们一个说法.中国足球,敢不敢给大家一个说法. 给个说法,谁给,给谁,这该是哲学的范畴了吧. 可是,在这里.BOM是真真切切的给javascript一 ...
修改android的wifi客户端名称的两种方法
修改android的wifi客户端名称的两种方法手机连接到无线路由时,在dhcp的客户端列表里面是这样的名称"android-89425253e5de3a2",这就是安卓 ...
resource-color 的引用
1.在xml文件中引用 android:textColor="@color/tv_top_title_color" 2.在代码中引用 1)在color.xml中定义 <?xm ...
Vue router的query对象里的值的问题
在使用 $router.push() 时,如果使用了query,则可以在跳转后从query中获取到对应的参数.如果传的是字符串自然没问题,但是如果传的其他类型的数据,在跳转之后是正常的,而跳转之后再刷 ...
解决vmware 和hyper-v不能共存的问题
只需在 Windows 中以管理员身份运行命令提示符 cmd 1.运行 bcdedit /copy {current} /d "Windows 8 (关闭 Hyper-V)"命令, ...
ThinkPHP5.0---静态方法
ThinkPHP5大量的使用了这种可以直接使用::调用的方法,它们有一个很响亮的名字:静态方法.静态方法的引用,大幅提升了程序的运行效率,降低了资源的占用. 静态方法(ASK$ANSWER) 为什么要 ...
SpringMVC,Mybatis,FreeMarker连接mycat示例(一)
首页 > 程序开发 > 软件开发 > Java > 正文 SpringMVC,Mybatis,FreeMarker连接mycat示例(一) 项目结构如图: 首先是各种配置文件, ...
l洛谷 P3926 SAC E#1 - 一道不可做题 Jelly
P3926 SAC E#1 - 一道不可做题 Jelly 题目背景 SOL君(炉石主播)和SOL菌(完美信息教室讲师)是好朋友. 题目描述 SOL君很喜欢吃蒟蒻果冻.而SOL菌也很喜欢蒟蒻果冻. 有一 ...
Binary Search Algorithm
二分查找代码: //============================================================================ // Name : Bin ...
VC中画矩形框 & polyline画多点
搞自动化会经常遇到一个问题就是记录实时的曲线,通常做法是首先将数据保存在一个记事本中,或数据库.使用VB或DELPHI可以直接调用现成的控件画图,只是控制起来不方便.所以使用VC就需要程序来控制.在网 ...

HtmlParser基础教程 分类： C_OHTERS 2014-05-22 11:33 1649人阅读 评论(1) 收藏

HtmlParser基础教程 分类： C_OHTERS 2014-05-22 11:33 1649人阅读 评论(1) 收藏的更多相关文章

随机推荐

热门专题

HtmlParser基础教程分类： C_OHTERS 2014-05-22 11:33 1649人阅读评论(1) 收藏

HtmlParser基础教程分类： C_OHTERS 2014-05-22 11:33 1649人阅读评论(1) 收藏的更多相关文章