HtmlParser

HtmlParser 基本类库使用

HtmlParser 提供了强大的类库来处理 Internet 上的网页，可以实现对网页特定内容的提取和修改。下面通过几个例子来介绍 HtmlParser 的一些使用。这些例子其中的代码，有部分用在了后面介绍的简易爬虫中。以下所有的代码和方法都在在类 HtmlParser.Test.java 里，这是笔者编写的一个用来测试 HtmlParser 用法的类。

迭代遍历网页所有节点

网页是一个半结构化的嵌套文本文件，有类似 XML 文件的树形嵌套结构。使用HtmlParser 可以让我们轻易的迭代遍历网页的所有节点。清单 1 展示了如何来实现这个功能。

清单 1

// 循环访问所有节点，输出包含关键字的值节点

	public static void extractKeyWordText(String url, String keyword) {

		try {

            //生成一个解析器对象，用网页的 url 作为参数

			Parser parser = new Parser(url);

			//设置网页的编码,这里只是请求了一个 gb2312 编码网页

			parser.setEncoding("gb2312");

			//迭代所有节点, null 表示不使用 NodeFilter

			NodeList list = parser.parse(null);

            //从初始的节点列表跌倒所有的节点

			processNodeList(list, keyword);

		} catch (ParserException e) {

			e.printStackTrace();

		}

	}

	private static void processNodeList(NodeList list, String keyword) {

		//迭代开始

		SimpleNodeIterator iterator = list.elements();

		while (iterator.hasMoreNodes()) {

			Node node = iterator.nextNode();

			//得到该节点的子节点列表

			NodeList childList = node.getChildren();

			//孩子节点为空，说明是值节点

			if (null == childList)

			{

				//得到值节点的值

				String result = node.toPlainTextString();

				//若包含关键字，则简单打印出来文本

				if (result.indexOf(keyword) != -1)

					System.out.println(result);

			} //end if

			//孩子节点不为空，继续迭代该孩子节点

			else

			{

				processNodeList(childList, keyword);

			}//end else

		}//end wile

	}

上面的中有两个方法：

private static void processNodeList(NodeList list, String keyword)

该方法是用类似深度优先的方法来迭代遍历整个网页节点，将那些包含了某个关键字的值节点的值打印出来。

public static void extractKeyWordText(String url, String keyword)

该方法生成针对 String 类型的 url 变量代表的某个特定网页的解析器，调用 1中的方法实现简单的遍历。

清单 1 的代码展示了如何迭代所有的网页，更多的工作可以在此基础上展开。比如找到某个特定的网页内部节点，其实就可以在遍历所有的节点基础上来判断，看被迭代的节点是否满足特定的需要。

使用 NodeFilter

NodeFilter 是一个接口，任何一个自定义的 Filter 都需要实现这个接口中的 boolean accept() 方法。如果希望迭代网页节点的时候保留当前节点，则在节点条件满足的情况下返回 true；否则返回 false。HtmlParse 里提供了很多实现了 NodeFilter 接口的类，下面就一些笔者所用到的，以及常用的 Filter 做一些介绍：

对 Filter 做逻辑操作的 Fitler 有：AndFilter，NotFilter ，OrFilter，XorFilter。

这些 Filter 来组合不同的 Filter，形成满足两个 Filter 逻辑关系结果的 Filter。

判断节点的孩子，兄弟，以及父亲节点情况的 Filter 有：HasChildFilter HasParentFilter，HasSiblingFilter。
判断节点本身情况的 Filter 有 HasAttributeFilter：判读节点是否有特定属性；LinkStringFilter：判断节点是否是具有特定模式 (pattern) url 的节点；

TagNameFilter：判断节点是否具有特定的名字；NodeClassFilter：判读节点是否是某个 HtmlParser 定义好的 Tag 类型。在 org.htmlparser.tags 包下有对应 Html标签的各种 Tag，例如 LinkTag，ImgeTag 等。

还有其他的一些 Filter 在这里不一一列举了，可以在 org.htmlparser.filters 下找到。

清单 2 展示了如何使用上面提到过的一些 filter 来抽取网页中的 <a> 标签里的 href属性值，<img> 标签里的 src 属性值，以及 <frame> 标签里的 src 的属性值。

清单2

// 获取一个网页上所有的链接和图片链接

	public static void extracLinks(String url) {

		try {

			Parser parser = new Parser(url);

			parser.setEncoding("gb2312");

//过滤 <frame> 标签的 filter，用来提取 frame 标签里的 src 属性所、表示的链接

			NodeFilter frameFilter = new NodeFilter() {

				public boolean accept(Node node) {

					if (node.getText().startsWith("frame src=")) {

						return true;

					} else {

						return false;

					}

				}

			};

//OrFilter 来设置过滤 <a> 标签，<img> 标签和 <frame> 标签，三个标签是 or 的关系

	 OrFilte rorFilter = new OrFilter(new NodeClassFilter(LinkTag.class), new

NodeClassFilter(ImageTag.class));

	 OrFilter linkFilter = new OrFilter(orFilter, frameFilter);

	//得到所有经过过滤的标签

	NodeList list = parser.extractAllNodesThatMatch(linkFilter);

	for (int i = 0; i < list.size(); i++) {

		Node tag = list.elementAt(i);

		if (tag instanceof LinkTag)//<a> 标签

		{

			LinkTag link = (LinkTag) tag;

			String linkUrl = link.getLink();//url

			String text = link.getLinkText();//链接文字

			System.out.println(linkUrl + "**********" + text);

		}

		else if (tag instanceof ImageTag)//<img> 标签

		{

			ImageTag image = (ImageTag) list.elementAt(i);

			System.out.print(image.getImageURL() + "********");//图片地址

			System.out.println(image.getText());//图片文字

		}

		else//<frame> 标签

		{

//提取 frame 里 src 属性的链接如 <frame src="test.html"/>

			String frame = tag.getText();

			int start = frame.indexOf("src=");

			frame = frame.substring(start);

			int end = frame.indexOf(" ");

			if (end == -1)

				end = frame.indexOf(">");

			frame = frame.substring(5, end - 1);

			System.out.println(frame);

		}

	}

} catch (ParserException e) {

			e.printStackTrace();

}

}

简单强大的 StringBean

如果你想要网页中去掉所有的标签后剩下的文本，那就是用 StringBean 吧。以下简单的代码可以帮你解决这样的问题：

清单3

StringBean sb = new StringBean();

sb.setLinks(false);//设置结果中去点链接

sb.setURL(url);//设置你所需要滤掉网页标签的页面 url

System.out.println(sb.getStrings());//打印结果

HtmlParser 提供了强大的类库来处理网页。

HtmlParser的更多相关文章

HttpClient 与 HtmlParser 简介转载
转载地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ 本小结简单的介绍一下 HttpClinet 和 HtmlPar ...
HTMLParser使用
htmlparser[1] 是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或提取html.它能超高速解析html,而且不会出错.现 ...
python--爬虫入门（八）体验HTMLParser解析网页，网页抓取解析整合练习
python系列均基于python3.4环境基本概念 html.parser的核心是HTMLParser类.工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法 ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
爬虫技术 -- 基础学习（四）HtmlParser基本认识
利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容. 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析H ...
Delphi7的HtmlParser使用方法
uses HtmlParser procedure TForm4.Button1Click(Sender: TObject); var FNodes:IHtmlElement; aString:str ...
读代码之htmlParser
在以前使用HtmlParser时,并未考虑过遇到org.htmlparser.tags之外的Tag怎么处理.直到碰到这样的一个标签,如果不加处理,HtmlParser无法对其进行处理.查阅自定义标签之 ...
黄聪：C#解析HTML DOM解析类 HtmlParser.Net 下载
下载地址:HtmlParser.Net.rar 帮助文档:htmlparser.rar 背景: HTMLParser原本是一个在sourceforge上的一个Java开源项目,使用这个Java类库可以 ...
HtmlParser + HttpClient 实现爬虫
简易爬虫的实现 HttpClient 提供了便利的 HTTP 协议访问,使得我们可以很容易的得到某个网页的源码并保存在本地:HtmlParser 提供了如此简便灵巧的类库,可以从网页中便捷的提取出指向 ...

随机推荐

squid代理服务器搭建及配置
系统环境:CentOS release 6.5 (Final)(最小化安装) 一.安装squid # yum -y install squid 二.编辑配置文件(正向代理) # vim /etc/sq ...
由登录服务器时ulimit配置报错，也谈下ulimit配置
最近在登录开发机时,有报错如下: -bash: cannot modify limit: Operation not permitted 一定是哪个地方有ulimit设置,想想看,用户登录或用户su命 ...
服务器启用 FTP
通常使用 vsftpd 作为FTP服务器. 安装 vsftpd: 1.以管理员(root)身份执行以下命令 yum install vsftpd 2.设置开机启动 vsftpd ftp 服务 chkc ...
java的nio之：java的nio系列教程之SocketChannel
Java NIO中的SocketChannel是一个连接到TCP网络套接字的通道.可以通过以下2种方式创建SocketChannel: 打开一个SocketChannel并连接到互联网上的某台服务器. ...
javascript面向对象规则汇总以及json
javascript中一切皆对象,而且定义非常灵活, 于是出现了一些相对其他编程语言环境下匪夷所思的代码: ---------------------------------------------- ...
HTTPS-透彻学习汇总
SSL和SSH和OpenSSH,OpenSSL有什么区别一.SSL的作用不使用SSL/TLS的HTTP通信,就是不加密的通信.所有信息明文传播,带来了三大风险. 窃听风险(eavesdroppin ...
利用C#Marshal类实现托管和非托管的相互转换
Marshal 类命名空间:System.Runtime.InteropServices 提供了一个方法集,这些方法用于分配非托管内存.复制非托管内存块.将托管类型转换为非托管类型,此外还提供了在与 ...
$.ajax提交,后台接受到的值总是乱码？明天再总结
//首先说明,我的服务器和页面编码都是GBK,所以尝试了很多种GBK的方式前台:function printFunction(){ window.print(); $.ajax({ url : '/t ...
int(M)与int
int(M) ,加上zerofill后M才表现出有点效果,比如 int(3) zerofill,你插入到数据库里的是10,则实际插入为010,也就是在前面补充加了一个0.如果int(3)和int(10 ...
在easyui datagrid中formatter数据后使用linkbutton
http://ntzrj513.blog.163.com/blog/static/2794561220139245411997/ formatter:function(value,rowData,ro ...

HtmlParser

HtmlParser 基本类库使用

清单 1

清单2

HtmlParser的更多相关文章

随机推荐

热门专题