【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接

关于HtmpParser的基本内容请见 HtmlParser基础教程

本文示例用于提取HTML文件中的链接

package org.ljh.search.html;

import java.util.HashSet;

import java.util.Set;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.OrFilter;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

//本类创建用于HTML文件解释工具

public class HtmlParserTool {

	// 本方法用于提取某个html文档中内嵌的链接

	public static Set<String> extractLinks(String url, LinkFilter filter) {

		Set<String> links = new HashSet<String>();

		try {

			// 1、构造一个Parser，并设置相关的属性

			Parser parser = new Parser(url);

			parser.setEncoding("gb2312");

			// 2.1、自定义一个Filter，用于过滤<Frame >标签，然后取得标签中的src属性值

			NodeFilter frameNodeFilter = new NodeFilter() {

				@Override

				public boolean accept(Node node) {

					if (node.getText().startsWith("frame src=")) {

						return true;

					} else {

						return false;

					}

				}

			};

			//2.2、创建第二个Filter，过滤<a>标签

			NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);

			//2.3、净土上述2个Filter形成一个组合逻辑Filter。

			OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);

			//3、使用parser根据filter来取得所有符合条件的节点

			NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);

			//4、对取得的Node进行处理

			for(int i = 0; i<nodeList.size();i++){

				Node node = nodeList.elementAt(i);

				String linkURL = "";

				//如果链接类型为<a />

				if(node instanceof LinkTag){

					LinkTag link = (LinkTag)node;

					linkURL= link.getLink();

				}else{

					//如果类型为<frame />

					String nodeText = node.getText();

					int beginPosition = nodeText.indexOf("src=");

					nodeText = nodeText.substring(beginPosition);

					int endPosition = nodeText.indexOf(" ");

					if(endPosition == -1){

						endPosition = nodeText.indexOf(">");

					}

					linkURL = nodeText.substring(5, endPosition - 1);

				}

				//判断是否属于本次搜索范围的url

				if(filter.accept(linkURL)){

					links.add(linkURL);

				}

			}

		} catch (ParserException e) {

			e.printStackTrace();

		}

		return links;

	}

}

程序中的一些说明：

（1）通过Node#getText()取得节点的String。

（2）node instanceof TagLink，即<a/>节点，其它还有很多的类似节点，如tableTag等，基本上每个常见的html标签均会对应一个tag。官方文档说明如下：

org.htmlparser.nodes	The nodes package has the concrete node implementations.
org.htmlparser.tags	The tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

其中用到的LinkFilter接口定义如下：

package org.ljh.search.html;

//本接口所定义的过滤器，用于判断url是否属于本次搜索范围。

public interface LinkFilter {

	public boolean accept(String url);

}

测试程序如下：

package org.ljh.search.html;

import java.util.Iterator;

import java.util.Set;

import org.junit.Test;

public class HtmlParserToolTest {

	@Test

	public void testExtractLinks() {

		String url = "http://www.baidu.com";

		LinkFilter linkFilter = new LinkFilter(){

			@Override

			public boolean accept(String url) {

				if(url.contains("baidu")){

					return true;

				}else{

					return false;

				}

			}

		};

		Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);

		Iterator<String> it = urlSet.iterator();

		while(it.hasNext()){

			System.out.println(it.next());

		}

	}

}

输出结果如下：

http://www.hao123.com

http://www.baidu.com/

http://www.baidu.com/duty/

http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=

http://music.baidu.com

http://ir.baidu.com

http://www.baidu.com/gaoji/preferences.html

http://news.baidu.com

http://map.baidu.com

http://music.baidu.com/search?fr=ps&key=

http://image.baidu.com

http://zhidao.baidu.com

http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=

http://www.baidu.com/more/

http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w

http://wenku.baidu.com

http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=

https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://www.baidu.com/cache/sethelp/index.html

http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt

http://tieba.baidu.com/f?kw=&fr=wwwt

http://home.baidu.com

https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://v.baidu.com

http://e.baidu.com/?refer=888

;

http://tieba.baidu.com

http://baike.baidu.com

http://wenku.baidu.com/search?word=&lm=0&od=0

http://top.baidu.com

http://map.baidu.com/m?word=&fr=ps01000

【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接的更多相关文章

【搜索引擎Jediael开发笔记】v0.1完整代码
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:<这就是搜索引擎><自己动手写网络爬虫><解密搜索引擎打桩实践> (2)[搜索引擎基础知识1]搜索引擎的技术架构 (3)[搜索引擎基础知识2 ...
【搜索引擎Jediael开发笔记】v0.1完整代码 2014-05-26 15:17 463人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记】V0.1完整代码 2014-05-26 15:16 443人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块
Extractor的工作是从下载的网页中将它包含的所有URL提取出来.这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换 ...
【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
本文使用HttpClient根据url进行网页下载.其中 (1)HttpClient的相关知识请参见HttpClient基础教程 (2) package org.ljh.search.download ...
python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
【搜索引擎Jediael开发4】V0.01完整代码
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...

随机推荐

10--动作系统（四）动作类中的reverse方法
上一篇文章在使用持续动作过程中遇到不少问题,以获取动作类的反系动作尤为突出.所以今天把动作类找了个遍,先将大部分动作类是否实现reverse方法总结如下: T表示实现F表示没有实现. 观察可以发现带T ...
python计算机视觉2：图像边缘检测
我是一名初学者,如果你发现文中有错误,请留言告诉我,谢谢如果需要检测到图像里面的边缘,首先我们需要知道边缘处具有什么特征. 对于一幅灰度图像来说,边缘两边的灰度值肯定不相同,这样我们才能分辨出哪里是 ...
php 解决乱码的通用方法
一,出现乱码的原因分析 1,保存文件时候,文件有自己的文件编码,就是汉字,或者其他国语言,以什么编码来存储 2,输出的时候,要给内容指定编码,如以网页的形势输入时<meta http-equiv ...
HttpApplication中的异步线程
一.Asp.net中的线程池设置在Asp.net的服务处理中,每当服务器收到一个请求,HttpRuntime将从HttpApplication池中获取一个HttpApplication对象处理此请求 ...
理解*ptr++
这是C语言中指针的基本用法之一,我们先来看一个小例子.下面是代码: int main(void) { char *p = "Hello"; while(*p++) printf(& ...
Gradle+Jetty实现静态资源的热部署
本文转自http://www.cnblogs.com/huang0925/p/3302487.html --------------------------------------- 通过Gradle ...
Zookeeper 3、Zookeeper工作原理（详细）
1.Zookeeper的角色 » 领导者(leader),负责进行投票的发起和决议,更新系统状态 » 学习者(learner),包括跟随者(follower)和观察者(observer),follow ...
Robot Framework 安装AutoItLibrary
1. 下载AutoItLibrary-1.1_x64包,http://code.google.com/p/robotframework-autoitlibrary/ 2. 安装pywin32库,htt ...
性能优化之Hibernate缓存讲解、应用和调优
JavaMelody——一款性能监控.调优工具, 通过它让我觉得项目优化是看得见摸得着的,优化有了针对性.而无论是对于分布式,还是非分布,缓存是提示性能的有效工具. 数据层是EJB3.0实现的,而EJ ...
Sql Server使用正则表达式
近日因项目需求,需要在sql server中用到正则表达式,因Sql Server本身并不支持正则表达式,需要用到Clr函数. 在此记录一下步骤,与大家共享,虽然写的是原创,但有参考网上的文章. 1. ...

【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接

【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接的更多相关文章

随机推荐

热门专题