【爬虫】通用抽取网页URL

package model;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.util.HashSet;

import java.util.Set;

import org.apache.log4j.Logger;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.OrFilter;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

/**
*author:zeze
**/

public class HtmlParserTool {

	private static Logger logger = Logger.getLogger(HtmlParserTool.class);

	public Set<String> extracLinksByBody(String body,String url,LinkFilter filter,String enCode) {

		String host = getHost(url);

		Set<String> links = new HashSet<String>();

		try {

			//Parser parser = new Parser(url);

			Parser parser = null;

			try {

				//parser = Parser.createParser(body, enCode);

				parser = new Parser();

				parser.setInputHTML(body);

				parser.setEncoding(enCode);

			} catch (NullPointerException e) {

				parser=null;

				logger.error(e);

			}

			//parser.setEncoding("utf-8");

			// 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接

			NodeFilter frameFilter = new NodeFilter() {

				public boolean accept(Node node) {

					if (node.getText().startsWith("frame src=")) {

						return true;

					} else {

						return false;

					}

				}

			};

			// OrFilter 来设置过滤 <a> 标签，和 <frame> 标签

			OrFilter linkFilter = new OrFilter(new NodeClassFilter(

					LinkTag.class), frameFilter);

			// 得到所有经过过滤的标签

			NodeList list = parser.extractAllNodesThatMatch(linkFilter);

			for (int i = 0; i < list.size(); i++) {

				Node tag = list.elementAt(i);

				if (tag instanceof LinkTag)// <a> 标签

				{

					LinkTag link = (LinkTag) tag;

					String linkUrl = link.getLink();// url

					//String title = link.getStringText();

					String title = link.getLinkText();

					title = title.trim();

					if(!linkUrl.startsWith("http://") && !linkUrl.startsWith("https://") ) {

						if(linkUrl.startsWith("/")){

							linkUrl = host+linkUrl;

						}else {

							linkUrl = host+ "/" + linkUrl;

						}

					}

					if(filter.accept(linkUrl))

						links.add(linkUrl);

				} else// <frame> 标签

				{

		        // 提取 frame 里 src 属性的链接如 <frame src="test.html"/>

					String frame = tag.getText();

					int start = frame.indexOf("src=");

					frame = frame.substring(start);

					int end = frame.indexOf(" ");

					if (end == -1)

						end = frame.indexOf(">");

					String frameUrl = frame.substring(5, end - 1);

					if(filter.accept(frameUrl))

						links.add(frameUrl);

				}

			}

			parser=null;

		} catch (ParserException e) {

			//e.printStackTrace();

			logger.error(e);

		}

		return links;

	}

	private String getHost(String url) {

		int flag = -1;

		if(url.startsWith("http://")) {

			url = url.replace("http://", "");

			flag = 0;

		}

		if(url.startsWith("https://")) {

			url = url.replace("https://", "");

			flag = 1;

		}

		String host = "";

		int index = url.indexOf("/");

		if(index==-1) {

			host = url;

		} else {

			host = url.substring(0,index);

		}

		String addString = flag==1?"https://":"http://";

		host = addString + host;

		return host;

	}

	public static String readTxtFile(String filePath,String enCode){

		String body="";

        try {

                String encoding=enCode;

                File file=new File(filePath);

                if(file.isFile() && file.exists()){ //判断文件是否存在

                    InputStreamReader read = new InputStreamReader(

                    new FileInputStream(file),encoding);//考虑到编码格式

                    BufferedReader bufferedReader = new BufferedReader(read);

                    String lineTxt = null;

                    while((lineTxt = bufferedReader.readLine()) != null){

                        //System.out.println(lineTxt);

                        body+=lineTxt;

                    }

                    read.close();

        }else{

            System.out.println("找不到指定的文件");

        }

        } catch (Exception e) {

            System.out.println("读取文件内容出错");

            e.printStackTrace();

        }

        return body;

    }

	public static void main(String[] args) {

		// TODO 自动生成的方法存根

		String startUrl = "http://weibo.cn";

		String body ="";

		HtmlParserTool htmlparser = new HtmlParserTool();

		body=readTxtFile("6.html","ISO8859-1");

		System.out.println(body);

		/*String LongtextUrl="";

		System.out.println("var url = \"http://weibo.com");

		int indexOfLongtextUrlStringStart=body.indexOf("var url = \"http://weibo.com");

		int indexOfLongtextUrlStringEnd=-1;

		if( indexOfLongtextUrlStringStart>=0)

		{

			indexOfLongtextUrlStringEnd=body.indexOf("\";",indexOfLongtextUrlStringStart);

			if(indexOfLongtextUrlStringEnd>=0)

			{

				LongtextUrl=body.substring(indexOfLongtextUrlStringStart, indexOfLongtextUrlStringEnd);

			}

		}

		System.out.println(LongtextUrl);

		LongtextUrl=LongtextUrl.replaceAll("var url = \"", "");

		System.out.println(LongtextUrl);*/

		/*Set<String> links = htmlparser.extracLinksByBody(body,startUrl,new LinkFilter()

		{

			//提取以 http://www.twt.edu.cn 开头的链接

			public boolean accept(String url) {

				//if(url.startsWith("http://www.sina.com.cn/"))

					return true;

				//else

					//return false;

			}

		},"utf-8");

		for(String link : links)

			System.out.println(link);*/

	}

}

【爬虫】通用抽取网页URL的更多相关文章

PHP实现简单爬虫-抓取网页url
<?php /** * 爬虫程序 -- 原型 * * 从给定的url获取html内容 * * @param string $url * @return string */ function _g ...
新闻网页通用抽取器GNEv0.04版更新，支持提取正文图片与源代码
GeneralNewsExtractor以下简称GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来. 我们来看一下它的基本使用方法. 安装 GNE 使用 pip ...
（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息
Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...
爬虫_网页url设计
为什么需要网页URL设计? 每个url不同的结构代表着不同的网页模块和信息的展现形式,为了方便维护与管理网页url怎么设计? 分层: 主域名,子域名一般形式为: 主域名: www.job.com ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
python抽取指定url页面的title方法
python抽取指定url页面的title方法今天简单使用了一下python的re模块和lxml模块,分别利用的它们提供的正则表达式和xpath来解析页面源码从中提取所需的title,xpath在完 ...
JavaScript如何获取网页url中的参数
我们可以自定义一个公共函数来实现网页url中的参数获取,返回的是一个数组 GetUrlRequest: function () { var url = decodeURI(location.searc ...
获取网页URL地址及参数等的两种方法(js和C#)
转:获取网页URL地址及参数等的两种方法(js和C#) 一 js 先看一个示例用javascript获取url网址信息 <script type="text/javascript&q ...
可操纵网页URL地址的js插件-url.js
url.js是一款能够很有用方便的操纵网页URL地址的js插件.通过url.js你能够设置和获取当前URL的參数,也能够对当前URL的參数进行更新.删除操作.还能够将当前URL的參数显示为json字符 ...

随机推荐

APP缓存数据线程安全问题
问题一般一个 iOS APP 做的事就是:请求数据->保存数据->展示数据,一般用 Sqlite 作为持久存储层,保存从网络拉取的数据,下次读取可以直接从 Sqlite DB 读取.我们 ...
block（四）揭开神秘面纱（下）-b
看此篇时,请大家同时打开两个网址(或者下载它们到本地然后打开): http://llvm.org/svn/llvm-project/compiler-rt/trunk/lib/BlocksRuntim ...
Kubernetes(k8s) docker集群搭建
原文地址:https://blog.csdn.net/real_myth/article/details/78719244 一.Kubernetes系列之介绍篇 •Kubernetes介绍 1.背 ...
notepad++ 语法高亮
1. notepad++ 添加新语言语法高亮和加载插件用notepad++已经很久了,很习惯用这个小东西做事情,简单方便,超实用的一款工具. 先说说在呢么添加对新的编程语言的支持吧, 添加新语言语法 ...
Python读文本文件
file_object = open('thefile.txt') try: all_the_text = file_object.read() finally: file_object.close( ...
Aborted connection 1055898 to db: 'xxx' user: 'yyy' host: 'xxx.xxx.xxx.xxx' (Got timeout reading communication packets)
mysql错误日志中,发现大量以下类似信息:(mysql 5.7.18) [Note] Aborted connection 1055898 to db: 'xxx' user: 'yyy' host ...
ASTER：An Attentional Scene Text Recognizer with Flexible Rectification
代码链接:https://github.com/bgshih/aster 方法概述本文方法主要解决不规则排列文字的文字识别问题,论文为之前一篇CVPR206的paper(Robust Scene T ...
并发测试 JavaDemo
https://github.com/oldratlee/fucking-java-concurrency /** * @author Jerry Lee */ public class Testee ...
网页端，JSON导成CSV文件
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
[CTCI] 双栈排序
双栈排序题目描述请编写一个程序,按升序对栈进行排序(即最大元素位于栈顶),要求最多只能使用一个额外的栈存放临时数据,但不得将元素复制到别的数据结构中. 给定一个int[] numbers(C++中 ...

【爬虫】通用抽取网页URL

【爬虫】通用抽取网页URL的更多相关文章

随机推荐

热门专题