多线程实现的Java爬虫程序

以下是一个Java爬虫程序，它能从指定主页开始，按照指定的深度抓取该站点域名下的网页并维护简单索引。

参数：private static int webDepth = 2;//爬虫深度。

主页的深度为1，设置深度后超过该深度的网页不会抓取。 private int intThreadNum = 10;//线程数。开启的线程数。

抓取时也会在程序源文件目录下生成一个report.txt文件记录爬虫的运行情况，并在抓取结束后生成一个fileindex.txt文件维护网页文件索引。

本程序用到了多线程(静态变量和同步)，泛型，文件操作，URL类和连接，Hashtable类关联数组，正则表达式及其相关类。

运行时需使用命令行参数，第一个参数应使用http://开头的有效URL字符串作为爬虫的主页，第二个参数（可选）应输入可转换为int型的字符串（用 Integer.parseInt(String s)静态方法可以转换的字符串，如3）作为爬虫深度，如果没有，则默认深度为2。

本程序的不足之处是：只考虑了href= href=' href="后加绝对url的这三种情况(由于url地址在网页源文件中情况比较复杂，有时处理也会出现错误)，还有相对url和 window.open('的情况没有考虑。异常处理程序也只是简单处理。如果读者有改进办法可以把源代码帖出，不胜感激。

附上源代码如下（保存名为GetWeb.java）：

import java.io.File;

import java.io.BufferedReader;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.io.PrintWriter;

import java.net.URL;

import java.net.URLConnection;

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import java.util.Hashtable;

public class GetWeb {

	private int webDepth = 2;// 爬虫深度

	private int intThreadNum = 10;// 线程数

	private String strHomePage = "";// 主页地址

	private String myDomain;// 域名

	private String fPath = "web";// 储存网页文件的目录名

	private ArrayList<String> arrUrls = new ArrayList<String>();// 存储未处理URL

	private ArrayList<String> arrUrl = new ArrayList<String>();// 存储所有URL供建立索引

	private Hashtable<String, Integer> allUrls = new Hashtable<String, Integer>();// 存储所有URL的网页号

	private Hashtable<String, Integer> deepUrls = new Hashtable<String, Integer>();// 存储所有URL深度

	private int intWebIndex = 0;// 网页对应文件下标，从0开始

	private String charset = "GB2312";

	private String report = "";

	private long startTime;

	private int webSuccessed = 0;

	private int webFailed = 0;

	public GetWeb(String s) {

		this.strHomePage = s;

	}

	public GetWeb(String s, int i) {

		this.strHomePage = s;

		this.webDepth = i;

	}

	public synchronized void addWebSuccessed() {

		webSuccessed++;

	}

	public synchronized void addWebFailed() {

		webFailed++;

	}

	public synchronized void addReport(String s) {

		try {

			report += s;

			PrintWriter pwReport = new PrintWriter(new FileOutputStream(

					"report.txt"));

			pwReport.println(report);

			pwReport.close();

		} catch (Exception e) {

			System.out.println("生成报告文件失败!");

		}

	}

	public synchronized String getAUrl() {

		String tmpAUrl = arrUrls.get(0);

		arrUrls.remove(0);

		return tmpAUrl;

	}

	public synchronized String getUrl() {

		String tmpUrl = arrUrl.get(0);

		arrUrl.remove(0);

		return tmpUrl;

	}

	public synchronized Integer getIntWebIndex() {

		intWebIndex++;

		return intWebIndex;

	}

	/**

	 * @param args

	 */

	public static void main(String[] args) {

		if (args.length == 0 || args[0].equals("")) {

			System.out.println("No input!");

			System.exit(1);

		} else if (args.length == 1) {

			GetWeb gw = new GetWeb(args[0]);

			gw.getWebByHomePage();

		} else {

			GetWeb gw = new GetWeb(args[0], Integer.parseInt(args[1]));

			gw.getWebByHomePage();

		}

	}

	public void getWebByHomePage() {

		startTime = System.currentTimeMillis();

		this.myDomain = getDomain();

		if (myDomain == null) {

			System.out.println("Wrong input!");

			// System.exit(1);

			return;

		}

		System.out.println("Homepage = " + strHomePage);

		addReport("Homepage = " + strHomePage + "!\n");

		System.out.println("Domain = " + myDomain);

		addReport("Domain = " + myDomain + "!\n");

		arrUrls.add(strHomePage);

		arrUrl.add(strHomePage);

		allUrls.put(strHomePage, 0);

		deepUrls.put(strHomePage, 1);

		File fDir = new File(fPath);

		if (!fDir.exists()) {

			fDir.mkdir();

		}

		System.out.println("Start!");

		this.addReport("Start!\n");

		String tmp = getAUrl();

		this.getWebByUrl(tmp, charset, allUrls.get(tmp) + "");

		int i = 0;

		for (i = 0; i < intThreadNum; i++) {

			new Thread(new Processer(this)).start();

		}

		while (true) {

			if (arrUrls.isEmpty() && Thread.activeCount() == 1) {

				long finishTime = System.currentTimeMillis();

				long costTime = finishTime - startTime;

				System.out.println("\n\n\n\n\nFinished!");

				addReport("\n\n\n\n\nFinished!\n");

				System.out.println("Start time = " + startTime + "   "

						+ "Finish time = " + finishTime + "   "

						+ "Cost time = " + costTime + "ms");

				addReport("Start time = " + startTime + "   "

						+ "Finish time = " + finishTime + "   "

						+ "Cost time = " + costTime + "ms" + "\n");

				System.out.println("Total url number = "

						+ (webSuccessed + webFailed) + "   Successed: "

						+ webSuccessed + "   Failed: " + webFailed);

				addReport("Total url number = " + (webSuccessed + webFailed)

						+ "   Successed: " + webSuccessed + "   Failed: "

						+ webFailed + "\n");

				String strIndex = "";

				String tmpUrl = "";

				while (!arrUrl.isEmpty()) {

					tmpUrl = getUrl();

					strIndex += "Web depth:" + deepUrls.get(tmpUrl)

							+ "   Filepath: " + fPath + "/web"

							+ allUrls.get(tmpUrl) + ".htm" + "   url:" + tmpUrl

							+ "\n\n";

				}

				System.out.println(strIndex);

				try {

					PrintWriter pwIndex = new PrintWriter(new FileOutputStream(

							"fileindex.txt"));

					pwIndex.println(strIndex);

					pwIndex.close();

				} catch (Exception e) {

					System.out.println("生成索引文件失败!");

				}

				break;

			}

		}

	}

	public void getWebByUrl(String strUrl, String charset, String fileIndex) {

		try {

			// if(charset==null||"".equals(charset))charset="utf-8";

			System.out.println("Getting web by url: " + strUrl);

			addReport("Getting web by url: " + strUrl + "\n");

			URL url = new URL(strUrl);

			URLConnection conn = url.openConnection();

			conn.setDoOutput(true);

			InputStream is = null;

			is = url.openStream();

			String filePath = fPath + "/web" + fileIndex + ".htm";

			PrintWriter pw = null;

			FileOutputStream fos = new FileOutputStream(filePath);

			OutputStreamWriter writer = new OutputStreamWriter(fos);

			pw = new PrintWriter(writer);

			BufferedReader bReader = new BufferedReader(new InputStreamReader(

					is));

			StringBuffer sb = new StringBuffer();

			String rLine = null;

			String tmp_rLine = null;

			while ((rLine = bReader.readLine()) != null) {

				tmp_rLine = rLine;

				int str_len = tmp_rLine.length();

				if (str_len > 0) {

					sb.append("\n" + tmp_rLine);

					pw.println(tmp_rLine);

					pw.flush();

					if (deepUrls.get(strUrl) < webDepth)

						getUrlByString(tmp_rLine, strUrl);

				}

				tmp_rLine = null;

			}

			is.close();

			pw.close();

			System.out.println("Get web successfully! " + strUrl);

			addReport("Get web successfully! " + strUrl + "\n");

			addWebSuccessed();

		} catch (Exception e) {

			System.out.println("Get web failed!       " + strUrl);

			addReport("Get web failed!       " + strUrl + "\n");

			addWebFailed();

		}

	}

	public String getDomain() {

		String reg = "(?<=http\\://[a-zA-Z0-9]{0,100}[.]{0,1})[^.\\s]*?\\.(com|cn|net|org|biz|info|cc|tv)";

		Pattern p = Pattern.compile(reg, Pattern.CASE_INSENSITIVE);

		Matcher m = p.matcher(strHomePage);

		boolean blnp = m.find();

		if (blnp == true) {

			return m.group(0);

		}

		return null;

	}

	public void getUrlByString(String inputArgs, String strUrl) {

		String tmpStr = inputArgs;

		String regUrl = "(?<=(href=)[\"]?[\']?)[http://][^\\s\"\'\\?]*("

				+ myDomain + ")[^\\s\"\'>]*";

		Pattern p = Pattern.compile(regUrl, Pattern.CASE_INSENSITIVE);

		Matcher m = p.matcher(tmpStr);

		boolean blnp = m.find();

		// int i = 0;

		while (blnp == true) {

			if (!allUrls.containsKey(m.group(0))) {

				System.out.println("Find a new url,depth:"

						+ (deepUrls.get(strUrl) + 1) + " " + m.group(0));

				addReport("Find a new url,depth:" + (deepUrls.get(strUrl) + 1)

						+ " " + m.group(0) + "\n");

				arrUrls.add(m.group(0));

				arrUrl.add(m.group(0));

				allUrls.put(m.group(0), getIntWebIndex());

				deepUrls.put(m.group(0), (deepUrls.get(strUrl) + 1));

			}

			tmpStr = tmpStr.substring(m.end(), tmpStr.length());

			m = p.matcher(tmpStr);

			blnp = m.find();

		}

	}

	class Processer implements Runnable {

		GetWeb gw;

		public Processer(GetWeb g) {

			this.gw = g;

		}

		public void run() {

			// Thread.sleep(5000);

			while (!arrUrls.isEmpty()) {

				String tmp = getAUrl();

				getWebByUrl(tmp, charset, allUrls.get(tmp) + "");

			}

		}

	}

}

多线程实现的Java爬虫程序的更多相关文章

Java爬虫之下载全世界国家的国旗图片
介绍本篇博客将继续上一篇博客:Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗的内容,将用Java来实现这个爬虫,下载全世界国家的国旗图片. ...
java多线程实现卖票小程序
package shb.java.demo; /** * 多线程测试卖票小程序. * @Package:shb.java.demo * @Description: * @author shaobn * ...
福利贴——爬取美女图片的Java爬虫小程序代码
自己做的一个Java爬虫小程序废话不多说.先上图. 目录命名是用标签缩写,假设大家看得不顺眼能够等完成下载后手动改一下,比方像有强迫症的我一样... 这是挂了一个晚上下载的总大小,只是还有非常多由于 ...
通过爬虫程序深入浅出java 主从工作模型
随手做的爬虫程序在 https://github.com/rli07/master_java/blob/master/spider.zip 可下载. 这是我做的系统学习图, 可以参考一下系统架 ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
成为java高级程序员需要掌握哪些
section 1 1.Core Java,就是Java基础.JDK的类库,很多童鞋都会说,JDK我懂,但是懂还不足够,知其然还要知其所以然,JDK的源代码写的非常好,要经常查看,对使用频繁的类,比如 ...
webmagic的设计机制及原理-如何开发一个Java爬虫转
此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-ma ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
Android网络爬虫程序（基于Jsoup）
摘要:基于 Jsoup 实现一个 Android 的网络爬虫程序,抓取网页的内容并显示出来.写这个程序的主要目的是抓取海投网的宣讲会信息(公司.时间.地点)并在移动端显示,这样就可以随时随地的浏览在学 ...
Java 爬虫服务器被屏蔽，不要慌，咱们换一台服务器
这是 Java 爬虫系列博文的第四篇,在上一篇 Java 爬虫遇上数据异步加载,试试这两种办法! 中,我们从内置浏览器内核和反向解析法两个角度简单的聊了聊关于处理数据异步加载问题.在这篇文章中,我们简 ...

随机推荐

Git Extensions：一个.NET开源的 Git 图形用户界面（GUI）工具
前言今天大姚给大家分享一个.NET开源.免费的用于管理 Git 存储库的独立图形用户界面(GUI)工具,它还与 Windows 资源管理器和 Microsoft Visual Studio (201 ...
linux 环境中cat命令进行关键字搜索
在linux环境中通过关键字搜索文件里面的内容 1.显示文件里匹配关键字那行以及上下50行 cat 文件名 | grep -C 50 '关键字' 2.显示关键字及前50行 cat 文件名 | grep ...
mongo查看服务状态
转载请注明出处: 查看数据库列表 show dbs 查看当前数据库 db 查看集合列表 show collections 查看数据库的状态 db.stats() 查看集合的状态 db.collecti ...
【Abyss】Android 平台应用级系统调用拦截框架
Android平台从上到下,无需ROOT/解锁/刷机,应用级拦截框架的最后一环 -- SVC系统调用拦截. ☞ Github ☜ 由于我们虚拟化产品的需求,需要支持在普通的Android手机运行.我们 ...
系统编程-文件IO-dup和dup2系统调用
在linux下,一切皆文件. 文件描述符用于操作文件. 从shell中运行一个进程,默认会有3个文件描述符存在(0.1.2):)0表示标准输入,1表示标准输出,2表示标准错误. 一个进程当前有哪些打开 ...
CodeMaid：一款基于.NET开发的Visual Studio代码简化和整理实用插件
前言今天大姚给大家分享一款由.NET开源.免费.强大的Visual Studio代码简化.整理.格式化实用插件:CodeMaid. 工具介绍 CodeMaid是一款由.NET开源.免费.强大的Vis ...
4Templates Bootstrap Navbars and Links
链接传递参数
IDEA更改远程git仓库地址
前言我们在使用IDEA开发时,一般会配置好对应的git仓库,这样就比较容易对代码进行控制以及协同开发. 但有时候,我们远程的仓库地址由于这样那样的原因,需要迁移(这在爱折腾的企业是常有的事情). ...
如何安装eNSP
如何安装eNSP? eNSP是需要三个插件进行辅助的,所以先下三个插件,最后在下eNSP 首先来看看Wireshark的安装很简单,基本上就直接下一步就行这里直接下一步这里要注意,这些要么安装在 ...
c++中字符/串->整数
char字符->整数数字:std::isdigit 用于判断某个字符是否为数字(0-9). 字符串->数字:std::stoi 用于将字符转换为整数. int isdigit( int c ...

多线程实现的Java爬虫程序

多线程实现的Java爬虫程序的更多相关文章

随机推荐

热门专题