Miner.java 爬虫启动类

Miner.java 爬虫启动类

package com.iteye.injavawetrust.miner;

import java.util.concurrent.ThreadPoolExecutor;

import org.apache.commons.logging.Log;

import org.apache.commons.logging.LogFactory;

/**

 * 爬虫启动类

 * @author InJavaWeTrust

 *

 */

public class Miner {

	private static final Log LOG = LogFactory.getLog(Miner.class);

	private MinerUrl minerUrl = null;

	private MinerConfig config = null;

	public Miner(MinerUrl minerUrl, MinerConfig config){

		this.minerUrl = minerUrl;

		this.config = config;

	}

	public void start(){

		//启动前 先校验配置

		if(!MinerUtil.checkBeforeStart(config)){

			LOG.info("配置出现问题，程序不能启动！！！");

			return;

		}

		MinerUtil.starTime = System.currentTimeMillis();

		//程序启动，将第一个起始页面放入待访问队列。

		MinerQueue.addUnVisited(minerUrl);

		//将URL 添加到URL队列 保证每个URL只访问一次

		MinerQueue.addUrlSet(minerUrl.getUrl());

		ThreadPoolExecutor executor = MinerThreadPool.getInstance();

		//download

		for(int i = 0; i < config.getMinerHtmlThreadNum(); i++){

			MinerHtmlThread minerHtml = new MinerHtmlThread(config);

			executor.execute(minerHtml);

		}

		//misering

		for(int i = 0; i < config.getMiseringThreadNum(); i++){

			MiseringThread misering = new MiseringThread(config);

			executor.execute(misering);

		}

		//store

		for(int i = 0; i < config.getMinserStoreThreadNum(); i++){

			MinerStoreThread minerStoreThread = new MinerStoreThread(config);

			executor.execute(minerStoreThread);

		}

		//monitor

		MinerMonitorThread minerMonitor = new MinerMonitorThread();

		executor.execute(minerMonitor);

	}

}

返回列表

Miner.java 爬虫启动类的更多相关文章

MinerUtil.java 爬虫工具类
MinerUtil.java 爬虫工具类 package com.iteye.injavawetrust.miner; import java.io.File; import java.io.File ...
spring boot 启动类一定要放置到包的根目录下，也就是和所有包含java文件的包在同一级目录。如果不放置在根目录下，将会提示 no mybatis mapper was found
spring boot 启动类一定要放置到包的根目录下,也就是和所有包含java文件的包在同一级目录.将会将同一目录下的包扫描成bean. 如果不放置在根目录下,将会提示 no mybatis map ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...
java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
Java 爬虫学习
Java爬虫领域最强大的框架是JSoup:可直接解析具体的URL地址(即解析对应的HTML),提供了一套强大的API,包括可以通过DOM.CSS选择器,即类似jQuery方式来取出和操作数据.主要功能 ...
不会python?那就换一种姿势爬虫！Java爬虫技术总结
-本博客为原创内容,转载需注明本人- 前几天有个师妹将要毕业,需要准备毕业论文,但是论文调研需要数据资料,上知网一查,十几万条数据!指导老师让她手动copy收集,十几万的数据手动copy要浪费多少时间 ...
webmagic的设计机制及原理-如何开发一个Java爬虫转
此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-ma ...
免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...

随机推荐

range和xrange的区别详解
两种用法介绍如下:1.range([start], stop[, step])返回等差数列.构建等差数列,起点是start,终点是stop,但不包含stop,公差是step.start和step是可选 ...
Go 语言数组
Go 语言提供了数组类型的数据结构. 数组是具有相同唯一类型的一组已编号且长度固定的数据项序列,这种类型可以是任意的原始类型例如整形.字符串或者自定义类型. 相对于去声明number0, number ...
jQuery 遍历 – 过滤
缩小搜索元素的范围三个最基本的过滤方法是:first(), last() 和 eq(),它们允许您基于其在一组元素中的位置来选择一个特定的元素. 其他过滤方法,比如 filter() 和 not() ...
vue 2.0 scopedSlots和slots在render函数中的应用示例
渲染内容为: hello from functional render scopedSlots render scopedSlots named slot of render hello from f ...
Ubuntu批量修改文件名后缀
比如把当前文件夹下所有scss文件后缀改为less rename 's/\.scss/\.less/' ./*
ANTLR和StringTemplate实例：自动生成单元测试类
ANTLR和StringTemplate实例:自动生成单元测试类 1. ANTLR语法要想自动生成单元测试,首先第一步就是分析被测试类.这里以Java代码为例,用ANTLR对Java代码进行分析.要 ...
1、win10下连接本地系统上的Linux操作系统（分别以Nat方式和桥接模式实现）
1.win10下连接本地系统上的Linux操作系统(分别以Nat方式和桥接模式实现) 一.准备知识:win10下打开Administrator的方式在win10操作系统中,Administrator ...
Dynamics CRM 通过Odata创建及更新记录各类型字段的赋值方式
CRM中通过Odata方式去创建或者更新记录时,各种类型的字段的赋值方式各不相同,这里转载一篇博文很详细的列出了各类型字段赋值方式,以供后期如有遗忘再次查询使用. http://luoyong0201 ...
用户创建,删除and并发注册and系统登陆的API研究（学习汇总网上资料）
一.系统登陆链接实现比如有一个外围支持系统,用户需要在外围系统登录之后点个link就可以登录到Oracle ERP系统中,那么我们需要先把外围系统的用户创建在Oracle ERP中,并且分配职责给他 ...
FORM开发之说明性弹性域开发
1.注册使用弹性域的表,字段注册表语法:ad_dd.register_table('所有者','表名','T自动扩展/S非自动扩展','下一区','自由','已使用') AD_DD.REGISTER ...

Miner.java 爬虫启动类

Miner.java 爬虫启动类的更多相关文章

随机推荐

热门专题