多线程爬虫Miner

需要配置项：
1、URL包含关键字。
2、存储方式:DB-数据库存储;FILE-文件存储。
3、爬取页面最大深度。
4、下载页面线程数。
5、分析页面线程数。
6、存储线程数。

-------------------------------------------

程序中用到的表:

CREATE TABLE `miner` (

  `id` varchar(32) NOT NULL,

  `batchNo` varchar(8) DEFAULT NULL,

  `filePath` varchar(255) DEFAULT NULL,

  `fileName` varchar(255) DEFAULT NULL,

  `getDate` datetime DEFAULT NULL,

  PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

-------------------------------------------

程序中用到的maven依赖

<dependency>

	<groupId>org.jsoup</groupId>

	<artifactId>jsoup</artifactId>

	<version>1.8.3</version>

</dependency>

<dependency>

	<groupId>mysql</groupId>

	<artifactId>mysql-connector-java</artifactId>

	<version>5.1.15</version>

	<scope>provided</scope>

</dependency>

<dependency>

	<groupId>commons-logging</groupId>

	<artifactId>commons-logging</artifactId>

	<version>1.2</version>

</dependency>

测试类：

package com.iteye.injavawetrust.miner;

import java.util.ArrayList;

import java.util.List;

/**

 * 测试类

 * @author InJavaWeTrust

 *

 */

public class MinerTest {

	public static void main(String[] args) {

		MinerConfig config = new MinerConfig();

		// 1、URL包含关键字。

		List<String> keys = new ArrayList<String>();

		keys.add("163");

		config.setKeys(keys);

		// 2、存储方式:DB-数据库存储;FILE-文件存储。

		config.setStoreType(StoreType.DB);

		// 3、爬取页面最大深度。

		config.setMaxDepth(2);

		// 4、下载页面线程数。

		config.setMinerHtmlThreadNum(5);

		// 5、分析页面线程数。

		config.setMiseringThreadNum(3);

		// 6、存储线程数。

		config.setMinserStoreThreadNum(3);

		// 7、设置爬取起始页面URL。

		MinerUrl minerUrl = new MinerUrl();

		minerUrl.setUrl("http://www.163.com");

		minerUrl.setDepth(1);

		Miner miner = new Miner(minerUrl, config);

		miner.start();

	}

}

爬虫 MINER 程序列表：

Html.java 存储页面信息类
 Miner.java 爬虫启动类
 MinerBean.java 数据库表 miner bean
MinerConfig.java 爬取配置类
 MinerConstanits.java 常量类
 MinerDB.java 数据库工具类
 MinerHtmlThread.java 爬取页面线程
 MinerMonitorThread.java 监控线程
 MinerQueue.java 访问队列
 MinerStoreThread.java 存储线程
 MinerThreadPool.java 线程池
 MinerUrl.java 解析页面后存储URL类
 MinerUtil.java 爬虫工具类
 MiseringThread.java 解析页面线程
 StoreType.java 存储方式

多线程爬虫Miner的更多相关文章

python多线程爬虫设计及实现示例
爬虫的基本步骤分为:获取,解析,存储.假设这里获取和存储为io密集型(访问网络和数据存储),解析为cpu密集型.那么在设计多线程爬虫时主要有两种方案:第一种方案是一个线程完成三个步骤,然后运行多个线程 ...
Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)
1. 多进程爬虫对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...
python爬虫入门（四）利用多线程爬虫
多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进 ...
[原创]一款小巧、灵活的Java多线程爬虫框架（AiPa）
1.简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架. AiPa 依赖当下最简单的HTML解析器Jsoup. AiPa 只需要使用者提供网址集合,即可在多线程下自动爬取,并对一些异常进行处理 ...
python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）
python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片使用工具:requests ...
抓包分析、多线程爬虫及xpath学习
1.抓包分析 1.1 Fiddler安装及基本操作由于很多网站采用的是HTTPS协议,而fiddler默认不支持HTTPS,先通过设置使fiddler能抓取HTTPS网站,过程可参考(https:/ ...
【Python爬虫实战】多线程爬虫---糗事百科段子爬取
多线程爬虫:即程序中的某些程序段并行执行,合理地设置多线程,可以让爬虫效率更高糗事百科段子普通爬虫和多线程爬虫分析该网址链接得出:https://www.qiushibaike.com/8hr/pag ...
Python爬虫开发【第1篇】【多线程爬虫及案例】
糗事百科爬虫实例: 地址:http://www.qiushibaike.com/8hr/page/1 需求: 使用requests获取页面信息,用XPath / re 做数据提取获取每个帖子里的用户 ...
【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...

随机推荐

pip: unsupported locale setting
在终端里输入 $ export LC_ALL=C 可解决 http://stackoverflow.com/questions/36394101/pip-install-locale-error-un ...
Java内存泄漏分析系列之二：jstack生成的Thread Dump日志结构解析
原文地址:http://www.javatang.com 一个典型的thread dump文件主要由一下几个部分组成: 上图将JVM上的线程堆栈信息和线程信息做了详细的拆解. 第一部分:Full th ...
Bootstrap3 表格-紧缩表格
通过添加 .table-condensed 类可以让表格更加紧凑,单元格中的内补(padding)均会减半. <table class="table table-condensed&q ...
安卓高级 Android图片缓存之初识Glide
前言: 前面总结学习了图片的使用以及Lru算法,今天来学习一下比较优秀的图片缓存开源框架.技术本身就要不断的更迭,从最初的自己使用SoftReference实现自己的图片缓存,到后来做电商项目自己的实 ...
ObjectOutputStream 和 ObjectInputStream的使用
一.看一下API文档 ObjectOutputStream : ObjectOutputStream 将 Java 对象的基本数据类型和图形写入 OutputStream.可以使用 ObjectInp ...
目标管理体系：OKR
一.什么是OKR体系? OKR体系的全称是Objectives & Key Results,即目标与关键成果.所谓OKR,O = Objective 可以理解为企业目标,KR ＝Key Res ...
[csdn markdown]使用摘记三简便快捷的流程图
在线编写文字就可以实现复杂的流程图,再也不需要纠结了! 开始操作流程条件结束开始 st=>start: 开始操作流程 st->op->cond 条件 cond=>co ...
iOS常见控件的基本使用
UI相关类继承关系 UIView 常见属性和方法 UIView属性 UIView方法 UIControl 常用控件 UIImageView 图片显示控件android ImageView UISlid ...
Windows平台下的多线程编程
线程是进程的一条执行路径,它包含独立的堆栈和CPU寄存器状态,每个线程共享所有的进程资源,包括打开的文件.信号标识及动态分配的内存等.一个进程内的所有线程使用同一个地址空间,而这些线程的执行由系统调度 ...
【Unity Shaders】Alpha Test和Alpha Blending
写在前面关于alpha的问题一直是个比较容易摸不清头脑的事情,尤其是涉及到半透明问题的时候,总是不知道为什么A就遮挡了B,而B明明在A前面.这篇文章就总结一下我现在的认识~ Alpha Test和A ...

多线程爬虫Miner

多线程爬虫Miner的更多相关文章

随机推荐

热门专题