MinerHtmlThread.java 爬取页面线程

MinerHtmlThread.java 爬取页面线程

package com.iteye.injavawetrust.miner;

import org.apache.commons.logging.Log;

import org.apache.commons.logging.LogFactory;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

/**

 * 爬取页面线程

 * @author InJavaWetrust

 *

 */

public class MinerHtmlThread extends Thread {

	private static final Log LOG = LogFactory.getLog(MinerHtmlThread.class);

	private MinerConfig config = null;

	public MinerHtmlThread(MinerConfig config) {

		this.config = config;

	}

	@Override

	public void run() {

		while (!MinerMonitorThread.done) {

			minerHtml();

		}

	}

	public synchronized void minerHtml() {

		MinerUrl minerUrl = MinerQueue.unVisitedPoll(); // 待访问出队列。

		try {

			//判断当前页面爬取深度

			if(null == minerUrl || MinerUtil.isBlank(minerUrl.getUrl()) || minerUrl.getDepth() > config.getMaxDepth()) {

				return;

			}

			//判断爬取页面URL是否包含http

			if("http".contains(minerUrl.getUrl())) {

				LOG.info("MinerHtmlThread当前爬取URL[" + minerUrl.getUrl() + "]没有http");

				return;

			}

			LOG.info("MinerHtmlThread当前爬取页面[" + minerUrl.getUrl() + "]爬取深度[" + minerUrl.getDepth() + "] 当前线程 [" + Thread.currentThread().getName() + "]");

			Connection conn = Jsoup.connect(minerUrl.getUrl());

			conn.header("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13");//配置模拟浏览器

			Document doc = conn.get();

			String page = doc.html();

			Html html = new Html();

			html.setUrl(minerUrl.getUrl());

			html.setHtml(page);

			html.setDepth(minerUrl.getDepth());

			// 添加到存储队列

			MinerQueue.addStore(html);

			// 已经爬取的页面 添加到等待提取URL的分析页面队列

			MinerQueue.addWaitingMisering(html); 

		} catch(Exception e) {

			LOG.info("MinerHtmlThread爬取页面失败 URL [" + minerUrl.getUrl() + "]");

			LOG.info("MinerHtmlThreadError info [" + e.getMessage() + "]");

		}

	}

}

返回列表

MinerHtmlThread.java 爬取页面线程的更多相关文章

【java】使用URL和CookieManager爬取页面的验证码和cookie并保存
使用java的net包和io包下的几个工具爬取页面的验证码图片并保存到本地. 然后可以把获取的cookie保存下来,做进一步处理.比如通过识别验证码,进一步使用验证码和用户名,密码,保存下来的cook ...
MinerConfig.java 爬取配置类
MinerConfig.java 爬取配置类 package com.iteye.injavawetrust.miner; import java.util.List; /** * 爬取配置类 * @ ...
Java爬取同花顺股票数据（附源码）
最近有小伙伴问我能不能抓取同花顺的数据,最近股票行情还不错,想把数据抓下来自己分析分析.我大A股,大家都知道的,一个概念火了,相应的股票就都大涨. 如果能及时获取股票涨跌信息,那就能在刚开始火起来的时 ...
Java爬取校内论坛新帖
Java爬取校内论坛新帖为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...
java爬取并下载酷狗TOP500歌曲
是这样的,之前买车送的垃圾记录仪不能用了,这两天狠心买了好点的记录仪,带导航.音乐.蓝牙.4G等功能,寻思,既然有这些功能就利用起来,用4G听歌有点奢侈,就准备去酷狗下点歌听,居然都是需要办会员才能下 ...
Java爬取并下载酷狗音乐
本文方法及代码仅供学习,仅供学习. 案例: 下载酷狗TOP500歌曲,代码用到的代码库包含:Jsoup.HttpClient.fastJson等. 正文: 1.分析是否可以获取到TOP500歌单打开 ...
Java爬取先知论坛文章
Java爬取先知论坛文章 0x00 前言上篇文章写了部分爬虫代码,这里给出一个完整的爬取先知论坛文章代码. 0x01 代码实现 pom.xml加入依赖: <dependencies> & ...
Java 爬取 51job 数据 WebMagic实现
Java 爬取 51job 数据一.项目Maven环境配置相关依赖 jar 包配置 <parent> <groupId>org.springframework.boot&l ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...

随机推荐

[转]关于OpenGL的绘制上下文
[转]关于OpenGL的绘制上下文本文转自(http://www.cnblogs.com/Liuwq/p/5444641.html) 什么是绘制上下文(Rendering Context) 初学Op ...
Linux下DIR，dirent,stat等结构体详解
摘自:http://www.liweifan.com/2012/05/13/linux-system-function-files-operation/ 最近在看Linux下文件操作相关章节,遇到了这 ...
POJ 2135 最小费用最大流
题目链接 Farm Tour Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 18961 Accepted: 7326 D ...
ubuntu16.04下安装opencv
source url:http://blog.csdn.net/zhuiqiuk/article/details/5308505811 1 依赖包sudo apt-get install build- ...
Swift基础之如何使用iOS 9的Core Spotlight框架
本文由CocoaChina译者KingOfOnePiece(博客)翻译作者:GABRIEL THEODOROPOULOS?校对:hyhSuper 原文:How To Use Core Spotlig ...
python获取指定时间差的时间
在分析数据的时间经常需要截取一定范围时间的数据,比如三天之内,两小时前等等时间要求的数据,因此将该部分经常需要用到的功能模块化,方便以后以后用到的时候复用.在此,也分享给大家. <span st ...
nginx+tomcat负载均衡和session复制
本文介绍下传统的tomcat负载均衡和session复制. session复制是基于JVM内存的,当然在当今的互联网大数据时代,有更好的替代方案,如将session数据保存在Redis中. 1.安装n ...
shiro salt
1.1 散列算法散列算法一般用于生成一段文本的摘要信息,散列算法不可逆,将内容可以生成摘要,无法将摘要转成原始内容.散列算法常用于对密码进行散列,常用的散列算法有MD5.SHA.分享牛系列,分享牛专 ...
Android艺术开发探索——第二章：IPC机制（下）
Android艺术开发探索--第二章:IPC机制(下) 我们继续来讲IPC机制,在本篇中你将会学习到 ContentProvider Socket Binder连接池一.使用ContentProvi ...
给定一个实数数组，按序排列（从小到大）,从数组从找出若干个数，使得这若干个数的和与M最为接近，描述一个算法，并给出算法的复杂度。
有N个正实数(注意是实数,大小升序排列) x1 , x2 ... xN,另有一个实数M. 需要选出若干个x,使这几个x的和与 M 最接近. 请描述实现算法,并指出算法复杂度. #define M 8 ...

MinerHtmlThread.java 爬取页面线程

MinerHtmlThread.java 爬取页面线程的更多相关文章

随机推荐

热门专题