分类

分布式网络爬虫包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中，或者分散在不同的地理位置。

根据爬虫的分散程度不同，可以把分布式爬行器分成以下两大类：

1、基于局域网分布式网络爬虫：这种分布式爬行器的所有爬虫在同一个局域网里运行，通过高速的网络连接相互通信。这些爬虫通过同一个网络去访问外部互联网，下载网页，所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高，爬虫之间的通信的效率能够得到保证；但是网络出口的总带宽上限是固定的，爬虫的数量会受到局域网出口带宽的限制。

2、基于广域网分布式网络爬虫：当并行爬行器的爬虫分别运行在不同地理位置（或网络位置），我们称这种并行爬行器为分布式爬行器。例如，分布式爬行器的爬虫可能位于中国，日本，和美国，分别负责下载这三地的网页；或者位于CHINANET，CERNET，CEINET，分别负责下载这三个网络的中的网页。分布式爬行器的优势在于可以子在一定程度上分散网络流量，减小网络出口的负载。如果爬虫分布在不同的地理位置（或网络位置），需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限的，通常需要通过互联网进行通信。

大型分布式网络爬虫体系结构图

分布式网络爬虫是一项十分复杂系统。需要考虑很多方面因素。性能可以说是它这重要的指标。当然硬件层面的资源也是必须的。

架构

下面是项目的总体架构，第一个版本基于此方案来做。

上面的web层包括：控制台、基本权限、监控展示等，还可以根据需要再一步进行扩展。

核心层由控制者统一调度，将任务发给工人队列中的工人进行爬取操作。各个结点动态的向监控模块发送模块状态等信息，统一由展示层展示。

项目目标

众推，开源版的今日头条！

基于hadoop思维的分布式网络爬虫。

目前已经将fourinone、jeesite、webmagic整合进来，并且进一步进行改进。想最终做成一个基于设计器的动态可配置的分布式爬虫系统，这个是第一阶段的目标。

项目目前情况

目前项目进展情况：

1、sourceer，可以接入多种数据源，接口已经定义（加入builder封装，可以使用简单爬虫）。

2、web架构工程（web工程上传并测试成功，权限、基础框架改造，导入等已经录成视频，删除activiti，删除cms部分）。

3、分布式框架研究（分布式项目分包，添加部分注释，测试单机单工人爬取）。

4、插件化整合。

5、文章等各种去重方式及算法（目前已实现bloomfilter，指纹算法去重，已经实现simhash，分词算法（ansj））。

6、分类器测试（bayes，文本分类单机测试成功）。

项目地址：

（分布式爬虫）http://git.oschina.net/zongtui/zongtui-webcrawler

（去重过滤器）https://git.oschina.net/zongtui/zongtui-filter

（文本分类器）https://git.oschina.net/zongtui/zongtui-classifier

（文档目录）https://git.oschina.net/zongtui/zongtui-doc

项目界面：

启动jetty，目前皮肤暂时还未换。

总结

目前项目正在进一步完善当中，希望能得到你更多的意见！

基于java的分布式爬虫的更多相关文章

python 全栈开发，Day140(RabbitMQ,基于scrapy-redis实现分布式爬虫)
一.RabbitMQ 队列在生产者消费模型中,比如去餐馆吃饭的例子.生产者相当于厨师,队列相当于服务员,消费者就是你. 我们必须通过服务员,才能吃饭! 如果队列满了,队列会一直hold住.必须让消费 ...
基于 Scrapy-redis 的分布式爬虫详细设计
基于 Scrapy-redis 的分布式爬虫设计目录前言安装环境 Debian / Ubuntu / Deepin 下安装 Windows 下安装基本使用初始化项目创建爬虫运行爬虫 ...
基于scrapy-redis的分布式爬虫
一.介绍 1.原生的scrapy框架原生的scrapy框架是实现不了分布式的,其原因有: 1. 因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
爬虫--Scrapy-CrawlSpider&基于CrawlSpide的分布式爬虫
CrawlSpider 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调par ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取.但是当我们要爬取的页面非常多的时候,单个服务器的处理能力就不能满足我们的需求了(无论是处理速度还是网络请 ...
在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_83 Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取.但是当我们要爬取的页面非常多的 ...
基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简 ...
基于Java的开源爬虫框架WebCollector的使用
一.WebCollector介绍 WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. WebCollecto ...

随机推荐

Shell替换
如果表达式中包含特殊字符,Shell 将会进行替换.例如,在双引号中使用变量就是一种替换,转义字符也是一种替换. #!/bin/bash a= echo -e "Value of a is ...
微软发布正式版SQL Server 2016
微软于今天在SQL 官方博客上宣布 SQL Server 数据库软件的正式发布版本(GA),历时一年多,微软为该软件发布了多个公共预览版和候选版本,而今天最终版本终于上线了.在博客中,微软数据集团的企 ...
Microsoft Loves Linux
微软新任CEO纳德拉提出的“Microsoft Loves Linux”,并且微软宣布.NET框架的开源,近期Microsoft不但宣布了Linux平台的SQL Server,还宣布了Microsof ...
react-redux
1. 首先redux,与react是两个独立的个体,项目中可以只用react,也可以只用redux 1.1 react-redux: 是一个redux作者专门为react制作的 redux, 增加了新 ...
CRL快速开发框架系列教程三(更新数据)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
编写高质量代码:改善Java程序的151个建议(第8章:异常___建议114~117)
建议114:不要在构造函数中抛出异常 Java异常的机制有三种: Error类及其子类表示的是错误,它是不需要程序员处理也不能处理的异常,比如VirtualMachineError虚拟机错误,Thre ...
thinkphp数据的查询和截取
public function NewsList(){ $this->assign('title','news'); $p = I('page',1); $listRows = 6; $News ...
Java程序员应该了解的10个面向对象设计原则
面向对象设计原则: 是OOPS(Object-Oriented Programming System,面向对象的程序设计系统)编程的核心,但大多数Java程序员追逐像Singleton.Decorat ...
JavaScript将字符串中的每一个单词的第一个字母变为大写其余均为小写
要求: 确保字符串的每个单词首字母都大写,其余部分小写. 这里我自己写了两种方法,或者说是一种方法,另一个是该方法的变种. 第一种: function titleCase(str) { var new ...
【JS基础】正则表达式
正则表达式的() [] {}有不同的意思. () 是为了提取匹配的字符串.表达式中有几个()就有几个相应的匹配字符串. (\s*)表示连续空格的字符串. []是定义匹配的字符范围.比如 [a-zA-Z ...

基于java的分布式爬虫

分类

大型分布式网络爬虫体系结构图

架构

项目目标

项目目前情况

总结

基于java的分布式爬虫的更多相关文章

随机推荐

热门专题