全文索引-lucene,solr,nutch,hadoop之nutch与hadoop
全文索引-lucene。solr。nutch,hadoop之lucene
全文索引-lucene。solr,nutch,hadoop之solr
我在去年的时候,就想把lucene,solr。nutch和hadoop这几个东东给具体的介绍下,但因为时间的关系。我还是仅仅写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,尽管到如今我没有真正搞过nutch和hadoop实战项目,但公司立即就要做hadoop大数据的监控了。我一直都说,要做一个有准备的人,因此我从去年到如今从未停止过对hadoop相关技术的学习、思考、实战。
在去年上半年的时候。我还在我的上一家公司。有一天老总说让我研究一下搜索引擎方面的知识(公司有seo方面的业务),于是我就从网上搜寻,最后我无意间发现了一个开源的搜索引擎的apache旗下的项目-nutch,于是乎,我就沉醉于当中。从网上找资料。搭建好开发环境(仅仅能在linux系统上)。并终于可以执行了。我从中浅浅的了解了一下搜索引擎方面的知识。可是让我最想不到的居然是nutch居然是hadoop项目出现的原因、导火线、父项目。本来我想单独再写两篇分别关于nutch和hadoop的项目。但真实须要花费非常多的个人时间。并且nutch环境并不好搭建,并且毕竟我的重点在于hadoop,因此,我在本文还是先说说nutch和hadoop的背景以及介绍吧。
Hadoop是Apache Lucene创始人Doug Cutting创建的,Lucene是一个广泛使用的文本搜索系统。Hadoop起源于Nutch,一个开源的网络搜索引擎,它本身也是Lucene项目的一部分。
1、Hadoop背景
Nutch项目始于2002年,一个可以执行的网页爬取工具和搜索引擎系统非常快“浮出水面”。但后来,开发者觉得这一架构可扩展度不够。不能解决数十亿网页的搜索问题。
2003年谷歌公司发表了一篇关于谷歌分布式文件系统的文章,简称GFS。
GFS或相似的架构,可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。特别关键的是,GFS可以节省系统管理所花的大量时间。
在2004年,他们開始着手实现一个开源的实现。即Nutch的分布式文件系统NDFS。
2004年,谷歌发表论文向全世界介绍他们的MapReduce系统。
2005年初,Nutch的开发者在Nutch上实现了一个MapReduce系统,到年中。Nutch的全部主要算法均完毕移植,用MapReduce和NDFS来执行。
Nutch的NDFS和MapReduce实现不知适用于搜索领域。在2006年2月,开发者将NDFS和MapReduce移出Nutch形成Lucene的一个子项目,称为Hadoop。
大约在同一时间,Doug Cutting增加雅虎,雅虎为此组织了一个专门的团队和资源。
2008年1月,Hadoop已成为Apache的顶级项目,证明了它的成功、多样化、活越性。
2、Apache Hadoop和Hadoop生态圈
尽管Hadoop因MapReduce和分布式文件系统HDFS而出名,但Hadoop这个名字也用于一组相关项目的统称。例如以下:
2.1、Common
一组分布式文件系统和通用I/O组件与接口(序列化、java rpc和持久数据结构)
2.2、Arvo
一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。
2.3、MapReduce
分布式数据处理模型和执行环境。执行于大型商用集群。
2.4、HDFS
分布式文件系统,执行于大型商用集群。
2.5、Pig
一种数据流语言和执行环境。用以检索非常大的数据集。Pig执行在MapReduce和HDFS集群上。
2.6、Hive
一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据。并提供基于SQL的查询语言(由执行时引擎翻译成MapReduce作业)用以查询数据。
2.7、HBase
一个分布式、按列存储数据库。
HBase使用HDFS作为底层存储,同一时候支持MapReduce的批量式计算和点查询。
2.8、ZooKepper
一个分布式、可用性高的协调服务。ZooKepper提供分布式锁之类的基本服务用于构建分布式应用。
2.9、Sqoop
在数据库和HDFS之间高效数据传输的工具。
3、兴许
尽管我去年就接触到hadoop,并进行了一些列的学习(网上视频和资料),但还是没有学好,实际用起来。刚好今年公司准备设计开发大数据方面的监控。公司就给我们这些开发者买了几本Hadoop方面的书籍,但我草草的看了一下。最后还是自己买了一本《Hadoop权威指南》。觉得还是这本书写的比較好,我也看完了一遍,为了总结Hadoop相关知识和便于查找,我兴许准备把里面一些比較重要的知识给总结分享下,敬请期待!
全文索引-lucene,solr,nutch,hadoop之nutch与hadoop的更多相关文章
- Nutch 快速入门(Nutch 2.2.1+Hbase+Solr)
http://www.tuicool.com/articles/VfEFjm Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, ...
- Lucene&Solr框架之第一篇
2.信息检索 信息检索是计算机世界中非常重要的一种功能.信息检索不仅仅是指从数据库检索数据,还包括从文件.网页.邮件.用户手输入的内容中检索数据.通过怎样的高效方式将用户想要的信息快速提取出来,是计算 ...
- Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取
Java分布式爬虫Nutch教程--导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日 在使用本教程之 ...
- Lucene/Solr搜索引擎开发笔记 - 第1章 Solr安装与部署(Jetty篇)
一.为何开博客写<Lucene/Solr搜索引擎开发笔记> 本人毕业于2011年,2011-2014的三年时间里,在深圳前50强企业工作,从事工业控制领域的机器视觉方向,主要使用语言为C/ ...
- apache lucene solr 官网历史版本下载地址
官网上一般只提供最新版本的下载,下面两个链接为所有历史版本的下载地址: lucene地址:archive.apache.org/dist/lucene/java/ solr地址:archive.apa ...
- Lucene/Solr搜索引擎开发笔记 - 第2章 Solr安装与部署(Tomcat篇)
一.安装环境 图1-1 Tomcat和Solr的版本 我本机目前使用的Java版本为JDK 1.8,因为Solr 4.9要求Java版本为1.7+,请注意. 二.Solr部署到Tomcat流程 图1- ...
- Lucene/Solr开发经验
1.开篇语2.概述3.渊源4.初识Solr5.Solr的安装6.Solr分词顺序7.Solr中文应用的一个实例8.Solr的检索运算符 [开篇语]按照惯例应该写一篇技术文章了,这次结合Lucene/S ...
- lucene&solr学习——solr学习(一)
1.什么是solr solr是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文检索服务器.Solr提供了比lucene风味丰富的查询语言,同时实现了可配置,可扩展,并对索 ...
- 全文检索(Lucene&Solr)
全文检索(Lucene&Solr) 1)什么是全文检索?为什么需要全文检索? 结构化数据(mysql等)方便查询,而非结构化数据(如多篇文章)是难以查询到自己需要的,所以要使用全文检索. 全文 ...
随机推荐
- luogu2765 魔术球问题
发现好像没人来证明贪心啊--那我来写一下它的证明 欲证明:放一个数在已有的柱上(如果可以)总是比新开一个柱更优的 假如已经放了x1..x2....xu..xv..xw.... 现在我要放xx 我有两种 ...
- luogu3371 【模板】单源最短路径 dijkstra堆优化
#include <algorithm> #include <iostream> #include <cstring> #include <cstdio> ...
- 贪心 - [POI2006]ORK-Ploughing
[POI2006]ORK-Ploughing 描述 Byteasar 想耕种他那块矩形的田,他每次能耕种矩形的一边(上下左右都行),在他每次耕完后,剩下的田也一定是矩形,每块小区域边长为 1,耕地的长 ...
- 一个通用的Makefile框架
先做一个简单的记录,后续有时间再慢慢完善补充细节. 先上一个整体图片: 其中,最重要的文件就是:program_template.mk. 下面是program_template.mk最重要的内容: $ ...
- Java项目引入eclipse注意事项
我以前也搞过java,后转前端,接触html+css+js时间比较多,所以java后端也忘了差不多.最近负责公司的邮件系统项目,项目是java语言写,项目架构比较复杂,在部署项目的时候,遇到了很多问题 ...
- logging模块的作用以及应用场景
一.python中的logging模块 logging模块定义的函数和类为应用程序和库的开发实现了一个灵活的事件日志系统.logging模块是Python的一个标准库模块,由标准库模块提供日志记录AP ...
- python学习-- django 2.1.7 ajax 请求
#--------------views.py---------------------- def add(request): a = request.GET['a'] print(a) b = re ...
- Leetcode 423.从英文中重建数字
从英文中重建数字 给定一个非空字符串,其中包含字母顺序打乱的英文单词表示的数字0-9.按升序输出原始的数字. 注意: 输入只包含小写英文字母. 输入保证合法并可以转换为原始的数字,这意味着像 &quo ...
- ajax对象的获取及其常用属性
ajax对象的获取及其常用属性 (1)什么是ajax asynchronous javascript and xml(异步的javascript和xml). 是一种用来改善用户体验的技术,其实质是利用 ...
- .sh 和 .ksh —— 三种主要的 Shell简介(Korn shell)
和现在的开发语言一样,语法上有些差异! 三种主要的 Shell 与其分身 在大部份的UNIX系统,三种著名且广被支持的shell 是Bourne shell(AT&T shell,在 Linu ...