Apache Hadoop 和Hadoop生态圈

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力进行快速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。并且它提供高吞吐量（high throughput）来訪问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

HDFS放宽了（relax）POSIX的要求。能够以流的形式訪问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。

HDFS为海量的数据提供了存储。则MapReduce为海量的数据提供了计算。

虽然Hadoop因MapReduce及其分布式文件系统HDFS而出名，但Hadoop这个名字也用于一组相关项目的统称，这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。

Hadoop Common：

一组分布式文件系统和通用I/O的组件与接口（序列化，Java RPC 和持久化数据结构）

HDFS: Hadoop分布式文件系统(Distributed File System) － HDFS (Hadoop Distributed File System)。执行于大型商用机集群

MapReduce：

分布式数据处理模型和执行环境，执行于大型商用机集群

HBase:

一个分布式、按列存储数据库。HBase使用HDFS作为底层存储，同一时候支持MapReduce的批量式计算和点查询（随机读取）。

Hive：数据仓库工具。由Facebook贡献。一种分布式、按列存储的数据仓库。

Hive管理HDFS中存储的数据。并提供基于SQL的查询语言（有执行时引擎翻译成MapReduce作业）用以查询数据。

Zookeeper：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。

一种分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用。

Avro：一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。新的数据序列化格式与传输工具，将逐步代替Hadoop原有的IPC机制。

Pig:

大数据分析平台。为用户提供多种接口。

一种数据流语言和执行环境，用以检索很大的数据集。Pig执行在MapReduce和HDFS的集群上。

Ambari：

Hadoop管理工具。能够快捷的监控、部署、管理集群。

Sqoop：

在数据库和HDFS之间高效数据传输的工具。

參考文献：

http://baike.baidu.com/link?url=5TXA32tcYO3i-xO4cIMNT4b6EJv9rNo-2hO7L5FpZsEzeSHMh_BXS8d9yX4T80El7rGMUMMCgVRVfx-8a-Dl2q

http://hadoop.apache.org

《Hadoop权威指南》

Apache Hadoop 和Hadoop生态圈的更多相关文章

【云计算 Hadoop】Hadoop 版本生态圈 MapReduce模型
忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本和生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : ...
Apache Kudu： Hadoop生态系统的新成员实现对快速数据的快速分析
A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop's storage la ...
Hadoop学习---Hadoop的深入学习
Hadoop生态圈存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统.具有高度容错性.高吞吐量的的特点. 处理数据MapReduce, ...
一、hadoop 及 hadoop的环境搭建
一.Hadoop引言 Hadoop是在2006年雅虎从Nutch(给予Java爬虫框架)工程中剥离一套分布式的解决方案.该方案参考了Goggle的GFS(Google File System)和Map ...
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来 ...
Hadoop： Hadoop Cluster配置文件
Hadoop配置文件 Hadoop的配置文件: 只读的默认配置文件:core-default.xml, hdfs-default.xml, yarn-default.xml 和 mapred-defa ...
[Linux][Hadoop] 将hadoop跑起来
前面安装过程待补充,安装完成hadoop安装之后,开始执行相关命令,让hadoop跑起来使用命令启动所有服务: hadoop@ubuntu:/usr/local/gz/hadoop-$ ./sb ...
Hadoop:搭建hadoop集群
操作系统环境准备: 准备几台服务器(我这里是三台虚拟机): linux ubuntu 14.04 server x64(下载地址:http://releases.ubuntu.com/14.04.2/ ...
[Hadoop 周边] Hadoop资料收集【转】
原文网址: http://www.iteblog.com/archives/851 最直接的学习参考网站当然是官网啦: http://hadoop.apache.org/ Hadoop http:// ...

随机推荐

Python旅途——函数(1)
函数简介到目前为止,我们一直所接触的都是属于面向过程编程,这样的代码会降低代码的可读性,因此引入了函数式编程,在后面我们还会学到面向对象编程. 函数式编程函数本质:将N行代码拿到别处,并给他起个 ...
PS学习笔记（04）
Photoshop滤镜的安装 Photoshop滤镜的默认格式为.8bf(也有些滤镜为exe格式的可执行文件),如果你下载的是压缩包,请解压之后再安装. 方法一: 如果你下载的滤镜为exe的可执行文件 ...
exports和moudle. exports
http://zihua.li/2012/03/use-module-exports-or-exports-in-node/ https://github.com/seajs/seajs/issues ...
0元免费领《JAVA日志》教程，天啦噜！
天啦,老码疯了!辛辛苦苦,费心费力准备的<java日志实战及解析>教程真的不要钱了吗? 作为添物网的小编,每天看着老码为了给大家录制课程,加班加点的做课件,为了保证课程的质量,老码一遍又一 ...
七牛云一站式 SSL 证书服务上线，即刻使用最多可省 7 万
2017 年 ,随着谷歌.苹果和腾讯对原 HTTP 的相继限制,全站 HTTPS 已经成为了当下趋势,所以安装 SSL 证书成为网站建设中必不可少的一步. 在 2016 年底,七牛云已经与 Trust ...
按WSDL信息手动生成代理类
命令行: wsdl /language:c# /n:Entity /out:C:\Users\mengxianming\Desktop\Centrex_IMS_Client.cs C:\Users\m ...
汕头市赛srm10 T2
n个数,分组,数Ai要在至少含有Ai个数的组,求最多分多少组. 方法一:大的数应该尽量跟大的在一起,这样才能让小的出现很多很多组,所以从大到小排序,给当前序列中最大的数x分x个数.代码如下: #inc ...
SQL中distinct的用法（四种示例分析）
在使用mysql时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重记录的 ...
Flex使用cookie保存登状态
flex系统要实现普通html系统刷新页面保留登录信息,一个方法是借用js来操作cookie来实现,下边是一个实现的例子: 第一步:在主index.html里边加上两个js方法 //获取cookie内 ...
ACM-ICPC 2018 沈阳赛区网络预赛 G 容斥原理
https://nanti.jisuanke.com/t/31448 解析易得an=n*n+n O(1)得到前n项和再删除与m不互素的数我们用欧拉函数求出m的质因数枚举其集合的子集进行 ...

Apache Hadoop 和Hadoop生态圈

Apache Hadoop 和Hadoop生态圈的更多相关文章

随机推荐

热门专题