福哥答案2020-08-13:

该项目包括以下模块:
1.Common(公共工具)
支持其他Hadoop模块的公共工具。

2.HDFS(Hadoop分布式文件系统)
提供对应用程序数据的高吞吐量访问的分布式文件系统。

3.Mapreduce(分布式计算框架,地图还原)
一个基于纱线的大数据集并行处理系统。

4.Yarn(分布式资源管理器,纱线)
一个用于作业调度和集群资源管理的框架。

Apache的其他与Hadoop相关的项目包括:
1.Ambari(安装部署配置管理工具,安巴里)
一个基于web的工具,用于提供、管理和监视apachehadoop集群,包括对Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop的支持。Ambari还提供了一个仪表板,用于查看集群运行状况,如热图,能够直观地查看MapReduce、Pig和Hive应用程序,以及以用户友好方式诊断其性能特征的功能。

2.Avro(数据序列化系统,阿芙罗)
Avro是Hadoop的一个数据序列化系统,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)开发,设计用于支持大批量数据交换的应用。

3.Cassandra(卡桑德拉)
无单点故障的可扩展多主数据库。

4.Chukwa(楚夸)
用于管理大型分布式系统的数据采集系统。

5.HBASE(分布式列存数据库,糖化酶)
一个可扩展的分布式数据库,支持大型表的结构化数据存储。

6.HIVE(数据仓库,蜂箱)
提供数据摘要和即席查询的数据仓库基础结构。

7.Mahout(数据挖掘算法库,驯马师)
一个可扩展的机器学习和数据挖掘库。

8.Pig(ad-hoc脚本,猪)
用于并行计算的高级数据流语言和执行框架。

9.Spark(内存DAG计算模型,火花)
用于Hadoop数据的快速通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用,包括ETL、机器学习、流处理和图形计算。

10.Tez(DAG计算模型,提斯)
一个基于hadoopyarn构建的通用数据流编程框架,它提供了一个强大而灵活的引擎来执行任意DAG任务,以处理批处理和交互用例的数据。提斯被蜂巢收养了,猪 以及Hadoop生态系统中的其他框架,也可以通过其他商业软件(如ETL工具)来替代Hadoop MapReduce作为底层执行引擎。

11.Zookeeper(分布式协作服务,动物园管理员)
用于分布式应用程序的高性能协调服务。
***
[评论](https://user.qzone.qq.com/3182319461/blog/1597273359)

2020-08-13:Hadoop生态圈的了解?的更多相关文章

  1. Hadoop生态圈-zookeeper完全分布式部署

    Hadoop生态圈-zookeeper完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客部署是建立在Hadoop高可用基础之上的,关于Hadoop高可用部署请参 ...

  2. Hadoop生态圈-Azkaban部署实战

    Hadoop生态圈-Azkaban部署实战 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.  一.Azkaban部署流程 1>.上传azkaban程序并创建解压目录 [yinz ...

  3. Hadoop生态圈-Sqoop部署以及基本使用方法

    Hadoop生态圈-Sqoop部署以及基本使用方法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与 ...

  4. hadoop生态圈介绍

    原文地址:大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍   1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分 ...

  5. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  6. Hortworks Hadoop生态圈简介

    Hortworks 作为Apache Hadoop2.0社区的开拓者,构建了一套自己的Hadoop生态圈,包括存储数据的HDFS,资源管理框架YARN,计算模型MAPREDUCE.TEZ等,服务于数据 ...

  7. 基于Hadoop生态圈的数据仓库实践 —— ETL

    使用Hive转换.装载数据 1. Hive简介 (1)Hive是什么         Hive是一个数据仓库软件,使用SQL读.写.管理分布式存储上的大数据集.它建立在Hadoop之上,具有以下功能和 ...

  8. 大数据和Hadoop生态圈

    大数据和Hadoop生态圈 一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop ...

  9. Hadoop生态圈-单点登录框架之CAS(Central Authentication Service)部署

    Hadoop生态圈-单点登录框架之CAS(Central Authentication Service)部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.CAS简介 CAS( ...

  10. Hadoop生态圈-Ranger数据安全管理框架

    Hadoop生态圈-Ranger数据安全管理框架 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Ranger简介 Apache Ranger是一款被设计成全面掌握Hadoop生 ...

随机推荐

  1. 我亲自整理的Tampermonkey(以下简称tm)v4.13.6136的编辑器按键映射(基于联想笔记本键盘+win10+火狐浏览器企业版)

    警告:你可以对该随笔内容进行转载,但必须写明其来源网址,以及其作者是博客园的zqdlly,否则后果自负!不要小看了我,我一定会让你付出你应得的成本. 0. 家喻户晓的 键 原生comment myMe ...

  2. 2022安洵杯pwn-babyarm

    首先就是绕过一个简单的变表base64的加密key 然后就是一个类似ret2libc的利用方式,不过没有直接控制r0的gadget 使用的是arm32中万能的gadget from pwn impor ...

  3. elementui中对样式的修改标签

    /deep/ .el-drawer.rtl { -webkit-animation: rtl-drawer-out .3s; animation: rtl-drawer-out .3s; backgr ...

  4. Linux下apache日志(按日期存放)分析与状态查看方法

    转载网址: https://blog.csdn.net/weixin_42272246/article/details/125602258

  5. Maven项目的创建教程

    1.创建Maven项目 首先File->New新建一个Maven项目,选择相应地址保存,点击CREATE完成新建 2.改成Web项目 右键选择Add Framework Support... 再 ...

  6. 制作微软原版Windows11 PE(含Powershell)

    1.adksetup下载链接:https://download.microsoft.com/download/1/f/d/1fd2291e-c0e9-4ae0-beae-fbbe0fe41a5a/ad ...

  7. python基础篇:Python基础知识,帮助初学者快速入门

    Python是一种高级编程语言,它易于学习和使用,因此成为了许多人的首选编程语言.本文将介绍Python的基础知识,以帮助初学者快速入门. 安装Python 在开始学习Python之前,您需要安装Py ...

  8. ASP.NET Core - 选项系统之选项使用

    上一篇 ASP.NET Core - 选项系统之选项配置 中提到 IOptions.IOptionsMonitor 和 IOptionsSnapshot 三个接口,通过这三个接口都可以从依赖注入容器中 ...

  9. flask快速上手

    看完这2个基本可以起步flask了 一学习 https://www.codingdict.com/article/4884 二实战 https://blog.miguelgrinberg.com/po ...

  10. [GIT] 如何处理GIT分支合并(GIT MERGE)

    1 概述 2 分支合并 如果你有两个分支main和dev,main存放稳定版本,dev是开发版本,一个阶段后,你需要把dev代码更新到main分支中. dev --(merge update cont ...