2020-08-13：Hadoop生态圈的了解？

福哥答案2020-08-13：

该项目包括以下模块：
1.Common(公共工具)
支持其他Hadoop模块的公共工具。

2.HDFS（Hadoop分布式文件系统）
提供对应用程序数据的高吞吐量访问的分布式文件系统。

3.Mapreduce（分布式计算框架，地图还原）
一个基于纱线的大数据集并行处理系统。

4.Yarn(分布式资源管理器，纱线）
一个用于作业调度和集群资源管理的框架。

Apache的其他与Hadoop相关的项目包括：
1.Ambari（安装部署配置管理工具，安巴里）
一个基于web的工具，用于提供、管理和监视apachehadoop集群，包括对Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop的支持。Ambari还提供了一个仪表板，用于查看集群运行状况，如热图，能够直观地查看MapReduce、Pig和Hive应用程序，以及以用户友好方式诊断其性能特征的功能。

2.Avro（数据序列化系统，阿芙罗）
Avro是Hadoop的一个数据序列化系统，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）开发，设计用于支持大批量数据交换的应用。

3.Cassandra（卡桑德拉）
无单点故障的可扩展多主数据库。

4.Chukwa（楚夸）
用于管理大型分布式系统的数据采集系统。

5.HBASE（分布式列存数据库，糖化酶）
一个可扩展的分布式数据库，支持大型表的结构化数据存储。

6.HIVE（数据仓库，蜂箱）
提供数据摘要和即席查询的数据仓库基础结构。

7.Mahout（数据挖掘算法库，驯马师）
一个可扩展的机器学习和数据挖掘库。

8.Pig(ad-hoc脚本，猪）
用于并行计算的高级数据流语言和执行框架。

9.Spark(内存DAG计算模型，火花)
用于Hadoop数据的快速通用计算引擎。Spark提供了一个简单而富有表现力的编程模型，支持广泛的应用，包括ETL、机器学习、流处理和图形计算。

10.Tez(DAG计算模型，提斯)
一个基于hadoopyarn构建的通用数据流编程框架，它提供了一个强大而灵活的引擎来执行任意DAG任务，以处理批处理和交互用例的数据。提斯被蜂巢收养了，猪以及Hadoop生态系统中的其他框架，也可以通过其他商业软件（如ETL工具）来替代Hadoop MapReduce作为底层执行引擎。

11.Zookeeper（分布式协作服务，动物园管理员）
用于分布式应用程序的高性能协调服务。
***
[评论](https://user.qzone.qq.com/3182319461/blog/1597273359)

2020-08-13：Hadoop生态圈的了解？的更多相关文章

Hadoop生态圈-zookeeper完全分布式部署
Hadoop生态圈-zookeeper完全分布式部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客部署是建立在Hadoop高可用基础之上的,关于Hadoop高可用部署请参 ...
Hadoop生态圈-Azkaban部署实战
Hadoop生态圈-Azkaban部署实战作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Azkaban部署流程 1>.上传azkaban程序并创建解压目录 [yinz ...
Hadoop生态圈-Sqoop部署以及基本使用方法
Hadoop生态圈-Sqoop部署以及基本使用方法作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与 ...
hadoop生态圈介绍
原文地址:大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分 ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
Hortworks Hadoop生态圈简介
Hortworks 作为Apache Hadoop2.0社区的开拓者,构建了一套自己的Hadoop生态圈,包括存储数据的HDFS,资源管理框架YARN,计算模型MAPREDUCE.TEZ等,服务于数据 ...
基于Hadoop生态圈的数据仓库实践 —— ETL
使用Hive转换.装载数据 1. Hive简介 (1)Hive是什么 Hive是一个数据仓库软件,使用SQL读.写.管理分布式存储上的大数据集.它建立在Hadoop之上,具有以下功能和 ...
大数据和Hadoop生态圈
大数据和Hadoop生态圈一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop ...
Hadoop生态圈-单点登录框架之CAS（Central Authentication Service）部署
Hadoop生态圈-单点登录框架之CAS(Central Authentication Service)部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.CAS简介 CAS( ...
Hadoop生态圈-Ranger数据安全管理框架
Hadoop生态圈-Ranger数据安全管理框架作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Ranger简介 Apache Ranger是一款被设计成全面掌握Hadoop生 ...

随机推荐

PointGNN未修改之前实验结果 ---car
10个epoch中1-4:
sqlserver 生成随机值
随机生成100以内的整数 select top 10 number,ceiling(rand(checksum(newid()))*100) from master.dbo.spt_valueswhe ...
IPAD做电脑的绘图板
方法:Microsoft远程桌面即 RD CLIENT
网络安全(中职组)-B模块:Web安全渗透测试
Web安全渗透测试任务环境说明: 服务器场景:PYsystem003(关闭链接)服务器操作系统:未知用户名:未知密码:未知 1. 通过浏览器访问http://靶机服务器IP/1,对该页面进行渗 ...
Python练习-3.12
1.给文章中的手机号打上马赛克也就是在文章中发现手机号之后,用*或者#等这一类无法将手机号直接识别出来的符号代替 # 文章中手机号的马赛克形式化 import re content="白日 ...
nginx配置反向代理服务器，实现在https网站中请求http资源
网站使用nginx作为服务器,协议从http升级为https的注意事项. 具体升级步骤请点击搜索 1.首先,修改宝塔面板配置选择配置文件,http请求重定向为https.所有80端口请求都重定向为h ...
红黑树（map与unorder_map）B B+树
红黑树(map) 这个里面有插入的几种方式:红黑树性质的理解先说性质,1 每个节点要么红要么黑,2 一个节点为红色,左右两个孩子都是黑, 3 根节点是黑, 4 每个叶子(nil)节点都是黑色, 5 ...
Logoist - 适用于设计师以及初次使用者的快速制作精美 logo 工具
![在这里插入图片描述](https://img-blog.csdnimg.cn/24c0f566dcf14be2aa72afaa78c87c40.png)>从简单的标识到设计开发.它只需要一点 ...
offsetX与offsetLeft
offsetX:鼠标指针距离当前绑定元素左侧距离,他并不是相对于带有定位的父盒子的x,y坐标, 记住了,很多博客都解释错了 offsetLeft,offsetTop 相对于最近的祖先定位元素.
Wiki.js配置LDAP认证
安装好wikijs 之后, 可以进行进一步的详细配置. 这里介绍 LDAP 认证的配置. 在管理 -> 身份验证 -> 添加策略 -> 选择 LDAP/AD , 如下: 接下来进行 ...

2020-08-13：Hadoop生态圈的了解？

2020-08-13：Hadoop生态圈的了解？的更多相关文章

随机推荐

热门专题