Hadoop - [01] 概述

Hadoop官网：https://hadoop.apache.org/

Hadoop下载：https://archive.apache.org/dist/hadoop/common/

一、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。

广义上讲，Hadoop通常是指一个更广泛的概念 —— Hadoop生态圈。

二、Hadoop的发展历史

Lucene框架是道格卡丁开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎，包括完整的查询引擎和索引引擎。

2021年年底Lucene称为Apache基金会的一个子项目

对于海量数据的场景，Lucene面对与Google同样的困难，存储数据困难，检索速度慢。

学习和模仿Google解决这些问题的办法：微型版Nutch

可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文）

GFS => HDFS
Map-Reduce => MR
BigTable => Hbase

Hadoop的优势

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

高扩展性：在集群间分配任务数据，可方便地扩展数以千计的节点。

高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

高容错性：能够自动将失败的任务重新分配。

HDFS的架构

NameNode（nn）：存储文件的元数据，如文件名、文件目录属性，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的Datanode等。

DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和

Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

Yarn的架构

ResourceManager：（1）处理客户端请求；（2）监控NodeManager；（3）启动或监控ApplicationMaster；（4）资源的分配与调度。

NodeManager：（1）管理单个节点上的资源；（2）处理来自ResourceManager的命令；（3）处理来自ApplicationMaster的命令

ApplicationMaster：（1）负责数据的切分；（2）为应用程序申请资源并分配给内部的任务；（3）任务的监控与容错

Container：Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。

— 要养成终生学习的习惯 —

Hadoop - [01] 概述的更多相关文章

大数据及Hadoop的概述
一.大数据存储和计算的各种框架即工具 1.存储:HDFS:分布式文件系统 Hbase:分布式数据库系统 Kafka:分布式消息缓存系统 2.计算:Mapreduce:离线计算框架 stor ...
kafka详解(01) - 概述
kafka详解(01) - 概述定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域. 消息队列 MQ传统应用场景之异步处理使用消 ...
Zookeeper详解(01) -概述
Zookeeper详解(01) -概述概念 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目. Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分 ...
Hadoop| MapReduce01 概述
概述分布式运算程序: 优点:易于编程:良好扩展性:高容错性:适合PB级以上海量数据的离线处理: 缺点:不擅长实时计算:不擅长流式计算:不擅长DAG有向图计算: 核心思想: 1)分布式的运算程序往往需 ...
Redis数据库 01概述| 五大数据类型
1.NoSQL数据库简介解决应用服务器的CPU和内存压力:解决数据库服务的IO压力: ----->>> ① session存在缓存数据库(完全在内存里),速度快且数据结构简单: 打 ...
Hive 01 概述、安装配置
概述数据仓库:是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理. 数据仓库的结构和建立过程: 数据源数据存储及管理 ETL Extract 提取 T ...
Hadoop - YARN 概述
一概述 Apache Hadoop YARN (Yet Another Resource Negotiator,还有一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源 ...
【大数据project师之路】Hadoop——MapReduce概述
一.概述. MapReduce是一种可用于数据处理的编程模型.Hadoop能够执行由各种语言编写的MapReuce程序.MapReduce分为Map部分和Reduce部分. 二.MapReduce的机 ...
一、Hadoop入门概述
一.Hadoop是什么 Hadoop是一个由Apche基金会所开发的分布式系统基础架构. 主要解决海量数据的存储和海量数据的分析计算问题. 广义上来说,Hadoop通常是指一个更广泛的概念—Hadoo ...
【大数据面试】Flink 01 概述：包含内容、层次架构、运行组件、部署模式、任务提交流程、任务调度概念、编程模型组成
一.概述 1.介绍对无界和有界数据流进行有状态计算的分布式引擎和框架,并可以使用高层API编写分布式任务,主要包括: DataSet API(批处理):静态数据抽象为分布式数据集,方便使用操作符进行 ...

随机推荐

RHCL8无法使用yum install的解决方法
报错如下: Updating Subscription Management repositories. Unable to read consumer identity This system i ...
【C#】【平时作业】习题-6-静态成员
习题-6静态成员一.概念题 1. 什么是静态成员被static修饰的成员,叫做静态成员.静态成员是属于类的.通过类名直接访问. 当类第一次被访问的时候,就会将这个类下面的所有的静态成员创建在内存当 ...
【问题解决】Pycharm、IDAE等乱码问题：运行输出窗口就正常显示，调试乱码的问题
添加如下内容 -Dfile.encoding=UTF-8 重启软件生效
Python 添加类型标注 | 散发着自由松散气息的代码
Python 添加类型标注 | 散发着自由松散气息的代码 Python 如此简洁,书写者在声明变量时甚至无需考虑类型. 但是简洁与复杂间,是存在一个平衡点的.当我们书写较为复杂的项目时,还是希望可以拥 ...
Royal Elementor Addons Pro v1.3.987 + v1.5.0 elementor网页设计元素组件插件下载
Royal Elementor Addons Pro elementor网页设计元素组件插件破解版简介&下载 Royal Elementor Addons Pro Nulled Element ...
linux输出文件名及全路径
有时候需要输出一个文件夹下的文件名及所以绝对路径,在网上找到是这个命令 ls | sed "s:^:`pwd`/:" 看命令不难理解,先是ls列出所有文件名,再使用管道符进行后续操 ...
Java中hashCode() 和 equals()
该文章为转载(原文链接在结尾),虽然篇幅偏长,但是却能使你真正理解hashCode和queals各自的作用以及之间的联系,尤其是第四部分,读完肯定会让你有所收获. 第1部分 equals() 的作用 ...
WPF 资源定义空字符串或者空格问题
xmlns:sys="clr-namespace:System;assembly=mscorlib" WPF在XAML的资源中定义空字符串String.Empty 代码如下: &l ...
docker没有vi不能执行yum报Device or resource busy
最近在使用docker的过程中发现一个问题,就是想用vim编辑器编辑一个文件,发现连vi都没有. 于是想到一个办法用docker cp来解决问题: 首先执行docker ps -a查看容器的id 然后 ...
Linux配置Golang 依赖包安装
Linux Golang安装安装版本查看,可自行选择 https://studygolang.com/articles/13957?fr=sidebar 此次选择 go1.14.2.linux-am ...