Hadoop简介

　　Hadoop软件库是一个开源框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障。是大数据技术的基础。

hadoop生态系统

♥ hadoop分布式文件系统（HDFS）：一种分布式文件系统，能够提供高可靠、高可用、可扩展以及对应用程序数据的高吞吐量访问。

♥ yarn ：作业调度和资源管理的框架。

♥ MapReduce ：基于yarn框架，用于并行计算处理大型数据集，是一种计算框架。

♥ ambari ：基于Web的工具，用于配置，管理和监控Apache Hadoop集群，包括对Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop的支持。Ambari还提供了一个用于查看群集运行状况的仪表板，例如热图，以及可视化查看MapReduce，Pig和Hive应用程序的功能，以及以用户友好的方式诊断其性能特征的功能。

♥ avro ：数据序列化系统。

♥ cassandra：可扩展的多主数据库，没有单点故障。

♥ hbase：可扩展的分布式数据库，支持大型表的结构化数据存储。

♥ hive：一种数据仓库基础架构，提供数据汇总和即席查询。

♥ pig：用于并行计算的高级数据流语言和执行框架。

♥ spark：用于Hadoop数据的快速通用计算引擎。Spark提供了一种简单而富有表现力的编程模型，支持广泛的应用程序，包括ETL，机器学习，流处理和图形计算。

♥ zookeeper：用于分布式应用程序的高性能协调服务。

Hadoop的四种模式

1、本地模式：

本地模式就是解压源码包，不需要做任何的配置。通常用于开发调试，或者感受hadoop。

2、伪分布模式：

在学习当中一般都是使用这种模式，伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程，但是却还是运行在同一个系统里面。所以叫伪分布式。

3、完全分布式：

这种模式才是工作当中所用的模式，hadoop运行在多台机器上面，我们称之为hadoop集群。

4、HA：

在实际的工作当中，对于hadoop完全分布式来说，并不真正的可靠，因为hadoop完全分布式集群会有单点故障（namenode单点故障、yarn单点故障），所以一般都会对这个集群做HA，一般都是做namenode和yarn的高可用。

Hadoop hadoop的介绍和几种模式的更多相关文章

hadoop(1)---hadoop的介绍和几种模式。
一.什么是hadoop? Hadoop软件库是一个开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集.它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储.库本身不是依靠 ...
框架-SPI四种模式+通用设备驱动实现
目录前言笔录草稿 SPI介绍 SPI四种模式 ** SPI 驱动框架 ** 框架前言 SPI 介绍为搜集百度资料+个人理解其余为原创(有误请指正) 集四种模式于一身笔录草稿 SPI介绍 SP ...
hadoop学习；自己定义Input/OutputFormat；类引用mapreduce.mapper；三种模式
hadoop切割与读取输入文件的方式被定义在InputFormat接口的一个实现中.TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键.从TextInpu ...
Hadoop阅读笔记（七）——代理模式
关于Hadoop已经小记了六篇,<Hadoop实战>也已经翻完7章.仔细想想,这么好的一个框架,不能只是流于应用层面,跑跑数据排序.单表链接等,想得其精髓,还需深入内部. 按照<Ha ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
微服务ServiceMesh及三种模式介绍
1. 前言今年,ServiceMesh(服务网格)概念在社区里头非常火,有人提出2018年是ServiceMesh年,还有人提出ServiceMesh是下一代的微服务架构基础.作为架构师,如果你现在 ...
Hadoop生态圈-hbase介绍-完全分布式搭建
Hadoop生态圈-hbase介绍-完全分布式搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
Hadoop以及组件介绍
一.背景介绍在接触过大数据相关项目的时候常常都会听到Hadoop这个东西,简单来说,他是一个用分布式计算来处理大数据的开源软件,下面包含了许多的组件和子项目,这篇文章将会介绍Hadoop的原理以及一 ...

随机推荐

python3 访问 rabbitmq 示例
关于 rabbitmq 之前用过 kafka,要是拿这两者做对比的话,大概有以下异同: 两者都是一个分布式架构 kafka 具有较高的吞吐量,rabbimq 吞吐量较小 rabbitmq 的可靠性更好 ...
kvm第三章--虚拟化存储管理
iOS 如何判断一个点在某个指定区域中
在iOS 开发中会遇到判断位置的情况 iOS 自己都有函数实现的这些功能. 判断一个点是否在这个rect区域中 bool CGRectContainsPoint(CGRect rect,CGPoin ...
node.js 微信开发1-接入
准备工作1 域名准备无论是个人开发还是做公司项目域名都是必不可少的前期我个人用过花生壳做个开发测试,挺好用的,就是现在要收费了,开通花生壳要收费,开通内网穿透要收费(为啥要内网穿透呢,因为微信接入 ...
conda升级TensorFlow
1.打开Anaconda prompt,查看tensorflow各个版本 anaconda search -t conda tensorflow 2.选择自己系统的版本:运行以下命令 anaconda ...
Django 启动报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7
pycharm 报错 cmd 报错解决办法首先是计算机编码问题是 django 读取你的用户host名但是 windos 用户名如果是中文就会报这个错要改成英文
Windows10 临时将线程绑定至指定CPU的方法
本文首发:https://www.somata.work/2019/WindowsThreadBind.html 将线程绑定至指定CPU,这个应该时很多管理员需要了解认知的操作了吧,这样可以在一定程度 ...
Linux学习笔记之二
vim编辑器 :三种工作模式 vim /tmp/xueying.txt 命令模式 a.i.o/esc \ :wq 保存并退出 / \ 输入模式 ...
JDK源码那些事儿之SynchronousQueue上篇
今天继续来讲解阻塞队列,一个比较特殊的阻塞队列SynchronousQueue,通过Executors框架提供的线程池cachedThreadPool中我们可以看到其被使用作为可缓存线程池的队列实现, ...
Java原子类--AtomicLong
转载请注明出处:http://www.cnblogs.com/skywang12345/p/3514593.html AtomicLong介绍和函数列表 AtomicLong是作用是对长整形进行原子操 ...

Hadoop hadoop的介绍和几种模式

Hadoop简介

hadoop生态系统

Hadoop的四种模式

Hadoop hadoop的介绍和几种模式的更多相关文章

随机推荐

热门专题