hadoop(1)---hadoop的介绍和几种模式。

一、什么是hadoop？

Hadoop软件库是一个开源框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障。是大数据技术的基础。

hadoop所包含的模块（从官网借鉴的）：

♥ hadoop分布式文件系统（HDFS）：一种分布式文件系统，能够提供高可靠、高可用、可扩展以及对应用程序数据的高吞吐量访问。

♥ yarn ：作业调度和资源管理的框架。

♥ MapReduce ：基于yarn框架，用于并行计算处理大型数据集，是一种计算框架。

♥ ambari ：基于Web的工具，用于配置，管理和监控Apache Hadoop集群，包括对Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop的支持。Ambari还提供了一个用于查看群集运行状况的仪表板，例如热图，以及可视化查看MapReduce，Pig和Hive应用程序的功能，以及以用户友好的方式诊断其性能特征的功能。

♥ avro ：数据序列化系统。

♥ cassandra：可扩展的多主数据库，没有单点故障。

♥ hbase：可扩展的分布式数据库，支持大型表的结构化数据存储。

♥ hive：一种数据仓库基础架构，提供数据汇总和即席查询。

♥ pig：用于并行计算的高级数据流语言和执行框架。

♥ spark：用于Hadoop数据的快速通用计算引擎。Spark提供了一种简单而富有表现力的编程模型，支持广泛的应用程序，包括ETL，机器学习，流处理和图形计算。

♥ zookeeper：用于分布式应用程序的高性能协调服务。

二、hadoop的四种模式。

1、本地模式：

本地模式就是解压源码包，不需要做任何的配置。通常用于开发调试，或者感受hadoop。

2、伪分布模式：

在学习当中一般都是使用这种模式，伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程，但是却还是运行在同一个系统里面。所以叫伪分布式。

3、完全分布式：

这种模式才是工作当中所用的模式，hadoop运行在多台机器上面，我们称之为hadoop集群。

4、HA：

在实际的工作当中，对于hadoop完全分布式来说，并不真正的可靠，因为hadoop完全分布式集群会有单点故障（namenode单点故障、yarn单点故障），所以一般都会对这个集群做HA，一般都是做namenode和yarn的高可用。

下一章会对这几种模式的安装作介绍。

*** 本博客只是用来对自己所学知识的记录和总结，同时也希望能够帮助他人，可能写的并不好，还请见谅。***

hadoop(1)---hadoop的介绍和几种模式。的更多相关文章

Hadoop hadoop的介绍和几种模式
Hadoop简介 Hadoop软件库是一个开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集.它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储.库本身不是依靠硬件来提 ...
框架-SPI四种模式+通用设备驱动实现
目录前言笔录草稿 SPI介绍 SPI四种模式 ** SPI 驱动框架 ** 框架前言 SPI 介绍为搜集百度资料+个人理解其余为原创(有误请指正) 集四种模式于一身笔录草稿 SPI介绍 SP ...
hadoop以及相关组件介绍以及个人理解
前言本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...
hadoop学习；自己定义Input/OutputFormat；类引用mapreduce.mapper；三种模式
hadoop切割与读取输入文件的方式被定义在InputFormat接口的一个实现中.TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键.从TextInpu ...
hadoop的目录结构介绍
hadoop的目录结构介绍解压缩hadoop 利用tar –zxvf把hadoop的jar包放到指定的目录下. tar -zxvf /home/software/aa.tar.gz -C /home ...
[Hadoop 周边] Hadoop和大数据：60款顶级大数据开源工具（2015-10-27）【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
【云计算 Hadoop】Hadoop 版本生态圈 MapReduce模型
忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本和生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : ...
大数据Hadoop——初识Hadoop
Hadoop简介官方网站: http://hadoop.apache.org/ 中文网站: http://hadoop.apache.org/docs/r1.0.4/cn/ Hadoop设计来源 ...
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来 ...

随机推荐

搭建一个简单的React项目
我是使用了create-react-app来搭建的基本框架,其中的原理和vue-cli差不多的脚手架.(当然也可以自己配置项目目录,这里我偷了一下懒) npm install -g create-re ...
ORA-00001:unique constraint violated解决
转自:https://www.2cto.com/database/201211/172340.html ORA-00001:unique constraint violated解决今天往数据库中插入 ...
Python_if语句
1.if语句: color='红色' if color=='蓝色': print('我是蓝色') elif color=='红色': print('我是红色') else : print('未知') ...
1.Git & GitHup
1.常见的版本控制(管理代码的版本迭代)工具: @ svn:集中式版本控制系统: SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以首先要从中央服务器哪里 ...
JVM系列三：内存分配与回收策略
内存分配策略 1.对象优先分配在新生代Eden区多数情况下,对象分配在新生代的Eden,若Eden区域内存不够,则引发一次Minor GC 2.大对象直接进入老年代大对象直接分配在老年代,避免新生 ...
jstack、jmc、jhat工具使用详解
jstack: 在上一次[https://www.cnblogs.com/webor2006/p/10669472.html]jcmd中也可以获取线程的堆栈信息,回顾一下: 其实在JDK中还有另一个专 ...
jquery基础知识3
1.jquery的位置信息 <!DOCTYPE html> <html lang="en"> <head> <meta charset=& ...
python中is与==的区别，编码和解码
在介绍is与==的区别前,我们先来了解一些新的知识:内存地址.小数据池. 1.内存地址(is 比较的就是内存地址) 获取内存地址的方法:id() a = "str" 2.小数据池 ...
mybatis3.1-[topic-16-17]-映射文件_增删改查_insert_获取自增主键的值
笔记要点出错分析与总结 /**测试第16章的增,删,改的内容 * 错误1: <insert id="addEmp" parameterType="com.bean ...
搭建Git服务器环境----Git hooks代码自动部署
引言:自己想搭一套git的服务端环境,不想用github码云等.经多方资料整合,实验总结,以下是亲测有效的方式.可用于公司日常开发一.搭建Git环境 ① 安装 Git Linux 做为服务器端系统, ...

hadoop(1)---hadoop的介绍和几种模式。

hadoop(1)---hadoop的介绍和几种模式。的更多相关文章

随机推荐

热门专题