Hadoop学习第一天

1.hadoop量大，数目多。

存储：分布式，集群的概念，管理(主节点、从节点)，HDFS。

分析：分布式、并行、离线计算框架，管理(主节点、从节点)，MapReduce。

来源：GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库，分布式的大数据存储和可扩展).

HDFS+MR思想：尽量移动计算到数据端，而不是移动数据到计算端。

HDFS默认存储是三份，解决硬件和网络故障问题。

HDFS思想：文件单次写入，多次读取，有文件副本

MR思想：分而治之，排序优化

hadoop1.x核心：hadoop common，HDFS，MapReduce

hadoop2.x核心：hadoop common，HDFS，MapReduce，Hadoop YARN(资源管理平台和任务调度器，相当于一个云操作系统)

hadoop生态圈1.x：HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),

HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

　　　　　　 Sqoop(数据库ETL工具，和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x：比1.x多了一个YARN，它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

HDFS(分布式文件系统)

1.NameNode:属于管理层，管理数据存储，SecondaryNameNode辅助NameNode,

2.DataNodes:属于应用层，用户进行数据存储，被NameNode进行管理，定期向NameNode进行汇报，执行NameNode分发的任务。

MapReduce(并行计算框架)

1.jobTracker:属于管理层，管理集群资源和对任务进行资源调度，监控人去执行

2.TaskTracker:属于应用层，执行jobTracher分发的任务，并向jobTracher汇报工作情况。

以上5个是Apache hadoop守护进程

NameNode主节点记录存储文件的元素据，主要有4块(文件名，目录结构，属性，文件块列表所属dataNode)。

SecondaryNameNode:监控HDFS状态的复制后台程序，每隔一段时间获取元素据快照。（主要记录后期修改后文件的信息）

DataNode:本地文件系统存储文件块数据和数据校验和。

jobTracker 负责接收用户提交的作业，负责启动跟踪任务执行。

TaskTracker 负责执行由jobTracker分配的任务，管理的各个任务在每个节点上的执行。

（jobTracker和TaskTracker通过心跳heartbeat进行交互）

Hadoop学习第一天的更多相关文章

hadoop学习第一天-hadoop初步环境搭建&伪分布式计算配置（详细）
一.虚拟机环境搭建我们用的虚拟机为vmware,Linux镜像为centOS6.5. vmware安装安装没什么多说的,一路下一步,但是在新建虚拟机的时候有两个地方需要注意: 1.分配处理器1个就 ...
Hadoop学习之旅三：MapReduce
MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...
[Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...
Hadoop学习笔记(3)——分布式环境搭建
Hadoop学习笔记(3) ——分布式环境搭建前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...
hadoop学习之Linux使用
Hadoop学习前准备工作 1.安装虚拟机(常用虚拟机:VirtualBox.VMWare)2.安装Linux操作系统(可以直接将打包好的Linux操作系统的镜像文件拿来用,鼠标右键打开,打开方式选择 ...
Hadoop学习笔记(10) ——搭建源码学习环境
Hadoop学习笔记(10) ——搭建源码学习环境上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...
Hadoop学习笔记(9) ——源码初窥
Hadoop学习笔记(9) ——源码初窥之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...
Hadoop学习笔记之HBase Shell语法练习
Hadoop学习笔记之HBase Shell语法练习作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称命令 ...

随机推荐

nyoj 123 士兵杀敌（四）树状数组【单点查询+区间修改】
士兵杀敌(四) 时间限制:2000 ms | 内存限制:65535 KB 难度:5 描述南将军麾下有百万精兵,现已知共有M个士兵,编号为1~M,每次有任务的时候,总会有一批编号连在一起人请战 ...
group by子句的三点注意项
1.在含有统计函数的select语句中,如果不使用group by子句,那么select子句中只允许出现统计函数,其他任何字段都不允许出现: 2.在含有统计函数的select语句中,如果使用了grou ...
解决@media screen （自适应）IE浏览器不兼容问题
1.解决兼容性问题 (1)页面最顶部必须定义:<!DOCTYPE html> (2)点击:下载 respond.js 文件 (3)引入<script src="respon ...
PAT 1026. Table Tennis
A table tennis club has N tables available to the public. The tables are numbered from 1 to N. For ...
用APK Downloader直接从Google Play上下载apk
APK Downloader可以直接从Google Play上下载apk,相比较其他软件,这个不需要提供Google ID,对于没有刷机的同学还是有些帮助的.
hdu4488 Faulhaber’s Triangle(模拟题)
Faulhaber’s Triangle Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Oth ...
Java的finally理解
1.为什么要用finally 先看一个没有finally的异常处理try-catch语句: 如果count为要使用到的资源,而且用完要求释放此资源.那么我们能够把释放资源的语句放到try-catch后 ...
【NodeJs】使用TCP套接字收发数据的简单实例
因为TCP协议是流协议,在收发数据的时候会有粘包的问题.本例使用自定义的SPtcp封包协议对TCP数据再进行一次封装,解决了粘包问题. 注:其性能仍有待优化.优化方向:使用TCP自带的接收窗口缓存. ...
Mac上pod install一直停住的解决办法
pod install一直停住的解决办法在/Users/XXX/.cocoapods/repos下 git clone https://github.com/CocoaPods/Specs.git ...
VC++判断是否连网
在开发中,需要判断是否有网络连接,于是写了个函数,实现代码如下: //判断是否有网络连接 static BOOL DoHaveInternetConnection() { BOOL bRet = FA ...

Hadoop学习第一天

Hadoop学习第一天的更多相关文章

随机推荐

热门专题