Hadoop学习第一天
1.hadoop量大,数目多。
存储:分布式,集群的概念,管理(主节点、从节点),HDFS。
分析:分布式、并行、离线计算框架,管理(主节点、从节点),MapReduce。
来源:GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库,分布式的大数据存储和可扩展).
HDFS+MR思想:尽量移动计算到数据端,而不是移动数据到计算端。
HDFS默认存储是三份,解决硬件和网络故障问题。
HDFS思想:文件单次写入,多次读取,有文件副本
MR思想:分而治之,排序优化
hadoop1.x核心:hadoop common,HDFS,MapReduce
hadoop2.x核心:hadoop common,HDFS,MapReduce,Hadoop YARN(资源管理平台和任务调度器,相当于一个云操作系统)
hadoop生态圈1.x:HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),
HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),
Sqoop(数据库ETL工具,和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x:比1.x多了一个YARN,它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)
HDFS(分布式文件系统)
1.NameNode:属于管理层,管理数据存储,SecondaryNameNode辅助NameNode,
2.DataNodes:属于应用层,用户进行数据存储,被NameNode进行管理,定期向NameNode进行汇报,执行NameNode分发的任务。
MapReduce(并行计算框架)
1.jobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控人去执行
2.TaskTracker:属于应用层,执行jobTracher分发的任务,并向jobTracher汇报工作情况。
以上5个是Apache hadoop守护进程
NameNode主节点记录存储文件的元素据,主要有4块(文件名,目录结构,属性,文件块列表所属dataNode)。
SecondaryNameNode:监控HDFS状态的复制后台程序,每隔一段时间获取元素据快照。(主要记录后期修改后文件的信息)
DataNode:本地文件系统存储文件块数据和数据校验和。
jobTracker 负责接收用户提交的作业,负责启动跟踪任务执行。
TaskTracker 负责执行由jobTracker分配的任务,管理的各个任务在每个节点上的执行。
(jobTracker和TaskTracker通过心跳heartbeat进行交互)
Hadoop学习第一天的更多相关文章
- hadoop学习第一天-hadoop初步环境搭建&伪分布式计算配置(详细)
一.虚拟机环境搭建 我们用的虚拟机为vmware,Linux镜像为centOS6.5. vmware安装 安装没什么多说的,一路下一步,但是在新建虚拟机的时候有两个地方需要注意: 1.分配处理器1个就 ...
- Hadoop学习之旅三:MapReduce
MapReduce编程模型 在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...
- [Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
- Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...
- Hadoop学习笔记(3)——分布式环境搭建
Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...
- hadoop学习之Linux使用
Hadoop学习前准备工作 1.安装虚拟机(常用虚拟机:VirtualBox.VMWare)2.安装Linux操作系统(可以直接将打包好的Linux操作系统的镜像文件拿来用,鼠标右键打开,打开方式选择 ...
- Hadoop学习笔记(10) ——搭建源码学习环境
Hadoop学习笔记(10) ——搭建源码学习环境 上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...
- Hadoop学习笔记(9) ——源码初窥
Hadoop学习笔记(9) ——源码初窥 之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...
- Hadoop学习笔记之HBase Shell语法练习
Hadoop学习笔记之HBase Shell语法练习 作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称 命令 ...
随机推荐
- Keepass 2.x 之 同步与触发器
同步 之前用的 Keepass 1.x, 要实现工作电脑和个人电脑上的数据库文件同步,使用的是第三方的网盘同步.但有个问题就是,个人不习惯设置同步网盘开机启动,所以有时候工作电脑上的改动还没有同步上传 ...
- 三个数从小到大排序—南阳acm
问题描述: 现在要写一个程序,实现给三个数排序的功能 输入 输入三个正整数 输出 给输入的三个正整数排序 样例输入 20 7 33 样例输 ...
- 关于yuv 的pack(紧缩格式)和planner(平面格式)格式 [转]
关于yuv 格式 YUV 格式通常有两大类:打包(packed)格式和平面(planar)格式.前者将 YUV 分量存放在同一个数组中,通常是几个相邻的像素组成一个宏像素(macro-pixel);而 ...
- ubuntu 交换ctrl与caps lock 键
The relevant option is no longer available in the settings menu in Ubuntu 13.10; this has been repor ...
- Area - POJ 1265(pick定理求格点数+求多边形面积)
题目大意:以原点为起点然后每次增加一个x,y的值,求出来最后在多边形边上的点有多少个,内部的点有多少个,多边形的面积是多少. 分析: 1.以格子点为顶点的线段,覆盖的点的个数为GCD(dx,dy),其 ...
- MD5是什么,怎么用着怪怪的
写作目的 通常我们在使用加密算法时,都是直接调用一个方法,比如Base64,直接把待加密的字符串给加密好了.对于某些使用公私钥的算法,最多再传入一段公钥即可.但是在使用MD5算法的时候,总是需要用到一 ...
- Day 3 @ RSA Conference Asia Pacific & Japan 2016 (morning)
09.00 – 09.45 hrs Tracks Cloud, Mobile, & IoT Security A New Security Paradigm for IoT (Inter ...
- js_面向对象编程
主要内容 值类型与引用类型的特征 深拷贝与浅拷贝 对象的动态特性 构造函数的执行过程 异常处理 dom操作(略) <!DOCTYPE html> <html> <head ...
- FolderBrowserDialog
FolderBrowserDialog folderBrowserDialog1 = new FolderBrowserDialog(); folderBrowserDial ...
- android账号与同步之同步实现
上一篇博文我先介绍了账号与同步的账号管理,这篇就介绍一下还有一部分.就是android给提供的sync同步机制的使用. 事实上sync机制的使用和上一篇博文中介绍的账号管理非常类似,也是基于binde ...