1.hadoop量大,数目多。

存储:分布式,集群的概念,管理(主节点、从节点),HDFS。

分析:分布式、并行、离线计算框架,管理(主节点、从节点),MapReduce。

来源:GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库,分布式的大数据存储和可扩展).

HDFS+MR思想:尽量移动计算到数据端,而不是移动数据到计算端。

HDFS默认存储是三份,解决硬件和网络故障问题。

HDFS思想:文件单次写入,多次读取,有文件副本

MR思想:分而治之,排序优化

hadoop1.x核心:hadoop common,HDFS,MapReduce

hadoop2.x核心:hadoop common,HDFS,MapReduce,Hadoop YARN(资源管理平台和任务调度器,相当于一个云操作系统)

hadoop生态圈1.x:HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),

HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

              Sqoop(数据库ETL工具,和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x:比1.x多了一个YARN,它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

HDFS(分布式文件系统)

1.NameNode:属于管理层,管理数据存储,SecondaryNameNode辅助NameNode,

2.DataNodes:属于应用层,用户进行数据存储,被NameNode进行管理,定期向NameNode进行汇报,执行NameNode分发的任务。

MapReduce(并行计算框架)

1.jobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控人去执行

2.TaskTracker:属于应用层,执行jobTracher分发的任务,并向jobTracher汇报工作情况。

以上5个是Apache hadoop守护进程

NameNode主节点记录存储文件的元素据,主要有4块(文件名,目录结构,属性,文件块列表所属dataNode)。

SecondaryNameNode:监控HDFS状态的复制后台程序,每隔一段时间获取元素据快照。(主要记录后期修改后文件的信息

DataNode:本地文件系统存储文件块数据和数据校验和。

jobTracker 负责接收用户提交的作业,负责启动跟踪任务执行。

TaskTracker 负责执行由jobTracker分配的任务,管理的各个任务在每个节点上的执行。

jobTracker和TaskTracker通过心跳heartbeat进行交互

Hadoop学习第一天的更多相关文章

  1. hadoop学习第一天-hadoop初步环境搭建&伪分布式计算配置(详细)

    一.虚拟机环境搭建 我们用的虚拟机为vmware,Linux镜像为centOS6.5. vmware安装 安装没什么多说的,一路下一步,但是在新建虚拟机的时候有两个地方需要注意: 1.分配处理器1个就 ...

  2. Hadoop学习之旅三:MapReduce

    MapReduce编程模型 在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...

  3. [Hadoop] Hadoop学习历程 [持续更新中…]

    1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...

  4. Hadoop学习笔记(5) ——编写HelloWorld(2)

    Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...

  5. Hadoop学习笔记(3)——分布式环境搭建

    Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...

  6. hadoop学习之Linux使用

    Hadoop学习前准备工作 1.安装虚拟机(常用虚拟机:VirtualBox.VMWare)2.安装Linux操作系统(可以直接将打包好的Linux操作系统的镜像文件拿来用,鼠标右键打开,打开方式选择 ...

  7. Hadoop学习笔记(10) ——搭建源码学习环境

    Hadoop学习笔记(10) ——搭建源码学习环境 上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...

  8. Hadoop学习笔记(9) ——源码初窥

    Hadoop学习笔记(9) ——源码初窥 之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...

  9. Hadoop学习笔记之HBase Shell语法练习

    Hadoop学习笔记之HBase Shell语法练习 作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称 命令 ...

随机推荐

  1. LR(1)表驱动语法分析程序

    /* * LR(1) 语法分析 */ #include <stdio.h> #include <stdlib.h> #include <string.h> #inc ...

  2. TabHost自定义外观

    博客园:http://www.cnblogs.com 农民伯伯: http://www.cnblogs.com/over140 版本 新浪微博 weibo_10235010.apk 正文 一.效果图 ...

  3. 如何成为一名优秀的web前端工程师(前端攻城师)?

    程序设计之道无远弗届,御晨风而返.———— 杰佛瑞 · 詹姆士 我所遇到的前端程序员分两种:第一种一直在问:如何学习前端?第二种总说:前端很简单,就那么一点东西. 我从没有听到有人问:如何做一名优秀. ...

  4. Shell break和continue命令

    在循环过程中,有时候需要在未达到循环结束条件时强制跳出循环,像大多数编程语言一样,Shell也使用 break 和 continue 来跳出循环. break命令 break命令允许跳出所有循环(终止 ...

  5. CSS选择器详解(伪类) 转 http://blog.csdn.net/Panda_m/article/details/50084699

    CSS选择器详解 之 伪类 伪类对大小写不敏感 结构伪类选择器 结构伪类是CSS3新增的类型选择器,利用DOM树实现元素过滤,通过文档结构的相互关系来匹配元素,可以减少class和id属性的定义,使文 ...

  6. PHP判断变量是否为长整形的方法

    PHP判断变量是否为长整形的方法,可用于判断QQ号等,避免了int溢出的问题 <?php /** * 判断变量是否为长整数(int与整数float) * @param mixed $var * ...

  7. DataTable导入到Excel文件

        ;                saveFileDialog.RestoreDirectory = ;            , intIndex] = column.ColumnName; ...

  8. 使用Parse内付费服务出现的Error Domain=Parse Code=146 "The operation couldn’t be completed. (Parse error 146.)

    因为开发一个应用有个内付费去广告功能,介于苹果官方提供的方法没用过,感觉有些复杂,于是选用了第三方组件Parse来解决这个问题,简单易操作: Parse简化苹果官方内付费问题,使用方法分厂简单只有两个 ...

  9. PHPExcel的读取excel的操作

    首先导入类库: require_once 'PHPExcel.php'; require_once 'PHPExcel\IOFactory.php'; require_once 'PHPExcel\R ...

  10. 使用QEMU调试Linux内核代码

    http://blog.chinaunix.net/uid-20729583-id-1884617.html http://www.linuxidc.com/Linux/2014-08/105510. ...