Hadoop学习第一天

1.hadoop量大，数目多。

存储：分布式，集群的概念，管理(主节点、从节点)，HDFS。

分析：分布式、并行、离线计算框架，管理(主节点、从节点)，MapReduce。

来源：GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库，分布式的大数据存储和可扩展).

HDFS+MR思想：尽量移动计算到数据端，而不是移动数据到计算端。

HDFS默认存储是三份，解决硬件和网络故障问题。

HDFS思想：文件单次写入，多次读取，有文件副本

MR思想：分而治之，排序优化

hadoop1.x核心：hadoop common，HDFS，MapReduce

hadoop2.x核心：hadoop common，HDFS，MapReduce，Hadoop YARN(资源管理平台和任务调度器，相当于一个云操作系统)

hadoop生态圈1.x：HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),

HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

　　　　　　 Sqoop(数据库ETL工具，和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x：比1.x多了一个YARN，它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

HDFS(分布式文件系统)

1.NameNode:属于管理层，管理数据存储，SecondaryNameNode辅助NameNode,

2.DataNodes:属于应用层，用户进行数据存储，被NameNode进行管理，定期向NameNode进行汇报，执行NameNode分发的任务。

MapReduce(并行计算框架)

1.jobTracker:属于管理层，管理集群资源和对任务进行资源调度，监控人去执行

2.TaskTracker:属于应用层，执行jobTracher分发的任务，并向jobTracher汇报工作情况。

以上5个是Apache hadoop守护进程

NameNode主节点记录存储文件的元素据，主要有4块(文件名，目录结构，属性，文件块列表所属dataNode)。

SecondaryNameNode:监控HDFS状态的复制后台程序，每隔一段时间获取元素据快照。（主要记录后期修改后文件的信息）

DataNode:本地文件系统存储文件块数据和数据校验和。

jobTracker 负责接收用户提交的作业，负责启动跟踪任务执行。

TaskTracker 负责执行由jobTracker分配的任务，管理的各个任务在每个节点上的执行。

（jobTracker和TaskTracker通过心跳heartbeat进行交互）

Hadoop学习第一天的更多相关文章

hadoop学习第一天-hadoop初步环境搭建&伪分布式计算配置（详细）
一.虚拟机环境搭建我们用的虚拟机为vmware,Linux镜像为centOS6.5. vmware安装安装没什么多说的,一路下一步,但是在新建虚拟机的时候有两个地方需要注意: 1.分配处理器1个就 ...
Hadoop学习之旅三：MapReduce
MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...
[Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...
Hadoop学习笔记(3)——分布式环境搭建
Hadoop学习笔记(3) ——分布式环境搭建前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...
hadoop学习之Linux使用
Hadoop学习前准备工作 1.安装虚拟机(常用虚拟机:VirtualBox.VMWare)2.安装Linux操作系统(可以直接将打包好的Linux操作系统的镜像文件拿来用,鼠标右键打开,打开方式选择 ...
Hadoop学习笔记(10) ——搭建源码学习环境
Hadoop学习笔记(10) ——搭建源码学习环境上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...
Hadoop学习笔记(9) ——源码初窥
Hadoop学习笔记(9) ——源码初窥之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...
Hadoop学习笔记之HBase Shell语法练习
Hadoop学习笔记之HBase Shell语法练习作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称命令 ...

随机推荐

windows下mysql 控制台操作
windows mysql 控制台操作 1.首先打开cmd进入dos窗口 2.切换至目录: F: cd PHPnow-1.5.6\MySQL-5.0.90\bin 3.进入mysql: mysql - ...
常用js效果：选项卡切换
js选项卡,很多网站都会用到,我这里用jquery给整了一个简单但是却很实用的js选项卡,废话不多说,直接上代码: <style> .txtadsblk01{ width:200px;} ...
How to Validate XML using Java
Configure Java APIs (SAX, DOM, dom4j, XOM) using JAXP 1.3 to validate XML Documents with DTD and Sch ...
javascript中通过className灵活查找元素例如我们要把根据class来进行修改样式
一.背景:一个表单中,要修改一些li中有class=box的样式,将它的background设置为red红色.一般的做法是我们可以先找到父级元素 ,然后由父级元素找到所有相关tagName,最后,来一 ...
【转】Android异常：that was originally added here
? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 02-19 15:08:02.228: E/WindowManager(22172): Activity ...
报错：System.Data.Entity.Infrastructure.DbUpdateException 更新条目时出错
背景往数据库添加数据,前端验证通过的情况下,提交报错,程序停在了SaveChanges()这行,并报如上错误. 分析猜想是提交的领域模型不符合数据库要求,但不知道具体哪里出错.网上查资料,有人发现 ...
Android开发之设定Dialog的位置
今天自定义了一个对话框,但是弹出时默认是显示在屏幕中间.主要代码:menuDialog = new AlertDialog.Builder(this).create(); ...
plupload使用指南（转）
转自http://www.cnblogs.com/2050/p/3913184.html 现在随着html5技术的逐渐推广和普及,再去使用以flash为上传手段的SWFUpload显然就有点过时了,毕 ...
Android图片异步加载之Android-Universal-Image-Loader
将近一个月没有更新博客了,由于这段时间以来准备毕业论文等各种事务缠身,一直没有时间和精力沉下来继续学习和整理一些东西.最近刚刚恢复到正轨,正好这两天看了下Android上关于图片异步加载的开源项目,就 ...
FAQs: 我们可以在那里来为我的没有提升管理权限的应用程序存储用户数据？
如果你正在写一个不需要管理员权限的应用程序,如写一个业务线应用(Line of Business,LOB),用户应用程序如游戏,你总是要把应用程序的数据写到一个标准用可以访问的目录.下面列出一些所推荐 ...

Hadoop学习第一天

Hadoop学习第一天的更多相关文章

随机推荐

热门专题