hadoop入门(一)
 
一、概述
1.什么是hadoop
hadoop不仅是一个用于存储分布式文件系统,还是设计用来在有通用计算设备组成的大型集群上执行的分布式应用的基础框架。
hadoop框架最核心的设计是mapreduce和HDFS
1.2为什么要选择hadoop
1)扩容:能可靠的处理和存储PB级数据
2)成本:可以通过普通机器组成服务器群来分发和处理数据,这些服务器总计可大上千节点
3)高效:通过分发数据,hadoop可以并行处理这些数据,使它们特别快速
4)可靠:hadoop可以通过机器感知进行数据备份,并且任务失败后可以重新计算
12.2使用场景
主要用于海量数据分析
二、分布式文件系统HDFS
1.1Namedata:名称节点
1)维护HDFS文件系统,是HDFS的主节点
2)接收客户端的请求:上传文件、下载文件、创建文件等等
3)记录客户端操作的日志(edits文件),保存HDFS最新状态
-edits文件保存了自最后一次检查点之前针对HDFS的所有操作,如:增加文件,重命 名,删除文件
-保存目录:$HADOOP_HOME/tmp/dfs/name/current
-可以使用hdfs ove -i 命令将日志(二进制)输出为XML文件
4)维护文件元信息,将内存中不常用的元信息存储到硬盘上(fsimage文件)
-fsimage是HDFS文件系存于元数据的检查点,里面记录了自最后一次检查点之前HDFS中多有目录和文件的序列化信息
-保存目录:$HADOOP_HOME/tmp/dfs/name/current
-可以使用hdfs oiv -i 命令将日志(二进制)输出为文本
1.2DataNode:数据节点
1)以数据块为单位,保存数据
hadoop1.0的数据块单位为64M
hadoop2.0的数据块单位为128M
2)在全分布式模式下,至少两个DataNode节点
3)数据保存的目录:由hadoop.tmp.dir决定
1.2SecondayNameNode:第二人称节点
1.主要作用是日志合并
2.日志合并的过程
1.3HDFS存在的问题
1.NameNode单点故障,难以应用二在线场景
解决方案:hadoop1.0没有解决方法
hadoop2.0使用Zookeeper实现NameNod的HA功能
2.NameNode压力过大,且内存受限,影响系统扩展性
解决方案
hadoop1.0 中没有解决方案
hadoop2.0 使用NameNode的联盟实现其水平扩展
1.4YARN:分布式计算(MapReduce)
ResourceManager(资源管理器)
1.接收客户端的请求:执行任务
2.分配资源
3.分配任务
NodeManager(节点管理器:运行任务MapReduce)
1.从Data上获取数据,执行任务

hadoop(1)入门的更多相关文章

  1. Hadoop快速入门

    目的 这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等. 先决条件 ...

  2. hadoop pig入门总结

    在这里贴一个pig源码的分析,做pig很长时间没做笔记,不包含任何细节,以后有机会再说吧 http://blackproof.iteye.com/blog/1769219 hadoop pig入门总结 ...

  3. Hadoop高速入门

    Hadoop高速入门 先决条件 支持平台 GNU/Linux是产品开发和执行的平台. Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证. Win32平台是作为开发平台支 ...

  4. 详细的Hadoop的入门教程-完全分布模式Fully-Distributed Operation

    1. 前面在伪分布模式下已经创建了一台机器,为了统一命名,hostname更名为hadoop01.然后再克隆2台机器:hadoop02. hadoop03:将第一台机器hadoop01上的伪分布停止, ...

  5. 1.2 Hadoop快速入门

    1.2 Hadoop快速入门 1.Hadoop简介 Hadoop是一个开源的分布式计算平台. 提供功能:利用服务器集群,根据用户定义的业务逻辑,对海量数据的存储(HDFS)和分析计算(MapReduc ...

  6. Hadoop大数据学习视频教程 大数据hadoop运维之hadoop快速入门视频课程

    Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进 ...

  7. hadoop MapReduce 入门

    原创播客,如需转载请注明出处.原文地址:http://www.cnblogs.com/crawl/p/7687120.html ------------------------------------ ...

  8. 大数据之Hadoop技术入门汇总

    今天,小编对Hadoop入门学习知识进行了汇总,帮助大家更好地入手大数据.小编关于Hadoop入门总共发写了12篇原创文章,文章是参照尚硅谷大数据视频教程来进行撰写的. 今天,小编带你解锁正确的阅读顺 ...

  9. Hadoop.之.入门部署

    一.课程目标 ->大数据是什么?大数据能做什么? ->什么是Hadoop?Hadoop的设计思想? ->Hadoop如何解决大数据的问题?(什么是hdfs与yarn.MapReduc ...

随机推荐

  1. 个人复习记录之-js

    1变量:内存中储存一个数据的储存空间. 使用:声明,赋值,取值.注 不能以数字开头,不能用保留字 *声明提前:在程序正式执行前,都会将所有var声明的变量提前到开始位置,集中创建***赋值留在原地** ...

  2. Spark学习之基于MLlib的机器学习

    Spark学习之基于MLlib的机器学习 1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定. 2. MLlib完成文本分类任 ...

  3. 【译】x86程序员手册35-9.8异常条件

    译注:一些异常没有翻译,因为看书时主要为了理解linux代码,所以代码中没有主要使用的就没有仔细看.这部分内容后期再看时再进行翻译. 9.8 Exception Conditions 异常条件 The ...

  4. 合并百度影音的离线数据 with python 2.1 bdv格式的更新

    最近百度影音的离线下载文件,格式有新变化. 经过分析,是bdv格式又有新格式,从最初的bdv0001,到bdv.config 的file....,这次更新的格式是直接包含一个片段,其中还有使用guid ...

  5. java调用jacob生成pdf,word,excel横向

    /* * 传进一个office文件的byte[]以及后缀,生成一个pdf文件的byte[] */ public byte[] jacob_Office2Pdf(byte[] srcFileBytes, ...

  6. PPTP的搭建

    一.准备 1.检查是否支持pptp modprobe ppp-compress-18 && echo yes yes支持 2.是否开启tun cat /dev/net/tun 返回ca ...

  7. ArrayList源码分析(基于JDK1.8)

    public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess ...

  8. cce - 控制台中文环境

    语法 (SYNTAX) cce [-e program] 描述 (DESCRIPTION) 该程序是一个类似于 WZCE , yact 和 chdrv 的控制台中文平台.进入该环境后可以用“空格 + ...

  9. CAD交互绘制虚线(com接口)

    用户可以在控件视区任意位置绘制直线. 主要用到函数说明: _DMxDrawX::DrawLine 绘制一个直线.详细说明如下: 参数 说明 DOUBLE dX1 直线的开始点x坐标 DOUBLE dY ...

  10. 【JavaScript从入门到精通】第二课

    第二课 初探JavaScript魅力-02 变量 说起变量,我们不得不提起我们有一部比较古老的电视剧叫<包青天>.包青天有一把非常厉害的宝剑叫“尚方宝剑”,见到尚方宝剑有如见到皇帝.某种程 ...