hadoop上的并行应用程序开发是基于MapReduce编程框架的,MapReduce编程模型的原理是:利用一个输入的key/value对集合来产生一个输出的key/value对集合。

MapReduce库的用户用两个函数来表达这个计算:Map和Reduce。

    用户自己定义的map函数接收一个输入的key/value对,然后产生一个中间key/value对的集合。MapReduce把全部具有同样key值的value集合在一起,然后传递给reduce函数。
    用户自己定义的reduce函数接收key和相关的value集合。reduce函数合并这些value值,形成一个较小的value集合。一般来说,每次reduce函数调用仅仅产生0或1个输出的value值。通常我们通过一个迭代器把中间的value值提供给reduce函数,这样就能够处理无法所有放入内存中的大量的value值集合了。MapReduce计算模型很适合在大量计算机组成的大规模集群上并行执行。
    Hadoop分布式文件系统由一个名称节点和N个数据节点组成。

每一个节点均是一台普通的计算机。在使用方式上HDFS与我们熟悉的单机文件系统很类似,它能够创建文件夹,创建、复制和删除文件。以及查看文件的内容等。

    通常,MapReduce框架和分布式文件系统是执行在一组同样的节点上的,也就是说,计算节点和存储节点在一起。这样的配置同意框架在那些已经存好数据的节点上高效地调度任务,这能够使整个集群的网络带宽被很高效的利用。

HBase的数据管理

    HBase是一个类似Bigtable的分布式数据库,它的大部分特性和Bigtable一样,是一个稀疏的、长期存储的、多维度的排序映射表。这张表的索引是行keyword、列keyword和时间戳。每一个值是一个不解释的字符数组,数据都是字符串。没有类型。
HBase体系结构的三大重要组成部分是:
  • HBaseMaster:HBase主server,与Bigtable的主server类似。
  • HRegionServer:HBase域server,与Bigtable的Tabletserver类似。
  • HBaseClient:HBase客户端是由org.apache.hadoop.HBase.client.HTable定义的。
    NameNode:HDFS的守护程序。记录文件是怎样切割成数据块的。以及这些数据块被存储到哪些节点上,对内存和I/O进行集中管理,是个单点,发生问题将使集群崩溃
    SecondaryNameNode:监控HDFS状态的辅助后台程序。每一个集群都有一个,与NameNode进行通讯。定期保存HDFS元数据快照。当NameNode故障能够作为备用NameNode使用
    DataNode:每台从server都执行一个,负责把HDFS数据块读写到本地文件系统。负责所在物理节点的存储管理。一次写入,多次读取,文件由数据块组成。典型的大小是64MB,数据块尽量散布到各个节点
    JobTracker:用于处理作业的后台程序,决定有哪些文件參与处理,然后分割task并分配节点,监控task,重新启动失败的task,每一个集群仅仅有唯一一个JobTracker。位于Master节点
    TaskTracker:位于Slave节点,与DataNode结合,管理各自节点上的task,每一个节点仅仅有一个TaskTracker,但一个TaskTracker能够启动多个JVM,用于并行运行map或reduce任务,与JobTracker交互
    Master:执行NameNode、SecondaryNameNode、JobTracker的节点,Master不是唯一的
    Slave:执行TaskTracker、DataNode的节点

三种执行模式

单机模式:安装简单,差点儿不用作不论什么配置。但仅限于调试用于
伪分布模式:在单节点上同一时候启动NameNode、DataNode、JobTracker、TaskTracker、SecondaryNameNode等五个进程。模拟分布式执行的各个节点
全然分布模式:正常的Hadoop集群,由多个各司其职的节点构成

NameNode使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包含文件映射。文件属性等。

Hadoop与分布式开发的更多相关文章

  1. java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

    目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages 目录 Hadoop完全分布式运行模式 步骤分析: 编写集群分发脚本xsync 集群配置 集群部署规划 配置集群 集群单 ...

  2. Hadoop HDFS分布式文件系统设计要点与架构

      Hadoop HDFS分布式文件系统设计要点与架构     Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...

  3. Hadoop伪分布式模式部署

    Hadoop的安装有三种执行模式: 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置.Hadoop执行在一个Java进程中.使用本地文件系统.不使用HDFS, ...

  4. 一步到位分布式开发Zookeeper实现集群管理

    说到分布式开发Zookeeper是必须了解和掌握的,分布式消息服务kafka .hbase 到hadoop等分布式大数据处理都会用到Zookeeper,所以在此将Zookeeper作为基础来讲解. Z ...

  5. 『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现

    『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现 1.基本设定和软件版本 主机名 ip 对应角色 mas ...

  6. 【转】Hadoop HDFS分布式环境搭建

    原文地址  http://blog.sina.com.cn/s/blog_7060fb5a0101cson.html Hadoop HDFS分布式环境搭建 最近选择给大家介绍Hadoop HDFS系统 ...

  7. windows下eclipse远程连接hadoop集群开发mapreduce

    转载请注明出处,谢谢 2017-10-22 17:14:09  之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...

  8. Hadoop-01 搭建hadoop伪分布式运行环境

    Linux中配置Hadoop运行环境 程序清单 VMware Workstation 11.0.0 build-2305329 centos6.5 64bit jdk-7u80-linux-x64.r ...

  9. Hadoop完全分布式集群搭建

    Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统.,用于开发和 ...

随机推荐

  1. SDUT 2622 最短路径(Dijkstra)

    点我看题目 题意 :中文不详述. 思路 :因为这个题加了一个要求就是路径数目得是x的倍数.所以在原来算法的一维dis数组增加到二维,用来存走的路径数%x.也可以用spfa做. #include < ...

  2. Android ListView(Selector 背景图片)

    listview0.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmln ...

  3. html5学习链接

    http://www.runoob.com/tags/html-colorpicker.html

  4. BZOJ_1615_[Usaco2008_Mar]_The Loathesome_Hay Baler_麻烦的干草打包机_(模拟+宽搜/深搜)

    描述 http://www.lydsy.com/JudgeOnline/problem.php?id=1615 一个主动轮带着一些轮子转,轮子带着轮子转,轮子带着轮子转...一个非主动轮只会被一个轮子 ...

  5. BZOJ_1611_[Usaco2008_Feb]_Meteor_Shower流星雨_(bfs)

    描述 http://www.lydsy.com/JudgeOnline/problem.php?id=1611 网格图起始位置(0,0),不同时间会有流星落下,导致之后的时间里,该点以及周围四个点都不 ...

  6. Linux Kernel 整数溢出漏洞

    漏洞名称: Linux Kernel 整数溢出漏洞 CNNVD编号: CNNVD-201311-062 发布时间: 2013-11-07 更新时间: 2013-11-07 危害等级:    漏洞类型: ...

  7. c程序设计语言_习题1-13_统计输入中单词的长度,并且根据不同长度出现的次数绘制相应的直方图

    Write a program to print a histogram of the lengths of words in its input. It is easy to draw the hi ...

  8. 创建通用型framework

    http://years.im/Home/Article/detail/id/52.html http://www.cocoachina.com/industry/20131204/7468.html ...

  9. 【转】JVM 基础知识

    几年前写过一篇关于JVM调优的文章,前段时间拿出来看了看,又添加了一些东西.突然发现,基础真的很重要.学习的过程是一个由表及里,再由里及表的过程,所谓的“温故而知新”.而真正能走完这个轮回的人,也就能 ...

  10. 使用 HTML5、CSS3 和 MathML 在 EPUB 3 中制作版式丰富的出版物

    探索用于高级排版和印刷的新一代开放电子书标准 EPUB 3.0 是最新的行业标准 XML 电子书格式,它采用了 HTML5 和 CSS3,因而融入了现代 Web 技术.它重点关注 XML 驱动的工具包 ...