hadoop上的并行应用程序开发是基于MapReduce编程框架的,MapReduce编程模型的原理是:利用一个输入的key/value对集合来产生一个输出的key/value对集合。

MapReduce库的用户用两个函数来表达这个计算:Map和Reduce。

    用户自己定义的map函数接收一个输入的key/value对,然后产生一个中间key/value对的集合。MapReduce把全部具有同样key值的value集合在一起,然后传递给reduce函数。
    用户自己定义的reduce函数接收key和相关的value集合。reduce函数合并这些value值,形成一个较小的value集合。一般来说,每次reduce函数调用仅仅产生0或1个输出的value值。通常我们通过一个迭代器把中间的value值提供给reduce函数,这样就能够处理无法所有放入内存中的大量的value值集合了。MapReduce计算模型很适合在大量计算机组成的大规模集群上并行执行。
    Hadoop分布式文件系统由一个名称节点和N个数据节点组成。

每一个节点均是一台普通的计算机。在使用方式上HDFS与我们熟悉的单机文件系统很类似,它能够创建文件夹,创建、复制和删除文件。以及查看文件的内容等。

    通常,MapReduce框架和分布式文件系统是执行在一组同样的节点上的,也就是说,计算节点和存储节点在一起。这样的配置同意框架在那些已经存好数据的节点上高效地调度任务,这能够使整个集群的网络带宽被很高效的利用。

HBase的数据管理

    HBase是一个类似Bigtable的分布式数据库,它的大部分特性和Bigtable一样,是一个稀疏的、长期存储的、多维度的排序映射表。这张表的索引是行keyword、列keyword和时间戳。每一个值是一个不解释的字符数组,数据都是字符串。没有类型。
HBase体系结构的三大重要组成部分是:
  • HBaseMaster:HBase主server,与Bigtable的主server类似。
  • HRegionServer:HBase域server,与Bigtable的Tabletserver类似。
  • HBaseClient:HBase客户端是由org.apache.hadoop.HBase.client.HTable定义的。
    NameNode:HDFS的守护程序。记录文件是怎样切割成数据块的。以及这些数据块被存储到哪些节点上,对内存和I/O进行集中管理,是个单点,发生问题将使集群崩溃
    SecondaryNameNode:监控HDFS状态的辅助后台程序。每一个集群都有一个,与NameNode进行通讯。定期保存HDFS元数据快照。当NameNode故障能够作为备用NameNode使用
    DataNode:每台从server都执行一个,负责把HDFS数据块读写到本地文件系统。负责所在物理节点的存储管理。一次写入,多次读取,文件由数据块组成。典型的大小是64MB,数据块尽量散布到各个节点
    JobTracker:用于处理作业的后台程序,决定有哪些文件參与处理,然后分割task并分配节点,监控task,重新启动失败的task,每一个集群仅仅有唯一一个JobTracker。位于Master节点
    TaskTracker:位于Slave节点,与DataNode结合,管理各自节点上的task,每一个节点仅仅有一个TaskTracker,但一个TaskTracker能够启动多个JVM,用于并行运行map或reduce任务,与JobTracker交互
    Master:执行NameNode、SecondaryNameNode、JobTracker的节点,Master不是唯一的
    Slave:执行TaskTracker、DataNode的节点

三种执行模式

单机模式:安装简单,差点儿不用作不论什么配置。但仅限于调试用于
伪分布模式:在单节点上同一时候启动NameNode、DataNode、JobTracker、TaskTracker、SecondaryNameNode等五个进程。模拟分布式执行的各个节点
全然分布模式:正常的Hadoop集群,由多个各司其职的节点构成

NameNode使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包含文件映射。文件属性等。

Hadoop与分布式开发的更多相关文章

  1. java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

    目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages 目录 Hadoop完全分布式运行模式 步骤分析: 编写集群分发脚本xsync 集群配置 集群部署规划 配置集群 集群单 ...

  2. Hadoop HDFS分布式文件系统设计要点与架构

      Hadoop HDFS分布式文件系统设计要点与架构     Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...

  3. Hadoop伪分布式模式部署

    Hadoop的安装有三种执行模式: 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置.Hadoop执行在一个Java进程中.使用本地文件系统.不使用HDFS, ...

  4. 一步到位分布式开发Zookeeper实现集群管理

    说到分布式开发Zookeeper是必须了解和掌握的,分布式消息服务kafka .hbase 到hadoop等分布式大数据处理都会用到Zookeeper,所以在此将Zookeeper作为基础来讲解. Z ...

  5. 『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现

    『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现 1.基本设定和软件版本 主机名 ip 对应角色 mas ...

  6. 【转】Hadoop HDFS分布式环境搭建

    原文地址  http://blog.sina.com.cn/s/blog_7060fb5a0101cson.html Hadoop HDFS分布式环境搭建 最近选择给大家介绍Hadoop HDFS系统 ...

  7. windows下eclipse远程连接hadoop集群开发mapreduce

    转载请注明出处,谢谢 2017-10-22 17:14:09  之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...

  8. Hadoop-01 搭建hadoop伪分布式运行环境

    Linux中配置Hadoop运行环境 程序清单 VMware Workstation 11.0.0 build-2305329 centos6.5 64bit jdk-7u80-linux-x64.r ...

  9. Hadoop完全分布式集群搭建

    Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统.,用于开发和 ...

随机推荐

  1. android activity在横竖屏切换的时候不重新调用onCreate方法

    在安卓系统中,横竖屏切换会默认重新调用onCreate等生命周期方法,如果此时有一些临时数据没有保存下来,很有可能会导致该数据丢失. 因此我们可以进行以下设置,来避免恒切换时重新调用onCreate方 ...

  2. GridView 根据要求显示指定值

    最近在写一个小项目用来练手恢复一下功力的,在Users表中有一个用户字段是状态,我使用"0"表示启用,“1”表示禁用, 存到数据库中, 由于之前有一段时间没写代码了,所以有点生疏了 ...

  3. 6个常见的 PHP 安全性攻击

    了解常见的PHP应用程序安全威胁,可以确保你的PHP应用程序不受攻击.因此,本文将列出 6个常见的 PHP 安全性攻击,欢迎大家来阅读和学习. 1.SQL注入 SQL注入是一种恶意攻击,用户利用在表单 ...

  4. bzoj2286

    很明显,20%=mincut 40%=每次暴力树形dp那么正解是什么呢?不难发现∑ki<=500000,也就是每次询问的复杂度都要跟k有关从树形dp工作的角度来看,确实有很多点我们根本就没必要访 ...

  5. 让人爱不释手的13套精美 Web 应用程序图标素材(转)

    图标用于向用户传递信息,不管是在网页还是 Web 应用程序中都非常需要.这些小小的图标元素能够告诉用户怎么到下一页,如何添加.删除和取消等等各种操作.设计精美的图标不仅能增加界面的美观,也能够让应用程 ...

  6. 正则表达式(来源http://deerchao.net/tutorials/regex/regex.htm)

    目录 跳过目录 本文目标 如何使用本教程 正则表达式到底是什么东西? 入门 测试正则表达式 元字符 字符转义 重复 字符类 分枝条件 反义 分组 后向引用 零宽断言 负向零宽断言 注释 贪婪与懒惰 处 ...

  7. 关于 Lua 内存泄漏的检测

    前一阵开始和同事一起优化内存,首先是优化 Lua 内存,因为发现每次战斗完后 Lua 内存非常大,从 3M 左右在经过了10次左右的战斗后,会暴增到近 100M,很明显是有内存泄漏.      然后我 ...

  8. ubuntu下arm-linux-gcc安装

    我下载的地址随便找的,4.4.3版本的,地址:http://www.cr173.com/soft/42654.html#address 1.我放在了/work/tools/ 2.sudo tar  x ...

  9. linux的nohup命令的用法

    在应用Unix/Linux时,我们一般想让某个程序在后台运行,于是我们将常会用 & 在程序结尾来让程序自动运行.比如我们要运行mysql在后台: /usr/local/mysql/bin/my ...

  10. Esper系列(八)Method Definition、Schema

    Method Definition 作用:以公共静态方法的方式去访问外部数据.   应用说明: 1.返回数据的方法必须是公共静态方法(方法参数可以有多个也可以没有): 2.如果返回一条数据或无返回数据 ...