hadoop中的一些术语介绍

１．MR作业是客户端执行的一个工作单元：包括输入数据，MR的程序和配置信息．

Hadoop将作业分成若干个任务task来执行，分为两种任务：map和reduce任务．这些任务运行在集群的节点上，并通过YARN进行调度，若一个任务失败，它将在另外一个不同的节点自动重新运行调度．

２．hadoop将MR输入的数据划分成等长的小数据块，称为分片，每个分片对应构建一个map任务．一个分片大小与hdfs的一个块大小差不多．hdfs一个块大小默认是１２８MB．若一个分片大于block大小，则hdfs任何一个节点都不可能同时存储这两个数据块，因此分片中的部分数据需要通过网络传输到map任务运行的节点．此时会增加开销．

３．map任务将输出结果先写入环形缓冲区中，若存储不下，则写入本地磁盘中，而不是hdfs中，因为map的输出是中间结果存储到hdfs上将会实现备份(副本)大题小做，该中间结果由reduce任务(不具有数据本地化优势)处理后才会产生最终结果存储到hdfs上．

４．分块的好处：大于节点磁盘容量的文件可以划分成多个块存储在不同的节点上，使用块而不是文件作为存储单元，大大方便使用．同时消除类元数据的问题，因为块只存储文件数据，而不是文件的元数据信息，块还可以适合用于数据　备份而提高数据容错能力和可用性．

５．namenode：维护文件系统的目录结构，其信息以两个文件形式（命名空间镜像文件fimage和编辑日志文件edit.log）永久保存在本地磁盘中,管理文件与block之间关系，block与datanode之间关系

6．dataname：是文件系统的工作节点存储数据，受客户端或者namenode调度．并且定期向namenode发送他们所存储的块的列表．

7．secondNamenode：定期合并命名空间镜像文件fimage和编辑日志文件edit.log．当namenode故障时，它就会代替namenode，因为它有当前数据的操作日志，可以很快的恢复．很好的实现类hdfs的高可用性．

hadoop中的一些术语介绍的更多相关文章

Hadoop介绍-4.Hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker
Hadoop是一个能够对大量数据进行分布式处理的软体框架,实现了Google的MapReduce编程模型和框架,能够把应用程式分割成许多的小的工作单元,并把这些单元放到任何集群节点上执行.在MapR ...
Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系
Solr有一堆让人发晕的术语如:collections,shards,replicas,cores,config sets. 在了解这些术语之前需要先做做如下功课: 1)什么是倒排索引? 2)搜索引擎 ...
Hadoop入门进阶课程13--Chukwa介绍与安装部署
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程8--Hive介绍和安装部署
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop中常用的InputFormat、OutputFormat（转）
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们.Hadoop提供了一系列InputForm ...
Hadoop中两表JOIN的处理方法(转)
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的.而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的 ...
Hadoop中两表JOIN的处理方法
Dong的这篇博客我觉得把原理写的很详细,同时介绍了一些优化办法,利用二次排序或者布隆过滤器,但在之前实践中我并没有在join中用二者来优化,因为我不是作join优化的,而是做单纯的倾斜处理,做joi ...
浅谈hadoop中mapreduce的文件分发
近期在做数据分析的时候.须要在mapreduce中调用c语言写的接口.此时就须要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后 ...
Zookeeper 在Hadoop中的应用
Zookeeper 简单介绍 Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目.它主要是用来解决分布式应用中常常遇到的一些数据管理问题,如:统一命名服务.状态同步服务.集 ...

随机推荐

vim输入操作
在英文状态下按下键盘上的 ”I“ 使用下箭标移动光标到最下面一行,然后按下END键,按下ENTER键输入你的内容按下ESC键,然后输入冒号,即 (:wq) 输入保存流程结束
微信小程序 input 组件
输入框:该组件是原生组件,使用的时候要注意相关的设置属性: value:类型字符串输入框的初始内容 type:类型字符串 input类型属性值:text 文本输入键盘 number 数字输入 ...
Django中间件添加白名单
一定记得配置补充一点中间件是工作流程中间件的详细流程补充一点需求:在不用中间件的情况和下用装饰器做登陆的阻挡在django中有自带的登陆闭包函数只需要引出来就可以直接用了下面是步骤在se ...
架构-数据库访问-SQL语言进行连接数据库服务器：SQL语言进行连接数据库服务器
ylbtech-架构-数据库访问-SQL语言进行连接数据库服务器:SQL语言进行连接数据库服务器数据库和应用服务器的连接. 在基于三层构架的信息系统开发中,应用服务器要利用SQL语言进行连接数据库服 ...
MySQL-default设置
Both statements insert a value into the phone column, but the first inserts a NULL value and the sec ...
011-elasticsearch5.4.3【四】-聚合操作【二】-桶聚合【bucket】过滤、嵌套、反转、分组、排序、范围
一.概述 bucketing(桶)聚合:划分不同的“桶”,将数据分配到不同的“桶”里.非常类似sql中的group语句的含义. metric既可以作用在整个数据集上,也可以作为bucketing的子聚 ...
sklearn版本
10.19.0以前的sklearn版本才有cross_validation包,这个时候不要用model_selection导入StratifiedKFold,要用cross_validation,0. ...
Pycharm中使用virtualenv创建虚拟环境
虚拟环境是Python解释器的一个私有副本,在这个环境中你可以安装私有包,而且不会影响系统中安装的全局Python解释器. 虚拟环境非常有用,可以在系统的Python解释器中避免包的混乱和版本的冲突. ...
Layerui 弹出层的位置设置
距顶 offset: '300px' 例1: layer.msg("请先选择项!", { offset: '300px' });例2: layer.confirm("确定 ...
常用js方法封装使用
// 冒泡排序 export function bubbleSort(arr) { let i = arr.length - 1; while (i > 0) { let maxIndex = ...

hadoop中的一些术语介绍

hadoop中的一些术语介绍的更多相关文章

随机推荐

热门专题