Hadoop副本数配置

一个文件，上传到hdfs上时指定的是几个副本就是几个。修改了副本数（dfs.replications），对已经上传了的文件也不会起作用。
当然可以在上传文件的同时指定创建的副本数
hadoop dfs -D dfs.replication=2 -put abc.txt /tmp
可以通过命令来更改已经上传的文件的副本数：
hadoop fs -setrep -R 2 /

查看当前hdfs的副本数
hadoop fsck -locations
某个文件的副本数，可以通过ls中的文件描述符看到
hadoop dfs -ls

如果你只有3个datanode，但是你却指定副本数为4，是不会生效的，因为每个datanode上只能存放一个副本

当一个文件上传时，client并不立刻联系namenode，而是先在本地缓存数据，当 HDFS block size时，联系namenode， namenode将文件名插入到文件系统结构中，并为期分配一个数据块。
namenode以datanode主机名和数据块的位置来相应client的请求。客户端从本地临时文件中将数据刷新到指定的datanode。
当file关闭时，未刷新的临时文件将传输到datanode，client通知namenode 文件关闭。此时，namenode将文件创建操作提交到永久存储。
如果namenode在file closes之前die，则文件丢失。

创建副本
当client写文件到hdfs时，像前面提到的，先写文件到本地临时文件，假设设定hdfs的副本系数为3.当缓存的文件达到hdfs block size时，client从namenode检索一个datanode的列表。该列表包含将host该副本的datanode列表。
client刷新数据到列表中的第一个datanode。
第一个datanode以4kb为单位接收数据，将数据写到本地并传输到列表中的第二个datanode，第二个datanode也做同样操作。
一个datanode可以从上一个数据管道获取数据，并同时将数据发送到下一个数据管道。

配置参数可以不止一次被指定
最高优先级值优先
优先顺序（从低到高）：
- *-site.xml on the slave node
- *-site.xml on the client machine
- Values set explicitly in the JobConf object for a MapReduce job

如果在配置文件中的值标记为final，它覆盖所有其他
<property>
<name>some.property.name</name>
<value>somevalue</value>
<final>ture</final>
</property>

对于类似副本数、data.dir，fs相关的参数建议在datanode节点配成final=true的

问：预处理主机的dfs.replication设置的是几？
答：预处理设置dfs.replication参数的hdfs-site.xml配置文件，修改后重新重启预处理服务，副本数问题搞定。

block的备份数是由写入数据的client端配置决定的，所以该类问题一般是由client的配置引起。

【参考】http://blog.sina.com.cn/s/blog_edd9ac0e0101it34.html

Hadoop副本数配置的更多相关文章

【大数据系列】使用api修改hadoop的副本数和块大小
package com.slp.hdfs; import org.apache.commons.io.output.ByteArrayOutputStream; import org.apache.h ...
hadoop（hbase）副本数修改
一.需求场景随着业务数据的快速增长,物理磁盘剩余空间告警,需要将数据备份从3份修改为1份,从而快速腾出可用磁盘容量. 二.解决方案 1. 修改hdfs的副本数 Hbase 的数据是存储在 hdfs ...
hadoop修改MR的提交的代码程序的副本数
hadoop修改MR的提交的代码程序的副本数 Under-Replicated Blocks的数量很多,有7万多个.hadoop fsck -blocks 检查发现有很多replica missing ...
初识Hadoop一，配置及启动服务
一.Hadoop简介: Hadoop是由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS:Hadoo ...
HDFS 上文件块的副本数设置
一.使用 setrep 命令来设置 # 设置 /javafx-src.zip 的文件块只存三份 hadoop fs -setrep /javafx-src.zip 二.文件块在磁盘上的路径 # 设置的 ...
Hadoop详细安装配置过程
步骤一:基础环境搭建 1.下载并安装ubuntukylin-15.10-desktop-amd64.iso 2.安装ssh sudo apt-get install openssh-server op ...
一、hadoop安装与配置
准备环境: 系统:centos6.5 64位 192.168.211.129 master 192.168.211.131 slave1 在两台服务器上都要配置ssh免密码登录在192. ...
spark学习（2）--hadoop安装、配置
环境: 三台机器 ubuntu14.04 hadoop2.7.5 jdk-8u161-linux-x64.tar.gz (jdk1.8) 架构: machine101 :名称节点.数据节点.Secon ...
Hadoop（一）阿里云hadoop集群配置
集群配置三台ECS云服务器配置步骤 1.准备工作 1.1 创建/bigdata目录 mkdir /bigdatacd /bigdatamkdir /app 1.2修改主机名为node01.node ...

随机推荐

Linux下Tar压缩使用
具体的可以在linux环境下用tar --help查看详细说明格式:tar [option] file -c create create a new archive -x extract extra ...
Protobuf学习 - 入门（转）
从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结.下面的操作以C++为编程语言,protoc的版本为libprotoc 3.2.0. 一.Protobuf? 1. 是什么? Goo ...
自己动手写处理器之第二阶段（2）——Verilog HDL简单介绍
将陆续上传本人写的新书<自己动手写处理器>(尚未出版),今天是第六篇.我尽量每周四篇 2.3 Verilog HDL简单介绍本书实现的OpenMIPS处理器是使用Verilog HDL编 ...
VC线程同步方法
VC MFC中线程同步对象的区别 临界区 CCriticalSection,在用户模式工作,适用于保护线程间共享资源,一个线程可以多次Lock不会出错.不支持在多进程之间工作.互斥量 CM ...
非IT人士的云栖酱油之行（程序猿迷妹的云栖之行）
摘要: 熟悉我的人都知道,我是一个贪玩儿且不学无术的姑娘,对于互联网我也是知之甚少:这次去到杭州参加阿里巴巴集团主办的为期4天的科技大会也是很例外:但是不得不说这次的会议真是让我很震惊.今天我就和大家 ...
6款国内、国外开源PHP轻论坛CMS程序
随着移动互联网对于传统互联网的冲击,用户群更加注重信息的及时性和有效性的简便分享和获取,传统的社区模式经过多年的积累沉淀很深,尤其对于新兴的社区用户群和站长来说,如果需要挑战目前已经非常成熟的社区群还 ...
HDUOJ----4504 威威猫系列故事——篮球梦
威威猫系列故事——篮球梦 Time Limit: 300/100 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)Total ...
iOS10 推送必看 UNNotificationContentExtension
来源:徐不同(@2016徐小爷) 链接:http://www.jianshu.com/p/45933f5450a4 大伙久等啦~这绝对是最全最详细的 UNNotificationContentExte ...
HDU 2604 Queuing （矩阵乘法）
Queuing Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Su ...
IDEA配置gradle
下载解压自己需要的gradle版本:https://gradle.org/releases/(免安装) 配置环境变量打开命令窗口,输入 gradle -v IDEA配置gradle:file-> ...

Hadoop副本数配置

Hadoop副本数配置的更多相关文章

随机推荐

热门专题