HDFS并行复制Distcp

1）Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。

2）distcp命令是以MR作业(没有R任务)的形式实现的，把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的，distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相同。

3）集群之间的拷贝(HDFS版本相同)：

bash$ hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020 /bar/foo

这个命令会把nn1集群的 /foo/bar 目录下的所有文件或目录名展开并存储到一个临时文件中，这些文件内容的拷贝工作被分配给多个M任务，然后每个TT分别执行从nn1到nn2的拷贝操作。【distcp使用绝对路径进行操作】

4) 多个源目录拷贝

bash$ hadoop distcp hdfs://nn1:8020/foo/a hdfs://nn1:8020/foo/b hdfs://nn2:8020/bar/foo

5) 更新-update和覆盖-overwrite

默认情况下，如果在拷贝的目的地同名文件已经存在，则会默认跳过这些文件。可以通过-overwrite选项指定覆盖掉同名文件，或者通过-update选项来更新同名文件。关于distcp的更多用法，可以不加参数运行“hadoop distcp”命令来查看其用法。

6) 不同版本HDFS之间拷贝

如果两集群Hadoop版本不一致就不能使用hdfs标识符来拷贝文件了，因为两者的RPC系统是不兼容的。

一种方法是使用基于只读的HTTP的HFTP文件系统来读取源数据（此命令在目标集群上执行，以确保RPC版本兼容），在命令中需要指定nn1的网络端口，它是由dfs.http.address指定的，默认为50070.

% hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

另一种方法是使用webhdfs协议(替换hftp协议)，这样在拷贝的源和目的地都可以使用http而不用担心版本不兼容的问题：

% hadoop distcp webhdfs://namenode1:50070/foo webhdfs://namenode2:50070/bar

M任务的个数是按如下方式决定的：

1) 考虑到创建M任务的开销，每个M任务至少处理256MB的数据（如果总输入文件小于256MB，则把这些输入数据全部交给一个M任务执行）。例如，一个1GB大小的输入数据会被分配四个M任务来拷贝。

2)　　如果待拷贝的数据实在很大，这时候就不能只按每个M任务256MB输入数据的标准来划分了，因为这样可能需要创建很多M任务。这时可以按每个DN有20个M任务来划分，例如，如果有1000GB的输入数据和100个节点，这是就会启动100*20=2000个M任务来拷贝数据，每个M任务拷贝512MB数据。同时我们也可通过-m选项指定要使用的M数，例如，-m 1000就会启动1000个M任务，每个M任务拷贝1GB数据。

HDFS并行复制Distcp的更多相关文章

Hadoop权威指南:通过distcp并行复制
Hadoop权威指南:通过distcp并行复制 distcp是一个分布式复制程序,改程序可以从Hadoop文件系统间复制大量数据,也可以将大量的数据复制到Hadoop中 distcp的典型应用是在两个 ...
hadoop 通过distcp进行并行复制
通过distcp进行并行复制前面的HDFS访问模型都集中于单线程的访问.例如通过指定文件通配,我们可以对一部分文件进行处理,但是为了高效,对这些文件的并行处理需要新写一个程序.Hadoop有一个叫d ...
MySQL 5.7 并行复制实现原理与调优
MySQL 5.7并行复制时代众所周知,MySQL的复制延迟是一直被诟病的问题之一,然而在Inside君之前的两篇博客中(1,2)中都已经提到了MySQL 5.7版本已经支持“真正”的并行复制功能, ...
[MySQL] 号称永久解决了复制延迟问题的并行复制，MySQL5.7
一.缘由: 某天看到主从复制延时的告警有点频繁,就想着是不是彻底可以解决一下. 一般主从复制,有三个线程参与,都是单线程:Binlog Dump(主) ----->IO Thread (从) - ...
mysql 5.6并行复制事件分发机制
并行复制相关线程在MySQL 5.6并行复制中,当设置set global slave_parallel_workers=2时,共有4个复制相关的线程,如下: +----+------------- ...
MySQL5.6 基于db的并行复制
slave的几个类结构: Master_info:用于IO线程的参数,包括连接master实例的信息. Relay_log_info:用于sql线程,表示relay log相关的信 ...
mysql并行复制降低主从同步延时的思路与启示
一.缘起 mysql主从复制,读写分离是互联网用的非常多的mysql架构,主从复制最令人诟病的地方就是,在数据量较大并发量较大的场景下,主从延时会比较严重. 为什么mysql主从延时这么大? 回答:从 ...
[转载自阿里丁奇]各版本MySQL并行复制的实现及优缺点
MySQL并行复制已经是老生常谈,笔者从2010年开始就着手处理线上这个问题,刚开始两三年也乐此不疲分享,现在再提这个话题本来是难免"炒冷饭"嫌疑. 最近触发再谈这个话题,是 ...
MySQL 并行复制从库发生自动重启分析
并行复制从库发生自动重启分析背景半同步复制从库在晚上凌晨2点半发生自动重启,另一个异步复制从库在第二天凌晨3点也发生了自动重启. 分析版本mysql 5.7.16 mysql> show ...

随机推荐

爬虫用到的库Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
synchronized和volatile的使用方法以及区别
先看看下面的例子: public class ThreadTest { public static void main(String[] args) { final Counter counter = ...
Spoken English Practice（1、This is between you and me, Don't let it out. 2、Don't let your dreams be dreams, no matter how hard it gets, say to yourself, I'm going to make it.）
绿色:连读: 红色:略读: 蓝色:浊化: 橙色:弱读下划线_为浊化口语蜕变(2017/7/12) ...
Android Activity 去掉标题栏及全屏显示
默认生成的活动(Activity)界面中包含标题栏,并带有状态栏.有时不需要这两个控件. 1.去掉标题栏 (三种方法) a:在setContentView()方法前添加:requestWindowF ...
浏览器端js处理or直接冗余至服务器php处理？
w交给客户端浏览器js处理,减少向服务器的提交字节.精简处理逻辑.
通过Nginx反向代理实现IP分流
通过Nginx做反向代理来实现分流,以减轻服务器的负载和压力是比较常见的一种服务器部署架构.本文将分享一个如何根据来路IP来进行分流的方法. 根据特定IP来实现分流将IP地址的最后一段最后一位为0或 ...
OnePy--构建属于自己的量化回测框架
本文主要记录我构建量化回测系统的学习历程. 被遗弃的项目:Chandlercjy/OnePy_Old 新更新中的项目:Chandlercjy/OnePy 目录 1. 那究竟应该学习哪种编程语言比较好呢 ...
python重建二叉树
# -*- coding:utf-8 -*- # class TreeNode: # def __init__(self, x): # self.val = x # self.left = None ...
网络爬虫值scrapy框架基础
简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. 其可以应用在数据挖掘,信息处理或存储历史 ...
Java设计模式-工厂方法模式（Virtual Constructor/Polymorphic Factory）
工厂方法模式(Virtual Constructor/Polymorphic Factory) 工厂方法模式是类的创建模式,又叫做虚拟构造子模式(Virtual Constructor)或者多态性工厂 ...

HDFS并行复制Distcp

HDFS并行复制Distcp的更多相关文章

随机推荐

热门专题