使用distcp并行拷贝大数据文件

以前我们介绍的访问HDFS的方法都是单线程的，Hadoop中有一个工具可以让我们并行的拷贝大量数据文件，这个工具就是distcp。

distcp的典型应用就是在两个HDFS集群中拷贝文件，如果两个集群使用的Hadoop版本相同，可以使用hdfs标识符：
% hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

这条命令会把第一个集群（namenode为命令中指定的namenode1）中的/foo目录拷贝到第二个集群中的/bar目录下，于是在第二个集群中就得到了/bar/foo这样的目录结构，我们也可以指定多个拷贝源，但拷贝目的地只有一个。要注意的是，指定拷贝路径的时候要使用绝对路径。

distcp命令是以mapreduce作业的形式实现的，只不过此作业没有reduce任务。每一个文件是由一个map任务来拷贝的，distcp尽量把大小之和相同的各个文件导入到同一个map任务中。这样可以每个map任务拷贝的数据量大致相同。

Map任务的个数是按如下方式决定的：

1）考虑到创建每个map任务的开销，每个map任务至少应处理256MB大小的数据（如果总输入文件的大小小于256MB，则把这些输入数据全部交给一个map任务执行）。例如，一个1GB大小的输入数据会被分配四个map任务来拷贝。

2）如果待拷贝的数据实在很大，这时候就不能只按每个map任务256MB输入数据的标准来划分了，因为这样可能需要创建很多map任务。这是可以按每个datanode20个map任务来划分，例如如果有1000GB的输入数据和100个节点，这是就会启动100*20=2000个map任务来拷贝数据，每个map任务拷贝512MB数据。同时我们也可通过-m选项指定要使用的map数，例如-m
1000就会只启动1000个map任务，每个map任务拷贝1GB数据。

默认情况下，如果在拷贝的目的地同名文件已经存在，则会默认跳过这些文件。可以通过-overwrite选项指定覆盖掉同名文件，或者通过-update选项来更新同名文件。

关于distcp的更多用法，可以不加参数运行“hadoop distcp”命令来查看其用法。

如果两个集群的Hadoop版本不一致就不能使用hdfs标识符来拷贝文件了，因为两者的RPC系统是不兼容的。这是可以使用只读的基于HTTP的HFTP文件系统来读取源数据，如下所示（注意此命令是在第二个集群上执行的，以确保rpc版本兼容）：

% hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

注意在上述命令中需要制定namenode1的网络端口，它是由dfs.http.address指定的，默认为50070.

另一种可选的方法是使用webhdfs协议（替换hftp协议），这样在拷贝的源和目的地都可以使用http而不用担心版本不兼容的问题：

% hadoop distcp webhdfs://namenode1:50070/foo webhdfs://namenode2:50070/bar

我们还可以使用HDFS HTTP代理作为拷贝的源和目的地，这样可以设置防火墙以及进行带宽控制。

使用distcp并行拷贝大数据文件的更多相关文章

sqlcmd导入大数据文件
sqlcmd导入大数据文件 SQLCMD 允许在Windows命令窗中通过命令行提示符运行脚本. 语法如下: sqlcmd [ { { -U <login id> [ -P <p ...
phpmyadmin导入导出大数据文件的办法
在phpmyadmin的使用中,经常需要进行导入导出数据库的操作. 但是在导入导出大型数据库文件的时候经常会只是部分导出或者部分导入. 或者是导入导出不成功. 原因就是服务器和php.mysql限制了 ...
POI 海量数据/大数据文件生成SXSSFWorkbook使用简介
在之前我们知道处理xls的excel用的workbook是HSSFWorkbook,处理xlsx的excel用的是XSSFWorkbook. 上面两个类导出excel的时候数据会驻留在内存中,所以当数 ...
阿里云Mysql导入大数据文件
1.查询数据保存为CSV文件 select * from account into outfile '/root/account.csv' fields terminated by ',' enclo ...
orcle导入大数据文件
0,创建ctl文件内容为 OPTIONS (skip=0) LOAD DATA CHARACTERSET 'UTF8' INFILE 'F:\anhui_data\20180814\shangh ...
postgresql存储二进制大数据文件
如果想把整个文件或图片存储在数据表的一个字段内,该字段可以选择二进制类型,然后将文件按二进制存储起来,文本文件也可以存在text字段内. 示例如下: 二进制类型bytea的操作(在最大值内,有内存限制 ...
java生成随机大数据文件
package iie.udps.test; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutput ...
Mysql备份系列（3）--innobackupex备份mysql大数据(全量+增量）操作记录
在日常的linux运维工作中,大数据量备份与还原,始终是个难点.关于mysql的备份和恢复,比较传统的是用mysqldump工具,今天这里推荐另一个备份工具innobackupex.innobacku ...
MySQL 大数据备份方案之Percona XtraBackup
Xtrabackup介绍 1.Xtrabackup是什么 Xtrabackup是一个对InnoDB做数据备份的工具,支持在线热备份(备份时不影响数据读写),是商业备份工具InnoDB Hotbacku ...

随机推荐

PHP入门1
php是服务器端脚本语言,免费,跨平台,全称是英文Hypertext Preprocessor 一.语法规则 PHP代码写在<?php ?>标签之间, 所有用户定义的函数.类和关键词(例如 ...
ie8下修改input的type属性报错
摘要: 现在有一个需求如图所示,当用户勾选显示明文复选框时,要以明文显示用户输入的密码,去掉勾选时要变回密文,刚开始想到的就是修改输入框的type来决定显示明文还是密文,使用jQuery的attr来做 ...
Java 实现选择排序
选择排序: 原理:依次从数组最左边取一个元素,与之后的位置上的元素比較,假设大于/小于(取决于须要升序排还是降序排).则保存较大/较小元素的索引当一轮比較后,将保存的较大/较小元素的索引与这轮開始 ...
UVA 11542 - Square(高斯消元）
UVA 11542 - Square 题目链接题意:给定一些数字.保证这些数字质因子不会超过500,求这些数字中选出几个,乘积为全然平方数,问有几种选法思路:对每一个数字分解成质因子后.发现假设要 ...
day25<多线程+&设计模式&GUI>
多线程(单例设计模式)(掌握) 多线程(Runtime类) 多线程(Timer)(掌握) 多线程(两个线程间的通信)(掌握) 多线程(三个或三个以上间的线程通信) 多线程(线程间的通信注意的问题) 多 ...
POJ 2923 Relocation(01背包变形, 状态压缩DP)
Q: 如何判断几件物品能否被 2 辆车一次拉走? A: DP 问题. 先 dp 求解第一辆车能够装下的最大的重量, 然后计算剩下的重量之和是否小于第二辆车的 capacity, 若小于, 这 OK. ...
socket网络编程【python】
转自:http://www.jb51.net/article/19751.htm socket 是网络连接端点. 一.网络知识的一些介绍 socket 是网络连接端点.例如当你的Web浏览器请求www ...
Intel S5000VSA（SAS）主板设置RAID 步骤【转】
Intel S5000VSA(SAS)主板设置RAID 步骤我近日亲自安装了一台服务器,用的是intel S5000VSA 4DIMM主板,因为在安装过程中没有注意到一些细节,所以在安装时碰到了一 ...
windows cmd命令大全／cmd命令提示符大全
刚接触电脑的时候是从DOS系统开始,DOS时代根本就没有Windows这样的视窗操作界面,只有一个黑漆漆的窗口,让你输入命令.所以学DOS系统操作,cmd命令提示符是不可或缺的.可以告诉大家,大多数的 ...
佛祖保佑永无bug
世界最难懂C语言代码竞赛: // _ooOoo_ // o8888888o // 88" . "88 // (| -_- |) // O\ = /O // ____/`---'\_ ...

使用distcp并行拷贝大数据文件

使用distcp并行拷贝大数据文件的更多相关文章

随机推荐

热门专题