hadoop文件系统上的小文件合并-Hadoop Archives

leekeggs 2024-08-30 15:13:06 原文

1. 什么是Hadoop archives

Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是.har。Hadoop archive包含元数据（形式是_index和_masterindx）和数据（part-）文件。_index文件包含了档案中的文件的文件名和位置信息。

2. 创建archives

创建archives是一个Map/Reduce job。你应该在map reduce集群上运行这个命令。

用法：hadoop archive -archiveName name -p <parent> <src>* <dest>

(1) -archiveName用来指定要创建的archive的文件名，必须以.har结尾，例如：foo.har；

(2) 参数"-p"为src path的前缀

示例1：

hadoop archive -archiveName IotBillBackup201805.har -p /IotBillBackup201805 /har/IotBillBackup201805

在上面的例子中，/IotBillBackup201805目录下的所有文件会被归档到这个文件系统目录下/har/IotBillBackup201805/IotBillBackup201805.har。

示例2：

hadoop archive -archiveName foo.har -p /user/hadoop dir1 dir2 /user/zoo/

在上面的例子中，/user/hadoop/dir1 和 /user/hadoop/dir2 会被归档到这个文件系统目录下/user/zoo/foo.har。

注意：当创建archive时，源文件不会被更改或删除。

3. 访问archives

hdfs dfs -ls har:///har/IotBillBackup201805/IotBillBackup201805.har

hdfs dfs -ls har:///user/zoo/foo.har

4. 解压archives

(1) 串行解压

# 把IotBillBackup201805.har中的文件全部解压到/IotBillBackup201805目录下

hdfs dfs -cp har:///har/IotBillBackup201805/IotBillBackup201805.har/* hdfs:/IotBillBackup201805

hdfs dfs -cp har:////user/hadoop/dir1 hdfs:/user/zop/newdir1

hdfs dfs -cp har:////user/hadoop/dir2 hdfs:/user/zop/newdir2

(2) 并行解压（Map/Reduce job），使用DistCp:

hadoop distcp har:///har/IotBillBackup201805/IotBillBackup201805.har/* hdfs:/IotBillBackup201805

启动一个Mapreduce任务来完成解压

5. archives的局限性

(1) 创建archive文件要消耗和原文件一样多的硬盘空间；

(2) archive文件不支持压缩，尽管archive文件看起来象已经被压缩过了；

(3) archive文件一旦创建就无法改变，这就意味这你要改一些东西的话，你需要重新创建archive文件。

hadoop文件系统上的小文件合并-Hadoop Archives的更多相关文章

Hadoop实战项目：小文件合并
项目背景在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M),早期的版本所定义的小文件是64M,这里的hadoop-2.2.0所定义的小 ...
Hadoop MapReduce编程 API入门系列之小文件合并（二十九）
不多说,直接上代码. Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat. Hadoop 自身提供的几种小文件合并机制 ...
Hadoop经典案例（排序&Join&topk&小文件合并）
①自定义按某列排序,二次排序 writablecomparable中的compareto方法 ②topk a利用treemap,缺点:map中的key不允许重复:https://blog.csdn.n ...
Hadoop记录-hive merge小文件
1. Map输入合并小文件对应参数:set mapred.max.split.size=256000000; #每个Map最大输入大小set mapred.min.split.size.per.no ...
hive小文件合并设置参数
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量.但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小.而且这些 ...
HDFS操作及小文件合并
小文件合并是针对文件上传到HDFS之前这些文件夹里面都是小文件参考代码 package com.gong.hadoop2; import java.io.IOException; import j ...
Hive merge（小文件合并）
当Hive的输入由非常多个小文件组成时.假设不涉及文件合并的话.那么每一个小文件都会启动一个map task. 假设文件过小.以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费.甚至 ...
hive优化之小文件合并
文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map on ...
MR案例：小文件合并SequeceFile
SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件 ...

随机推荐

5年Java程序员，五面蚂蚁险拿offer定级P7，大厂面试不过如此？
当时面试能记下的就这些了,可能不太全请见谅: 一面 1.HashMap和ConcurrentHashMap: 2.再谈谈一致hash算法? 3.乐观锁还有悲观锁: 4.可重入锁和Synchronize ...
Android Failed to find layer (XXX/XXX.xxActivity#0) in layer parent (no-parent).
报错: Failed to find layer (XXX/XXX.xxActivity#0) in layer parent (no-parent). 解决: 将该xxActivity复制一份到桌面 ...
Linux系统中有趣的命令（可以玩小游戏）
Linux系统中有趣的命令(可以玩小游戏) 前言最近,我在看一些关于Linux系统的内容,这里面的内容是真的越学越枯燥,果然学习的过程还是不容易的.记得前几个月初学Linux时,有时候就会碰到小彩蛋 ...
eclipse及idea使用问题记录（为了方便github同步，重新用Markdown写了一篇）
使用eclipse或idea的时候会遇到各式各样的小问题,解决方案其实网上也大都搜得到,但是下次遇到的时候总是想不起来如何解决,还要花费时间再次查资料.所以以后把遇到的问题都记录一下. @ 目录 Ec ...
MariaDB二进制安装
下载二进制的MariaDB https://downloads.mariadb.org/mariadb/10.2.16/ 安装过程下载&解压下载到/tools安装到/application ...
结构体深度比较 reflect.DeepEqual
demo1 package main import ( "fmt" "reflect" ) func main() { sliceMap1 := make([] ...
ceph osd跟cpu进行绑定
通过cgroup将ceph-osd进程与某一个 CPU core 绑定脚本: mkdir -p /sys/fs/cgroup/cpuset/ceph # cup number : ,,, = - ec ...
2020.5.22 第二篇 Scrum冲刺博客
Team:银河超级无敌舰队 Project:招新通项目冲刺集合贴:链接目录一.每日站立会议二.项目燃尽图三.签入记录 3.1 代码/文档签入记录 3.2 主要代码截图 3.3 程序运行截图 ...
Play it again: reactivation of waking experience and memory
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Trends in Neurosciences, no. 5 (2010): 220-229 Abstract 回合空间记忆均涉及海马体神 ...
洛谷 P4284 [SHOI2014]概率充电器概率与期望+换根DP
洛谷 P4284 [SHOI2014]概率充电器概率与期望+换根DP 题目描述著名的电子产品品牌\(SHOI\) 刚刚发布了引领世界潮流的下一代电子产品-- 概率充电器: "采用全新纳米 ...