hadoop深入研究:(五)——Archives
转载请注明来源地址:http://blog.csdn.net/lastsweetop/article/details/9123155
简介
用法
[hadoop@namenode ~]$hadoop fs -lsr
drwxr-xr-x - hadoop supergroup 0 2013-06-20 12:37 /user/hadoop/har
drwxr-xr-x - hadoop supergroup 0 2013-05-23 11:35 /user/hadoop/input
-rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/input/1901
-rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/input/1902
-rw-r--r-- 2 hadoop supergroup 293 2013-06-02 17:44 /user/hadoop/news.txt
hadoop archive -archiveName input.har -p /user/hadoop/ input har
archiveName指定archive的文件名,-p代表父目录,可以把多个目录文件放到archive里,我们来看下创建好的har文件。
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har
[hadoop@namenode ~]$hadoop fs -ls har/input.har
Found 4 items
-rw-r--r-- 2 hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har/_SUCCESS
-rw-r--r-- 5 hadoop supergroup 272 2013-06-20 12:38 /user/hadoop/har/input.har/_index
-rw-r--r-- 5 hadoop supergroup 23 2013-06-20 12:38 /user/hadoop/har/input.har/_masterindex
-rw-r--r-- 2 hadoop supergroup 1777168 2013-06-20 12:38 /user/hadoop/har/input.har/part-0
这里可以看到har文件包括,两个索引文件,多个part文件,这里只显示一个。part文件是多个原文件的集合,根据index文件去找到原文件。
[hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har
drwxr-xr-x - hadoop supergroup 0 2013-05-23 11:35 /user/hadoop/har/input.har/input
-rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901
还可以象普通文件系统那样访问har下一级的文件
[hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har/input
-rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901
如果要远程访问的话可以使用以下命令
[hadoop@namenode ~]$hadoop fs -lsr har://hdfs-namenode:9000/user/hadoop/har/input.har/input
-rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901
har开头说明时har文件系统,hdfs-域名:端口,har文件系统进行转换直到har文件末位,例子中会转换为hdfs://namenode:9000/user/hadoop/har/input.har,剩余的部分仍然用archive方式打开:input
[hadoop@namenode ~]$hadoop fs -rmr har/input.har
Deleted hdfs://192.168.115.5:9000/user/hadoop/har/input.har
限制
archive文件有一些限制条件:
1.创建archive文件要消耗和原文件一样多的硬盘空间
2.archive文件不支持压缩,尽管archive文件看起来象已经被压缩过了。
3.archive文件一旦创建就无法改变,这就意味这你要改一些东西的话,你需要创新创建archive文件
4.虽然解决了namenode的内存空间问题,但是在执行mapreduce时,会把多个小文件交给同一个mapreduce去split,这样明显是低效的
解决namenode内存的问题可以参照之前的文章中的hdfs federation。
hadoop深入研究:(五)——Archives的更多相关文章
- hadoop深入研究:(七)——压缩
转载请标明出处:hadoop深入研究:(七)——压缩 文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速.在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下 ...
- Hadoop生态圈-hive五种数据格式比较
Hadoop生态圈-hive五种数据格式比较 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.
- hadoop深入研究:(十三)——序列化框架
hadoop深入研究:(十三)--序列化框架 Mapreduce之序列化框架(转自http://blog.csdn.net/lastsweetop/article/details/9376495) 框 ...
- Nginx源码研究五:NGINX的配置信息管理
配置信息是nginx系统重要的组成部分,配置信息的使用,实际上包含两层,一层是用户针对参数定义了值,例如下面nginx参数文件中的 keepalive_timeout 65,还有一部分是用户没有定义值 ...
- Hadoop(十五)MapReduce程序实例
一.统计好友对数(去重) 1.1.数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee ,kia dee, ...
- Hadoop学习笔记五
一.uber(u:ber)模式 MapReduce以Uber模式运行时,所有的map,reduce任务都在一个jvm中运行,对于小的mapreduce任务,uber模式的运行将更为高效. uber模式 ...
- Hadoop 系列(五)—— Hadoop 集群环境搭建
一.集群规划 这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop001 上部署 NameNode 和 Resou ...
- dedecms代码研究五
上一次留几个疑问: 1)DedeTagParse类LoadTemplet方法. 2)MakeOneTag到底在搞什么. 从DedeTagParse开始前面,我们一直在dedecms的外围,被各种全局变 ...
- hadoop拾遗(五)---- mapreduce 输出到多个文件 / 文件夹
今天要把HBase中的部分数据转移到HDFS上,想根据时间戳来自动输出到以时间戳来命名的每个文件夹下.虽然以前也做过相似工作,但有些细节还是忘记了,所以这次写个随笔记录一下. package com. ...
随机推荐
- android getDecorView()的作用
decorView是window中的最顶层view,可以从window中通过getDecorView获取到decorView.通过decorView获取到程序显示的区域,包括标题栏,但不包括状态栏.间 ...
- Python 2.7 学习笔记 基本知识
python是一种解释型的.面向对象的.带有动态语义的高级程序设计语言.本文介绍下python的基本知识. 一.安装 各种操作系统有自己的安装方法,linux系统一般都自带了python的环境.这里不 ...
- Android学习笔记:多个AsyncTask实例的并发问题
AsyncTask是Android给开发者提供的一个简单轻量级的多线程类,通过它我们可以很容易新建一个线程让在后台做一些耗时的操作(如IO操作.网络访问等),并在这个过程中更新UI.之所以说它轻量级, ...
- 如何抓取Thread Dump小结(转)
当系统性能出现问题时,需要从各个方面来查看网络环境.主机资源.查看最经变更的代码等.如果是想从代码层面解决问题,那么最有效的方法就是查看相关dump文件.如果是使用IBM JDK(我默认你是在aix环 ...
- php函数参数
函数的参数 通过参数列表可以传递信息到函数,即以逗号作为分隔符的表达式列表.参数是从左向右求值的. PHP 支持按值传递参数(默认),通过引用传递参数以及默认参数.也支持可变长度参数列表,更多信息参见 ...
- C#委托好处知多少
1.性能 性能是泛型的一个主要优点. 直接上例子,通过实例可以让我们很好的理解这一点. Stopwatch stopwatch = new Stopwatch(); stopwatch.Start() ...
- YouTube为什么打不开?以及简便的訪问的方法/解决方式!
在站点统计中看到好多人通过百度或者谷歌(Google)搜索引擎搜:YouTube怎么上不去,怎样不用代理server訪问YouTube,YouTube上不去的解决的方法,YouTube怎样訪问等等.事 ...
- hdu1730 Northcott Game,Nim-sum
题解: 转化成求Nim-sum 每行黑白棋的初始间距作为每堆石子个数 假设当前为P态,则无论当前选手如何操作,下一个选手都能使其操作后的局面又变为P态. Nim-sum = 0,即P态. #inclu ...
- 演练5-1:Contoso大学校园管理1
**演练目的:掌握复杂模型的应用程序开发. Contoso大学校园管理系统功能包括学生.课程.教师的管理. 一.创建MVC Web应用程序 显示效果如下图,操作步骤略. 二.创建数据模型 1.创建学生 ...
- 国产CPU走到十字路口:谁来取代英特尔芯片?(少写了一个OpenPower)
国内的几支CPU研发力量各自选择的指令体系都有自己的优点和问题,选择其中的哪一支都会有对应的成本和风险.最终谁能担大任,且拭目以待. 文 | 瞭望智库特约科技观察员 王强 用上内置国产CPU的个人电脑 ...