Hadoop Archives】的更多相关文章

原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hadoop_archives.html 什么是Hadoop archives? 如何创建archive? 如何查看archives中的文件? 什么是Hadoop archives? Hadoop archives是特殊的档案格式.一个Hadoop archive对应一个文件系统目录. Hadoop archive的扩展名是*.har.Hadoop archive包含元数据(形式是_index和_maste…
HDFS 并不擅长存储小文件,因为每个文件最少一个 block,每个 block 的元数据都会在 NameNode 占用内存,如果存在大量的小文件,它们会吃掉NameNode 节点的大量内存. Hadoop Archives 可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件. 使用方法 创建 Archives(档案) Usage: hadoop archive -archiveName name -p <parent> <src>…
用HDFS存储小文件是不经济的,由于每一个文件都存在一个block里,每一个block的metadata又在namenode的内存里存着,所以,大量的小文件.会吃掉大量的namenode的内存.(注意:一个小文件占用一个block,可是这个block的大小不是设定的值,比方设定每一个block是128M.可是一个1M的文件存在一个block里.实际占用的datanode的硬盘大小是1M,而不是128M.所以这里说的不经济是指占用大量namenode的内存资源.而不是说占用大量datanode的磁…
1. 什么是Hadoop archives Hadoop archives是特殊的档案格式.一个Hadoop archive对应一个文件系统目录. Hadoop archive的扩展名是.har.Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part-)文件._index文件包含了档案中的文件的文件名和位置信息. 2. 创建archives 创建archives是一个Map/Reduce job.你应该在map reduce集群上运行这个命令. 用法…
转载请注明来源地址:http://blog.csdn.net/lastsweetop/article/details/9123155 简介 我们在hadoop深入研究:(一)——hdfs介绍里已讲过,hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存. hadoop Archives可以有效的处理以上问题,他可以把多个文件归档成为一个文件,归档成一个文件后还可以透…
阅读目录 序 概述 Hadoop Common Commands User Commands Administration Commands File System Shell 引用 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们从发展历程,架构,MapReduce等方面对比了Hadoop1.x与Hadoop2.x,特别是这这几年,2.x的发展已经可以适合很多的应用…
阅读目录 序 MapReduce Commands User Commands Administration Commands YARN Commands User Commands Administration Commands 引用 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们对Hadoop命令中的HDFS Commands进行了简略的列举,下面我们就MapR…
一.用户命令1.archive命令 (1).什么是Hadoop archives?Hadoop archives是特殊的档案格式.一个Hadoop archive对应一个文件系统目录. Hadoop archive的扩展名是*.har.Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)._index文件包含了档案中的文件的文件名和位置信息. (2).如何创建archive?用法:hadoop archive -archiveName N…
一.基本环境搭建 1. 准备 hadoop-2.5.0-src.tar.gz apache-maven-3.0.5-bin.tar.gz jdk-7u67-linux-x64.tar.gz protobuf-2.5.0.tar.gz 可联外部网络 2. 安装 jdk-7u67-linux-x64.tar.gz 与 apache-maven-3.0.5-bin.tar.gz [liuwl@centos66-bigdata-hadoop ~]$ vi /etc/profile #JAVA_HOME…
1.       FS Shell 1.1     简介 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式. 所有的的FS shell命令使用URI路径作为参数.URI格式是scheme://authority/path.对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file.其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme.一个HDFS文件或目录比如/parent/chi…