Origin

我们首先理解一下SequenceFile试图解决什么问题，然后看SeqFile怎么解决这些问题。

In HDFS

序列文件是解决Hadoop小文件问题的一个方法；
小文件是显著小于HDFS块(128M)的文件；
在HDFS中，每个文件、目录、块都被表示成一个对象，占用150bytes；
10million文件，会占用NameNode 3gb内存；

In MapReduce

map task通常一次处理一个input block(使用default FileInputFormat)；
文件数量越多，就需要越多的map task，并且job时间会变慢

Small file scenarios

这些小文件是一个大的logical file的pieces; ----> 可以通过写一个程序来连接这些小文件
这些小文件是inherently small，比如，images -----> 需要某种容器按某种方式来group这些文件。

Solutions in Hadoop

HAR

HAR(Hadoop Archives)是用来减轻大量文件给NameNode内存带来的压力的；
HAR are probably best used purely for archival purposes.
HAR可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件，并且可以做为mapreduce任务的输入。
About HAR:
- Hadoop Archives是特殊的档案格式。
- 一个HAR对应一个文件系统目录。
- HAR包含原数据(_index和_masterinx)和数据文件(part-*)文件

SequenceFile

SeqFile的概念就是将每个小文件放到一个更大的single file中；
比如，有10,000,100KB文件，那么可以写一个程序将他们放到一个单一的SeqFile中，其中你可以使用filename作为key，内容作为value。
这样做的好处：
- NameNode中占用更少的内存
- SeqFile是可分割的(splittable)，因此很适合与MapReduce；
- SeqFile支持压缩

Summary

SequenceFile是Hadoop API提供的一种二进制文件，它的数据以<key, value>形式序列化到文件中。
这种二进制文件内部使用Hadoop的标准Writable接口实现序列化和反序列化。

FYI

stackoverflow

<Hadoop><SequenceFile><Hadoop小文件>的更多相关文章

简单物联网：外网访问内网路由器下树莓派Flask服务器
最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...
利用ssh反向代理以及autossh实现从外网连接内网服务器
前言最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...
外网访问内网Docker容器
外网访问内网Docker容器本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...
外网访问内网SpringBoot
外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...
外网访问内网Elasticsearch WEB
外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...
怎样从外网访问内网Rails
外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...
怎样从外网访问内网Memcached数据库
外网访问内网Memcached数据库本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...
怎样从外网访问内网CouchDB数据库
外网访问内网CouchDB数据库本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...
怎样从外网访问内网DB2数据库
外网访问内网DB2数据库本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库默认安装的DB2 ...
怎样从外网访问内网OpenLDAP数据库
外网访问内网OpenLDAP数据库本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...

随机推荐

Spring Batch 介绍
在企业应用的关键环境中,通常有需要很多应用来来处理大量的应用.这商业操作包括了自动化,并且负责的处理程序来对大量数据进行高效的处理,通常这些程序不需要人工进行干预.这些事件包括有基于时间周期产生的操作 ...
电脑用U盘启动
除了根据提示按DEL或者F2进入到BIOS界面更改设置之外. 还可以在开机时按F8或F12进入到引导界面,可直接选择USB. 当把登录用户登录,其他用户都被禁用时,电脑登不进去.要制作启动U盘,进入到 ...
dp 二维乃至多维背包
洛谷P1855 榨取kkksc03 分析:套路是很明显的01背包,但是这时受约束的变量有两个了,这种情况下就该用多维背包了分析方法一样的,用dp[i][j][k]表示从前i个愿望中挑选总时间和总金钱 ...
SQLServer2012数据库降级至SQLServer2008R2的方法
一. 背景因为对方的客户的服务器安装的数据版本2012,公司开发同事需要客户数据库的备份数据,但是公司数据版本是2008R2的,无法还原. 由于2012备份无法直接还原至2008R2(MSSQ ...
『MXNet』第十二弹_再谈新建计算节点
上一节我们已经谈到了计算节点,但是即使是官方文档介绍里面相关内容也过于简略,我们使用Faster-RCNN代码中的新建节点为例,重新介绍一下新建节点的调用栈. 1.调用新建节点参数分为三部分,op_ ...
【IDEA】【7】Git更新及提交
如果是Git管理的项目,顶部会出现这样的按钮绿色代表commit到本地蓝色代表update最新代码 Push:推送到远程服务器:右键项目->Git->Repository->Pu ...
js 异步加载
document 加载 document.write("<scr" + "ipt src=\"js/jquery.js\"></sc ...
WDA基础十三：常用模板管理
常用的模板一般是SMW0和OAOR,根据不同需求来的. WAD有个不好的地方就是不支持GUI上的OLE和DOI,所以需要做转换,下面是常用的方式: FUNCTION ZCRM_DOWNLOAD_TEM ...
Script to Collect Log File Sync Diagnostic Information (lfsdiag.sql) (文档 ID 1064487.1)
the article from :http://m.blog.itpub.net/31393455/viewspace-2130875/ Script to Collect Log File Syn ...
kali菜单中各工具功能
一.说明各工具kali官方简介(竖排):https://tools.kali.org/tools-listing 安装kali虚拟机可参考:https://www.cnblogs.com/lsdb/ ...

<Hadoop><SequenceFile><Hadoop小文件>

Origin

In HDFS

In MapReduce

Small file scenarios

Solutions in Hadoop

HAR

SequenceFile

Summary

FYI

<Hadoop><SequenceFile><Hadoop小文件>的更多相关文章

随机推荐

热门专题