Hadoop 文件的数量怎么比block的数量多?
Total files:    23    
 Total symlinks:        0    
 Total blocks (validated):    22 (avg. block size 117723 B)    
 Minimally replicated blocks:    22 (100.0 %)    
 Over-replicated blocks:    0 (0.0 %)    
 Under-replicated blocks:    0 (0.0 %)    
 Mis-replicated blocks:        0 (0.0 %)    
 Default replication factor:    2    
 Average block replication:    2.0    
 Corrupt blocks:        0    
 Missing replicas:        0 (0.0 %)    
 Number of data-nodes:        2    
 Number of racks:        1    
FSCK ended at Sun Dec 06 13:17:09 CST 2015 in 20 milliseconds
有一次,同事问我说,文件数怎么比block数目还要多,这正常吗?   
当时查看的情况是文件数一千多万,block的总数不到一千万。    
我当时也没想出原因。现在知道了,并不是我们想的,block的数量应该是文件的数量* 复本数    
这里fsck 给出的数据是这样理解的,block数量不是总的复本数,文件按block大小划分的数量。    
而且我们在执行mapreduce的时候,会生成sucess之类的标识文件,这样的文件是空的,不算block    
所以文件的数量会比block数量多,这是正常的。
Hadoop 文件的数量怎么比block的数量多?的更多相关文章
- 【原创】大数据基础之Spark(7)spark读取文件split过程(即RDD分区数量)
		
spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别 ...
 - Hadoop EC 踩坑 :data block 缺失导致的 HDFS 传输速率下降
		
环境:hadoop-3.0.2 + 11 机集群 + RS-6-3-1024K 的EC策略 状况:某天,往 HDFS 上日常 put 业务数据时,发现传输速率严重下降 分析: 检查集群发现,在之前的传 ...
 - Hadoop架构: 关于Recovery (Lease Recovery , Block Recovery, PipeLine Recovery)
		
该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览 在HDFS中,有三种Recovery 1.Lease Recovery 2.Block Recover ...
 - hadoop 文件参数配置
		
准备环境(省略) 上传实验所需的压缩包 配置网络信息 修改主机名 配置域名解析 关闭防火墙与SELinux(在所有节点上执行)代码如下: systemctl disable --now firewal ...
 - 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作
		
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
 - 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作(转)
		
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
 - Lucene4.2源码解析之fdt和fdx文件的读写(续)——fdx文件存储一个个的Block,每个Block管理着一批Chunk,通过docID读取到document需要完成Segment、Block、Chunk、document四级查询,引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压
		
2 索引读取阶段 当希望通过一个DocId得到Doc的全部内容,那么就需要对fdx/fdt文件进行读操作了.具体的代码在CompressingStoredFieldsReader类里面.与 ...
 - java面试题:如果一串字符如"aaaabbc中国1512"要分别统计英文字符的数量,中文字符的数量,和数字字符的数量,假设字符中没有中文字符、英文字符、数字字符之外的其他特殊字符。
		
package com.swift; public class TotalNumber_String { public static void main(String[] args) { /* * 如 ...
 - Hadoop MR Job 关于如何控制Map Task 数量
		
整理下,基本分两个方式: 一.对于大量大文件(大于block块设置的大小) 增大minSize,即增大mapred.min.split.size的值,原因:splitsize=max(minisize ...
 
随机推荐
- SQL Server 性能调优(一)——从等待状态判断系统资源瓶颈【转】
			
转载自:http://blog.csdn.net/dba_huangzj/article/details/7607844#comments 通过DMV查看当时SQL SERVER所有任务的状态(sle ...
 - AC自动机---病毒侵袭持续中
			
HDU 3065 题目网址: http://acm.hust.edu.cn/vjudge/contest/view.action?cid=110773#problem/C Description 小t ...
 - 六个创建模式之简单工厂模式(Simple Factory Pattern)
			
定义: 定义一个工厂类,它可以根据参数的不同生成对应的类的实例:被创建的类的实例通常有相同的父类.因为该工厂方法尝尝是静态的,所以又被称为静态工厂方法(Static Factory Method) 结 ...
 - [iOS] 使用xib做为应用程序入口 with Code
			
[iOS] 使用xib做为应用程序入口 with Code 前言 开发iOS APP的时候,使用storyboard能够快速并且直觉的建立用户界面.但在多人团队开发的情景中,因为storyboard是 ...
 - HTML5中的音视频处理
			
* 音视频处理 * 视频处理 * 基本内容 * 使用Flash技术处理HTML页面中的视频内容 * 包含音频.动画.网页游戏等 * 特点 * 浏览器原生不支持(IE浏览器要求安装ActiveX组件) ...
 - Web.Config的配置
			
1.配置数据库连接 在<connectionStrings></connectionStrings>节中完成,配置过程需指定四个属性server(DataSource)服务器名 ...
 - SharePoint 使用代码为页面添加WebPart
			
传统的SharePoint实施中,我们通常会创建SharePoint页面,然后添加webpartzone,而后在上面添加webpart:但是有些情况下,也要求我们使用代码,将webpart添加到相应w ...
 - Sharepoint学习笔记—习题系列--70-573习题解析 -(Q85-Q87)
			
Question 85You create a Microsoft .NET Framework console application that uses a Representational St ...
 - NSString、NSArray、NSDictionary和NSData的数据存储
			
#import "ViewController.h" @interface ViewController () @end @implementation ViewControlle ...
 - JAVA基础学习day15--集合二 TreeSet和泛型
			
一.TreeSet 1.1.TreeSet Set:hashSet:数据结构是哈希表.线程是非同步的. 保证元素唯一性的原理:判断元素的HashCode值是否相同. 如果 ...