datanode的作用:

  (1)提供真实文件数据的存储服务。

  (2)文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block.

    配置在hdfs-site.xml中配置:  dfs.block.size

  (3)不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间Replication。多复本。默认是三个。也可以在hdfs-site.xml中配置:

  如下修改副本数量为1(因为只有一个节点):

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

  

下面进行测试:

(1)首先删除hdfs所有的所有文件:

[root@localhost ~]# hadoop fs -ls hdfs://localhost:9000/
Found items
-rwxrwxrwx hadoop supergroup -- : hdfs://localhost:9000/install.log
drwx------ - root supergroup -- : hdfs://localhost:9000/tmp
drwxr-xr-x - root supergroup -- : hdfs://localhost:9000/user
drwxr-xr-x - root supergroup -- : hdfs://localhost:9000/wordcount
[root@localhost ~]# hadoop fs -rm -r hdfs://localhost:9000/* #删除文件
// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = minutes, Emptier interval = minutes.
Deleted hdfs://localhost:9000/install.log
// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = minutes, Emptier interval = minutes.
Deleted hdfs://localhost:9000/tmp
// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = minutes, Emptier interval = minutes.
Deleted hdfs://localhost:9000/user
// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = minutes, Emptier interval = minutes.
Deleted hdfs://localhost:9000/wordcount
[root@localhost ~]# hadoop fs -ls hdfs://localhost:9000/
[root@localhost ~]#

(2)上传一个文件:

[root@localhost java]# ll
total
drwxr-xr-x. uucp Jun jdk1..0_65
-rw-r--r--. root root Apr : jdk-7u65-linux-i586.tar.gz
[root@localhost java]# hadoop fs -put ./jdk-7u65-linux-i586.tar.gz /  #上传文件到hdfs根目录
[root@localhost java]# hadoop fs -ls /
Found items
-rw-r--r-- root supergroup -- : /jdk-7u65-linux-i586.tar.gz

(3)到本地hdfs存放文件的地方查看文件:

[root@localhost finalized]# pwd  #hdfs存放文件的地方
/opt/hadoop/hadoop-2.4.1/data/dfs/data/current/BP-1623988768-127.0.0.1-1523440267982/current/finalized
[root@localhost finalized]# ll  #查看文件
total
-rw-r--r--. root root Apr : blk_1073741855
-rw-r--r--. root root Apr : blk_1073741855_1031.meta
-rw-r--r--. root root Apr : blk_1073741856
-rw-r--r--. root root Apr : blk_1073741856_1032.meta

  (1)发现/opt/hadoop/hadoop-2.4.1/data/dfs/data/current/BP-1623988768-127.0.0.1-1523440267982/current/finalized是hdfs存放文件的路径。

  (2)存放的文件以blk_blkId命名,且一个文件对应一个元数据信息,且同一个文件的不同blk的blkId(block ID)是连续的。上面上传的文件被分成2个block

  (3)上面的blk_1073741855是第一个block,大小为134217728,计算:134217728/1024/1024=128,也就是第一个blk的大小正好的128M。加上下面的blk正好是文件的大小

  或者

以下面这种方式查看文件大小:

[root@localhost finalized]# du -h  ./*
128M ./blk_1073741855
1.1M ./blk_1073741855_1031.meta
9.0M ./blk_1073741856
72K ./blk_1073741856_1032.meta

(4)实际上block就是文件,只是因为文件被拆分,所以如果我们如果将文件合并就可以像处理原始文件一样处理文件。这也是hdfs的机制,将文件按默认块大小分割开,最后按照顺序将块合并组成源文件。

将文件拷贝到用户工作目录:

[root@localhost finalized]# cp ./blk_1073741855 ~/
[root@localhost finalized]# cp ./blk_1073741856 ~/

合并两个block并查看合并后的文件大小:(合并后的大小等于上传的源文件大小)

[root@localhost ~]# cat ./blk_1073741856 >> ./blk_1073741855  #合并文件
[root@localhost ~]# ll | grep blk
-rw-r--r--. root root Apr : blk_1073741855
-rw-r--r--. root root Apr : blk_1073741856

查看文件类型并且解压缩文件:

[root@localhost ~]# file ./blk_1073741855 #查看文件类型
./blk_1073741855: gzip compressed data, from Unix, last modified: Mon Jun ::
[root@localhost ~]# tar -zxvf ./blk_1073741855

解压缩后结果:

[root@localhost ~]# ls
anaconda-ks.cfg blk_1073741855 blk_1073741856 install.log install.log.syslog jdk1..0_65 startHadoop.sh test
[root@localhost ~]# pwd
/root
[root@localhost ~]# cd jdk1..0_65/bin/
[root@localhost bin]# ./java -version
java version "1.7.0_65"
Java(TM) SE Runtime Environment (build 1.7.0_65-b17)
Java HotSpot(TM) Client VM (build 24.65-b04, mixed mode)

总结:

  datanode实际上是将文件按block分开,每个block的大小可以设定,默认每个block为128M(一个block对应一个meta元数据信息),也就是如果文件不够128M是一个block,如果是129M就会被分成两个block(第一个128M,第二个1M)。当我们访问文件的时候,hdfs会将block按顺序合并之后返回给我们,我们也就得到完整的文件。

hdfs的datanode工作原理的更多相关文章

  1. 第四次作业 描述HDFS体系结构、工作原理与流程

    1.用自己的图,描述HDFS体系结构.工作原理与流程. 读数据的流程 2.伪分布式安装Hadoop.

  2. hdfs namenode/datanode工作机制

    一. namenode工作机制 1. 客户端上传文件时,namenode先检查有没有同名的文件,如果有,则直接返回错误信息.如果没有,则根据要上传文件的大小以及block的大小,算出需要分成几个blo ...

  3. HDFS中DataNode工作机制

    1.DataNode工作机制 1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据(包括数据块的长度,块数据的校验和,以及时间戳). 2)DataNod ...

  4. DataNode工作原理(四)

    DataNode的作用:提供真实文件数据的存储服务.以文件块进行存储. 文件块(block):最基本的存储单位.对文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺 ...

  5. 大数据 --> 分布式文件系统HDFS的工作原理

    分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...

  6. NameNode与DataNode的工作原理剖析

    NameNode与DataNode的工作原理剖析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS写数据流程 >.客户端通过Distributed FileSyst ...

  7. Hadoop分布式文件系统HDFS的工作原理

    Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...

  8. HDFS的工作原理扫扫盲

    问题导读: 1.什么是分布式文件系统? 2.怎样分离元数据和数据? 3.HDFS的原理是什么? Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个 ...

  9. 【转载】Hadoop分布式文件系统HDFS的工作原理详述

    转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述 转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文 ...

随机推荐

  1. [Git/Github] ubuntu 14.0 下github 配置

    转载自:http://www.faceye.net/search/77573.html 一:创建Repositories1:首先在github下创建一个帐号.这个不用多说,然后创建一个Reposito ...

  2. Android自动化 -- sendevent/getevent 用法

    getevent&sendevent 是android系统下的一个工具,可以 模拟 多种按键和触屏操作,产生的是raw event,raw event经过event hub处理产生最终的ges ...

  3. wp开发(一)--应用发布篇

    本文非常简单,适合刚刚刚刚入门的菜鸟,且针对的是wp8版本.wp8应用的发布总体来说没什么难度,只是有几个值得注意的地方,希望本文可以减少菜鸟们不必要的担心. 首先假设项目已经完成,且要发布到应用商城 ...

  4. BZOJ5333 [Sdoi2018]荣誉称号 【差分 + 树形dp】

    题目链接 BZOJ5333 题解 看到式子,立即想到二叉树上一个点及其\(k\)个父亲权值和[如果有的话]模\(m\)意义下为\(0\) 考虑如何满足条件 我们假设\(1\)号为第\(0\)层 那么我 ...

  5. CentOS7.4 删除virbr0虚拟网卡

    在CentOS 7的安装过程中如果有选择相关虚拟化的的服务安装系统后,启动网卡时会发现有一个以网桥连接的私网地址的virbr0网卡,这个是因为在虚拟化中有使用到libvirtd服务生成的,如果不需要可 ...

  6. 【arc075F】Mirrored

    Portal --> arc075_f Solution ​  一开始抱着"我有信仰爆搜就可以过"的心态写了一个爆搜.. ​  但是因为..剪枝和枚举方式不够优秀愉快T掉了q ...

  7. HTTP协议格式【转】

    原文链接:https://www.jianshu.com/p/8fe93a14754c 一.URI结构 HTTP使用统一资源标识符(URI)来传输数据和建立连接.URL(统一资源定位符)是一种特殊种类 ...

  8. Mac(Linux)上安装memcached步骤

    Mac上安装memcached类似于在Linux平台上安装memcached. 主要需要做两块: 一.安装libevent库: 二.安装memcached; 一.安装libevent库 libeven ...

  9. tap事件的原理详解

    点击事件延迟问题所在: 在移动端中,由于两次触摸是放大操作,,所以当你点击一次的时候,浏览器会等待300ms,看用户是否会进行第二次点击,如果没有的话,才会执行点击事件 为什么要解决: 随着h5游戏, ...

  10. Eclipse 使用mybatis generator插件自动生成代码

    Eclipse 使用mybatis generator插件自动生成代码 标签: mybatis 2016-12-07 15:10 5247人阅读 评论(0) 收藏 举报 .embody{ paddin ...