hadoop知识点总结（二）hdfs分布式文件系统

1, hdfs设计：减少硬件错误的危害，流式数据访问，大规模数据集，简单的一致性模型

2，特点：

1）移动计算的代价比移动数据的代价低

在异构的软硬件平台间的可移植性

2）局限性

不适合低延迟性数据访问。可使用Hbase解决。

不能高效存储小文件。对NameNode压力大。

不支持多用户写入及任意修改文件。只能进行对文件的追加操作。

3，基本概念

1）块：操作系统中的文件块大小为几千字节，而磁盘块的大小为512KB.

HDFS中的块是一个抽象概念，一般系统默认为64M

使用抽象块的好处：

可存储任意大的文件而不会受到网络中任一单个节点磁盘大小的限制

使用抽象块作为操作的单元可以简化存储子系统

块有利于分布式文件系统中复制容错的实现

2）NameNode与DataNode

NameNode

管理文件系统的命名空间

记录每个文件数据块在各个DataNode上的位置和副本信息

协调客户端对文件的访问

记录命名空间内的改动或空间本身属性的改动

使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间，包括文件映射，文件属性等

DataNode

负责所在物理节点的存储管理

一次写入，多次读取（不修改）

文件由数据块组成，典型的块大小是64MB

数据块尽量散布到各个节点

4. HDFS读写数据流程

1) DataNode

客户端要访问HDFS中的一个文件

首先从NameNode获得组成这个文件的数据块位置列表

根据列表知道存储数据块的DataNode

访问DataNode获取数据

NameNode并不参与数据实际传输

5, HDFS可靠性

可以在hdfs-site.xml中设置复制因子指定副本数量

所有数据块都有副本

DataNode启动时，遍历本地文件系统，产生一份HDFS数据块和本地文件的对应关系列表（blockreport）汇报给NameNode

6,机架策略

集群一般放在不同机架上，机架间带宽要比机架内带宽要小 HDFS的“机架感知” ，一般在本机架存放一个副本，在其它机架再存放别的副本，这样可以防止机架失效时丢失数据，也可以提高带宽利用率

7，心跳机制

1) NameNode周期性从DataNode接收心跳信号和块报告

2) NameNode根据块报告验证元数据

3) 没有按时发送心跳的DataNode会被标记为宕机，不会再给它任何I/O请求

4) 如果DataNode失效造成副本数量下降，并且低于预先设置的阈值，NameNode会检测出这些数据块，并在合适的时机进行重新复制

5) 引发重新复制的原因还包括数据副本本身损坏、磁盘错误，复制因子被增大等

8 校验和

在文件创立时，每个数据块都产生校验和

校验和会作为单独一个隐藏文件保存在命名空间下

客户端获取数据时可以检查校验和是否相同，从而发现数据块是否损坏

如果正在读取的数据块损坏，则可以继续读取其它副本

9，回收站

删除文件时，其实是放入回收站/trash ，回收站里的文件可以快速恢复，可以设置一个时间阈值，当回收站里文件的存放时间超过这个阈值，就被彻底删除，并且释放占用的数据块

10，元数据保护

映像文件和事务日志是NameNode的核心数据。可以配置为拥有多个副本，副本会降低NameNode的处理速度，但增加安全性。NameNode依然是单点，如果发生故障要手工切换

11，HDFS文件操作常用命令：

选项名称使用格式含义

-ls -ls <路径> 查看指定路径的当前目录结构

-lsr -lsr <路径> 递归查看指定路径的目录结构

-du -du <路径> 统计目录下个文件大小

-dus -dus <路径> 汇总统计目录下文件(夹)大小

-count -count [-q] <路径> 统计文件(夹)数量

-mv -mv <源路径><目的路径> 移动

-cp -cp<源路径> <目的路径> 复制

-rm -rm [-skipTrash] <路径> 删除文件/空白文件夹

-rmr -rmr [-skipTrash] <路径> 递归删除

-put -put <多个linux上的文件> <hdfs路径> 上传文件

-copyFromLocal -copyFromLocal <多个linux上的文件><hdfs路径> 从本地复制

-moveFromLocal -moveFromLocal <多个linux上的文件><hdfs路径> 从本地移动

-getmerge -getmerge <源路径> <linux路径> 合并到本地

-cat -cat <hdfs路径> 查看文件内容

-text -text <hdfs路径> 查看文件内容

-copyToLocal -copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径] 从本地复制

-moveToLocal -moveToLocal [-crc] <hdfs源路径> <linux目的路径> 从本地移动

-mkdir -mkdir <hdfs路径> 创建空白文件夹

-setrep -setrep [-R] [-w] <副本数> <路径> 修改副本数量

-touchz -touchz <文件路径> 创建空白文件

-stat -stat [format] <路径> 显示文件统计信息

-tail -tail [-f] <文件> 查看文件尾部信息

-chmod -chmod [-R] <权限模式> [路径] 修改权限

-chown -chown [-R] [属主][:[属组]] 路径修改属主

-chgrp -chgrp [-R] 属组名称路径修改属组

-help -help [命令选项] 帮助

简化hadoop命令，在用户根目录下 vi.bashrc

在最后添加：

aliasfs='hadoop fs' # 定义一个别名，简单化名字

aliasfsa='hadoop dfsadmin'

执行source .bashrc即可生效

fs-ls

fs-mkdir input

fsa-safemode leave

等等命令

hadoop知识点总结（二）hdfs分布式文件系统的更多相关文章

hadoop系列（二）分布式文件系统HDFS
根据core-site.xml的配置,接下来就可以通过:hdfs://localhost:9000来对hdfs进行操作了. 1.创建输入目录 C:\WINDOWS\system32>hadoop ...
Hadoop基础-HDFS分布式文件系统的存储
Hadoop基础-HDFS分布式文件系统的存储作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块每个磁盘都有默认的数据块大小,这个磁盘 ...
我理解中的Hadoop HDFS分布式文件系统
一,什么是分布式文件系统,分布式文件系统能干什么在学习一个文件系统时,首先我先想到的是,学习它能为我们提供什么样的服务,它的价值在哪里,为什么要去学它.以这样的方式去理解它之后在日后的深入学习中才能 ...
Hadoop HDFS分布式文件系统常用命令汇总
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理 ...
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪 ...
HDFS分布式文件系统资源管理器开发总结
HDFS,全称Hadoop分布式文件系统,作为Hadoop生态技术圈底层的关键技术之一,被设计成适合运行在通用硬件上的分布式文件系统.它和现有的分布式文件系统有很多共同点,但同时,它和其他的分布式 ...
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析引言 Hadoop提供的HDFS布式文件存储系统,提供了基于thrift的客户端访问支持,但是因为Thrift自身的访问特点,在高并发的访问情 ...
认识HDFS分布式文件系统
1.设计基础目标 (1) 错误是常态,需要使用数据冗余 (2)流式数据访问.数据批量读而不是随机速写,不支持OLTP,hadoop擅长数据分析而不是事物处理. (3)文件采用一次性写多次读的模型, ...
1、HDFS分布式文件系统
1.HDFS分布式文件系统分布式存储分布式计算 2.hadoop hadoop含有四个模块,分别是 common. hdfs和yarn. common 公共模块. HDFS hadoop dist ...
HDFS 分布式文件系统
博客出处W3c:https://www.w3cschool.cn/hadoop/xvmi1hd6.html 简介 Hadoop Distributed File System,分布式文件系统架构 B ...

随机推荐

[leetcode] 周赛 223
比赛题目:https://leetcode-cn.com/contest/weekly-contest-223/. 解码异或后的数组题目:1720. 解码异或后的数组. 还记得数列求和的「累加法」? ...
瞄到BindingGroup用法
文章转载于https://www.cnblogs.com/dangnianxiaoqingxin/p/12653988.html 2.BindingGroup的使用 public class MyCl ...
web渗透之常见shell反弹姿势
常见反弹shell总结: 原文链接请点击:https://ruoli-s.github.io/posts/b956.html 一.bash反弹通用 ① 在kali机里面开启端口监听: nc -lvv ...
PAT天梯赛练习 L3-003 社交集群 (30分) DFS搜索
题目分析: 一共有N个编号为1~1000的人,以及一共有编号为1~1000种不同的兴趣,在题目给出1~N编号的人员每个人喜欢的兴趣的id后,要求统计出不同的人员集合的个数以及每个人员几个的人数从大到小 ...
使用Jenkins+Pipline 持构建自动化部署之安卓源码打包、测试、邮件通知
一.引言 Jenkins 2.x的精髓是Pipeline as Code,那为什么要用Pipeline呢?jenkins1.0也能实现自动化构建,但Pipeline能够将以前project中的配置信息 ...
【EXP】exp-00091解决办法
如果遇到exp的话一般都是因为字符集的问题解决办法: 1.在oracle中查看数据库的字符集 SQL> select userenv('language') from dual; USEREN ...
kubernets之服务资源
一服务集群内部或者客户端与pod的通信桥梁 kubernets集群的内部pod访问为啥不能使用传统的IP:PORT的形式? pod是短暂的,它们会随时启动或者关闭,原因可能是pod所在的节点下 ...
C# 中的动态类型
翻译自 Camilo Reyes 2018年10月15日的文章 <Working with the Dynamic Type in C#> [1] .NET 4 中引入了动态类型.动态对象 ...
ROS教程（二）：创建工作空间（图文）
ros教程:创建工作空间目录前言一.工作空间? 二.创建一个工作空间 1.创建目录 2.编译前言使用catkin创建一个工作空间一.工作空间? 在ROS系统下,我们所有的项目都放在一个工作 ...
click的简单使用
click的简单使用先通过一个简单的例子来认知一下click把 import click @click.command() @click.option('-p', '--port', default ...

hadoop知识点总结（二）hdfs分布式文件系统

hadoop知识点总结（二）hdfs分布式文件系统的更多相关文章

随机推荐

热门专题