hadoop 基础入门

启动：

格式化节点：bin/hdfs namenode -format

全部启动：sbin/start-dfs：datanode、namenode

sbin/start-yarn：nodemanager、resourcemanager

访问：http://localhost:50070 查看管理

查看文件目录：bin/hdfs.cmd dfs -ls /

创建文件夹：bin/hdfs dfs -mkdir -p /test

复制文件：bin/hdfs dfs -put etc/hadoop hdfs://localhost:9000/test

查看文件：bin/hdfs dfs -cat /test/hadoop/*.xml

删除文件：bin/hdfs dfs -rm -r /test/*.xml

节点列表：bin/hdfs dfsadmin -report

节点恢复：bin/hdfs namenode -recover

节点检查：bin/hdfs fsck /test

snapshot文件夹：bin/hdfs lsSnapshottableDir

配置获取：

PS D:\hadoop-2.9.0> .\bin\hdfs getconf -namenodes

localhost

PS D:\hadoop-2.9.0> .\bin\hdfs getconf -secondaryNameNodes

account.jetbrains.com

PS D:\hadoop-2.9.0> .\bin\hdfs getconf -backupNodes

account.jetbrains.com

PS D:\hadoop-2.9.0> .\bin\hdfs getconf -includeFile

Configuration dfs.hosts is missing.

PS D:\hadoop-2.9.0> .\bin\hdfs getconf -nnRpcAddresses

localhost:9000

PS D:\hadoop-2.9.0> .\bin\hdfs classpath

D:\hadoop-2.9.0\etc\hadoop;D:\hadoop-2.9.0\share\hadoop\common\lib\*;D:\hadoop-2.9.0\share\hadoop\common\

.0\share\hadoop\hdfs;D:\hadoop-2.9.0\share\hadoop\hdfs\lib\*;D:\hadoop-2.9.0\share\hadoop\hdfs\*;D:\hadoo...

hdfs 拥有主从结构，hdfs集群包含一个单一的NameNode，称之为主服务器，负责管理文件系统命名空间及客户端对文件的访问权限。hdfs集群包含多个数据节点。hdfs暴露文件命名空间用以用户以文件形式存储数据。文件被分割为多个块儿，存储在一个或多个数据节点上。NameNode负责文件系统操作，包括打开，关闭，重命名文件和文件夹，决定数据块到数据节点的映射。数据节点负责系统客户端的读写请求，及数据块的创建，删除和根据NameNode的指导进行复制。

单个NameNode简化了hdfs架构，负责存储hdfs元数据，不存储用户数据。

hdfs支持传统的层级文件结构，用户或者系统客户端可以创建文件夹及在其下存储文件。支持文件数量级权限限制。不支持软，硬连接，但不妨碍其它对此的实现。

NameNode负责维护文件系统命名空间，记录所有变更。应用可以配置文件的备份数，即备份因子。

数据复制：默认三份

hdfs用来在集群间，跨机器存储文件。文件以一连串的数据块形式存储，数据块存在多个备份以提供容错能力，块儿大小及备份数可以根据每一个文件进行配置。

除了最后一个数据块，其它数据块大小均相同，

复制因子，可以在文件创建时配置，后续可以更改，hdfs中的文件是一次性写入的，并且严格限制一个操作者。

NameNode决定数据块的复制事宜。间隔的接收数据节点的心跳（数据几点是否工作正常）及数据块报告（数据节点所包含的所有数据块）

数据块备份的存放关系着hdfs的可靠性及性能。优化备份存储是hdfs区别于其它分布式文件系统的重要一点。rack aware机制是为了提高hdfs数据可靠性，可用性，网络带宽使用。

大规模的hdfs实例通常运行在跨不同机器不同平台架构的机器上，不同平台的节点之间通信需要经过交换机，同平台之间的带宽通常大于异构平台之间的带宽。

副本选择：

为了减少总体的带宽消耗和读延迟，hdfs尝试通过距离用户最近的副本来提供读服务。同架构节点优先提供服务，本地节点有限提供服务。

安全模式：

NameNode启动时，处于安全模式，此时数据节点不执行数据块复制，NameNode接收心跳及数据块报告，每一个数据块包含过个副本，当数据块副本数量匹配配置的复制因子，则NameNode认定数据块安全，当特定比例数据块被认定安

全后，NameNode离开安全模式，并检查还不满足复制因子的数据块，并进行复制操作。

系统元数据的持久化：

hdfs命名空间存储在NameNode。NameNode使用事务日志（Editlog）持续的记录系统元数据发生的所有变更，每次变更增加一条记录，Editlog存储在本地系统文件。全部的系统命名空间元数据，包括数据块到文件的映射及系统属性存储在文本地系统件FsImage中。

NameNode在内存中保存着一份系统命名空间及数据块映射镜像，当NameNode启动时，或者检测点触发，NameNode读取磁盘Fsimage及Editlog文件，将Editlog文件中的事务应用于内存中的Fsimage镜像，并将应用后的FsImage固化到磁盘生成新的FsImage文件。旧的Editlog即可被删除，这个过程称之为检测点，目的是通过系统元数据快照及固化FsImage来保持hdfs的一致性。FsImage的读取效率很高，但是修改效率低，为了避免FsImage的修改操作，NameNode将变更记录到Editlog，等到检测点触发，Editlog变更被应用固化到FsImage文件。

检测点（ checkpoint ）配置： dfs.namenode.checkpoint.period s间隔， dfs.namenode.checkpoint.txns 变更数间隔

数据节点将数据块存储在本地系统，数据节点无法识别hdfs文件，存储可能不同文件的不同数据块。数据节点避免将所有的文件数据块存储在同一文件目录下（本地文件系统限制），采用启发式算法来决定文件夹的创建及数据块的存放。

数据节点启动时，扫描本地文件系统产生一系列数据块到本地文件映射（blockreport），发送到NameNode。

通信协议

hdfs通信协议基于TCP/IP，客户端使用客户端协议于NameNode建立连接，数据节点使用数据节点协议（宝库奥客户端协议及数据节点协议）同NameNode建立连接，NameNode不主动发起连接，只回复客户端及数据节点的rpc连接请求。

健壮性：NameNode，数据节点，网络分区

数据节点保持着和NameNode之前的心跳，网络分区因素可能引起数据节点的失联。NameNode通过检测心跳信息识别失联数据节点，并标识节点失效，不再转发IO请求。失效节点存储的数据块将不再为hdfs使用，将会引起特定数据节点的复制因此不再满足，NameNode不间断的检测不满足复制因子的数据块，并在特定条件下（数据节点不可用，副本崩溃，硬盘损坏，文件复制因子变更）的时候启动复制。

数据节点失效判定超时配置：

数据一致性：

hdfs客户端文件实现了hdfs文件校验机制，客户端创建hdfs文件时，同时计算每个数据块校验和（CRC32算法），并将校验和存储在同一个hdfs命名空间的一个独立的隐藏文件中。当客户端接收到hdfs文件内容时，同时计算校验和和相关的校验和文件进行匹配。当某一个数据块不匹配，则执行从其它数据节点请求此数据块备份。

FsImage Editlog磁盘失效会引起hdfs无法工作，因此hdfs支持配置FsImage Editlog备份，备份间异步更新，可能引起吞吐量降低。NameNode重启时，选择最新的FsImage Editlog。

数据组织：

大数据文件，一次写入，多次读取，流式读取，标准大小数据块128m，一个文件会被分割为多个数据块，并尽可能的分配到不同的数据节点上。

当客户端向hdfs写入文件时，NameNode使用相应的目标选择算法获取特定复制因子数量的数据节点。客户端首先将数据写入第一个节点，第一个节点接收数据，写入本地存储，并传输给后续的数据节点，后续节点相应的执行。数据在数据节点间管道式流动复制。

备份因此修改后，只有等到下一次心跳，信息才会传送至数据节点，然后数据节点执行相应的数据块操作，存在操作时间差。

客户端请求NameNode获取文件元数据及修改信息，同数据节点执行实际的数据IO请求。

Secondary NameNode：

FsImage：最新的checkpoint文件。

主节点只在启动时执行FsImage及Editlog相关操作，二级节点运行期间定时管理FsImage及Editlog，控制FsImge在一定的大小范围。二级节点通常运行在不同的节点上。二级节点上最新的checkpoint和主节点上的checkpoint存储在相同的位置。以便可以让主节点使用。

定时与主节点同步(定期合并），并将最新FsImage传递给NameNode，清空Editlog，NameNode失效后，需要手动设置为主机。

checkpoint节点：

checkpoint节点不间断的创建命名空间的checkpoint文件。从活跃NameNode下载FsImage及Editlog，应用Editlog到FsImge，并将最新的FsImage到主NameNode。checkpoint运行在独立的服务器上。

配置地址： dfs.namenode.backup.address dfs.namenode.backup.http-address

配置启动： dfs.namenode.checkpoint.period 默认1h，执行checkpoint间隔； dfs.namenode.checkpoint.txns 间隔任务数

checkpoint节点存储最新checkpoint文件位置和主节点相同。

备份节点：

执行checkpoint节点相同的功能，同时保持一份内存镜像，实时和主节点异步更新，日常流式从主节点接收系统变更，固化到硬盘，同时应用到内存中的镜像。

备份节点不需要从主节点下载FsImage Editlog，因为内存中保存着最新的镜像备份。

配置备份节点可以不配置checkpoint节点。

暂时只支持一个本分节点，

bin/hdfs namenode -backup

配置：dfs.namenode.backup.address and dfs.namenode.backup.http-address

使用本分节点可以配置无持久化存储hdfs存储。

导入checkpoint：

* dfs.namenode.name.dir 配置空文件夹;

* dfs.namenode.checkpoint.dir配置chckepoint文件位置;

* 启动主NameNode -importCheckpoint option.

NameNode上传dfs.namenode.checkpoint.dir文件夹下checkpoint文件，保存到dfs.namenode.name.dir（确保空），。。。

* olicy to keep one of the replicas of a block on the same node as the node that is writing the block.

* Need to spread different replicas of a block across the racks so that cluster can survive loss of whole rack.

* One of the replicas is usually placed on the same rack as the node writing to the file so that cross-rack network I/O is reduced.

* Spread HDFS data uniformly across the DataNodes in the cluster.

数据节点存储热切换：

* If there are new storage directories, the user should format them and mount them appropriately.

* The user updates the DataNode configuration dfs.datanode.data.dir to reflect the data volume directories that will be actively in use.

* The user runs dfsadmin -reconfig datanode HOST:PORT start to start the reconfiguration process. The user can use dfsadmin -reconfig datanode HOST:PORT status to query the running status of the reconfiguration task.

* Once the reconfiguration task has completed, the user can safely umount the removed data volume directories and physically remove the disks.

HDFS两层架构：

命名空间（namespace）：

文件夹、文件及数据块的一致性；支持所有和命名空间相关的文件系统操作（创建、删除、修改和文件及文件夹列表）

数据块存储服务：

数据块管理（NameNode）

维护数据节点关系（提供注册，心跳）

处理数据块报告及维护数据块存储位置

支持数据块相关的操作，创建，删除，修改及位置获取

管理数据块复制，复制不满足复制因子（ under replicated）的数据块，删除超过复制因子（over replicated）的数据块备份。

数据块存储（数据节点）：

本地存储数据块，提供读写访问。

整个HDFS可存储的文件数受限于NameNode的内存大小

一个block在NameNode中对应一条记录，map task数量由splits决定，mapreduce处理大量小文件时，会产生大量map task，线程管理开销增加作业时间，建议处理大文件。

数据节点：

保存具体的block数据

负责数据的读写

定时向NameNode报告数据块信息，及更新信息

数据节点之前的通信，block复制，保证数据的冗余性。

读取：

配置：

core-site.xml：配置公共属性

hdfs-site.xml：配置HDFS

yarn-site.xml：配置YARN

mapred-site.xml：配置MapReduce

hadoop 基础入门的更多相关文章

Hadoop基础入门
一.hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式.Hadoop= ...
大数据Hadoop基础入门到精通
1.hadoop前世今生: 1) 搜索引擎:网络爬虫+索引服务器(生成索引+检索) 2) Doung Cutting 3) Nutch a.分布式存储 b.分布式计算 4)GFS论文 doung c ...
Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门
一.HDFS出现的背景随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多 ...
Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码
Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习MapReduce时的一些 ...
【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署理论已经了解的差不多了,接下来是实际动手实 ...
Cloudera Manager、CDH零基础入门、线路指导 http://www.aboutyun.com/thread-9219-1-1.html (出处: about云开发)
Cloudera Manager.CDH零基础入门.线路指导http://www.aboutyun.com/thread-9219-1-1.html(出处: about云开发) 问题导读:1.什么是c ...
Hadoop基础-MapReduce的工作原理第一弹
Hadoop基础-MapReduce的工作原理第一弹作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在本篇博客中,我们将深入学习Hadoop中的MapReduce工作机制,这些知识 ...
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce具体解释
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详细解释我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ ...
1.2 Hadoop快速入门
1.2 Hadoop快速入门 1.Hadoop简介 Hadoop是一个开源的分布式计算平台. 提供功能:利用服务器集群,根据用户定义的业务逻辑,对海量数据的存储(HDFS)和分析计算(MapReduc ...

随机推荐

jfinal多数据源ActiveRecordPlugin
因为项目需要从多个数据库取数据,所以需要配置多个数据源尝试了ActiveRecordPlugin和DruidPlugin的多数据源,但是因为DruidPlugin在本地一直报错一个很奇怪的语法错误, ...
ext4文件系统特性浅析
ext4作为Linux下的文件系统因其简单性.易管理性.兼容性强等特定,深受大多数用户喜欢,并且作为大多数Linux发行版中的默认文件系统.但是随着现在文件数目的增多以及文件数据的增大,ext4文件系 ...
CentOS7安装及相关配置转载
1. 怎样在 CentOS 7.0 上安装和配置 VNC 服务器 https://linux.cn/article-5335-1.html 2. 安装完最小化 RHEL/CentOS 7 后需要做的 ...
Unity各平台内置宏定义
属性方法 UNITY_EDITOR #define directive for calling Unity Editor scripts from your game code. UNITY_EDI ...
Leetcode名企之路
微信扫码关注,每天推送一道面试题! 公众号:Leetcode名企之路作者简介知乎ID: 码蹄疾码蹄疾,毕业于哈尔滨工业大学. 小米广告第三代广告引擎的设计者.开发者: 负责小米应用商店.日历.开 ...
c#一些处理解决方案（组件，库）
1.关系数据库 postgresql,mysql,oracle,sqlserver 2.本地数据库 sqlite,berkeleydb,litedb 3.缓存数据库 redis,mongdb 4.数据 ...
【Linux】文件、目录权限及归属
访问权限: 可读(read):允许查看文件内容.显示目录列表可写(write):允许修改文件内容,允许在目录中新建.移动.删除文件或子目录可执行(execute):允许运行程序.切换目录归属: ...
ping ipconfig telnet
//查看本机IP ipconfig 内网拼其他机子, 其他机子一定要关闭防火墙 ping 192.168.198.46 telnet 192.168.198.46 3000 拼端口会跳转 ...
PHP常用函数归类【持续整理】
学习了这么久PHP,基础知识总感觉不牢靠,尤其是数组,字符串函数的应用,全部手敲过次手,做出总结都是基础,在回顾一下吧. 一.PHP基础语法变量,常量严格区分大小写,但内置结构或关键字无所 ...
linux-2.6.22.6内核启动分析之编译体验
1 解压缩.打补丁操作 1.1 打开ubuntu,通过FTP将windows相应文件夹下的linux-2.6.22.6.tar.bz2和补丁文件linux-2.6.22.6-jz2440.patch上 ...

hadoop 基础入门

hadoop 基础入门的更多相关文章

随机推荐

热门专题