初识hadoop之分布式文件系统（HDFS）

你说的都好 2024-10-24 09:01:00 原文

Hadoop常用发行版：

Apache Hadoop

CDH Cloudera Distributed Hadoop

HDP Hortonworks Data Platfrom

分布式文件系统（HDFS）

HDFS架构

1个master（NameNode/NN）带n个slaves（DataNode/DN）

HDFS/YARN/HBase都是类似结构

一个文件会被拆分成多个Block

blocksize：128M

130M ==> 2个Block：128M和2M

NN：
1)负责客户端请求的响应

2)负责元数据（文件的名称、副本系数、Block存放的DN）的管理

DN：

1)存储用户的文件对应的数据块（Block）

2)要定期向NN发送心跳信息，汇报本身及其所有的block信息，健康状况

A typical deployment has a dedicated machine that runs only
the NameNode software. Each of the other machines in the cluster runs one
instance of the DataNode software.

NameNode + N个DataNode

建议：NN和DN部署在不同的节点上

replication factor：副本系数、副本因子

HDFS环境搭建

使用版本：hadoop-2.6.0-cdh5.7.0

Hadoop伪分布式安装步骤

1) jdk安装

解压：tar –zxvf jdk-7u79-linux-x64.tar.gz –C
~/app

添加到系统环境变量：~/.bash_profile

export
JAVA_HOME=/home/hadoop/app/jdk1.7.0_79

eport
PATH=$JAVA_HOME/bin:$PATH

使得环境变量生效：source ~/.bash_profile

验证java是否配置成功：java –version

2) 安装ssh

sudo
yum install ssh

ssh-keygen
-t rsa

cp
~/.ssh/id_rsa.pub ~/.ssh/authorizes_keys

3) 下载并解压hadoop

下载：直接在cdh网站下载

解压：tar –zxvf Hadoop-2.6.0-cdh5.7.0.tar.gz –C ~/app

4) hadoop配置文件的修改（hadoop_home/etc/hadoop）

hadoop-evn.sh

export JAVA_HOME=/home/Hadoop/app/jdk1.7.0_79

core-site.xml

<property>

<name>fs.defaultFS</name>

<value>hdfs://hadoop000:8020</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/app/tmp</value>

</property>

hdfs-site.xml

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

slaves（配置DN的个数）添加主机名称

5) 启动hfds

格式化文件系统（仅第一次执行即可，不要重复执行，在bin目录下执行，即在客户端执行）：

hdfs
namenode –format

启动hdfs：sbin/start-dfs.sh

验证是否启动成功：

jps

DataNode

SecondaryNameNode

NameNode

浏览器访问方式：http://hadoop000:50070

6) 停止hdfs

sbin/stop-dfs.sh

将hadoop的bin目录配置到环境变量当中

vi ~/.bash_profile

export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0

export PATH=$HADOOP_HOME/bin:$PATH

环境变量生效：

source ~/.bash_profile

查看环境变量：

echo $HADOOP_HOME

hdfs常用操作命令：

hdfs dfs(hadoop fs) +

-ls + / 查看根目录下的文件和文件夹

-mkdir + /test 在根目录下创建test文件夹

-put 文件名 + /
将文件上传到根目录当中（拷贝文件）

-copyFromLocal hello.txt + /test/a/b/h.txt 将文件拷贝到指定路径中

-text(-cat) + /文件名查看文件的内容

-mkdir –p + /test/a/b 递归创建文件夹

-lsr + / 递归展示文件夹（-ls –R + /）

-get + /test/a/b/h.txt 将文件拷贝到本地

-rm + /hello.txt 删除文件

-rm + -R /test 删除文件夹

初识hadoop之分布式文件系统（HDFS）的更多相关文章

Hadoop 分布式文件系统 - HDFS
当数据集超过一个单独的物理计算机的存储能力时,便有必要将它分不到多个独立的计算机上.管理着跨计算机网络存储的文件系统称为分布式文件系统.Hadoop 的分布式文件系统称为 HDFS,它是为以流式数 ...
Hadoop分布式文件系统--HDFS结构分析
转自:http://blog.csdn.net/androidlushangderen/article/details/47377543 HDFS系列:http://blog.csdn.net/And ...
【转载】Hadoop分布式文件系统HDFS的工作原理详述
转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文 ...
大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...
大数据技术原理与应用——分布式文件系统HDFS
分布式文件系统概述相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...
你想了解的分布式文件系统HDFS，看这一篇就够了
1.分布式文件系统计算机集群结构分布式文件系统把文件分布存储到多个节点(计算机)上,成千上万的计算机节点构成计算机集群. 分布式文件系统使用的计算机集群,其配置都是由普通硬件构成的,与用多个处理器 ...
Hadoop分布式文件系统HDFS详解
Hadoop分布式文件系统即Hadoop Distributed FileSystem. 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并 ...
Hadoop分布式文件系统HDFS的工作原理
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...
Hadoop分布式文件系统HDFS
HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数 ...

随机推荐

Azure 中快速搭建 FTPS 服务
FTP,FTPS 与 SFTP 的区别 FTP (File Transfer Protocol)是一种常用的文件传输协议,在日常工作中被广泛应用.不过,FTP 协议使用明文传输.如果文件传输发生在公网 ...
August 21st 2017 Week 34th Monday
In fact, the happiest fairy tale is no more than the simple days we have together. 其实全世界最幸福的童话,也比不上我 ...
mysql_fetch_row，mysql_fetch_array，mysql_fetch_object，mysql_fetch_assoc
php从mysql中访问数据库并取得数据,取得结果的过程中用到好几个类似的方法,区别及用法值得区分一下,看下面的代码代码如下: <?php $link=mysql_connect('local ...
内网渗透中的mimikatz
0x00 前言上篇测试了中间人攻击利用框架bettercap,这次挑选一款更具代表性的工具--mimikatz 0x01 简介 mimikatz,很多人称之为密码抓取神器,但在内网渗透中,远不止这么 ...
JS数据模板分离（告别字符串拼接）-template
刚开始在写第一个动态网页的demo时,由于html不多,便使用字符串拼接的方法添加到dom来渲染,可是在后来写某外卖app时也需要如此添加,打开代码一看几千行,突然感觉累觉不爱一行行的拼接有这功夫别 ...
BZOJ2761:[JLOI2011]不重复数字(map)
Description 给出N个数,要求把其中重复的去掉,只保留第一次出现的数. 例如,给出的数为1 2 18 3 3 19 2 3 6 5 4,其中2和3有重复,去除后的结果为1 2 18 3 19 ...
vector详讲(三)实例
移动语义: push语句有时候会通过移动语义来提高性能 #include <iostream> #include <vector> class Element { public ...
Linux常用监控服务器性能命令
列举比较常用的几种监控服务器性能的Linux命令.其实,在我看来,目前针对Linux系统内存.硬盘.TCP/IP等等相关的指标,Linux本身自带的或者是一些开源项目等基本上都能达到这个获取服务器性能 ...
Java 数据库操作oracle增删改查，通用封装基于hashmap
pt1:首先安装oracle连接驱动下载地址:https://pan.baidu.com/s/1jW_ofgU4eJmAn7Y2J5B46A 密码:epkz 1.将ojdbc6.jar导入项目中 ...
JDK（四）JDK1.8源码分析【排序】DualPivotQuicksort
本文转载自于晓飞93,原文链接 DualPivotQuickSort 双轴快速排序源码笔记 DualPivotQuicksort是Arrays类中提供的给基本类型的数据排序的算法.它针对每种基本数 ...