Hadoop常用发行版:

Apache Hadoop

CDH  Cloudera Distributed Hadoop

HDP  Hortonworks Data Platfrom

分布式文件系统(HDFS)

HDFS架构

1个master(NameNode/NN)带n个slaves(DataNode/DN)

HDFS/YARN/HBase都是类似结构

一个文件会被拆分成多个Block

blocksize:128M

130M ==> 2个Block:128M和2M

NN:
1)负责客户端请求的响应

2)负责元数据(文件的名称、副本系数、Block存放的DN)的管理

DN:

1)存储用户的文件对应的数据块(Block)

2)要定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况

A typical deployment has a dedicated machine that runs only
the NameNode software. Each of the other machines in the cluster runs one
instance of the DataNode software.

NameNode + N个DataNode

建议:NN和DN部署在不同的节点上

replication factor:副本系数、副本因子

HDFS环境搭建

使用版本:hadoop-2.6.0-cdh5.7.0

Hadoop伪分布式安装步骤

1)  jdk安装

解压:tar –zxvf jdk-7u79-linux-x64.tar.gz –C
~/app

添加到系统环境变量:~/.bash_profile

export
JAVA_HOME=/home/hadoop/app/jdk1.7.0_79

eport
PATH=$JAVA_HOME/bin:$PATH

使得环境变量生效:source ~/.bash_profile

验证java是否配置成功:java –version

2)  安装ssh

sudo
yum install ssh

ssh-keygen
-t rsa

cp
~/.ssh/id_rsa.pub ~/.ssh/authorizes_keys

3)  下载并解压hadoop

下载:直接在cdh网站下载

解压:tar –zxvf Hadoop-2.6.0-cdh5.7.0.tar.gz –C ~/app

4)  hadoop配置文件的修改(hadoop_home/etc/hadoop)

hadoop-evn.sh

export JAVA_HOME=/home/Hadoop/app/jdk1.7.0_79

core-site.xml

<property>

<name>fs.defaultFS</name>

<value>hdfs://hadoop000:8020</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/app/tmp</value>

</property>

hdfs-site.xml

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

slaves(配置DN的个数)添加主机名称

5)  启动hfds

格式化文件系统(仅第一次执行即可,不要重复执行,在bin目录下执行,即在客户端执行):

hdfs
namenode –format

启动hdfs:sbin/start-dfs.sh

验证是否启动成功:

jps

DataNode

SecondaryNameNode

NameNode

浏览器访问方式:http://hadoop000:50070

6)  停止hdfs

sbin/stop-dfs.sh

将hadoop的bin目录配置到环境变量当中

vi ~/.bash_profile

export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0

export PATH=$HADOOP_HOME/bin:$PATH

环境变量生效:

source ~/.bash_profile

查看环境变量:

echo $HADOOP_HOME

hdfs常用操作命令

hdfs dfs(hadoop fs)  +

-ls + / 查看根目录下的文件和文件夹

-mkdir + /test 在根目录下创建test文件夹

-put 文件名 + /
将文件上传到根目录当中(拷贝文件)

-copyFromLocal hello.txt + /test/a/b/h.txt 将文件拷贝到指定路径中

-text(-cat) + /文件名 查看文件的内容

-mkdir –p + /test/a/b 递归创建文件夹

-lsr + / 递归展示文件夹(-ls –R + /)

-get + /test/a/b/h.txt 将文件拷贝到本地

-rm + /hello.txt 删除文件

-rm + -R /test 删除文件夹

初识hadoop之分布式文件系统(HDFS)的更多相关文章

  1. Hadoop 分布式文件系统 - HDFS

    当数据集超过一个单独的物理计算机的存储能力时,便有必要将它分不到多个独立的计算机上.管理着跨计算机网络存储的文件系统称为分布式文件系统.Hadoop 的分布式文件系统称为 HDFS,它 是为 以流式数 ...

  2. Hadoop分布式文件系统--HDFS结构分析

    转自:http://blog.csdn.net/androidlushangderen/article/details/47377543 HDFS系列:http://blog.csdn.net/And ...

  3. 【转载】Hadoop分布式文件系统HDFS的工作原理详述

    转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述 转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文 ...

  4. 大数据 --> 分布式文件系统HDFS的工作原理

    分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...

  5. 大数据技术原理与应用——分布式文件系统HDFS

    分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...

  6. 你想了解的分布式文件系统HDFS,看这一篇就够了

    1.分布式文件系统 计算机集群结构 分布式文件系统把文件分布存储到多个节点(计算机)上,成千上万的计算机节点构成计算机集群. 分布式文件系统使用的计算机集群,其配置都是由普通硬件构成的,与用多个处理器 ...

  7. Hadoop分布式文件系统HDFS详解

    Hadoop分布式文件系统即Hadoop Distributed FileSystem.        当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并 ...

  8. Hadoop分布式文件系统HDFS的工作原理

    Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...

  9. Hadoop分布式文件系统HDFS

    HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数 ...

随机推荐

  1. 中间件(WAS、WMQ)运维 9个常见难点解析

    本文由社区中间件达人wangxuefeng266.ayy216226分享整理,包括WAS.WMQ在安装.巡检.监控.优化过程中的常见难点. 安装 1.was 负载均衡的机制的粘连性,was负载均衡异常 ...

  2. EasingAnimation

    EasingAnimation https://github.com/YouXianMing/EasingAnimation This class is used for Easing animati ...

  3. 远程管理客户端--SCCM

    远程控制客户端(设备--启动--远程控制): 1.将该用户在SCCM中赋予 远程工具操作人员 权限后,可以通过ccm控制台连接客户端,即可以使用远程控制工具 客户端设置策略设置--远程工具--管理远程 ...

  4. Exchange 2007 前端 IIS 内存占用过高

    已经碰见了好几次,在Exchange2007的场景中,前端角色所在服务器的w3wp.exe进程总是占用大量内存,以至于触发反压组件,停止了正常的邮件流投递,造成业务中断. 终于下决心查一下到底问题问题 ...

  5. CC2530 LED灯控制

      有三个寄存器 分别是功能寄存器.方向寄存器.配置寄存器 功能寄存器 通用 I/O口 说的就是一般的I/O口,可以输出高低电平 为外设IO 例如摄像头或者打印机他们具体实现某些功能(拍照或打印文档) ...

  6. 沉淀,再出发:python中的pandas包

    沉淀,再出发:python中的pandas包 一.前言 python中有很多的包,正是因为这些包工具才使得python能够如此强大,无论是在数据处理还是在web开发,python都发挥着重要的作用,下 ...

  7. 音乐MP4网站 车辆工程 冯大昕

  8. ZT Android4.2关于bluetooth在HAL层的分析(1)

    我的电子杂烩饭 http://blog.sina.com.cn/wuchuchu2012 [订阅][手机订阅] 首页 博文目录 图片 关于我 正文 字体大小:大 中 小 Android4.2关于blu ...

  9. [BZOJ 2510]弱题

    2510: 弱题 Time Limit: 10 Sec  Memory Limit: 128 MBSubmit: 419  Solved: 226[Submit][Status][Discuss] D ...

  10. 【转】深入浅出 iOS 之生命周期

    [iOS]深入浅出 iOS 之生命周期 深入浅出 iOS 之生命周期  http://blog.csdn.net/kesalin/article/details/6691766 罗朝辉(http:// ...