Hadoop集群中添加硬盘

Hadoop工作节点扩展硬盘空间

接到老板任务，Hadoop集群中硬盘空间不够用，要求加一台机器到Hadoop集群，并且每台机器在原有基础上加一块2T硬盘，老板给力啊，哈哈。

这些我把完成这项任务的步骤和我遇到的问题和解决方法总结一下，分享给大家。

1. 首先，介绍一下用到的基本命令和配置，如果本文的网友时间比较紧，可以直接跳过部分内容，直接看“2. 如何加载新硬盘”部分。

（1）命令fdisk

语法：

fdisk [-b sectorsize] device

fdisk -l [-u] [device...]

fdisk -s partition...

fdisk –v

说明：

-b <sectorsize> 指定每个分区的大小。也可以执行fdisk device（如：fdisk /dev/sdb）后，在系统提示时指定。

-l 列出指定的外围设备的分区表状况。如果仅执行 fdisk -l，系统会列出已知的分区。

-u 搭配"-l"参数列表，会用分区数目取代柱面数目，来表示每个分区的起始地址。

-s <parttion> 将指定的分区的大小输出到标准输出上，单位为区块。

-v 显示fdisk的版本信息。

（2）命令mkfs

语法：mkfs [-V][-t fstype] [fs-options] filesys

说明：

-V 显示简要的使用方法。

-t <fstype> 指定要建立何种文件系统，如：ext3, ext4。

fs 指定建立文件系统时的参数。

-v 显示版本信息与详细的使用方法。

（3）命令mount

语法：

mount [-afFnrsvw] [-t vfstype] [-Llabel] [-o options] device dir

mount [-lhv]

说明：

-a 加载文件/etc/fstab中设置的所有设备。

-f 不实际加载设备。可与-v等参数同时使用以查看mount的执行过程。

-F 需与-a参数同时使用。所有在/etc/fstab中设置的设备会被同时加载，可加快执行速度。

-t vfstype 指定加载的文件系统类型，如：ext3,ext4。

-L label 给挂载点指定一个标签名称。

-l 显示分区的label。

-h 显示帮助信息。

-v 显示mount的版本信息。

device 要挂载的分区或文件。如果device是一个文件，挂载时须加上-o loop参数。

dir 分区的挂载点。

（4）fstab配置说明

/etc/fstab 中一共有６列：

file system：指定要挂载的文件系统的设备名称（如：/dev/sdb）。也可以采用UUID，UUID可以通过使用blkid命令来查看（如：blkid /dev/sdb）指定设备的UUID号。

mount point：挂载点。就是自己手动创建一个目录，然后把分区挂载到这个目录下。

type：用来指定文件系统的类型。如：ext3, ext4, ntfs等。

option dump：０表示不备份；１表示要将整个<file system>中的内容备份。此处建议设置为０。

pass：用来指定fsck如何来检查硬盘。０表示不检查；挂载点为分区／（根分区）必须设置为１，其他的挂载点不能设置为１；如果有挂载ass设置成大于1的值，则在检查完根分区后，然后按pass的值从小到大依次检查，相同数值的同时检查。如：/home　和 /boot　的pass 设置成2，/devdata的pass 设置成3，则系统在检查完根分区，接着同时检查/boot和/home，再检查/devdata。

2. 如何加载新硬盘（想详细了解为什么会这样操作，请看第三部分“详解步骤”部分）

（1）通过命令fdisk –lu，显示“Disk /dev/sdb doesn't contain a valid partition table”说明sdb就是新添加的硬盘，下面主要针对它进行操作。如图1所示。

图1

（2）下面对sdb进行分区，命令：fdisk/dev/sdb，如下图2所示，按提示操作。

图2

根据提示，输入n，想新硬盘添加一个分区。出现Commandaction时，输入e，指定分区为扩展分区（extended）。出现Partition number(1-4)时，输入１表示只分一个区。

续指定起启柱面（cylinder）号完成分区。如图3所示。

图3

（3）最后输入p，打印出新硬盘分区表，图4所示。

图4

（4）在Command (m for help)提示符后面输入w，保存分区表。系统提示：Thepartition table has been altered! 如图5所示。

图5

（5）此时，用命令fdisk –lu分区情况，如图6所示

图6

（6）对新分区进行格式化：sudo mkfs -t ext4 /dev/sdb，（推荐ext4，时间比较快，具体了解看第三部分“详细步骤”）如图7所示。

图7

（7）挂载硬盘sudo mount -t ext4 /dev/sdb /devdata（这里devdata是自己制定的目录，你可以指定任意目录，我加载的目录是dfs.data.dir指定的目录），到此时已经完成了所有步骤，下面就是修补。此时就可以用命令sudo df –h查看了，如图8所示。

图8

（8）如果想每次手动加载，使用命令mount –a。如果想让系统自动加载，需要配置/etc/fstab，如下图9所示。

图9

到此加载过程完成。

如果是Hadoop集群，此时需要将每个工作节点dfs.data.dir目录重新修改权限，使用命令：chown –R dm:dm/usr/local/hadoop/data/(这是dfs.data.dir指向的目录)，然后将namenode格式化即可，这里笔者就是忘了更改dfs.data.dir指向目录的权限，导致datanode启动不起来，汗啊。

3. 详解步骤

（1）对于2中（1）的名称sdb，其实Linux对设备的命名有它自己的一套规则，根据接口类型来区分存储设备，按存储设备占用的系统接口编号为其分配标识符。对于IDE存储设备（并口设备）标识符为hd，按设备使用接口的不同，分别命名为had，hdb，hdc等；对于SCSI接口，SATA接口设备（串口）和串行总线接口使用sd作为标识，仍按照使用接口编号不同，以sda，sdb等为其命名。

（2）对2中的（2）分区。在使用硬盘存储数据时，还需要对硬盘进行分区，按分区的使用方法可以将硬盘分区分为3种：主分区、扩展分区和逻辑分区。其中主分区是最基本的分区类型，它可以直接挂载并存储数据，一个硬盘最多只能有4个主分区。Linux系统中对这4个主分区使用1、2、3、4作为标识符。例如硬盘sda上的第1个主分区的标识为sda1，同理其他三个标识分别为sda2,sda3, sda4；扩展分区是一种特殊的主分区，如果要使用扩展分区存储数据，必须先将扩展分区划分为逻辑分区（即逻辑分区加你在扩展分区基础之上），如果要在一个硬盘上创建4个以上的分区，就必须使用扩展分区。由于扩展分区也是一种主分区，因此扩展分区也占用一个主分区号；在扩展分区分区基础之上，可以创建多个逻辑分区，逻辑分区可以直接挂载并存储数据。逻辑分区的标识数字从5开始，例如sda5，sda6。Linux系统中的硬盘分区使用以上标识符命名并保存在/dev中，要使用分区存储数据时，需要将对应的块设备文件挂载到一个目录下。挂载设备的过程可以描述成：为用户使用该分区存放和读取数据提供一个接口和途径。这里为什么创建扩展分区，而不是创建主分区，笔者的理由是主分区包含启动的一些附加信息，而这些信息是用来引导系统启动的，这里的磁盘只是为了扩充原有磁盘的容量来存储数据，如果扩展分区直接分成逻辑分区，不需要这些附加信息，从而可以更加充分地利用新硬盘的空间，这个解释不保证正确，如果有误，请智者指正。

（3）2中（6）提到了文件系统ext4，可以参考http://baike.baidu.com/view/266589.htm#7

（4）2中（8）的fstab设置可参考http://baike.baidu.com/view/5499388.htm。

引用网址：http://aofengblog.blog.163.com/blog/static/6317021201101502540117/

Hadoop集群中添加硬盘的更多相关文章

在Hadoop集群中添加机器和删除机器
本文转自:http://www.cnblogs.com/gpcuster/archive/2011/04/12/2013411.html 无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个 ...
向CDH5集群中添加新的主机节点
向CDH5集群中添加新的主机节点步骤一:首先得在新的主机环境中安装JDK,关闭防火墙.修改selinux.NTP时钟与主机同步.修改hosts.与主机配置ssh免密码登录.保证安装好了perl和py ...
hadoop集群中动态添加新的DataNode节点
集群中现有的计算能力不足,须要另外加入新的节点时,使用例如以下方法就能动态添加新的节点: 1.在新的节点上安装hadoop程序,一定要控制好版本号,能够从集群上其它机器cp一份改动也行 2.把name ...
hadoop集群中动态添加节点
集群的性能问题需要增加服务器节点以提高整体性能 https://www.cnblogs.com/fefjay/p/6048269.html hadoop集群之间hdfs文件复制 https://www ...
如何使用Hive&R从Hadoop集群中提取数据进行分析
一个简单的例子! 环境:CentOS6.5 Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目 --有一个用户数据样本(表名huserinfo)10万数据左右: ...
hadoop集群中客户端修改、删除文件失败
这是因为hadoop集群在启动时自动进入安全模式查看安全模式状态:hadoop fs –safemode get 进入安全模式状态:hadoop fs –safemode enter 退出安全模式状 ...
hadoop 集群中数据块的副本存放策略
HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性.可用性和网络带宽的利用率.目前实现的副本存放策略只是在这个方向上的第一步.实现这个策略的短期目标是验证它在生产环境下的有效 ...
Hadoop集群中Hbase的介绍、安装、使用
导读 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. 一.Hbase ...
hadoop集群中zkfc的作用和工作过程
一. 简单了解NameNode的ZKFC机制 NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制一般导致NameNode切换的原因 ZKFC的作用 ...

随机推荐

SQL SERVER赋权限
--创建登录账户 use master GO EXEC sp_addlogin 'jacky', 'pwd' --EXEC sp_droplogin 'jacky' --删除登陆账户 use Test ...
iOS - UIColor
前言 NS_CLASS_AVAILABLE_IOS(2_0) @interface UIColor : NSObject <NSSecureCoding, NSCopying> @avai ...
Spring 自动装配 Bean
Spring3系列8- Spring 自动装配 Bean 1. Auto-Wiring ‘no’ 2. Auto-Wiring ‘byName’ 3. Auto-Wiri ...
ORACLE性能优化之SQL语句优化
版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 操作环境:AIX +11g+PLSQL 包含以下内容: 1. SQL语句执行过程 2. 优化器及执行计划 3. 合 ...
linux之稀疏文件
1. Sparse 文件是并不占用磁盘存储空间. 2. rm 某文件后, 文件占用的磁盘空间并不是立即释放, 而是其句柄没有被任意一个进程引用时才回收. 3. ls 的结果是 apparent siz ...
1 HTML
1 HTML 基础知识软件的结构: C/S(Client Server)结构的软件: 比如: QQ. 极品飞车. 飞信 . 迅雷 cs结构的软件的缺点:更新的时候需要用户下载更新包 ...
C++常量(C++数值常量、字符串常量、符号常量)
http://see.xidian.edu.cn/cpp/biancheng/view/104.html 字符串常量用双撇号括起来的部分就是字符串常量,如"abc"," ...
mac中openfire启动失败的解决方式
不知为何,几次出现这个问题了解决方法:使用终端命令 1:sudo chmod -R 777 /usr/local/openfire/bin 2:cd /usr/local/openfire/bin ...
由《win32多线程程序设计》临界区的问题所想
之前看侯捷翻译的<win32多线程程序设计>中关于线程同步中的临界区问题,其中举得例子是对链表的操作.死锁的问题是对一个Swaplist函数的问题,现列举代码如下: void SwapLi ...
phalcon: dispatcher调度控制器
phalcon: dispatcher调度控制器我所理解的dispatcher调度控制器,实际上是对 router或者特定的url参数给与重组. 引用特定的类: //add use Phalcon\ ...

Hadoop集群中添加硬盘

Hadoop集群中添加硬盘的更多相关文章

随机推荐

热门专题