Hadoop集群中添加硬盘
Hadoop工作节点扩展硬盘空间
接到老板任务,Hadoop集群中硬盘空间不够用,要求加一台机器到Hadoop集群,并且每台机器在原有基础上加一块2T硬盘,老板给力啊,哈哈。
这些我把完成这项任务的步骤和我遇到的问题和解决方法总结一下,分享给大家。
1. 首先,介绍一下用到的基本命令和配置,如果本文的网友时间比较紧,可以直接跳过部分内容,直接看“2. 如何加载新硬盘”部分。
(1)命令fdisk
语法:
fdisk [-b sectorsize] device
fdisk -l [-u] [device...]
fdisk -s partition...
fdisk –v
说明:
-b <sectorsize> 指定每个分区的大小。也可以执行fdisk device(如:fdisk /dev/sdb)后,在系统提示时指定。
-l 列出指定的外围设备的分区表状况。如果仅执行 fdisk -l,系统会列出已知的分区。
-u 搭配"-l"参数列表,会用分区数目取代柱面数目,来表示每个分区的起始地址。
-s <parttion> 将指定的分区的大小输出到标准输出上,单位为区块。
-v 显示fdisk的版本信息。
(2)命令mkfs
语法:mkfs [-V][-t fstype] [fs-options] filesys
说明:
-V 显示简要的使用方法。
-t <fstype> 指定要建立何种文件系统,如:ext3, ext4。
fs 指定建立文件系统时的参数。
-v 显示版本信息与详细的使用方法。
(3)命令mount
语法:
mount [-afFnrsvw] [-t vfstype] [-Llabel] [-o options] device dir
mount [-lhv]
说明:
-a 加载文件/etc/fstab中设置的所有设备。
-f 不实际加载设备。可与-v等参数同时使用以查看mount的执行过程。
-F 需与-a参数同时使用。所有在/etc/fstab中设置的设备会被同时加载,可加快执行速度。
-t vfstype 指定加载的文件系统类型,如:ext3,ext4。
-L label 给挂载点指定一个标签名称。
-l 显示分区的label。
-h 显示帮助信息。
-v 显示mount的版本信息。
device 要挂载的分区或文件。如果device是一个文件,挂载时须加上-o loop参数。
dir 分区的挂载点。
(4)fstab配置说明
/etc/fstab 中一共有6列:
file system:指定要挂载的文件系统的设备名称(如:/dev/sdb)。也可以采用UUID,UUID可以通过使用blkid命令来查看(如:blkid /dev/sdb)指定设备的UUID号。
mount point:挂载点。就是自己手动创建一个目录,然后把分区挂载到这个目录下。
type:用来指定文件系统的类型。如:ext3, ext4, ntfs等。
option dump:0表示不备份;1表示要将整个<file system>中的内容备份。此处建议设置为0。
pass:用来指定fsck如何来检查硬盘。0表示不检查;挂载点为分区/(根分区)必须设置为1,其他的挂载点不能设置为1;如果有挂载ass设置成大于1的值,则在检查完根分区后,然后按pass的值从小到大依次检查,相同数值的同时检查。如:/home 和 /boot 的pass 设置成2,/devdata的pass 设置成3,则系统在检查完根分区,接着同时检查/boot和/home,再检查/devdata。
2. 如何加载新硬盘(想详细了解为什么会这样操作,请看第三部分“详解步骤”部分)
(1) 通过命令fdisk –lu,显示“Disk /dev/sdb doesn't contain a valid partition table”说明sdb就是新添加的硬盘,下面主要针对它进行操作。如图1所示。
图1
(2) 下面对sdb进行分区,命令:fdisk/dev/sdb,如下图2所示,按提示操作。
图2
根据提示,输入n,想新硬盘添加一个分区。出现Commandaction时,输入e,指定分区为扩展分区(extended)。出现Partition number(1-4)时,输入1表示只分一个区。
续指定起启柱面(cylinder)号完成分区。如图3所示。
图3
(3) 最后输入p,打印出新硬盘分区表,图4所示。
图4
(4) 在Command (m for help)提示符后面输入w,保存分区表。系统提示:Thepartition table has been altered! 如图5所示。
图5
(5) 此时,用命令fdisk –lu分区情况,如图6所示
图6
(6) 对新分区进行格式化:sudo mkfs -t ext4 /dev/sdb,(推荐ext4,时间比较快,具体了解看第三部分“详细步骤”)如图7所示。
图7
(7) 挂载硬盘sudo mount -t ext4 /dev/sdb /devdata(这里devdata是自己制定的目录,你可以指定任意目录,我加载的目录是dfs.data.dir指定的目录),到此时已经完成了所有步骤,下面就是修补。此时就可以用命令sudo df –h查看了,如图8所示。
图8
(8) 如果想每次手动加载,使用命令mount –a。如果想让系统自动加载,需要配置/etc/fstab,如下图9所示。
图9
到此加载过程完成。
如果是Hadoop集群,此时需要将每个工作节点dfs.data.dir目录重新修改权限,使用命令:chown –R dm:dm/usr/local/hadoop/data/(这是dfs.data.dir指向的目录),然后将namenode格式化即可,这里笔者就是忘了更改dfs.data.dir指向目录的权限,导致datanode启动不起来,汗啊。
3. 详解步骤
(1)对于2中(1)的名称sdb,其实Linux对设备的命名有它自己的一套规则,根据接口类型来区分存储设备,按存储设备占用的系统接口编号为其分配标识符。对于IDE存储设备(并口设备)标识符为hd,按设备使用接口的不同,分别命名为had,hdb,hdc等;对于SCSI接口,SATA接口设备(串口)和串行总线接口使用sd作为标识,仍按照使用接口编号不同,以sda,sdb等为其命名。
(2)对2中的(2)分区。在使用硬盘存储数据时,还需要对硬盘进行分区,按分区的使用方法可以将硬盘分区分为3种:主分区、扩展分区和逻辑分区。其中主分区是最基本的分区类型,它可以直接挂载并存储数据,一个硬盘最多只能有4个主分区。Linux系统中对这4个主分区使用1、2、3、4作为标识符。例如硬盘sda上的第1个主分区的标识为sda1,同理其他三个标识分别为sda2,sda3, sda4;扩展分区是一种特殊的主分区,如果要使用扩展分区存储数据,必须先将扩展分区划分为逻辑分区(即逻辑分区加你在扩展分区基础之上),如果要在一个硬盘上创建4个以上的分区,就必须使用扩展分区。由于扩展分区也是一种主分区,因此扩展分区也占用一个主分区号;在扩展分区分区基础之上,可以创建多个逻辑分区,逻辑分区可以直接挂载并存储数据。逻辑分区的标识数字从5开始,例如sda5,sda6。Linux系统中的硬盘分区使用以上标识符命名并保存在/dev中,要使用分区存储数据时,需要将对应的块设备文件挂载到一个目录下。挂载设备的过程可以描述成:为用户使用该分区存放和读取数据提供一个接口和途径。这里为什么创建扩展分区,而不是创建主分区,笔者的理由是主分区包含启动的一些附加信息,而这些信息是用来引导系统启动的,这里的磁盘只是为了扩充原有磁盘的容量来存储数据,如果扩展分区直接分成逻辑分区,不需要这些附加信息,从而可以更加充分地利用新硬盘的空间,这个解释不保证正确,如果有误,请智者指正。
(3)2中(6)提到了文件系统ext4,可以参考http://baike.baidu.com/view/266589.htm#7
(4)2中(8)的fstab设置可参考http://baike.baidu.com/view/5499388.htm。
引用网址:http://aofengblog.blog.163.com/blog/static/6317021201101502540117/
Hadoop集群中添加硬盘的更多相关文章
- 在Hadoop集群中添加机器和删除机器
本文转自:http://www.cnblogs.com/gpcuster/archive/2011/04/12/2013411.html 无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个 ...
- 向CDH5集群中添加新的主机节点
向CDH5集群中添加新的主机节点 步骤一:首先得在新的主机环境中安装JDK,关闭防火墙.修改selinux.NTP时钟与主机同步.修改hosts.与主机配置ssh免密码登录.保证安装好了perl和py ...
- hadoop集群中动态添加新的DataNode节点
集群中现有的计算能力不足,须要另外加入新的节点时,使用例如以下方法就能动态添加新的节点: 1.在新的节点上安装hadoop程序,一定要控制好版本号,能够从集群上其它机器cp一份改动也行 2.把name ...
- hadoop集群中动态添加节点
集群的性能问题需要增加服务器节点以提高整体性能 https://www.cnblogs.com/fefjay/p/6048269.html hadoop集群之间hdfs文件复制 https://www ...
- 如何使用Hive&R从Hadoop集群中提取数据进行分析
一个简单的例子! 环境:CentOS6.5 Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目 --有一个用户数据样本(表名huserinfo)10万数据左右: ...
- hadoop集群中客户端修改、删除文件失败
这是因为hadoop集群在启动时自动进入安全模式 查看安全模式状态:hadoop fs –safemode get 进入安全模式状态:hadoop fs –safemode enter 退出安全模式状 ...
- hadoop 集群中数据块的副本存放策略
HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性.可用性和网络带宽的利用率.目前实现的副本存放策略只是在这个方向上的第一步.实现这个策略的短期目标是验证它在生产环境下的有效 ...
- Hadoop集群中Hbase的介绍、安装、使用
导读 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. 一.Hbase ...
- hadoop集群中zkfc的作用和工作过程
一. 简单了解NameNode的ZKFC机制 NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制 一般导致NameNode切换的原因 ZKFC的作用 ...
随机推荐
- 10款Windows命令行工具
Windows下CMD不好用,远没有Linux,或者一些SSH工具用起来方便.其实Windows下,也有一些不错的工具替代CMD: 0.powercmd经过比较,我最终选择了这款,这里补充一下截图:
- LINQ之路 2:C# 3.0的语言功能(上)
在上一篇的LINQ介绍中,我们已经看到了隐式类型变量var,扩展方法(extension method)和lambda表达式的身影.没错,他们正是LINQ技术的基石,是他们让LINQ的实现成为可能,并 ...
- ie8不支持transform: translateY,ie9支持不友好
transform: translateY(0); ie8 不支持这个属性 但是我觉得用css实现的效果特好 特自然 也许是我的脚本写的不够完善 呵呵 现在我希望其他 主流的浏览器应用CSS ...
- CDN学习笔记二(技术详解)
一本好的入门书是带你进入陌生领域的明灯,<CDN技术详解>绝对是带你进入CDN行业的那盏最亮的明灯.因此,虽然只是纯粹的重点抄录,我也要把<CDN技术详解>的精华放上网.公诸同 ...
- otl插入数据不成功
原因是:void rlogon(...); 没有设置auto_commit为1,otl不会自动提交. 注意:static int otl_initialize (const int threaded_ ...
- 线程高级应用-心得5-java5线程并发库中Lock和Condition实现线程同步通讯
1.Lock相关知识介绍 好比我同时种了几块地的麦子,然后就等待收割.收割时,则是哪块先熟了,先收割哪块. 下面举一个面试题的例子来引出Lock缓存读写锁的案例,一个load()和get()方法返回值 ...
- jquery input选择弹框
index.jsp <%@ page language="java" contentType="text/html; charset=UTF-8" pag ...
- 下载Android 5.0源码(附源码)
下载方法见我的另一篇博客:http://blog.csdn.net/maosidiaoxian/article/details/41680769 2014-12-24更新:5.0.1源码已上传. 这次 ...
- ajax form表单回显
/* * 表单自动回显js * 依赖JQURY * 使用参考:$("#form1").form("load",{"id":"112 ...
- proxool在web环境中的使用
proxool在web环境中的使用 简介 Proxool连接池是sourceforge下的一个开源项目,这个项目提供一个健壮.易用的连接池,最为关键的是这个连接池提供监控的功能,方便易用,便于发现连接 ...