Hadoop运维手记

1.处理hadoop的namenode宕机
　　处理措施：进入hadoop的bin目录，重启namenode服务
　　操作命令：cd path/to/hadoop/bin　　 ./hadoop-daemon.sh start namenode
2.处理hadoop的jobtacker宕机
　　处理措施：进入hadoop的bin目录，重启jobtacker服务
　　操作命令：cd path/to/hadoop/bin　　./hadoop-daemon.sh start jobtracker
3. 处理hadoop的datanode宕机
　　处理措施：进入hadoop的bin目录，重启datanode服务
　　操作命令：cd path/to/hadoop/bin　　./hadoop-daemon.sh start datanode
4. 处理hadoop的tasktracker宕机
　　处理措施：进入hadoop的bin目录，重启tasktacker服务
　　操作命令：cd path/to/hadoop/bin　　./hadoop-daemon.sh start tasktracker
5. 启动hadoop集群
　　处理措施：进入hadoop的bin目录，执行start-all.sh脚本
　　操作命令：cd path/to/hadoop/bin　　./start-all.sh
　　注意事项：
namenode在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例（1- dfs.safemode.threshold.pct），则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f）表示hdfs启动的时候，如果datanode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式，否则一直是这种只读模式。如果设为1则hdfs永远是处于safemode。
有两个方法离开这种安全模式
（1）修改dfs.safemode.threshold.pct为一个比较小的值，缺省是0.999。
（2）hadoop dfsadmin -safemode leave命令强制离开
用户可以通过hadoop dfsadmin -safemode $value来操作安全模式，参数$value的说明如下：
　　enter – 进入安全模式
　　leave – 强制namenode离开安全模式
　　get – 返回安全模式是否开启的信息
　　wait – 等待，一直到安全模式结束。
6. 关闭hadoop集群
　　处理措施：进入hadoop的bin目录，执行stop-all.sh脚本
　　操作命令：cd path/to/hadoop/bin　　./ stop-all.sh
7. 从hadoop移除机器
　　处理措施：把需要移除的机器增加到exclueds文件中，强制刷新datanode列表，等待decommission 状态正常后，即可停机下架，如有必要在namenode执行balancer操作。
　　操作命令：在master的conf/hdfs-site.xml中加入

<property>

<name>dfs.hosts.exclude</name>

<value>excludes</value>

</property>

在$hadoop_home下创建exclueds文件
文件内容增加你想删除的节点的机器名，一行一个
/bin/hadoop dfsadmin -refreshnodes命令刷新datanode例表
/bin/hadoop dfsadmin -report查看结果

datanodes available: 1 (1 total, 0 dead)

name: 192.168.200.118:50010

decommission status : decommission in progress

configured capacity: 211370565632 (196.85 gb)

dfs used: 11459694592 (10.67 gb)

non dfs used: 187135799296 (174.28 gb)

dfs remaining: 12775071744(11.9 gb)

dfs used%: 5.42%

dfs remaining%: 6.04%

last contact: wed feb 22 23:51:48 pst 2015

在decommission status : decommission in progress变为 decommission status : decommission normal前mapreduce会异常增加节点
8. 向hadoop添加机器
　　处理措施：把新机器的增加到conf/slaves文件中，重启datanode和jobtracker进程，当新添加的机器向namenode发送心跳信息后，namenode会自动感知新加入的机器，如果有必要可以做balancer操作。
　　操作命令：
1.把新机器的增加到conf/slaves文件中（datanode或者tasktracker crash则可跳过）
2.在新机器上进入hadoop安装目录
　　$bin/hadoop-daemon.sh start datanode
　　$bin/hadoop-daemon.sh start tasktracker
3.在namenode上
　　$bin/hadoop balancer
9. 杀死正在运行的job
　　操作命令：bin/hadoop job –kill {job-id}

Hadoop运维手记的更多相关文章

Hadoop运维记录系列
http://slaytanic.blog.51cto.com/2057708/1038676 Hadoop运维记录系列(一) Hadoop运维记录系列(二) Hadoop运维记录系列(三) Hado ...
Hadoop运维
简单记录几个hdfs的运维命令 //查看hdfs的状态,是否有missing block,corrupt block等,也可以看datanode的状态 hdfs dfsadmin -report // ...
CM记录-Hadoop运维管理
1.自动化运维--cloudera manager 2.手动运维 a.启动./start.all.sh,停止./stop-all.sh b.hdfs启动/停止:./start-dfs.sh ./s ...
hadoop运维经验
0.优化:http://dongxicheng.org/mapreduce/hadoop-optimization-0/ http://dongxicheng.org/mapreduce/hadoop ...
Hadoop运维操作
1. 处理hadoop的namenode宕机处理措施: 进入hadoop的bin目录,重启namenode服务操作命令: cd path/to/hadoop/bin ./hadoop-d ...
Hadoop大数据学习视频教程大数据hadoop运维之hadoop快速入门视频课程
Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进 ...
hadoop运维笔记
一. 故障处理部分 1.1. spark提交任务报错java.lang.NoClassDefFoundError: com/alibaba/fastjson/JSON 报错原因: 在运行环境没有找 ...
hadoop运维问题记录
hadoop综合问题记录 1.hdfs无法启动错误: 2018-04-25 14:36:09,293 - Retrying after 10 seconds. Reason: Execution o ...
hadoop 运维
1:hdfs dfsadmin -report //查看集群运行状态

随机推荐

c++ 重载、重写、重定义（隐藏）
1.重载overload:函数名相同,参数列表不同. 重载只是在类的内部存在,或者同为全局范围.(同名,同参函数返回值不同时,会编译出错.因为系统无法知晓你到底要调用哪一个.) 2.重写overr ...
JS-在线运行代码小工具
原理:window.open()方法,open一个新的空白页,然后把文本框中粘贴的代码通过DOM操作,写到新的代码页中, 再利用document.write的功能(写进去之前把其他的全部删掉,并且写进 ...
页面链接跳转历史URL不记录的兼容处理
1.阻止跳转a标签的链接 2.location.replace(href) 不生成新的历史记录, 但有bug 3.首先通过HTML5 history.replaceState()方法把当前URL地址替 ...
三进制状态压缩DP（旅行商问题TSP）HDU3001
http://acm.hdu.edu.cn/showproblem.php?pid=3001 Travelling Time Limit: 6000/3000 MS (Java/Others) ...
解析导航栏的url
前段时间做ui自动化测试的时候,导航栏菜单始终有点问题,最后只好直接获取到url,然后直接使用driver.get(url)进入页面: 包括做压测的时候,比如我要找出所有报表菜单的url,这样不可能手 ...
Object类中常见的方法，为什么wait notify会放在Object里边
toString():输出一个对象的地址字符串(哈希code码):可以通过重写toString方法,获取对象的属性! equals():比较的是对象的引用是否指向同一块内存地址, 重写equals() ...
BBS - 文章详细页、点赞、踩灭
一.文章详细页文章详细页:1.链接:<div><h5><a href="/blog/{{ article.user.username }}/articles/ ...
Farthest Nodes in a Tree ---LightOj1094（树的直径）
题目链接:http://lightoj.com/volume_showproblem.php?problem=1094 Given a tree (a connected graph with no ...
loadrunner11的移动端性能测试之场景设计
测试步骤之场景设计(Controller) 进入手工场景准备好脚本后就可以进行场景设计和执行场景了,从VuGen中进入,见下图: 进入后第一个为目标场景,选择第二个更灵活的手工场景,我的目标人数20 ...
HDU1556:Color the ball(简单的线段树区域更新）
http://acm.hdu.edu.cn/showproblem.php?pid=1556 Problem Description N个气球排成一排,从左到右依次编号为1,2,3....N.每次给定 ...

Hadoop运维手记

Hadoop运维手记的更多相关文章

随机推荐

热门专题