Hadoop运维手记
1.处理hadoop的namenode宕机
处理措施:进入hadoop的bin目录,重启namenode服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start namenode
2.处理hadoop的jobtacker宕机
处理措施:进入hadoop的bin目录,重启jobtacker服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start jobtracker
3. 处理hadoop的datanode宕机
处理措施:进入hadoop的bin目录,重启datanode服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start datanode
4. 处理hadoop的tasktracker宕机
处理措施:进入hadoop的bin目录,重启tasktacker服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start tasktracker
5. 启动hadoop集群
处理措施:进入hadoop的bin目录,执行start-all.sh脚本
操作命令:cd path/to/hadoop/bin ./start-all.sh
注意事项:
namenode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1- dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f)表示hdfs启动的时候,如果datanode上报的block个数达到了 元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则hdfs永远是处于safemode。
有两个方法离开这种安全模式
(1)修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。
(2)hadoop dfsadmin -safemode leave命令强制离开
用户可以通过hadoop dfsadmin -safemode $value来操作安全模式,参数$value的说明如下:
enter – 进入安全模式
leave – 强制namenode离开安全模式
get – 返回安全模式是否开启的信息
wait – 等待,一直到安全模式结束。
6. 关闭hadoop集群
处理措施:进入hadoop的bin目录,执行stop-all.sh脚本
操作命令:cd path/to/hadoop/bin ./ stop-all.sh
7. 从hadoop移除机器
处理措施:把需要移除的机器增加到exclueds文件中,强制刷新datanode列表,等待decommission 状态正常后,即可停机下架,如有必要在namenode执行balancer操作。
操作命令:在master的conf/hdfs-site.xml中加入
<property>
<name>dfs.hosts.exclude</name>
<value>excludes</value>
</property>
在$hadoop_home下创建exclueds文件
文件内容增加你想删除的节点的机器名,一行一个
/bin/hadoop dfsadmin -refreshnodes命令刷新datanode例表
/bin/hadoop dfsadmin -report查看结果
datanodes available: 1 (1 total, 0 dead) name: 192.168.200.118:50010
decommission status : decommission in progress
configured capacity: 211370565632 (196.85 gb)
dfs used: 11459694592 (10.67 gb)
non dfs used: 187135799296 (174.28 gb)
dfs remaining: 12775071744(11.9 gb)
dfs used%: 5.42%
dfs remaining%: 6.04%
last contact: wed feb 22 23:51:48 pst 2015
在decommission status : decommission in progress变为 decommission status : decommission normal前mapreduce会异常增加节点
8. 向hadoop添加机器
处理措施:把新机器的增加到conf/slaves文件中,重启datanode和jobtracker进程,当新添加的机器向namenode发送心跳信息后,namenode会自动感知新加入的机器,如果有必要可以做balancer操作。
操作命令:
1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过)
2.在新机器上进入hadoop安装目录
$bin/hadoop-daemon.sh start datanode
$bin/hadoop-daemon.sh start tasktracker
3.在namenode上
$bin/hadoop balancer
9. 杀死正在运行的job
操作命令:bin/hadoop job –kill {job-id}
Hadoop运维手记的更多相关文章
- Hadoop运维记录系列
http://slaytanic.blog.51cto.com/2057708/1038676 Hadoop运维记录系列(一) Hadoop运维记录系列(二) Hadoop运维记录系列(三) Hado ...
- Hadoop运维
简单记录几个hdfs的运维命令 //查看hdfs的状态,是否有missing block,corrupt block等,也可以看datanode的状态 hdfs dfsadmin -report // ...
- CM记录-Hadoop运维管理
1.自动化运维--cloudera manager 2.手动运维 a.启动./start.all.sh,停止./stop-all.sh b.hdfs启动/停止:./start-dfs.sh ./s ...
- hadoop运维经验
0.优化:http://dongxicheng.org/mapreduce/hadoop-optimization-0/ http://dongxicheng.org/mapreduce/hadoop ...
- Hadoop运维操作
1. 处理hadoop的namenode宕机 处理措施: 进入hadoop的bin目录,重启namenode服务 操作命令: cd path/to/hadoop/bin ./hadoop-d ...
- Hadoop大数据学习视频教程 大数据hadoop运维之hadoop快速入门视频课程
Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进 ...
- hadoop运维笔记
一. 故障处理部分 1.1. spark提交任务报错java.lang.NoClassDefFoundError: com/alibaba/fastjson/JSON 报错原因: 在运行环境没有找 ...
- hadoop运维问题记录
hadoop综合问题记录 1.hdfs无法启动 错误: 2018-04-25 14:36:09,293 - Retrying after 10 seconds. Reason: Execution o ...
- hadoop 运维
1:hdfs dfsadmin -report //查看集群运行状态
随机推荐
- 【PHP】php 生成条形码
1.什么是条形码? 百度百科定义:条形码(barcode)是将宽度不等的多个黑条和空白,按照一定的编码规则排列,用以表达一组信息的图形标识符.常见的条形码是由反射率相差很大的黑条(简称条)和白条(简称 ...
- MUI ajax数据请求(list)
服务器返回格式 { "code": "1001", "message": "查询成功", "data" ...
- console.log()的兼容性
在别人那里看到的,兼容IE8-的console.log的实现,以前没想过. if(typeof console == "undefinde"){ this.console = {l ...
- Android 7.1 SystemUI--Multi-Window多窗口模式
PhoneStatusBar.java private View.OnLongClickListener mRecentsLongClickListener = new View.OnLongClic ...
- 图论之最短路径(2)——Bellman-Ford算法
继续最短路径!说说Bellman—Ford算法 思路:假设起点为s,图中有n个顶点和m个边,那么它到任一点(比如i)的最短路径 最多可以有n-1条(没有回路就是n-1条):因为最短路径中不可能包含回路 ...
- 我的天$删除注册表$安装mysql最后一步不能启动服务的解决办法
我是照着参考资料一步一步删除的,只是我的Win7 64位的电脑比较犟,硬是要我重启电脑才能成功!强烈建议最好是重启电脑再装! 使用MySQL都有过重装的经历,要是重装MySQL基本都是在最后一步通不过 ...
- Ubbeditor的使用
简单介绍: 作为一种放在客户端文本编辑器,此时不能支持将JS.Html代码直接发送给服务器,这样将会给服务器带来极大的危险,比如UMEditor(富文本编辑器),它的使用需要关闭服务器端的代码检查的, ...
- Oracle等待事件之Latch Free
1.产生原因 表示某个锁存器上发生了竞争.首先应该确保已经提供了足够多的Latch 数,如果仍然发生这种等待事件,那么应该进一步确定是那种锁存器上发生了竞争(在v$session_wait 上的P2 ...
- Python爬虫框架Scrapy实例(一)
目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间. 一.创建Scrapy项目 scrapy startproject Tencent 命令 ...
- SprinBoot CLI 安装(Mac版)
1. 安装 HomeBrew /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/instal ...