Hadoop笔记HDFS(2)
高级Hadoop MapReduce管理
1 调试部署好的Hadoop的配置
2 运行基准测试检验Hadoop的安装
3 重新利用JVM提升性能
4 容错性
5 调试脚本-分析失败任务原因
6 设置失败比例以及忽略无效的记录
7 共享型用户Hadoop集群
8 Hadoop的安全性
9 使用Hadoop工具interface
内容目录
一调整参数
1、首先需要关掉正在运行的Hadoop集群(stop-dfs.sh以及stop-yarn.sh)
存放Hadoop参数的主要是下面4个文件:
core-site.xml:存放对整个集群的公共配置
hdfs-site.xml:存放对HDFS的配置
mapred-site.xml:存放对MapReduce的配置
yarn-site.xml:yarn的配置
上面的文件都是XML格式:name-value的内容格式。<configuration>是最顶层的tag,<property>定义每个属性
例如:<configuration>
<property>
<name>mapred.reduce.parallel.copies</name>
<value>2</value>
</property>
...
</configuration>
下面介绍修改存放hadoop日志的路径以及配置每个task的map和reduce个数的方法
1. 创建一个存放日志的文件,例如/home/hadoop_logs .
2. 在hadoop-env.sh中HADOOP_LOG_DIR这一行取消注释,并且赋值为新的路径。
3. 在mapred-site.xml中添加下面两个属性
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2 </value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>2 </value>
</property>
4. 重启HDFS(start-dfs.sh)和MapReduce(start-yarn.sh)
5. ps –ef|grep hadoop 检验hadoop进程个数
HADOOP_LOG_DIR 重新定义了Hadoop输出日志的路径
mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum
连个属性定义了每个TaskTracker 在特定时刻能够运行的map和reduce任务的最大个数
所有在*-site.xml做的修改,都需要在重新启动Hadoop后系统重新加载生效。
二运行基准测试
Hadoop自带多个基准测试程序。我们可以使用他们验证Hadoop的安装并测试Hadoop的性能。
2. Run the randomwriter Hadoop job using the following command:
>bin/hadoop jar hadoop-examples-1.0.0.jarrandomwriter
-Dtest.randomwrite.bytes_per_map=100
-Dtest.randomwriter.maps_per_host=10 /data/unsorted-data
Here the two parameters, test.randomwrite.bytes_per_map and test.
randomwriter.maps_per_host 这两个参数指定由map产生的数据大小和map的数量
3. 执行排序程序:
>bin/hadoop jar hadoop-examples-1.0.0.jar sort /data/unsorted-data
/data/sorted-data
4. 检验前面运行的最终结果
>bin/hadoop jar hadoop-test-1.0.0.jar testmapredsort -sortInput /
data/unsorted-data -sortOutput /data/sorted-data
其它的基准测试
Hadoop includes several other benchmarks.
TestDFSIO: 测试HDFS的IO性能
nnbench:检验NameNode的硬件
mrbench: 运行多个小的job
TeraSort: 对1T的数据进行排序
三 对JVM重复使用提升性能
默认情况下,Hadoop会为每个map或reduce任务启动一个JVM,然而对多个task运行相同的jvm,
有时会显著的加快执行速度。
1. 运行WordCount的例子,并传递如下参数
>bin/hadoop jar hadoop-examples-1.0.0.jar wordcount –D mapred.job.
reuse.jvm.num.tasks=-1 /data/input1 /data/output1
2. 这时 (执行 ps –ef|grep hadoop)Hadoop会为每个task使用同样的JVM
However, passing arguments through the –D option only works if the job implements
the org.apache.hadoop.util.Tools interface. Otherwise, you should set the
option through the JobConf.setNumTasksToExecutePerJvm(-1) method.
我们可以在mapred-site.xml中设置属性mapred.job.reuse.jvm.num.tasks ,
这样就可以控制在hadopp中运行的JVM数,当设置为0或-1的时候Hadoop为每个task运行同样的JVM
四、容错性和投机性运行
选择Hadoop的主要优势是系统对容错性的支持。当运行一个job,特别是很大的job的时候,部分job
可能会由于各种原因失败(网络、硬盘、节点故障等等)。
在hadoop启动后JobTracker会监控TaskTrackers的执行情况,当TaskTrackers没有相应的时候,
hadoop会重新将task提交给其它的TaskTracker(Hadoop V2中ResourceNode负责资源的分配,而DataNode负责监控
自己节点的job运行情况)
由于集群中每个节点的性能不一样可能出现其它节点完成job,但是还有其它node没有完成job,这个时候hadoop会启动一个
空闲节点运行同样的job,然后tasktracker会使用最先运行完的节点的结果,并且结束掉另外一个还没运行完的节点。
bin/hadoop jar hadoop-examples-1.0.0.jar wordcount–Dmapred.map.tasks.
speculative.execution=false –D mapred.reduce.tasks.speculative.
execution=true /data/input1 /data/output1
待续...
Hadoop笔记HDFS(2)的更多相关文章
- Hadoop笔记HDFS(1)
环境:Hadoop2.7.3 1.Benchmarking HDFS 1.1测试集群的写入 运行基准测试是检测HDFS集群是否正确安装以及表现是否符合预期的好方法.DFSIO是Hadoop自带的一个基 ...
- hadoop笔记-hdfs文件读写
概念 文件系统 磁盘进行读写的最小单位:数据块,文件系统构建于磁盘之上,文件系统的块大小是磁盘块的整数倍. 文件系统块一般为几千字节,磁盘块一般512字节. hdfs的block.pocket.chu ...
- Hadoop学习笔记—HDFS
目录 搭建安装 三个核心组件 安装 配置环境变量 配置各上述三组件守护进程的相关属性 启停 监控和性能 Hadoop Rack Awareness yarn的NodeManagers监控 命令 hdf ...
- Hadoop学习笔记-HDFS命令
进入 $HADOOP/bin 一.文件操作 文件操作 类似于正常的linux操作前面加上“hdfs dfs -” 前缀也可以写成hadoop而不用hdfs,但终端中显示 Use of this scr ...
- hadoop笔记之hdfs shell操作
HDFS命令行操作 HDFS命令行操作 (以下是hadoop 1.x 版本的命令使用) 装好hadoop之前首先要进行一个格式化 hadoop namenode -format 运行之后,可以将文件夹 ...
- hadoop之HDFS学习笔记(一)
主要内容:hdfs的整体运行机制,DATANODE存储文件块的观察,hdfs集群的搭建与配置,hdfs命令行客户端常见命令:业务系统中日志生成机制,HDFS的java客户端api基本使用. 1.什么是 ...
- Hadoop基础-HDFS集群中大数据开发常用的命令总结
Hadoop基础-HDFS集群中大数据开发常用的命令总结 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...
- Hadoop基础-HDFS的API常见操作
Hadoop基础-HDFS的API常见操作 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习HDFS时的一些琐碎的学习笔记, 方便自己以后查看.在调用API ...
- Hadoop基础-Hdfs各个组件的运行原理介绍
Hadoop基础-Hdfs各个组件的运行原理介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...
随机推荐
- VMwareTools安装笔记
1.首先确保你的虚拟机正在运行. 2.右键点击“安装VMwareTools”,如果安装过了,会显示“重新安装...” 3.系统会自动打开VMwareTools的目录,(一般都会自动打开,因为系统一般会 ...
- 让你的网站秒开 为IIS启用“内容过期”
让你的网站秒开,为IIS启用“内容过期” 什么是内容过期? 当用户第一次访问你的网站,浏览器从你的网站主机下载内容,如果用户第二次访问你的网站,浏览器从缓存读取内容.你知道浏览器从缓存读取网页有多快吗 ...
- Handler的总结
Handler的总结 我们创建的Service.Activity,Broadcast均是一个主线程处理,即UI线程, 但是进行耗时操作时,比如I/O读写的大文件,数据库操作及网络下载需要很长的时间,为 ...
- IOS第18天(10,核心动画-转盘,自定义buton,旋转动画)
*****HMViewController.m #import "HMViewController.h" #import "HMWheelView.h" @in ...
- 使用MyBatis Generator生成DAO
虽然MyBatis很方便,但是想要手写全部的mapper还是很累人的,好在MyBatis官方推出了自动化工具,可以根据数据库和定义好的配置直接生成DAO层及以下的全部代码,非常方便. 需要注意的是,虽 ...
- Codeforces Round #350 (Div. 2) D2 二分
五一期间和然然打的团队赛..那时候用然然的号打一场掉一场...七出四..D1是个数据规模较小的题 写了一个暴力过了 面对数据如此大的D2无可奈何 现在回来看 一下子就知道解法了 二分就可以 二分能做多 ...
- Eclipse new server : Cancnot create a server using the selected type
1.退出 eclipse 2.到[工程目录下]/.metadata/.plugins/org.eclipse.core.runtime 3.把org.eclipse.wst.server.core.p ...
- ionic cordova 热更新
因为项目需要,使用cordova的热更新插件,本地调试很简单,看连接https://github.com/nordnet/cordova-hot-code-push,就几步,这里不说了. 下面两个要装 ...
- delphi之动态库调用和串口通讯
串口通讯: Spcomm 控件属性: CommName :表示COM1,COM2等串口的名字: BaudRate:设定波特率9600,4800等 StartComm StopComm 函数Write ...
- Comet 反Ajax: jQuery与PHP实现Ajax长轮询
原文地址(http://justcode.ikeepstudying.com/2016/08/comet-%E5%8F%8Dajax-%E5%9F%BA%E4%BA%8Ejquery%E4%B8%8E ...