Hadoop笔记HDFS(2)

高级Hadoop MapReduce管理

1 调试部署好的Hadoop的配置

2 运行基准测试检验Hadoop的安装

3 重新利用JVM提升性能

4 容错性

5 调试脚本-分析失败任务原因

6 设置失败比例以及忽略无效的记录

7 共享型用户Hadoop集群

8 Hadoop的安全性

9 使用Hadoop工具interface

内容目录

一调整参数

1、首先需要关掉正在运行的Hadoop集群（stop-dfs.sh以及stop-yarn.sh）

存放Hadoop参数的主要是下面4个文件：

core-site.xml:存放对整个集群的公共配置

hdfs-site.xml:存放对HDFS的配置

mapred-site.xml:存放对MapReduce的配置

yarn-site.xml:yarn的配置

上面的文件都是XML格式：name-value的内容格式。<configuration>是最顶层的tag,<property>定义每个属性

例如：<configuration>
<property>
<name>mapred.reduce.parallel.copies</name>
<value>2</value>
</property>
...
</configuration>

下面介绍修改存放hadoop日志的路径以及配置每个task的map和reduce个数的方法

1. 创建一个存放日志的文件，例如/home/hadoop_logs .
2. 在hadoop-env.sh中HADOOP_LOG_DIR这一行取消注释，并且赋值为新的路径。
3. 在mapred-site.xml中添加下面两个属性
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2 </value>
</property>
<property>

<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>2 </value>
</property>
4. 重启HDFS(start-dfs.sh)和MapReduce(start-yarn.sh)
5. ps –ef|grep hadoop 检验hadoop进程个数

HADOOP_LOG_DIR 重新定义了Hadoop输出日志的路径

mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum

连个属性定义了每个TaskTracker 在特定时刻能够运行的map和reduce任务的最大个数
所有在*-site.xml做的修改，都需要在重新启动Hadoop后系统重新加载生效。

二运行基准测试

Hadoop自带多个基准测试程序。我们可以使用他们验证Hadoop的安装并测试Hadoop的性能。

2. Run the randomwriter Hadoop job using the following command:
>bin/hadoop jar hadoop-examples-1.0.0.jarrandomwriter
-Dtest.randomwrite.bytes_per_map=100
-Dtest.randomwriter.maps_per_host=10 /data/unsorted-data
Here the two parameters, test.randomwrite.bytes_per_map and test.
randomwriter.maps_per_host 这两个参数指定由map产生的数据大小和map的数量
3. 执行排序程序:
>bin/hadoop jar hadoop-examples-1.0.0.jar sort /data/unsorted-data
/data/sorted-data
4. 检验前面运行的最终结果
>bin/hadoop jar hadoop-test-1.0.0.jar testmapredsort -sortInput /
data/unsorted-data -sortOutput /data/sorted-data

其它的基准测试

Hadoop includes several other benchmarks.
TestDFSIO: 测试HDFS的IO性能
nnbench:检验NameNode的硬件
mrbench: 运行多个小的job
TeraSort: 对1T的数据进行排序

三对JVM重复使用提升性能

默认情况下，Hadoop会为每个map或reduce任务启动一个JVM，然而对多个task运行相同的jvm，

有时会显著的加快执行速度。

1. 运行WordCount的例子，并传递如下参数
>bin/hadoop jar hadoop-examples-1.0.0.jar wordcount –D mapred.job.
reuse.jvm.num.tasks=-1 /data/input1 /data/output1
2. 这时 (执行 ps –ef|grep hadoop）Hadoop会为每个task使用同样的JVM
However, passing arguments through the –D option only works if the job implements
the org.apache.hadoop.util.Tools interface. Otherwise, you should set the
option through the JobConf.setNumTasksToExecutePerJvm(-1) method.

我们可以在mapred-site.xml中设置属性mapred.job.reuse.jvm.num.tasks ,
这样就可以控制在hadopp中运行的JVM数，当设置为0或-1的时候Hadoop为每个task运行同样的JVM

四、容错性和投机性运行

选择Hadoop的主要优势是系统对容错性的支持。当运行一个job，特别是很大的job的时候，部分job

可能会由于各种原因失败（网络、硬盘、节点故障等等）。

在hadoop启动后JobTracker会监控TaskTrackers的执行情况，当TaskTrackers没有相应的时候，

hadoop会重新将task提交给其它的TaskTracker(Hadoop V2中ResourceNode负责资源的分配，而DataNode负责监控

自己节点的job运行情况)

由于集群中每个节点的性能不一样可能出现其它节点完成job，但是还有其它node没有完成job，这个时候hadoop会启动一个

空闲节点运行同样的job，然后tasktracker会使用最先运行完的节点的结果，并且结束掉另外一个还没运行完的节点。

bin/hadoop jar hadoop-examples-1.0.0.jar wordcount–Dmapred.map.tasks.
speculative.execution=false –D mapred.reduce.tasks.speculative.
execution=true /data/input1 /data/output1

待续...

Hadoop笔记HDFS(2)的更多相关文章

Hadoop笔记HDFS(1)
环境:Hadoop2.7.3 1.Benchmarking HDFS 1.1测试集群的写入运行基准测试是检测HDFS集群是否正确安装以及表现是否符合预期的好方法.DFSIO是Hadoop自带的一个基 ...
hadoop笔记-hdfs文件读写
概念文件系统磁盘进行读写的最小单位:数据块,文件系统构建于磁盘之上,文件系统的块大小是磁盘块的整数倍. 文件系统块一般为几千字节,磁盘块一般512字节. hdfs的block.pocket.chu ...
Hadoop学习笔记—HDFS
目录搭建安装三个核心组件安装配置环境变量配置各上述三组件守护进程的相关属性启停监控和性能 Hadoop Rack Awareness yarn的NodeManagers监控命令 hdf ...
Hadoop学习笔记-HDFS命令
进入 $HADOOP/bin 一.文件操作文件操作类似于正常的linux操作前面加上“hdfs dfs -” 前缀也可以写成hadoop而不用hdfs,但终端中显示 Use of this scr ...
hadoop笔记之hdfs shell操作
HDFS命令行操作 HDFS命令行操作 (以下是hadoop 1.x 版本的命令使用) 装好hadoop之前首先要进行一个格式化 hadoop namenode -format 运行之后,可以将文件夹 ...
hadoop之HDFS学习笔记（一）
主要内容:hdfs的整体运行机制,DATANODE存储文件块的观察,hdfs集群的搭建与配置,hdfs命令行客户端常见命令:业务系统中日志生成机制,HDFS的java客户端api基本使用. 1.什么是 ...
Hadoop基础-HDFS集群中大数据开发常用的命令总结
Hadoop基础-HDFS集群中大数据开发常用的命令总结作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...
Hadoop基础-HDFS的API常见操作
Hadoop基础-HDFS的API常见操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习HDFS时的一些琐碎的学习笔记, 方便自己以后查看.在调用API ...
Hadoop基础-Hdfs各个组件的运行原理介绍
Hadoop基础-Hdfs各个组件的运行原理介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...

随机推荐

BZOJ4443:[SCO2015]小凸玩矩阵
题目大意:给一个N*M的矩阵,选出N个数,使得每行没列只选一个数,求第K大的数的最小值是多少? 二分答案,第k大的数<=x,则有N-k+1个数<=k,用二分图判定. #include< ...
IOS第11天(1:UIPickerView点餐)
UIPickerView #import "ViewController.h" @interface ViewController ()<UIPickerViewDataSo ...
LaTex 数学公式
\usepackage{amsmath} 常用宏包 \usepackage{arydshln} 此宏包带虚线 $ $ 行内公式 $$ $$ 行间公式 \[ \] 行间公式 \numberwithin{ ...
使用 Grafana、collectd 和 InfluxDB 打造现代监控系统
想打造 New Relic 那样漂亮的实时监控系统我们只需要 InfluxDB/collectd/Grafana 这三个工具,这三个工具的关系是这样的: 采集数据(collectd)-> 存储数 ...
C#中的延迟加载
什么是延迟加载? 延迟加载顾名思义就是:推迟加载的时机,当真正使用的时候才加载. 通常在创建一个大对象时,有些属性我们可以在使用到的时候才去创建(设置属性的值),这个可以有效的提升系统性能. 示例 ...
JSON 数组的遍历解析
刚遇到一个接接口任务,发现其中返回数据中,是个字符串数组,数组中就是单个json形式的内容,其实应该也可以称这种数据叫做json数组吧,只不过是字符串形式.而我需要的是将这种内容解析出来,取到对于ke ...
Qt字符串类——1.字符串常用的几种操作
字符串有如下几个操作符: (1)QString提供了一个二元的"+"操作符用于组合两个字符串,并提供了一个"+="操作符用于将一个字符串追加到另一个字符串的末尾 ...
C# base64编码的文本与图片互转
/// <summary> /// base64编码的文本转为图片 /// </summary> /// <param name="txtFilePath&qu ...
Java 类加载机制
类的加载: 类的初始化: 类什么时候才被初始化:1)创建类的实例,也就是new一个对象2)访问某个类或接口的静态变量,或者对该静态变量赋值3)调用类的静态方法4)反射(Class.forName(&q ...
三维高斯模型 opencv实现
OnProbabilityModel() { int i; for(int x=0;x<workImg->height;x++) { for(int y=0;y<workImg-&g ...

Hadoop笔记HDFS(2)

Hadoop笔记HDFS(2)的更多相关文章

随机推荐

热门专题