Hadoop系列（三）：hadoop基本测试

下面是对hadoop的一些基本测试示例

Hadoop自带测试类简单使用

这个测试类名叫做 hadoop-mapreduce-client-jobclient.jar，位置在 hadoop/share/hadoop/mapreduce/ 目录下

不带任何参数可以获取这个jar的帮助信息

$ yarn jar hadoop-mapreduce-client-jobclient-2.8.5.jar

1. TestDFSIO

用于测试hdfs的IO性能，使用一个mapReduce作业来并发的执行读写操作，每个map任务用于读或写每个文件，map输出用于手机与处理文件相关的统计信息，Reduce用于累计和统计信息，并产生summary。

1) TestDFSIO write

例子：向HDFS中写入10个1000M文件

$ yarn jar hadoop-mapreduce-client-jobclient-2.8.5.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 -resFile /home/hadoop/hadoop_test/TestDFSIO_write.log

测试结果如下：

----- TestDFSIO ----- : write

            Date & time: Thu Nov 15 12:04:51 CST 2018

        Number of files: 10

 Total MBytes processed: 10000

      Throughput mb/sec: 6.29

 Average IO rate mb/sec: 6.39

  IO rate std deviation: 0.87

     Test exec time sec: 230.35

参数说明：

  TestDFSIO     表示测试类型

	-write      表示写测试

	-nrFiles    表示往HDFS 写入多少个文件

	-fileSize   表示写入每个文件的大小

	-resFile    表示最后的测试结果输出到的文件

2) TestDFSIO read

例子：从HDFS中读取10个1000M文件

$ yarn jar hadoop-mapreduce-client-jobclient-2.8.5.jar TestDFSIO -read -nrFiles 10 -fileSize 1000 -resFile /home/hadoop/hadoop_test/TestDFSIO_read.log

测试结果如下：

----- TestDFSIO ----- : read

            Date & time: Thu Nov 15 13:31:10 CST 2018

        Number of files: 10

 Total MBytes processed: 10000

      Throughput mb/sec: 20.23

 Average IO rate mb/sec: 21.09

  IO rate std deviation: 4.26

     Test exec time sec: 97.46

3) 清空测试数据

$ yarn jar hadoop-mapreduce-client-jobclient-2.8.5.jar TestDFSIO -clean

2. nnbench测试

nnbench用于测试NameNode的负载，他会产生很多余HDFS相关的请求，给NameNode施加较大的压力。这个测试能在hdfs上模拟创建，读取，重命名和删除文件等操作。

例子：使用12个mapper和6个Reduce来创建1000个文件

$ yarn jar hadoop-mapreduce-client-jobclient-2.8.5.jar nnbench -operation create_write -maps 12 -reduces 6 \

-blockSize 1 -bytesToWrite 0 -numberOfFiles 1000 -replicationFactorPerFile 3 -readFileAfterOpen true \

-baseDir /benchmarks/NNBench-`hostname -s`

3. mrbench测试
mrbench会多次重复一个小作业，用于检查在集群上小作业的是否可重复以及运行是否可高效，用法如下：

例子：以下会运行一个小作业一共50次

$ yarn jar hadoop-mapreduce-client-jobclient-2.8.5.jar mrbench -numRuns 50

测试结果:

DataLines       Maps    Reduces AvgTime (milliseconds)

1               2       1       30248

4. mapreduce 排序测试

生成1G测试数据放到/examples/terasort-input

$ yarn jar hadoop-mapreduce-examples-2.8.5.jar teragen 10000000 /examples/terasort-input

开始排序

$ yarn jar hadoop-mapreduce-examples-2.8.5.jar terasort /examples/terasort-input /examples/terasort-output

/examples/terasort-input         输入目录

/examples/terasort-output	 输出目录

查看校验数据

/examples/terasort-output/part-r-00000

校验数据为空，排序功能正常

Hadoop系列（三）：hadoop基本测试的更多相关文章

hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
安装Hadoop系列 — 导入Hadoop源码项目
将Hadoop源码导入Eclipse有个最大好处就是通过 "ctrl + shift + r" 可以快速打开Hadoop源码文件. 第一步:在Eclipse新建一个Java项目,h ...
安装Hadoop系列 — 安装Hadoop
安装步骤如下: 1)下载hadoop:hadoop-1.0.3 http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3/ 2)解压文 ...
hadoop系列二：HDFS文件系统的命令及JAVA客户端API
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
hadoop基础----hadoop实战(九)-----hadoop管理工具---CDH的错误排查(持续更新)
在CDH安装完成后或者CDH使用过程中经常会有错误或者警报,需要我们去解决,积累如下: 解决红色警报时钟偏差这是因为我们的NTP服务不起作用导致的,几台机子之间有几秒钟的时间偏差. 这种情况下一是 ...
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce具体解释
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详细解释我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ ...
Hadoop 系列（三）—— 分布式计算框架 MapReduce
一.MapReduce概述 Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序.编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集. MapReduce ...
Hadoop 系列（三）Java API
Hadoop 系列(三)Java API <dependency> <groupId>org.apache.hadoop</groupId> <artifac ...
Hadoop 系列文章(一) Hadoop 的安装,以及 Standalone Operation 的启动模式测试
以前都是玩 java,没搞过 hadoop,所以以此系列文章来记录下学习过程安装的文件版本.操作系统说明 centos-6.5-x86_64 [bamboo@hadoop-senior opt]$ ...

随机推荐

[Linux] 一个前端必会的 Nginx 免费教程-在虚拟机中用deepin测试
原文技术胖的 nginx 技术胖专注于前端开发 deepin Linux Deepin 是一个基于 DEB 包管理的一个独立操作系统,和那些 Ubuntu(下个大版本是基于 debian 开发) 的 ...
[Nodejs] node的fs模块
fs 模块 Node.js 提供一组类似 UNIX(POSIX)标准的文件操作 API. Node 导入文件系统模块(fs).Node.js 文件系统(fs 模块)模块中的方法均有异步和同步版本,例如 ...
Mysql、SqlServer、Oracle三大数据库的区别
一.MySQL 优点: 体积小.速度快.总体拥有成本低,开源: 支持多种操作系统: 是开源数据库,提供的接口支持多种语言连接操作 : MySQL的核心程序采用完全的多线程编程.线程是轻量级的进程,它可 ...
【问题】VS问题集合，不用也要收藏防止以后使用找不到
在日常的使用或者工作当中我们的vs会时不时的给我一些小“惊喜”.让我们有时候无可奈何.这不今天我又遇到了所以我决定记录下这些,方便以后再次出现好解决. 无法启动iis express web 服务器 ...
基础知识：IDE集成开发环境（pycharm）、基本数据类型、用户的交互、运算符
今日内容: 1.IDE集成开发环境(pycharm) 2.基本数据类型(int.float.str.list.dict) 3.用户的交互(注释.输入input.输出print) 4.运算符(分类及使用 ...
（五） Keras Adam优化器以及CNN应用于手写识别
视频学习来源 https://www.bilibili.com/video/av40787141?from=search&seid=17003307842787199553 笔记 Adam,常 ...
从PM到非洲酋长，得人心者得天下
说正事之前,先唠10块钱儿的…… 偶然看到房一波的故事,这个PM了不得了! 房兄是山东电建三公司,派驻到尼日利亚建设燃机电站的PM.本来在非洲,这种“万丈高楼平地起”的项目是很好干的,可是房兄却遭遇了 ...
打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPip ...
【转】Python之道
作者:Vamei 出处:http://www.cnblogs.com/vamei Python有一个彩蛋,用下面语句调出: import this 该彩蛋的文档记录于PEP 20. 语句执行之后,终端 ...
Jar 初步
前言 jar 是 java 文件中一种文件格式,用于将 .java 文件编译的字节码文件打包成 jar. 给 Java 应用打包 1. 新建一个 java 源文件 package cn.szxy; p ...

Hadoop系列（三）：hadoop基本测试

Hadoop自带测试类简单使用

Hadoop系列（三）：hadoop基本测试的更多相关文章

随机推荐

热门专题