2 HDFS-集群压测
- 2.1 测试HDFS写性能
  - 测试1 限制网络
    - 1 向HDFS集群写10个128M的文件
    - 测试结果分析
  - 测试2 不限制网络
    - 1 向HDFS集群写10个128M的文件
    - 2 测试结果分析
- 2.2 测试HDFS读性能

2 HDFS-集群压测

在企业中非常关心每天从 Java 后台拉取过来的数据，需要多久能上传到集群？消费者关心多久能从 HDFS 上拉取需要的数据？

为了搞清楚 HDFS 的读写性能，生产环境上非常需要对集群进行压测。

HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试，将hadoop102、Hadoop103、hadoop104虚拟机网络都设置为100mbps

100Mbps 单位是 bit； 10M/s 单位是 byte ; 1byte=8bit， 100Mbps/8=12.5M/s

测试网速

在hadoop102上开启一个服务器，用于提供对外下载接口

在 hadoop102 的/opt/software 目录下开启服务器。

[ranan@hadoop102 software]$ python3 -m http.server

下载速度在12.5M/s以内，说明网速设置完成

2.1 测试HDFS写性能

测试1 限制网络

1 向HDFS集群写10个128M的文件

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

hadoop-mapreduce-clientjobclient-3.1.3-tests.jar 该jar包专门用于压力测试的

TestDFSIO HDFS的读写性能

-write 写性能

-nrFiles n 为生成 mapTask 的数量，生产环境一般可通过 hadoop103:8088 查看 CPU，一般是测试文件个数=集群CPU总核数 - 1(保证三台服务器都有MapTask运行）

核数，设置为（CPU 核数 - 1）

-fileSize 128MB 每个文件的大小为128MB

如果测试过程中，出现异常

原因分析：实际4个G，虚拟内存是4*2.1=8.4G，因为centos7和Java8内存处理兼容性差，linux会预留大量内存不能使用，导致虚拟内存经常会溢出。

可以在 yarn-site.xml 中设置虚拟内存检测为 false

<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则

直接将其杀掉，默认是 true -->

<property>

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

分发配置并重启 Yarn 集群

测试结果分析

Number of files：生成 mapTask 数量，一般是集群中（CPU 核数-1）

Total MBytes processed：所有数据总总大小

Throughput mb/sec:，单个 mapTask 的吞吐量

计算方式：处理的总文件大小/(每一个 mapTask写数据的时间累加)

Average IO rate mb/sec::平均 mapTak 的吞吐量

计算方式：(每个 mapTask 处理文件大小/每一个 mapTask 写数据的时间)全部相加除以 task 数量

IO rate std deviation:方差、反映各个 mapTask 处理的差值，越小越均衡

1）一个三个副本，进行压测的时候，假设该客户端在集群中那么本地是准备了一份副本(不参与测试)，对HFDS进行写的时候只需要写副本2、副本3

一共参与测试的文件： 10 个文件 * 2 个副本 = 20 个

压测后的速度：6.61M/s

实测速度：6.61M/s * 20 个文件 ≈ 132M/s

三台服务器的带宽： 12.5M/S（100mbps） + 12.5 + 12.5 ≈ 30M/s

所有网络资源已经用满。

如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘或者增加磁盘个数。

2）如果客户端不在集群节点，那就三个副本都参与计算

测试2 不限制网络

1 向HDFS集群写10个128M的文件

修改网络配置

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

2 测试结果分析

集群中那么本地是准备了一份副本(不参与测试)，对HFDS进行写的时候只需要写副本2、副本3

一共参与测试的文件： 10 个文件 * 2 个副本 = 20 个

压测后的速度：60.25M/s

实测速度：60.25M/s * 20 个文件 ≈ 1205M/s

不受网络限制，写速度受磁盘的读写速度限制

2.2 测试HDFS读性能

1 读取HDFS集群10个128M的文件

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB

实际的网速(网络的带宽):12.5M/s + 12.5M/s +12.5M/s= 37M/s

为什么读取文件速度大于网络带宽？由于目前只有三台服务器，且有三个副本，数据读取就近原则，相当于都是读取的本地磁盘数据，没有走网络。

生产调优2 HDFS-集群压测的更多相关文章

【译】调优Apache Kafka集群
今天带来一篇译文“调优Apache Kafka集群”,里面有一些观点并无太多新颖之处,但总结得还算详细.该文从四个不同的目标出发给出了各自不同的参数配置,值得大家一读~ 原文地址请参考:https:/ ...
支付宝LR集群压测报告
支付宝压力测试报告时间:2016-03-23 测试人员:XXX 目录支付宝压力测试报告 1 目录 1 一 ...
Jmeter5 实现多机集群压测（局域网组成多机集群）
想要模拟高并发用户访问的场景,用Jmeter5实现的话,单靠一台PC机,资源是不够的,包括单机的内存.使用端口数量等,所以最好是通过多台PC机组成几个集群来对服务器进行压测. 本文目录: 1.软硬件配 ...
linux集群压测部署方案
我们今天主要分享的内容从三方面讲解. 集群压力机部署 shell脚本简介 shell脚本搞定压力机部署集群压力机部署 linux.png 分布式压测背景介绍在企业项目实战时,如果被压的服务器处 ...
mysql集群压测
mysql压测 mysql自带就有一个叫mysqlslap的压力测试工具,通过模拟多个并发客户端访问MySQL来执行压力测试,并且能很好的对比多个存储引擎在相同环境下的并发压力性能差别.通过mysql ...
Linux性能调优、Linux集群与存储等
http://freeloda.blog.51cto.com/ 51cto
HDFS集群PB级数据迁移方案-DistCp生产环境实操篇
HDFS集群PB级数据迁移方案-DistCp生产环境实操篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 用了接近2个星期的时间,终于把公司的需要的大数据组建部署完毕了,当然,在部 ...
HDFS集群优化篇
HDFS集群优化篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.操作系统级别优化 1>.优化文件系统(推荐使用EXT4和XFS文件系统,相比较而言,更推荐后者,因为XF ...
大数据学习之hdfs集群安装部署04
1-> 集群的准备工作 1)关闭防火墙(进行远程连接) systemctl stop firewalld systemctl -disable firewalld 2)永久修改设置主机名 vi ...

随机推荐

Celery Task（定时任务）及参数
celery beat 是一个调度器:它以常规的时间间隔开启任务,任务将会在集群中的可用节点上运行. 默认情况下,入口项是从 beat_schedule 设置中获取,但是自定义的存储也可以使用,例如在 ...
python fnmatch & glob
1,转载:Python模块学习 - fnmatch & glob - Dahlhin - 博客园 (cnblogs.com) 介绍 fnmatch 和 glob 模块都是用来做字符串匹配文件名 ...
AtCoder Beginner Contest 213 F题题解
F - Common Prefixes 该题也是囤了好久的题目了,看题目公共前缀,再扫一眼题目,嗯求每个后缀与其他后缀的公共前缀的和,那不就是后缀数组吗?对于这类问题后缀数组可是相当在行的. 我们用后 ...
修改openstack镜像--支持root密码登陆
一.前言从openstack官方下载的云镜像一般都是普通用户密钥登陆,比如centos镜像的普通用户为centos,ubuntu镜像的普通用户为ubuntu,虽然密钥登陆系统相比密码登陆来说比较方便 ...
java 垃圾回收及内存分配策略
一.在垃圾收集器对堆进行回收前,首先需要判断对象是否"存活",对已经"死去"的对象进行回收判断对象是否存活:引用计数法和可达性分析法引用计数法:给对象添加一 ...
"迷途"的野指针,都快找不着北了
指针,C语言开发者表示很淦,指针的使用,很多人表示不敢直面ta,不像Java一样,有垃圾自动回收功能,我们不用担心那么多内存泄漏等问题,那C语言里边呢,指针又分为了"野指针",&q ...
攻防世界 WEB 高手进阶区 TokyoWesterns CTF shrine Writeup
攻防世界 WEB 高手进阶区 TokyoWesterns CTF shrine Writeup 题目介绍题目考点模板注入 Writeup 进入题目 import flask import os a ...
Django笔记&教程 7-1 基于类的视图（Class-based views）介绍
Django 自学笔记兼学习教程第7章第1节--基于类的视图(Class-based views)介绍点击查看教程总目录 1 介绍 Class-based views (CBVs) are view ...
RocketMQ架构原理解析（二）：消息存储
一.概述由前文可知,RocketMQ有几个非常重要的概念: broker 服务端,负责存储.收发消息 producer 客户端1,负责产生消息 consumer 客服端2,负责消费消息既然是消息队 ...
[bzoj1077]天平
先考虑如何求出任意两数的最大差值和最小差值,直接差分约束建图跑floyd求最短路和最长路即可然后枚举i和j,考虑dA+dB和di+dj的关系,分两种情况移项,转化成dA-di和dj-dB的关系或dA- ...

生产调优2 HDFS-集群压测

2 HDFS-集群压测

2.1 测试HDFS写性能

测试1 限制网络

1 向HDFS集群写10个128M的文件

测试结果分析

测试2 不限制网络

1 向HDFS集群写10个128M的文件

2 测试结果分析

2.2 测试HDFS读性能

生产调优2 HDFS-集群压测的更多相关文章

随机推荐

热门专题