hadoop HDFS 写入吞吐量

最近一个项目在大把大把的使用hadoop-HDFS，关于HDFS 的优势网上都快说烂了，这里不再说了，免得被。。呵呵

废话少说，开整

1、场景描述：

服务器A 监听服务器B分发任务socket。当B 服务器发送指令上传数据，服务器A 便启动HDFSClient 开始

从服务器D（FTP服务器）获取数据上传至HADOOP（这里的数据总量大小一般10-100G，单个文件4-15M）2、

2、环境：

　　网络：千兆局域网

　　hadoop版本：1.2.1

　　硬件环境：略（正规服务器，不扯了）

3、问题

至于这种数据量大，文件碎小。单线程程序绝对打不满网络（IO 这里绝对不是问题，服务器插着多块磁盘）此处已写程序测试。

4、解决方法

4.1、hadoop优化配置

-------------------------------------------------------------------------------------------------------------

集群整体心跳将默认3秒修改为0.25秒

<name>dfs.heartbeat.interval</name>

</property>

------------------------------------------------------------------------------------------------------------------------

集群 SequenceFiles在读写中可以使用的缓存大小默认为4KB ，这里扩容至 1MB 今后根据实际物理机器调优

直接影响 hdfs 读写能力

<name>io.file.buffer.size</name>

</property>

注意：看你hadoop 集群的配置，普通pc 或者虚拟机请勿模仿。

-------------------------------------------------------------------------------------------------------------------------

启动 hadoop 做磁盘存储均衡

hadoop balancer -Threshold 5 ------- 每个磁盘利用率偏差在5% 之内

-------------------------------------------------------------------------------------------------------------------------

4.2 程序优化

1、将程序改为多线程（我的集群目前35线程可以将网络基本打满）

2、将HDFS 操作类改成单例（注意，线程安全的哦），这只主要第一步初始化的是

(1) Configuration config = new Configuration();

(2)FileSystem hdfs = FileSystem.get(URI.create(URL),config);

//FileSystem 初始化相对比较耗时。

----------------------------------------------------------------------

好了，开启你的线程池开始测试吧

我这里网络基本可以打满，个人还是比较满意的

（亲们，千兆局域网一般说的是都是小b，你传输数据的时候理想速度应该是125M）。

hadoop HDFS 写入吞吐量的更多相关文章

Hadoop HDFS分布式文件系统设计要点与架构
Hadoop HDFS分布式文件系统设计要点与架构 Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...
从 RAID 到 Hadoop Hdfs 『大数据存储的进化史』
我们都知道现在大数据存储用的基本都是 Hadoop Hdfs ,但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的,而是从技术演化的角度来看看 Hadoop Hdf ...
我理解中的Hadoop HDFS分布式文件系统
一,什么是分布式文件系统,分布式文件系统能干什么在学习一个文件系统时,首先我先想到的是,学习它能为我们提供什么样的服务,它的价值在哪里,为什么要去学它.以这样的方式去理解它之后在日后的深入学习中才能 ...
Hadoop HDFS负载均衡
Hadoop HDFS负载均衡转载请注明出处:http://www.cnblogs.com/BYRans/ Hadoop HDFS Hadoop 分布式文件系统(Hadoop Distributed ...
HADOOP HDFS的设计
Hadoop提供的对其HDFS上的数据的处理方式,有以下几种, 1 批处理,mapreduce 2 实时处理:apache storm, spark streaming , ibm streams 3 ...
[转]hadoop hdfs常用命令
FROM : http://www.2cto.com/database/201303/198460.html hadoop hdfs常用命令 hadoop常用命令: hadoop fs 查看H ...
Hadoop HDFS文件常用操作及注意事项
Hadoop HDFS文件常用操作及注意事项 1.Copy a file from the local file system to HDFS The srcFile variable needs t ...
Hadoop HDFS文件常用操作及注意事项（更新）
1.Copy a file from the local file system to HDFS The srcFile variable needs to contain the full name ...
Hadoop HDFS (3) JAVA訪问HDFS
如今我们来深入了解一下Hadoop的FileSystem类. 这个类是用来跟Hadoop的文件系统进行交互的.尽管我们这里主要是针对HDFS.可是我们还是应该让我们的代码仅仅使用抽象类FileSyst ...

随机推荐

HDU 3949 XOR（高斯消元）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3949 题意:给出一个长度为n的数列A.选出A的所有子集(除空集外)进行抑或得到2^n-1个数字,去重排 ...
android中getSystemService详解
android的后台运行在很多service,它们在系统启动时被SystemServer开启,支持系统的正常工作,比如MountService监听是否有SD卡安装及移除,ClipboardS ...
[Sciter系列] MFC下的Sciter–2.Sciter中的事件,tiscript,语法
[Sciter系列] MFC下的Sciter–2.Sciter中的事件,tiscript,CSS部分自觉学习,重点说明Tiscript部分的常见语法和事件用法. 本系列文章的目的就是一步步构建出一个功 ...
CURL使用
最近开发的游戏之中需要用到大量的客户端与服务端交互的东西,开始参考大量的技术文章,感觉是五花八门,眼花缭乱.到后面,真正感受到,学习一门技术,还是需要从它最开始的东西开始学起,要不就是一头雾水,这种 ...
HDU 3749 Financial Crisis 经济危机（点双连通分量）
题意: 给一个图n个点m条边(不一定连通),接下来又q个询问,询问两个点是为“不相连”,“仅有一条路径可达”,“有两条及以上的不同路径可达”三种情况中的哪一种.注:两条以上的路径指的是路径上的点连1个 ...
POJ2402 Palindrome Numbers 回文数
题目链接: http://poj.org/problem?id=2402 题目大意就是让你找到第n个回文数是什么. 第一个思路当然是一个一个地构造回文数直到找到第n个回文数为止(也许大部分人一开始都是 ...
Delphi打开窗体时报"Corrupt Portfolio Stream"
今天在打开一个Delphi窗体时报了这么一个错误: Corrupt Portfolio Stream 查了一下,主要是由于Delphi窗体的*.ddp文件损坏引起的. 解决方法: 删除.ddp 文 ...
js如何判断是否在iframe中及防止网页被别站用 iframe嵌套 (Load denied by X-Frame-Options)
1. js如何判断是否在iframe中 //方式一 if (self.frameElement && self.frameElement.tagName == "IFRAME ...
iOS - NSLog、UncaughtException日志保存到文件
转:http://blog.csdn.net/marujunyy/article/details/12005767 对于真机,日志没法保存,不好分析问题.所以有必要将日志保存到应用的Docunment ...
MSSQL 2005数据库与SP4补丁安装
Sql Server 2005 正确安装之前的win7配置: http://wenku.baidu.com/link?url=6T3jzVnu2XY_sfqfe9ZqQ_6dUOdrZwHc83baW ...

hadoop HDFS 写入吞吐量

hadoop HDFS 写入吞吐量的更多相关文章

随机推荐

热门专题