结合最近Disruptor的学习，和之前一直思考解决的大文件拆分问题，想到是否可以使用Disruptor作为生产者/消费者传递数据的通道呢？借助其高效的传递，理论上应当可以提升性能。此文便是此想法的落地实现。

问题描述

将大文件按照指定大小拆分为若干小文件。具体可参考：大文件拆分方案的java实践（附源码）。

方案设计

设计简图

如下：

核心组件

FileReadTask —— Disruptor的生产者线程，负责读取源文件，；
Disruptor —— FileReadTask和FileLineEventHandler线程之间传递数据的通道，无阻塞；
RingBuffer —— Disruptor的核心组件，负责暂存被传递的消息，同时负责协调生产者和消费者之间的工作节奏；
FileLineEventHandler —— 不断从Disruptor中读取FileLine，并直接扔给FileWriteTask的queue，是Disruptor的消费者，同时也是queue的生产者；
FileWriteTask —— 从queue中读取FileLine，并写入到子文件，是queue的消费者。

设计思路

使用Disruptor作为生产者和消费者之间传递数据的通道，利用Disruptor高效传递数据的特性提升性能；

FileLineEventHandler作为Disruptor的消费者，只负责从中读取数据，但是不负责耗时长的子文件操作；

FIleWriteTask服务耗时长的文件写入工作，且每个task独享queue，减少资源竞争。

性能表现

实测下来，和之前的‘生产者/消费者+nio’方案性能相当，最佳性能点为：

方案	-Xms	-Xmx	readTaskNum	writeTaskNum	queueSize	Durition (ms)	jvm_ CPU(%)	jvm_ mem	Physics _mem
生产者/消费者+nio	512m	512m	24	8	4096	8158	80	100M	4.6G
Disruptor+生产者/消费者+nio	512m	512m	2	2	1024	6191	80	500m	4.2G

相对与不使用Disruptor的方案，时延有所下降，但是并不明显，两个方案主要瓶颈都在于FileReadTask中对文件进行拆分的逻辑处理太费时，需要逐个字节读取并比对是否为换行符/回车符。所以性能提升并不是很明显。且性能表现并不稳定。

心得

这个示例或许没有达到想要的效果，但是通过这个实例，将Disruptor用到了生产者和消费者模式中，体会Disruptor的设计初衷，提升生产者与消费者之间数据传递的效率，尤其是在纯粹地快速交换数据的场景非常有用。

Disruptor持有的entry对象不宜直接传递给后续消费者使用，鉴于Disruptor会对RingBuffer的entries做内存预加载，且会循环使用对应entries，所以如果供消费者直接使用，会出现数据覆盖的问题。可以参考实例代码中FileLineEventHandler对写入queue的FileLine的处理。

代码示例

github地址：https://github.com/daoqidelv/filespilt-demo

包路径：com.daoqidlv.filespilt.disruptor

Disruptor的应用示例——大文件拆分的更多相关文章

大文件拆分问题的java实践（附源码）
引子大文件拆分问题涉及到io处理.并发编程.生产者/消费者模式的理解,是一个很好的综合应用场景,为此,花点时间做一些实践,对相关的知识做一次梳理和集成,总结一些共性的处理方案和思路,以供后续工作中借 ...
大文件拆分方案的java实践（附源码）
引子大文件拆分问题涉及到io处理.并发编程.生产者/消费者模式的理解,是一个很好的综合应用场景,为此,花点时间做一些实践,对相关的知识做一次梳理和集成,总结一些共性的处理方案和思路,以供后续工作中借 ...
Java:大文件拆分工具
java大文件拆分工具(过滤掉表头) import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File ...
elasticsearch bulk批量导入大文件拆分
命令如下: curl -s -XPOST http://localhost:9200/_bulk --data-binary @data.json 如果上传的data.json文件较大,可以将其切分为 ...
RedHat/CentOS 大文件拆分及合并与md5验证
[root@tdh55 mnt]# cd /opt/[root@tdh55 opt]# ll -h-rw-r--r--. 1 root root 7.5G May 12 11:19 TDH-Image ...
python 小程序大文件的拆分合并
1. 将大文件拆分为小文件 I 通过二进制的方式将大文件读取出来,将其拆分存,以不同的文件方式存放在一个目录下面 II 提供两种操作方式交互式和命令行模式 #! usr/bin/python # -* ...
高效读取大文件，再也不用担心 OOM 了！
内存读取第一个版本,采用内存读取的方式,所有的数据首先读读取到内存中,程序代码如下: Stopwatch stopwatch = Stopwatch.createStarted(); // 将全部行 ...
PHP读取CSV大文件导入数据库的示例
对于数百万条数据量的CSV文件,文件大小可能达到数百M,如果简单读取的话很可能出现超时或者卡死的现象. 为了成功将CSV文件里的数据导入数据库,分批处理是非常必要的. 下面这个函数是读取CSV文件中指 ...
php平均拆分大文件为N个小文件
用PHP程序拆分大文件为N个小文件 /* 假设有文件data.log , 内容如下,行数很多,假设有上亿条数据,文件大小大概在800M左右 92735290 80334472 49114074 871 ...

随机推荐

caffe的Matlab接口安装
参考博文:http://blog.csdn.net/thystar/article/details/50720691 0. Caffe安装及Matlab安装 1. Caffe中matcaffe配置 c ...
Unity非运行模式下实现动画播放/回退工具
实现效果核心功能支持选定模型(带Animator)在非运行模式下,播放/暂停/停止动作. 支持动作单帧前进,单帧回退(帧时间默认0.05f,可以代码设置). 支持滚动条拖拽,将动作调整到指定时间. ...
while循环操作列表与字典
1.在列表间移动元素 #!/usr/bin/env python #filename=list.py num1 = [1,3,5,7,9,11,13,15] num2 = [] while num1: ...
MySQL中间件Atlas安装及使用
简介 Atlas是由 Qihoo 360公司Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目.它在MySQL官方推出的MySQL-Proxy 0.8.2版本的基础上,修改了大量 ...
windows下Python 3.x图形图像处理库PIL的安装
图像处理是一门应用非常广的技术,而拥有非常丰富第三方扩展库的 Python 当然不会错过这一门盛宴.PIL (Python Imaging Library)是 Python 中最常用的图像处理库,目前 ...
Ace Admin 使用教程
(原) 公司项目要换框架,然后丢了一套国外的给我,ace admin,本想着拿来改改,翻翻百度就能用的,可它是国外的啊,国内普及率又不高,没办法,硬着头皮一点点啃英文文档吧. File(文件) 简介: ...
【2017-05-30】WebForm文件上传
用 FileUpload控件进行上传文件. <asp:FileUpload ID="FileUpload1" runat="server" /> ...
[深圳/广州]微软SQL技术沙龙分享会（MVP)
[深圳/广州] 新一期俱乐部活动报名开始,这次是广深地区SQL Server 技术沙龙分享会(MVP),SQL Server作为一个数据平台,不管是SQL Server 2017 on Linux 还 ...
抽象工厂(AbstractFactory)模式-创建型模式
1.new 的问题常见的对象创建方法: //创建一个Road对象 Road road=new Road(); new的问题:实现依赖,不能应对具体实例的变化怎么理解上面这句话呢? 可以这样理解:我 ...
C#解析json的两种方式
C#中Json转换主要使用的几种方法! 这篇主要介绍2.4.第三种方法使用的比较局限,所以我没有深入学习. 第二种方法我使用比较多的方式,这个方法是.NET内置的,使用起来比较方便 A.利用seri ...

Disruptor的应用示例——大文件拆分