JAVA多线程读写文件范例
在写之前先声明,本文是基于之前在博客园网站上检索到的一份JAVA多线程读写文件的示例,我在写自己的程序时是在那位作者写的基础上做了改良,但已不记得原文的地址。如果有知情者,烦请帖出地址,我在此文上加入引用或转载。
本程序是基于这么一种考虑,某系统后台有个将近2G大小的日志文件,你用任何编辑器去打开它,都将会很困难。针对这样的大文件解析处理,解决方案是使用多个线程,分割读取指定的大文件。获取我们所需要的信息。不多说,上代码了,有注释可以帮助理解。
- package com.thread.multipl.mysolution;
- import java.io.IOException;
- import java.io.RandomAccessFile;
- import java.util.concurrent.CountDownLatch;
- /**
- * 这个线程用来读取文件,当获取到指定关键字时,在指定的对象加1
- * @author 刘峰管理2
- *
- */
- public class ReadThread extends Thread{
- //定义字节数组(取水的竹筒)的长度
- private final int BUFF_LEN = 256;
- //定义读取的起始点
- private long start;
- //定义读取的结束点
- private long end;
- //将读取到的字节输出到raf中 randomAccessFile可以理解为文件流,即文件中提取指定的一部分的包装对象
- private RandomAccessFile raf;
- //线程中需要指定的关键字
- private String keywords;
- //此线程读到关键字的次数
- private int curCount = 0;
- /**
- * jdk1.5开始加入的类,是个多线程辅助类
- * 用于多线程开始前统一执行操作或者多线程执行完成后调用主线程执行相应操作的类
- */
- private CountDownLatch doneSignal;
- public ReadThread(long start, long end, RandomAccessFile raf,String keywords,CountDownLatch doneSignal){
- this.start = start;
- this.end = end;
- this.raf = raf;
- this.keywords = keywords;
- this.doneSignal = doneSignal;
- }
- public void run(){
- try {
- raf.seek(start);
- //本线程负责读取文件的大小
- long contentLen = end - start;
- //定义最多需要读取几次就可以完成本线程的读取
- long times = contentLen / BUFF_LEN+1;
- System.out.println(this.toString() + " 需要读的次数:"+times);
- byte[] buff = new byte[BUFF_LEN];
- int hasRead = 0;
- String result = null;
- for (int i = 0; i < times; i++) {
- //之前SEEK指定了起始位置,这里读入指定字节组长度的内容,read方法返回的是下一个开始读的position
- hasRead = raf.read(buff);
- //如果读取的字节数小于0,则退出循环! (到了字节数组的末尾)
- if (hasRead < 0) {
- break;
- }
- result = new String(buff,"gb2312");
- /// System.out.println(result);
- int count = this.getCountByKeywords(result, keywords);
- if(count > 0){
- this.curCount += count;
- }
- }
- KeyWordsCount kc = KeyWordsCount.getCountObject();
- kc.addCount(this.curCount);
- doneSignal.countDown();//current thread finished! noted by latch object!
- } catch (IOException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- }
- public long getStart() {
- return start;
- }
- public void setStart(long start) {
- this.start = start;
- }
- public long getEnd() {
- return end;
- }
- public void setEnd(long end) {
- this.end = end;
- }
- public RandomAccessFile getRaf() {
- return raf;
- }
- public void setRaf(RandomAccessFile raf) {
- this.raf = raf;
- }
- public int getCountByKeywords(String statement,String key){
- return statement.split(key).length-1;
- }
- public int getCurCount() {
- return curCount;
- }
- public void setCurCount(int curCount) {
- this.curCount = curCount;
- }
- public CountDownLatch getDoneSignal() {
- return doneSignal;
- }
- public void setDoneSignal(CountDownLatch doneSignal) {
- this.doneSignal = doneSignal;
- }
- }
- package com.thread.multipl.mysolution;
- import java.io.File;
- import java.io.RandomAccessFile;
- import java.util.concurrent.CountDownLatch;
- public class MultiReadTest {
- /**
- * 多线程读取文件测试
- * @param args
- */
- public static void main(String[] args) {
- // TODO Auto-generated method stub
- final int DOWN_THREAD_NUM = 10;//起10个线程去读取指定文件
- final String OUT_FILE_NAME = "d:\\倚天屠龙记.txt";
- final String keywords = "无忌";
- //jdk1.5线程辅助类,让主线程等待所有子线程执行完毕后使用的类,
- //另外一个解决方案:自己写定时器,个人建议用这个类
- CountDownLatch doneSignal = new CountDownLatch(DOWN_THREAD_NUM);
- RandomAccessFile[] outArr = new RandomAccessFile[DOWN_THREAD_NUM];
- try{
- long length = new File(OUT_FILE_NAME).length();
- System.out.println("文件总长度:"+length+"字节");
- //每线程应该读取的字节数
- long numPerThred = length / DOWN_THREAD_NUM;
- System.out.println("每个线程读取的字节数:"+numPerThred+"字节");
- //整个文件整除后剩下的余数
- long left = length % DOWN_THREAD_NUM;
- for (int i = 0; i < DOWN_THREAD_NUM; i++) {
- //为每个线程打开一个输入流、一个RandomAccessFile对象,
- //让每个线程分别负责读取文件的不同部分
- outArr[i] = new RandomAccessFile(OUT_FILE_NAME, "rw");
- if (i != 0) {
- //
- // isArr[i] = new FileInputStream("d:/勇敢的心.rmvb");
- //以指定输出文件创建多个RandomAccessFile对象
- }
- if (i == DOWN_THREAD_NUM - 1) {
- // //最后一个线程读取指定numPerThred+left个字节
- // System.out.println("第"+i+"个线程读取从"+i * numPerThred+"到"+((i + 1) * numPerThred+ left)+"的位置");
- new ReadThread(i * numPerThred, (i + 1) * numPerThred
- + left, outArr[i],keywords,doneSignal).start();
- } else {
- //每个线程负责读取一定的numPerThred个字节
- // System.out.println("第"+i+"个线程读取从"+i * numPerThred+"到"+((i + 1) * numPerThred)+"的位置");
- new ReadThread(i * numPerThred, (i + 1) * numPerThred,
- outArr[i],keywords,doneSignal).start();
- }
- }
- }catch(Exception e){
- e.printStackTrace();
- }
- // finally{
- //
- // }
- //确认所有线程任务完成,开始执行主线程的操作
- try {
- doneSignal.await();
- } catch (InterruptedException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- //这里需要做个判断,所有做read工作线程全部执行完。
- KeyWordsCount k = KeyWordsCount.getCountObject();
- // Map<String,Integer> resultMap = k.getMap();
- System.out.println("指定关键字出现的次数:"+k.getCount());
- }
- }
- package com.thread.multipl.mysolution;
- /**
- * 统计关键字的对象
- * @author 刘峰管理2
- *
- */
- public class KeyWordsCount {
- private static KeyWordsCount kc;
- private int count = 0;
- private KeyWordsCount(){
- }
- public static synchronized KeyWordsCount getCountObject(){
- if(kc == null){
- kc = new KeyWordsCount();
- }
- return kc;
- }
- public synchronized void addCount(int count){
- System.out.println("增加次数:"+count);
- this.count += count;
- }
- public int getCount() {
- return count;
- }
- public void setCount(int count) {
- this.count = count;
- }
- }
运行结果如下:
每个线程读取的字节数:201260字节
Thread[Thread-0,5,main] 需要读的次数:787
Thread[Thread-1,5,main] 需要读的次数:787
Thread[Thread-2,5,main] 需要读的次数:787
Thread[Thread-3,5,main] 需要读的次数:787
Thread[Thread-4,5,main] 需要读的次数:787
Thread[Thread-5,5,main] 需要读的次数:787
Thread[Thread-6,5,main] 需要读的次数:787
Thread[Thread-7,5,main] 需要读的次数:787
Thread[Thread-8,5,main] 需要读的次数:787
Thread[Thread-9,5,main] 需要读的次数:787
增加次数:0
增加次数:146
增加次数:432
增加次数:539
增加次数:587
增加次数:717
增加次数:631
增加次数:467
增加次数:665
增加次数:538
指定关键字出现的次数:4722
我用10个线程去解析金庸大师写的《倚天屠龙记》,“无忌”这个词在这部小说中一共出现了4722次。实在找不到再大一些的文件了。倚天屠龙记.txt的大小4M出头。
关于CountDownLatch类的作用说明:
在API文档中,已经说明是一个辅助类。用于控制主线程与子线程之间切换的一个工具类。用法网上去搜下。ITEYE里也有人讨论过。我在这里使用它解决这样的问题:在确保10个线程都完成文件的解析工作后,系统调用主线程做剩下该做的事情,即:输出“出现的次数”。不确保这点的话,会导致执行完第4个线程,后面的线程还没开始,系统已经做最后一步输出统计结果,这样就达不到我们要的效果。这里解决方案有另一个简单的,自己写个计数器,从10记到1,10个线程嘛。这个看个人喜好吧。
原文:http://babystudyjava.iteye.com/blog/1732814
JAVA多线程读写文件范例的更多相关文章
- java StringBuffer读写文件
java StringBuffer读写文件 StringBuffer的优势 较String:String每更新一次就会new一个新的对象出来,更新次数上去之后,内存开销太大.而StringBuffer ...
- java io读写文件
java io读写文件相关阅读:http://www.cnblogs.com/wing011203/archive/2013/05/03/3056535.html public class DemoI ...
- java(IO)读写文件乱码转换UTF-8问题
java(IO)读写文件乱码转换UTF-8问题 读取文件 String Content = ""; // 文件很长的话建议使用StringBuffer try { FileInpu ...
- SAE java应用读写文件(TmpFS和Storage)-----绝世好代码
近期不少java用户都在提sae读写本地文件的问题,在这里结合TmpFS和Storage服务说说java应用应该如何读写文件TmpFS是一个供应用临时读写的路径,但请求过后将被销毁.出于安全考虑,sa ...
- SAE java应用读写文件(TmpFS和Storage)
近期不少java用户都在提sae读写本地文件的问题,在这里结合TmpFS和Storage服务说说java应用应该如何读写文件TmpFS是一个供应用临时读写的路径,但请求过后将被销毁.出于安全考虑,sa ...
- java 多线程下载文件 以及URLConnection和HttpURLConnection的区别
使用 HttpURLConnection 实现多线程下载文件 注意GET大写//http public class MultiThreadDownload { public static void m ...
- Java基础--读写文件
Java读写文件需要注意异常的处理,下面是一个例子 写文件 public class WriteFile { public static void write(String file, String ...
- 顺序、随机IO和Java多种读写文件性能对比
概述 对于磁盘的读写分为两种模式,顺序IO和随机IO. 随机IO存在一个寻址的过程,所以效率比较低.而顺序IO,相当于有一个物理索引,在读取的时候不需要寻找地址,效率很高. 基本流程 总体结构 我们编 ...
- java 多线程下载文件并实时计算下载百分比(断点续传)
多线程下载文件 多线程同时下载文件即:在同一时间内通过多个线程对同一个请求地址发起多个请求,将需要下载的数据分割成多个部分,同时下载,每个线程只负责下载其中的一部分,最后将每一个线程下载的部分组装起来 ...
随机推荐
- elk系列7之通过grok分析apache日志【转】
preface 说道分析日志,我们知道的采集方式有2种: 通过grok在logstash的filter里面过滤匹配. logstash --> redis --> python(py脚本过 ...
- 「caffe编译bug」.build_release/lib/libcaffe.so: undefined reference to cv::imread
转自:https://www.douban.com/note/568788483/ CXX/LD -o .build_release/tools/convert_imageset.bin.build_ ...
- highcharts自定义导出文件格式(csv) highcharts的一些使用心得
highcharts是国外的一个图表插件,包括各种数据图形展示,柱形图,线性图等等,是手机端和pc端最好的图表插件之一,相比于百度的echarts更加轻便和易懂.链接http://www.hchart ...
- springboot 零xml集成mybatis
maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="htt ...
- 搭建简单的CGI应用程序
原文来源于<核心编程3>第10章web编程 一.静态文件+脚本文件 1.首先开启cgiweb服务器 python2 -m CGIHTTPServer 8000 看到如下反应 2.服务器目录 ...
- 使用STL sort对字符串按字典序排序
使用string数组 #include<iostream> #include<string> #include<algorithm> using namespace ...
- Deepin 2015 安装惠普打印机驱动
参考:https://bbs.deepin.org/forum.php?mod=viewthread&tid=34749&extra= 1.安装新立得包管理器:sudo apt-get ...
- PHP原理之变量
作者: Laruence( ) 本文地址: http://www.laruence.com/2008/08/22/412.html 转载请注明出处 或许你知道,或许你不知道,PHP是一个弱类型,动 ...
- JS 数组求 最大值、最小值、平均值以及求和方法
function arrMaxNum2(arr) { return Math.max.apply(null, arr); } function arrMinNum2(arr) { return Mat ...
- POJ1284 Primitive Roots [欧拉函数,原根]
题目传送门 Primitive Roots Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 5434 Accepted: ...