Java读写大文本文件（2GB以上）

如下的程序，将一个行数为fileLines的文本文件平均分为splitNum个小文本文件，其中换行符'r'是linux上的，windows的java换行符是'\r\n'：

package kddcup2012.task2.FileSystem;  

import java.io.BufferedInputStream;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStreamReader;  

public class FileSplit

{

    public static void main(String[] args) throws IOException

    {

        long timer = System.currentTimeMillis();

        int bufferSize = 20 * 1024 * 1024;//设读取文件的缓存为20MB   

        //建立缓冲文本输入流

        File file = new File("/media/Data/毕业设计/kdd cup/数据/userid_profile.txt");

        FileInputStream fileInputStream = new FileInputStream(file);

        BufferedInputStream bufferedInputStream = new BufferedInputStream(fileInputStream);

        InputStreamReader inputStreamReader = new InputStreamReader(bufferedInputStream);

        BufferedReader input = new BufferedReader(inputStreamReader, bufferSize);  

        int splitNum = 112-1;//要分割的块数减一

        int fileLines = 23669283;//输入文件的行数

        long perSplitLines = fileLines / splitNum;//每个块的行数

        for (int i = 0; i <= splitNum; ++i)

        {

            //分割

            //每个块建立一个输出

            FileWriter output = new FileWriter("/home/haoqiong/part" + i + ".txt");

            String line = null;

            //逐行读取，逐行输出

            for (long lineCounter = 0; lineCounter < perSplitLines && (line = input.readLine()) != null; ++lineCounter)

            {

                output.append(line + "\r");

            }

            output.flush();

            output.close();

            output = null;

        }

        input.close();

        timer = System.currentTimeMillis() - timer;

        System.out.println("处理时间：" + timer);

    }

}

以上程序处理大文本文件只需要30MB左右的内存空间（这和所设的读取缓冲大小有关），但是速度不是很快，在磁盘没有其他程序占用的情况下，将200MB文件分割为112份需要20秒（机器配置：Centrino2 P7450 CPU，2GB DDR3内存，Ubuntu 11.10系统，硬盘最大读写速度大约60MB/S）。

另外，对于几百兆到2GB大小的文件，使用内存映射文件的话，速度会块一些，但是内存映射由于映射的文件长度不能超过java中int类型的最大值，所以只能处理2GB以下的文件。

java 读取一个巨大的文本文件既能保证内存不溢出又能保证性能

package helloword.helloword;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileReader;

import java.io.RandomAccessFile;

import java.nio.ByteBuffer;

import java.nio.MappedByteBuffer;

import java.nio.channels.FileChannel;

public class ReadBig {

    public static String fff = "C:\\mq\\read\\from.xml";

    public static void main1(String[] args) throws Exception {

        final int BUFFER_SIZE = 0x300000;// 缓冲区大小为3M

        File f = new File(fff);

        MappedByteBuffer inputBuffer = new RandomAccessFile(f, "r").getChannel().map(FileChannel.MapMode.READ_ONLY,

                f.length() / 2, f.length() / 2);

        byte[] dst = new byte[BUFFER_SIZE];// 每次读出3M的内容

        long start = System.currentTimeMillis();

        for (int offset = 0; offset < inputBuffer.capacity(); offset += BUFFER_SIZE) {

            if (inputBuffer.capacity() - offset >= BUFFER_SIZE) {

                for (int i = 0; i < BUFFER_SIZE; i++)

                    dst[i] = inputBuffer.get(offset + i);

            } else {

                for (int i = 0; i < inputBuffer.capacity() - offset; i++)

                    dst[i] = inputBuffer.get(offset + i);

            }

            int length = (inputBuffer.capacity() % BUFFER_SIZE == 0) ? BUFFER_SIZE

                    : inputBuffer.capacity() % BUFFER_SIZE;

            System.out.println(new String(dst, 0, length));// new

            // String(dst,0,length)这样可以取出缓存保存的字符串，可以对其进行操作

        }

        long end = System.currentTimeMillis();

        System.out.println("读取文件文件一半内容花费：" + (end - start) + "毫秒");

    }

    public static void main2(String[] args) throws Exception {

        int bufSize = 1024;

        byte[] bs = new byte[bufSize];

        ByteBuffer byteBuf = ByteBuffer.allocate(1024);

        FileChannel channel = new RandomAccessFile(fff, "r").getChannel();

        while (channel.read(byteBuf) != -1) {

            int size = byteBuf.position();

            byteBuf.rewind();

            byteBuf.get(bs); // 把文件当字符串处理，直接打印做为一个例子。

            System.out.print(new String(bs, 0, size));

            byteBuf.clear();

        }

    }

    public static void main3(String[] args) throws Exception {

        BufferedReader br = new BufferedReader(new FileReader(fff));

        String line = null;

        while ((line = br.readLine()) != null) {

            System.out.println(line);

        }

    }

    public static void main(String[] args) throws Exception {

        int bufSize = 1024;

        byte[] bs = new byte[bufSize];

        ByteBuffer byteBuf = ByteBuffer.allocate(1024);

        FileChannel channel = new RandomAccessFile("d:\\filename", "r").getChannel();

        while (channel.read(byteBuf) != -1) {

            int size = byteBuf.position();

            byteBuf.rewind();

            byteBuf.get(bs);

            // 把文件当字符串处理，直接打印做为一个例子。

            System.out.print(new String(bs, 0, size));

            byteBuf.clear();

        }

    }

}

java 读取大容量文件，内存溢出？怎么按几行读取，读取多次。最佳答案

package helloword.helloword;

import java.io.BufferedInputStream;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.RandomAccessFile;

import java.util.Scanner;

public class TestPrint {

    public static void main(String[] args) throws IOException {

        String path = "你要读的文件的路径";

        RandomAccessFile br = new RandomAccessFile(path, "rw");// 这里rw看你了。要是之都就只写r

        String str = null, app = null;

        int i = 0;

        while ((str = br.readLine()) != null) {

            i++;

            app = app + str;

            if (i >= 100) {// 假设读取100行

                i = 0;

                // 这里你先对这100行操作，然后继续读

                app = null;

            }

        }

        br.close();

    }

    // 当逐行读写大于2G的文本文件时推荐使用以下代码

    void largeFileIO(String inputFile, String outputFile) {

        try {

            BufferedInputStream bis = new BufferedInputStream(new FileInputStream(new File(inputFile)));

            BufferedReader in = new BufferedReader(new InputStreamReader(bis, "utf-8"), 10 * 1024 * 1024);// 10M缓存

            FileWriter fw = new FileWriter(outputFile);

            while (in.ready()) {

                String line = in.readLine();

                fw.append(line + " ");

            }

            in.close();

            fw.flush();

            fw.close();

        } catch (IOException ex) {

            ex.printStackTrace();

        }

    }

}

jdk本身就支持超大文件的读写。

网上的文章基本分为两大类:

一类是使用BufferedReader类读写超大文件；

另一类是使用RandomAccessFile类读取，经过比较，最后使用了前一种方式进行超大文件的读取，下面是相关代码，其实很简单

-------------------------------------------------------------------

File file = new File(filepath);

BufferedInputStream fis = new BufferedInputStream(new FileInputStream(file));

BufferedReader reader = new BufferedReader(new InputStreamReader(fis,"utf-8"),5*1024*1024);// 用5M的缓冲读取文本文件  

String line = "";

while((line = reader.readLine()) != null){

   //TODO: write your business

}

---------------------------------------------------------------------

注意代码，在实例化BufferedReader时，增加一个分配缓存的参数即可

Java读写大文本文件（2GB以上）的更多相关文章

java读写大文件
java读写2G以上的大文件(推荐使用以下方法) static String sourceFilePath = "H:\\DataSource-ready\\question.json&qu ...
java读取大文本文件
原文:http://blog.csdn.net/k21325/article/details/53886160 小文件当然可以直接读取所有,然后放到内存中,但是当文件很大的时候,这个方法就行不通了,内 ...
java filechannel大文件的读写
java读取大文件超大文件的几种方法转自:http://wgslucky.blog.163.com/blog/static/97562532201332324639689/ java 读取一个 ...
Java读写文本文件操作
package com.test; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; ...
java处理大文本2G以上
面试中经常碰到类似问题,问题的关键我觉得是用设置一个缓冲区还有一个思路是通过Linux split 命令将文件直接切割成小文件,再进行处理再汇总. 或者jdk7提供的 forkjoin 框架,利用 ...
Java查询大文本
但JAVA本身缺少相应的类库,需要硬编码才能实现结构化文件计算,代码复杂且可读性差,难以实现高效的并行处理. 使用免费的集算器可以弥补这一不足.集算器封装了丰富的结构化文件读写和游标计算函数,书写简单 ...
java读写文件大全
java读写文件大全最初java是不支持对文本文件的处理的,为了弥补这个缺憾而引入了Reader和Writer两个类,这两个类都是抽象类,Writer中 write(char[] ch,int o ...
java读写
IO流下分为字节流与字符流,每个流又分为输入输出以及读写. 字节流的两个基类为InputStream与OutputStream. 字符流为Reader和Writer
【Java】大文本字符串滤重的简单方案~
本文章也同步至本人的CSDN博客中: http://blog.csdn.net/u012881584/article/details/70477832 今天来说一个Java中处理大文本字符串虑重的两个 ...

随机推荐

5分钟理解iaas paas saas三种云服务区别
随着云计算的大热,向我咨询云计算相关问题的童鞋也越来越多,其中最近问的比较多的一个问题便是云计算中的pass是什么意思?整好今天有空,统一给大家解释下pass是什么意思?和Iass.Sass之间有什么 ...
Keil 4.7a版本问题&Jlink Clone问题
听PP说Keil 4.7A新出,支持代码自动补全.激动之至,keil官网急填,下载安装. 问题即刻遇见①,电脑蓝屏,安装包损坏.当下载安装包未下载完时,续传安装包没用了.还是重下载吧,免得浪费时间. ...
wordpress可视化编辑器的开启/关闭
这个可视化编辑器还真是有些难找,在后台菜单“用户”->"我的个人资料" 对以下勾选即可
php 写入数据到MySQL以及从MySQL获取数据，页面出现乱码的解决方法
现象如标题. 解决思路: 1确定数据库charset是否是utf-8 a. charset不是utf-8 1, 更改数据库charset为utf-8 ALTER DATABASE db_name DE ...
java读写中文文件
在用Java程序进行读写含中文的txt文件时,经常会出现读出或写入的内容会出现乱码.原因其实很简单,就是系统的编码和程序的编码采用了不同的编码格式.通常,假如自己不修改的话,windows自身采用的编 ...
DOJO 八 event dojo/on
官网教程:Events with Dojo在元素上绑定events,需要引用包dojo/on,通过on方法来实现. <button id="myButton">Clic ...
leetcode：Rectangle Area
Find the total area covered by two rectilinear rectangles in a 2D plane. Each rectangle is defined b ...
JSON 之 SuperObject(1)
一直盼着 Delphi 能够直接支持 "正则表达式" 与 "JSON"; Delphi 2009 刚来的时候, 有了 JSON, 但不好, 那时尝试过一点. 这 ...
今天maven install时碰到的两个问题（堆溢出和编译错误）
问题1.maven install时出现,日志如下: 系统资源不足.有关详细信息,请参阅以下堆栈追踪. java.lang.OutOfMemoryError: Java heap space at c ...
JavaScript关闭窗口的方法
当你创建了一个新窗口时,将open()方法的返回值分配给一个变量非常重要.比如,下面的语句就是创建一个新窗口,然后立即关闭它: win = window.open("http://www.d ...

Java读写大文本文件（2GB以上）

Java读写大文本文件（2GB以上）的更多相关文章

随机推荐

热门专题