解决java读取大文件内存溢出问题

1. 传统方式：在内存中读取文件内容

　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：
　　　Files.readLines(new File(path), Charsets.UTF_8);
　　　FileUtils.readLines(new File(path));
　　　实际上是使用BufferedReader或者其子类LineNumberReader来读取的。
　　传统方式的问题：是文件的所有行都被存放在内存中，当文件足够大时很快就会导致程序抛出OutOfMemoryError 异常。

　　问题思考：我们通常不需要把文件的所有行一次性地放入内存中，相反，我们只需要遍历文件的每一行，然后做相应的处理，处理完之后把它扔掉。所以我们可以通过行迭代方式来读取，而不是把所有行都放在内存中。

2. 大文件读取处理方式

　不重复读取与不耗尽内存的情况下处理大文件:

（1）文件流方式：使用java.util.Scanner类扫描文件的内容，一行一行连续地读取

FileInputStream inputStream = null;

Scanner sc = null;

try {

    inputStream = new FileInputStream(path);

    sc = new Scanner(inputStream, UTF-8);

    while (sc.hasNextLine()) {

        String line = sc.nextLine();

        // System.out.println(line);

     }

}catch(IOException e){

       logger.error(e);

}finally {

     if (inputStream != null) {

        inputStream.close();

     }

     if (sc != null) {

             sc.close();

         }

}

　　该方案将会遍历文件中的所有行，允许对每一行进行处理，而不保持对它的引用。总之没有把它们存放在内存中！

（2）Apache Commons IO流：使用Commons IO库实现，利用该库提供的自定义LineIterator

LineIterator it = FileUtils.lineIterator(theFile, UTF-8);

try {

    while (it.hasNext()) {

    String line = it.nextLine();

    // do something with line

     }

} finally {

   LineIterator.closeQuietly(it);

}

该方案由于整个文件不是全部存放在内存中，这也就导致相当保守的内存消耗。

解决java读取大文件内存溢出问题的更多相关文章

关于解决java读取excel文件遇空行抛空指针的问题！
关于解决java读取excel文件遇空行抛空指针的问题 ! package exceRead; import java.io.File; import java.io.FileInputStream; ...
java读取 500M 以上文件,java读取大文件
java 读取txt,java读取大文件设置缓存大小BUFFER_SIZE ,Config.tempdatafile是文件地址来源博客http://yijianfengvip.blog.163.c ...
java 读取txt,java读取大文件
java 读取txt,java读取大文件 package com.bbcmart.util; import java.io.File;import java.io.RandomAccessFile;i ...
Java读取大文件的高效率实现
1.概述本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung (http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 ...
java读取大文件超大文件的几种方法
java 读取一个巨大的文本文件既能保证内存不溢出又能保证性能 import java.io.BufferedReader; import java.io.File; import jav ...
java读取大文件
1 多线程 2 java内存映射读取大文件
Java 读取大文件方法
需求:实际开发中读取文本文件的需求还是很多,如读取两个系统之间FTP发送文件,读取后保存到数据库中或日志文件的数据库中保存等. 为了测试首先利用数据库SQL生成大数据文件. 规则是编号|姓名|手机号 ...
java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）
现在需要快算分析一个2g的csv文件: 基于掌握的知识,使用java按行读取文件,批量导入数据到es, 然后利用es强大的聚合能力分析数据,2个小时搞定! package com.example.de ...
【poi】解决java导出excel 海量数据内存溢出问题
转自百度经验:http://jingyan.baidu.com/article/4853e1e5202c331909f72627.html 那里排版忒恶心,转来这里. 由于项目中有导出海量数据的需求, ...

随机推荐

nodejs11安装教程(升级最新版本)
nodejs需要不断升级,那么电脑如何安装nodejs11呢,下面将通过亲身实践来详细介绍工具/原料电脑 nodejs11安装包方法/步骤访问node11官网,下载安装包,如下 ...
bzoj1808 [Ioi2007]training 训练路径
Description 马克(Mirko)和斯拉夫克(Slavko)正在为克罗地亚举办的每年一次的双人骑车马拉松赛而紧张训练.他们需要选择一条训练路径. 他们国家有N个城市和M条道路.每条道路连接两个 ...
AOP的核心：代理与织入
分为两步: 1.动态生成代理类: 2.织入: 2.6 织入(Weaving) 织入是将增强添加到目标的具体连接点上的过程 . AOP 织入方式: 方式实现应用编译期织入特殊的 Java 编译器. ...
Apache去掉index.php
把 #LoadModule rewrite_module modules/mod_rewrite.so 前面的#去掉, 再把权限AllowOverride None都改为AllowOverride A ...
SSM框架之批量增加示例(同步请求jsp视图解析)
准备环境:SSM框架+JDK8/JDK7+MySQL5.7+MAVEN3以上+Tomcat8/7应用服务器示例说明: 分发给用户优惠券,通过checkbox选中批量分发,对应也就是批量增加. 对于公 ...
【转】numpy-array自带的迭代器-----np.nditer
转自:https://www.jianshu.com/p/f2bd63766204 it = np.nditer(x, flags=['multi_index'], op_flags=['readwr ...
Google 地图切片URL地址解析
一.Google地图切片的投影方式及瓦片索引机制 1.地图投影 Google地图采用的是Web墨卡托投影(如下图),为了方便忽略了两极变形较大的地区,把世界地图做成了一个边长等于赤道周长的正方形(赤道 ...
Kafka设计解析（十二）Kafka 如何读取offset topic内容 (__consumer_offsets)
转载自 huxihx,原文链接 Kafka 如何读取offset topic内容 (__consumer_offsets) 众所周知,由于Zookeeper并不适合大批量的频繁写入操作,新版Kafka ...
非const引用参数传入不同类型编译不过的理解（拒绝将临时对象绑定为非const的引用的形参是有道理的）
int f (int & I) { cout<<I<<std::endl; } void main() { long L; f(L); // 编译不过 f((int)L ...
java课设数据库打包报错
最近在交java课设时把东西打包给老师遇到许多奇葩问题, 首先是数据库复制时提示: 这是数据库与SQL server服务没有分离(我用的是SQLserver暂时,对于其他的,我以后会继续尝试)可以进行 ...

解决java读取大文件内存溢出问题

解决java读取大文件内存溢出问题的更多相关文章

随机推荐

热门专题