Java快速读取大文件

最近公司服务器监控系统需要做一个东西来分析Java应用程序的日志。

第一步探索:

首先我想到的是使用RandomAccessFile,因为他可以很方便的去获取和设置文件指针,下面是我的代码。

package cn.mucang.exception.analyzer;

import cn.mucang.exception.analyzer.analyze.LogAnalyzer;
import cn.mucang.exception.analyzer.config.AnalyseConfig;
import cn.mucang.exception.analyzer.support.DefaultLogLineBuilder;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory; import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.RandomAccessFile; /**
* @author Gao Youbo
* @since 2015/3/16.
*/
public class LogUtils { private static final Logger LOG = LoggerFactory.getLogger(LogUtils.class); /**
* 分析日志
*
* @param analyzer 分析器
* @throws IOException
*/
public static void analyse(LogAnalyzer analyzer) throws IOException {
AnalyseConfig analyseConfig = analyzer.getAnalyseConfig();
File file = new File(analyseConfig.getPath());
LOG.info("开始分析日志文件...{}", file.getAbsolutePath());
if (!file.exists()) {
throw new IOException("日志文件不存在:" + analyseConfig);
}
if (analyseConfig.getFilePointer() < 0) {
analyseConfig.setFilePointer(0);
} FileInputStream stream = new FileInputStream(file);
InputStreamReader reader = new InputStreamReader(stream);
BufferedReader bufferedReader = new BufferedReader(reader);
try (RandomAccessFile logFile = new RandomAccessFile(file, "r")) {
long length = logFile.length();
analyzer.getAnalyseConfig().setFileLenght(length); //设置文件字节长度
if (analyseConfig.getFilePointer() > length) {
throw new IllegalArgumentException("开始指针位置越界");
} else {
logFile.seek(analyseConfig.getFilePointer());
}
String line; //行数据
int lineNumber = analyseConfig.getLineNumber(); //行号
DefaultLogLineBuilder lb = null;
long start = System.currentTimeMillis();
while ((line = logFile.readLine()) != null) {
bufferedReader.readLine();
lineNumber++;
long filePointer = logFile.getFilePointer();
if (ParseUtils.isNewLine(lineNumber, line)) {
if (lb != null) {
analyzer.analyse(lb.getLogLine());
}
lb = new DefaultLogLineBuilder();
}
if (lb != null) {
lb.append(lineNumber, filePointer, line);
if (length == logFile.getFilePointer()) { //文档读取完了,调用一下分析
analyzer.analyse(lb.getLogLine());
}
}
if (lineNumber % 10000 == 0) {
long end = System.currentTimeMillis();
System.out.println(String.format("line=%s, used=%sms", lineNumber, end - start));
start = System.currentTimeMillis();
}
}
}
} }

下面看一下性能,分析一万行日志平均需要1500毫秒,因为我的日志分析使用到了正则,开始速度慢我以为是大量的正则运算造成的。

第二部探索:

我自己写了一个LogReader,自己控制指针位置。下面看一下代码:

package cn.mucang.exception.analyzer;

import java.io.BufferedReader;
import java.io.Closeable;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader; /**
* @author Gao Youbo
* @since 2015-03-25 09:02
*/
public class LogReader implements Closeable {
/**
* 文件大小
*/
private long length;
/**
* 文件指针位置
*/
private long filePointer;
private FileInputStream inputStream;
private InputStreamReader inputStreamReader;
private BufferedReader bufferedReader; public LogReader(File logFile) throws FileNotFoundException {
this.inputStream = new FileInputStream(logFile);
this.inputStreamReader = new InputStreamReader(inputStream);
this.bufferedReader = new BufferedReader(inputStreamReader);
this.length = logFile.length();
} public int read() throws IOException {
filePointer++;
return bufferedReader.read();
} public String readLine() throws IOException {
StringBuffer input = new StringBuffer();
int c = -1;
boolean eol = false; //end of line
while (!eol) {
switch (c = read()) {
case -1:
case '\n':
eol = true;
break;
case '\r':
eol = true;
long cur = getFilePointer();
if ((read()) != '\n') {
skip(cur);
}
default:
input.append((char) c);
break;
}
}
if ((c == -1) && (input.length() == 0)) {
return null;
}
return input.toString();
} /**
* 获取当前读取到的指针
*
* @return
* @throws IOException
*/
public long getFilePointer() throws IOException {
return filePointer;
} /**
* 从当前位置跳过n个char
*
* @param n
* @return 实际跳过多少个char
* @throws IOException
*/
public long skip(long n) throws IOException {
return inputStreamReader.skip(n);
} /**
* 返回日志文件的大小
*
* @return
*/
public long length() {
return length;
} @Override
public void close() throws IOException {
if (bufferedReader != null) {
bufferedReader.close();
}
if (inputStreamReader != null) {
inputStreamReader.close();
}
if (inputStream != null) {
inputStream.close();
}
}
} package cn.mucang.exception.analyzer; import cn.mucang.exception.analyzer.analyze.LogAnalyzer;
import cn.mucang.exception.analyzer.config.AnalyseConfig;
import cn.mucang.exception.analyzer.support.DefaultLogLineBuilder;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory; import java.io.File;
import java.io.IOException; /**
* @author Gao Youbo
* @since 2015/3/16.
*/
public class LogUtils { private static final Logger LOG = LoggerFactory.getLogger(LogUtils.class); /**
* 分析日志
*
* @param analyzer 分析器
* @throws java.io.IOException
*/
public static void analyse(LogAnalyzer analyzer) throws IOException {
AnalyseConfig analyseConfig = analyzer.getAnalyseConfig();
File file = new File(analyseConfig.getPath());
System.out.println(file.getAbsolutePath());
LOG.info("开始分析日志文件...{}", file.getAbsolutePath());
if (!file.exists()) {
throw new IOException("日志文件不存在:" + analyseConfig);
}
if (analyseConfig.getFilePointer() < 0) {
analyseConfig.setFilePointer(0);
}
try (LogReader logReader = new LogReader(file)) {
long length = logReader.length();
analyzer.getAnalyseConfig().setFileLenght(length); //设置文件字节长度
if (analyseConfig.getFilePointer() > length) {
throw new IllegalArgumentException("开始指针位置越界");
} else {
logReader.skip(analyseConfig.getFilePointer());
}
String line; //行数据
int lineNumber = analyseConfig.getLineNumber(); //行号
DefaultLogLineBuilder lb = null;
long start = System.currentTimeMillis();
while ((line = logReader.readLine()) != null) {
lineNumber++;
long filePointer = logReader.getFilePointer();
if (ParseUtils.isNewLine(lineNumber, line)) {
if (lb != null) {
analyzer.analyse(lb.getLogLine());
}
lb = new DefaultLogLineBuilder();
}
if (lb != null) {
lb.append(lineNumber, filePointer, line);
if (length == filePointer) { //文档读取完了,调用一下分析
analyzer.analyse(lb.getLogLine());
}
}
if (lineNumber % 10000 == 0) {
long end = System.currentTimeMillis();
System.out.println(String.format("line=%s, used=%s", lineNumber, end - start));
start = System.currentTimeMillis();
}
}
}
}
}

接下来是测试的性能:

日志解析速度提高了10倍。

Java快速读取大文件的更多相关文章

  1. C++快速读取大文件

    debug的时候需要等很长时间读模型,查资料发现了两种快速读取大文件的方法. test 1:每次读一个字符串 test 2.3一次读取整个文件 {//test 1 string buf; clock_ ...

  2. PHP几个快速读取大文件例子

    PHP几个快速读取大文件例子 感谢 把我给崩了 的投递 时间:2014-10-16 来源:三联 在PHP中,对于文件的读取时,最快捷的方式莫过于使用一些诸如file.file_get_contents ...

  3. Java高效读取大文件

    1.概述 本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung (http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 ...

  4. Java高效读取大文件(转)

    1.概述 本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung(http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 读 ...

  5. Java多线程读取大文件

    前言 今天是五一假期第一天,按理应该是快乐玩耍的日子,但是作为一个北漂到京师的开发人员,实在难想出去那玩耍.好玩的地方比较远,近处又感觉没意思.于是乎,闲着写篇文章,总结下昨天写的程序吧. 昨天下午朋 ...

  6. PHP如何快速读取大文件

    在PHP中,对于文件的读取时,最快捷的方式莫过于使用一些诸如file.file_get_contents之类的函数,简简单单的几行代码就能 很漂亮的完成我们所需要的功能.但当所操作的文件是一个比较大的 ...

  7. 【转】PHP如何快速读取大文件

    在PHP中,对于文件的读取时,最快捷的方式莫过于使用一些诸如file.file_get_contents之类的函数,简简单单的几行代码就能 很漂亮的完成我们所需要的功能.但当所操作的文件是一个比较大的 ...

  8. java nio 读取大文件

    package com.yao.bigfile; import java.io.File; import java.io.IOException; import java.io.RandomAcces ...

  9. Java读取大文件的高效率实现

    1.概述 本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung (http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 ...

随机推荐

  1. extjs grid 列顺序紊乱问题

    这个问题描述类似 关于extjs表格列展示顺序问题 明明在columns定义好了,理应按照里面的顺序输出嘛,但偏不,原本应该列在第一位的,结果忽而在最后,忽而在中间,忽忽何所似,天地一狗屎. 在谷歌里 ...

  2. Hibernate中Criteria的完整用法?

    http://www.cnblogs.com/mabaishui/archive/2009/10/16/1584510.html

  3. leetcode 656. Coin Path

    Given an array A (index starts at 1) consisting of N integers: A1, A2, ..., AN and an integer B. The ...

  4. POJ3264 Balanced Lineup —— 线段树单点更新 区间最大最小值

    题目链接:https://vjudge.net/problem/POJ-3264 For the daily milking, Farmer John's N cows (1 ≤ N ≤ 50,000 ...

  5. HDU - 4333 Revolving Digits(拓展kmp+最小循环节)

    1.给一个数字字符串s,可以把它的最后一个字符放到最前面变为另一个数字,直到又变为原来的s.求这个过程中比原来的数字小的.相等的.大的数字各有多少. 例如:字符串123,变换过程:123 -> ...

  6. iOS 7 present/dismiss转场动画

    前言 iOS 7以后提供了自定义转场动画的功能,我们可以通过遵守协议完成自定义转场动画.本篇文章讲解如何实现自定义present.dismiss自定义动画. 效果图 本篇文章实现的动画切换效果图如下: ...

  7. hdu4417(离线操作 + 树状数组)

    题意: 给定一个长度为n的数组,有m次的查询,每次查询[a,b]区间里比H小的数有多少个? 由于n和m的取值范围为0到10的5次方,所以直接回答会超时,所以考虑先读入所有的查询操作,然后依次回答比H小 ...

  8. 使用MvcMiniProfiler调试ASP.NET MVC网站性能

    http://www.cnblogs.com/qiuliang/archive/2011/12/01/2270909.html 使用MiniProfiler给Asp.net MVC和Entity Fr ...

  9. 【黑金教程笔记之006】【建模篇】【Lab 05 SOS信号之一】—笔记

    sos_module.v是产生SOS信号的功能模块.即有次序的输出莫斯码:点.画.间隔.control_module.v是一个定时触发器,每一段时间使能sos_module.v. 模块: /***** ...

  10. IPC进程之间通信的几种方式

    概念 进程间通信就是在不同进程之间传播或交换信息,那么不同进程之间存在着什么双方都可以访问的介质呢?进程的用户空间是互相独立的,一般而言是不能互相访问的,唯一的例外是 共享内存区 .但是,系统空间却是 ...