背景:有时候服务运行的日志文件,需要统计分析,但数据量很大,并且直接在文件中看很不直观,这时可以将文件中的内容导入到数据库,入库后的数据就可以按照需求进行统计分析了。

这个是以服务器的访问日志作为示例,一个日志文件中一行的数据格式如下(文件夹中有多个日志文件):

[/Aug/::: +] ******* -  "-" "GET https://****/****/image57.png"    HIT "******" "image/png"

下面就是具体的读取文件,然后插入到数据库的过程,代码如图:

package com.mobile.web.api;

import com.mobile.commons.JsonResp;
import com.mobile.model.LogInfo;
import com.mobile.service.LogInfoService;
import org.apache.commons.lang3.StringUtils;
import org.apache.log4j.Logger;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.transaction.annotation.Transactional;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RestController; import java.io.*;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.Locale; @RestController
@RequestMapping(value = "/test")
@Transactional
public class ImportController {
Logger log = Logger.getLogger(this.getClass()); @Autowired
private LogInfoService logInfoService; @RequestMapping(value = "/importTxt", method = RequestMethod.GET)
public JsonResp importTxt() throws IOException, ParseException {
log.debug("开始导入数据"); String encoding = "GBK";
List logInfoList = new ArrayList();
String dir = "E:\\test\\log";
File[] files = new File(dir).listFiles();
for (File file : files){           //循环文件夹中的文件
if (file.isFile() && file.exists()) { //判断文件是否存在
importFile(file, encoding, logInfoList); //将文件中的数据读取出来,并存放进集合中
} else {
return JsonResp.toFail("文件不存在,请检查文件位置!");
}
} Boolean insertFlag = logInfoService.insertBatch(logInfoList); //将集合中的数据批量入库
if (!insertFlag) {
return JsonResp.toFail("保存失败");
}
return JsonResp.ok();
}   /** 读取数据,存入集合中 */
public static void importFile(File file, String encoding, List logInfoList) throws IOException, ParseException {
InputStreamReader read = null;//考虑到编码格式
try {
read = new InputStreamReader(
new FileInputStream(file), encoding);  //输入流
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
} catch (FileNotFoundException e) {
e.printStackTrace();
}
BufferedReader bufferedReader = new BufferedReader(read);
String lineTxt = null;
SimpleDateFormat sdf = new SimpleDateFormat("[dd/MMM/yyyy:HH:mm:ss Z]", Locale.US); //时间格式化,此处有坑,下边会说到
while ((lineTxt = bufferedReader.readLine()) != null) {  //读取文件内容
String[] lineArr = lineTxt.split(" ");
int len = lineArr.length;
LogInfo logInfo = new LogInfo();     //封装实体对象做入库准备
String logDate = lineArr[] + " " + lineArr[];
System.out.println(sdf.parse(logDate)); //.............时间转换问题
logInfo.setLog1(sdf.parse(logDate));
logInfo.setLog2(lineArr[]);
logInfo.setLog3(lineArr[]);
logInfo.setLog4(lineArr[]);
logInfo.setLog5(lineArr[].substring(, lineArr[].length() - ));
logInfo.setLog6(lineArr[].substring());
logInfo.setLog8(lineArr[].substring(, lineArr[].length() - ));
String accessUrl = lineArr[];
String[] accessUrlArr = accessUrl.split("/");
logInfo.setItemName(accessUrlArr[]);
logInfo.setLog9(lineArr[]);
logInfo.setLog10(lineArr[]);
logInfo.setLog11(lineArr[]);
logInfo.setLog12(lineArr[]);
String[] uaHead = new String[len - ];
System.arraycopy(lineArr, , uaHead, , len - );//数组拷贝,a表示源数组,b表示源数组要复制的起始位置,c表示目标数组,d表示目标数组起始位置,e表示要复制的长度。
logInfo.setLog13(StringUtils.join(uaHead));
logInfo.setFileType(lineArr[len - ]); logInfoList.add(logInfo);
}
read.close(); //输入流关闭 } }

文件导入,成功;

    log文件夹下的结构如下图:

    

时间转换时的坑

  SimpleDateFormat sdf = new SimpleDateFormat("[dd/MMM/yyyy:HH:mm:ss Z]", Locale.US);

  字符串转时间时:英文简写为英文格式,而转换时JRE会按照当前地区的语言格式,所以转换失败

  解决方法:带上Locale.US参数

  详细解决可参考:https://www.cnblogs.com/mufengforward/p/9480102.html

此时,如果数据量特别大时,会出现入库慢的情况,有另一种方法是:读取文件后,将数据按照想要的格式存如新文件中,然后用sql语句(或navicat客户端)导入文件;

www.feng16.com

java批量读取多个文件并存入数据库的更多相关文章

  1. Spark1.6.2 java实现读取json数据文件插入MySql数据库

    public class Main implements Serializable { /** * */ private static final long serialVersionUID = -8 ...

  2. 使用JAVA API读取HDFS的文件数据出现乱码的解决方案

    使用JAVA api读取HDFS文件乱码踩坑 想写一个读取HFDS上的部分文件数据做预览的接口,根据网上的博客实现后,发现有时读取信息会出现乱码,例如读取一个csv时,字符串之间被逗号分割 英文字符串 ...

  3. Java项目读取resources资源文件路径那点事

    今天在Java程序中读取resources资源下的文件,由于对Java结构了解不透彻,遇到很多坑.正常在Java工程中读取某路径下的文件时,可以采用绝对路径和相对路径,绝对路径没什么好说的,相对路径, ...

  4. java使用stream流批量读取并合并文件,避免File相关类导致单文件过大造成的内存溢出。

    import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.F ...

  5. java读取本地txt文件并插入数据库

    package com.cniia.ny.web.control.configManage; import java.io.BufferedReader; import java.io.File; i ...

  6. Java中读取properties资源文件

    一.通过ResourceBundle来读取.properties文件 /** * 通过java.util.resourceBundle来解析properties文件. * @param String ...

  7. stream流批量读取并合并文件

    import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.F ...

  8. Java 批量反编译class文件,并保持目录结构

    jad -o -r -d d:\src -s java C:\Users\spring\Desktop\egorder3.0\WEB-INF\classes\**\*.class -o - overw ...

  9. java nio读取和写入文件

    读取 package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputS ...

随机推荐

  1. 区间DP初探 P1880 [NOI1995]石子合并

    https://www.luogu.org/problemnew/show/P1880 区间dp,顾名思义,是以区间为阶段的一种线性dp的拓展 状态常定义为$f[i][j]$,表示区间[i,j]的某种 ...

  2. 《从0到1》深度阅读笔记zz

    没有人能精准地预测未来,我们只知道两件事:一是世界必然会变得不同:二是现在再好的描述也不能让我们看到清晰的未来. 创业者把成就归功于商业模式和机会窗口,归功于创业者本人拥有的资源和能力,但还有一个最重 ...

  3. 关于oracle的锁表解决session marked for kill

    oracle 使用的过程中,有时候会遇到锁表的情况,数据库增.删.改.查都是会锁表的,但是锁的类型会不同, 大多是行锁,部分会是表锁. 在oracle运行中,一直是有表在锁的,只不过很快一个操作结束, ...

  4. 697. Degree of an Array

    static int wing=[]() { std::ios::sync_with_stdio(false); cin.tie(NULL); ; }(); class Solution { publ ...

  5. servler中表单加了enctype="multipart/form-data"属性后request就接收不到表单传过来的值了

    在解决博问node.js接受参数的时候,发现当form中添加enctype:"multipart/form-data",后台确实获取不到数据,于是跑到百度上查了一下,终于明白为什么 ...

  6. 2019.02.09 bzoj2560: 串珠子(状压dp+简单容斥)

    传送门 题意简述:nnn个点的带边权无向图,定义一个图的权值是所有边的积,问所有nnn个点都连通的子图的权值之和. 思路: fif_ifi​表示保证集合iii中所有点都连通其余点随意的方案数. gig ...

  7. 微信小程序设置全局字体

    微信小程序设置全局css,需要在app.wxss文件中设置page的样式 page { font-family:"PingFangSC-Thin"; font-size:32rpx ...

  8. winSockets编程(四)阻塞模式(服务端)

    在阻塞模式下,在I/O操作完成前,执行的操作函数将一直等候而不会立即返回,该函数所在的线程会阻塞在这里.相反,在非阻塞模式下,套接字函数立即返回,而不管I/O是否完成. 重点知识和思想: ////// ...

  9. Uncaught TypeError: Illegal invocation

    Jquery实现Ajax异步提交时报错"Uncaught TypeError: Illegal invocation",如下图: 排查发现错误在于此: 复制代码代码如下: data ...

  10. hive函数 get_json_object的使用

    hive提供了json的解析函数:get_json_object 使用方法 对于jsonArray(json数组),如person表的xjson字段有数据: [{"name":&q ...