项目需求

​ 导出生成大批量数据的文件,一个Excel中最多存有五十万条数据,查询多余五十万的数据写多个Excel中。导出完成是生成的多个Excel文件打包压缩成zip,而后更新导出记录中的压缩文件路径。

​ 大数据量文件一般采用异步生成文件,导出时首先授权生成一个流水号,而后将数据携带流水号请求导出接口。

抛开实际业务,做成一个比较公共的导出功能。

参数说明

{
"className": "ValideData", //导出的数据的实体类,类中有别名和顺序相关的注解
"createUser": "", //操作人
"downLoadNo": "202203181504732568468066304", //下载流水号
"fileName": "机卡绑定", //文件名 fileName+HHmmssSSS.xlsx
"keys": [ //redis key的数据,分批获取数据
],
"remark": "机卡绑定", //备注(不关注)
"type": "机卡绑定" //导出类型(不关注)
}

坐标

<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-compress</artifactId>
<version>1.21</version>
</dependency>

注:抛开导出前的参数校验,只关注导出操作 。

主要代码

逻辑说明:

  1. 导出前将请求参数更新到导出记录中。
  2. 类加载器加载需要导出数据的实体类
  3. 设置一个数据量指针,记录到每个文件的数据量
  4. 达到阈值时指定文件写出到磁盘并清缓。
  5. 重置数据量指针,新增一条文件记录(循环)
  6. 数据量指针未到阈值时但数据已经查询完成---->>写入剩余数据
  7. 查询该流水号的所有文件记录
  8. 压缩文件并返回压缩文件地址
  9. 更新到导出记录中

主流程

public void bigDataExport(PortDto dto) throws Exception {
long start = System.currentTimeMillis();
log.info("开始导出,批次号:<{}>, 开始时间:{}", dto.getDownLoadNo(), DateUtil.now()); //修改导出记录
LambdaUpdateWrapper<PortDto> updateWrapper = new LambdaUpdateWrapper<>();
updateWrapper.eq(PortDto::getDownLoadNo, dto.getDownLoadNo());
//生成导出记录
int row = this.baseMapper.update(dto, updateWrapper);
if (row > 0) {
log.info("批次号:<{}>准备生成文件", dto.getDownLoadNo());
try {
Iterator<String> iterator = keys.iterator();
Workbook workbook = null;
ExportParams params = new ExportParams(); //加载导出数据实体类
Class<?> aClass = Class.forName(entityBasePackage + dto.getClassName()); int element = 0;
while (iterator.hasNext()) {
String key = iterator.next();
Collection<?> list = getList(key, aClass);
element += list.size();
workbook = ExcelExportUtil.exportBigExcel(params, aClass, list); //文件数据达到阈值
if (element >= maxDataCount) {
String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(),
"HHmmssSSS") + ".xlsx";
ExcelExportUtil.closeExportBigExcel();
FileOutputStream fos =
new FileOutputStream(fileProp.getPath().getPath() + fileName);
workbook.write(fos);
fos.close();
element = 0;
//更新地址
Map<String, Object> map = new HashMap<>();
map.put("downloadNo", dto.getDownLoadNo());
map.put("filePath", fileProp.getPath().getPath() + fileName);
map.put("createTime", new Date());
this.baseMapper.insertPathRecord(map);
log.info("文件写入完成,文件名:{}", fileName);
continue;
}
iterator.remove();
} //写入剩余文件
if (element != 0) {
String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(),
"HHmmssSSS") + ".xlsx";
ExcelExportUtil.closeExportBigExcel();
FileOutputStream fos = new FileOutputStream(fileProp.getPath().getPath() + fileName);
workbook.write(fos);
fos.close();
element = 0;
//更新地址
Map<String, Object> map = new HashMap<>();
map.put("downloadNo", dto.getDownLoadNo());
map.put("filePath", fileProp.getPath().getPath() + fileName);
map.put("createTime", new Date());
this.baseMapper.insertPathRecord(map);
log.info("文件写入完成,文件名:{}", fileName);
} long end = System.currentTimeMillis();
log.info("导出结束,批次号:<{}>, 结束时间:{}, 耗时:{}", dto.getDownLoadNo(), DateTime.of(end),
DateUtil.formatBetween(end - start));
} catch (Exception e) {
log.info("批次号<{}>导出异常:", dto.getDownLoadNo(), e);
throw new BusinessException("");
} finally {
log.info("批次号<{}>生成文件结束,准备压缩文件,修改状态", dto.getDownLoadNo());
//合并文件到导出文件记录主表
//当只有一个文件记录时直接更新主表文件地址
List<PortDto> recordList = exportDao.getPathRecord(dto);
if (recordList.size() > 1) {
//zipPath
dto.setFilePath(zcat(dto, recordList));
} else {
//xlsxPath
dto.setFilePath(recordList.size()==0? "":recordList.get(0).getFilePath());
}
updateWrapper.clear();
updateWrapper.set(PortDto::getFilePath, dto.getFilePath());
updateWrapper.set(PortDto::getSuccessTime, new Date());
updateWrapper.set(PortDto::getStatus, "1");
updateWrapper.eq(PortDto::getDownLoadNo, dto.getDownLoadNo());
this.baseMapper.update(null, updateWrapper);
log.info("批次号<{}>更新下载记录表文件地址,修改状态成功", dto.getDownLoadNo());
}
}
}

文件压缩

/**
* 多文件压缩
* @param dto 导出信息
* @Param recordList 文件路径
* @return void
* @throws
* @author Surpass
* @date 2022/3/17 9:59
*/
private String zcat(PortDto dto, List<PortDto> recordList) throws Exception {
String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(), "HHmmssSSS") + ".zip";
String zipPath = fileProp.getPath().getPath() + fileName;
Archiver archiver = CompressUtil.createArchiver(
CharsetUtil.CHARSET_UTF_8,
ArchiveStreamFactory.ZIP,
new File(zipPath)
);
for (PortDto portDto : recordList) {
archiver.add(FileUtil.file(portDto.getFilePath()));
}
archiver.finish();
archiver.close();
return zipPath;
}

查询数据

/**
* 查询redis数据
* @param key
* @param cls
* @return java.util.Collection<?>
* @throws
* @author Surpass
* @date 2022/3/18 15:51
*/
private Collection<?> getList(String key, Class<?> cls) {
List<String> list = redis.getList(key);
return list.stream().map(item -> JSONObject.parseObject(item, cls)).collect(Collectors.toList());
}

补充

导出还设置了队列计数器来限制同一时间最大的导出请求,使用aop在申请流水号时计数器+1,导出完成或者异常时队列计数器-1。导出完成后根据操作人发送邮件通知导出结果。

Export大数据量导出和打包的更多相关文章

  1. poi 操作Excel 以及大数据量导出

    maven 依赖 (版本必须一致,否则使用SXSSFworkbook 时程序会报错) <dependency> <groupId>org.apache.poi</grou ...

  2. SQL Server 使用bcp进行大数据量导出导入

    转载:http://www.cnblogs.com/gaizai/archive/2010/04/17/1714389.html SQL Server的导出导入方式有: 在SQL Server中提供了 ...

  3. 使用内存映射文件MMF实现大数据量导出时的内存优化

    前言 导出功能几乎是所有应用系统必不可少功能,今天我们来谈一谈,如何使用内存映射文件MMF进行内存优化,本文重点介绍使用方法,相关原理可以参考文末的连接 实现 我们以单次导出一个excel举例(csv ...

  4. EasyPoi大数据导入导出百万级实例

    EasyPoi介绍: 利用注解的方式简化了Excel.Word.PDF等格式的导入导出,而且是百万级数据的导入导出.EasyPoi官方网址:EasyPoi教程_V1.0 (mydoc.io).下面我写 ...

  5. java 导出Excel 大数据量,自己经验总结!

    出处: http://lyjilu.iteye.com/ 分析导出实现代码,XLSX支持: /** * 生成<span style="white-space: normal; back ...

  6. NPOI大数据量多个sheet导出源码(原)

    代码如下: #region NPOI大数据量多个sheet导出 /// <summary> /// 大数据量多个sheet导出 /// </summary> /// <t ...

  7. java excel大数据量导入导出与优化

    package com.hundsun.ta.utils; import java.io.File; import java.io.FileOutputStream; import java.io.I ...

  8. POI3.8解决导出大数据量excel文件时内存溢出的问题

    POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用.SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入 ...

  9. elasticsearch5.0集群大数据量迁移方法及注意事项

    当es集群的数据量较小的情况下elasticdump这个工具比较方便,但是当数据量达到一定级别比如上百G的时候,elasticdump速度就很慢了,此时我们可以使用快照的方法进行备份 elasticd ...

随机推荐

  1. ARP欺骗的原理

    转载请注明来源:https://www.cnblogs.com/hookjc/ 从<ARP协议工作原理>一文我们已经了解到,主机在两种情况下会保存.更新本机的ARP缓存表,    1. 接 ...

  2. 高可用 & 七层负载均衡与四层负载均衡

    内容概要 高可用 七层负载均衡 和 四层负载均衡 内容详细 一.高可用 1.什么是高可用 一般是指2台机器启动着完全相同的业务系统,当有一台机器down机了,另外一台服务器就能快速的接管,对于访问的用 ...

  3. Solution -「FJWC 2020」人生

    \(\mathcal{Description}\)   OurOJ.   有 \(n\) 个结点,一些结点有染有黑色或白色,其余待染色.将 \(n\) 个结点染上颜色并连接有向边,求有多少个不同(结点 ...

  4. Python-Flask框架之"图书管理系统"项目,附详解源代码及页面效果截图

    该图书管理系统要实现的功能如下: 1. 可以通过添加窗口添加书籍或作者,如果要添加的作者和书籍已存在于书架上, 则给出相应的提示: 2. 如果要添加的作者存在,而要添加的书籍书架上没有,则将该书籍添加 ...

  5. python-关键字驱动接口框架中,接口关联字段进行值替换的实现方式

    前言 编写关键字驱动的接口自动化测试框架中,通过不同的取值方式,将需要关联的字段以及取出的值放到一个空字典中,需要将关联的字段进行值替换,下面是替换的实现方式 实现思路 import re temp_ ...

  6. 在服务器的docker里 装anacond3深度学习环境的全流程超基础

    ​ 背景: 实验室给我分配了一个服务器 已经装好了docker 和nvidi docker . 现在我的目标是创建我自己的docker 然后在我自己的docker里装上anaconda环境. 我以前从 ...

  7. SVG小图片格式显示(字符图标,可设置title属性)

    1.HTML + Font 方式: 修改图标颜色只需修改字体颜色,修改图片大小只需修改字体大小. 关于字体图片,我们可以自己制作,也可以从网上下载 阿里巴巴矢量图库. 在线图标字体库.Icomoon. ...

  8. tunneling socket could not be established, cause=connect ECONNREFUSED 127.0.0.1:56281 npm ERR! network This is most likely not a problem with npm itself npm ERR! network and is related to network

    tunneling socket could not be established, cause=connect ECONNREFUSED 127.0.0.1:56281npm ERR! networ ...

  9. Linux Shell 变量自加

    转至:https://blog.csdn.net/dj0379/article/details/50946398/ declare -i iv=$svnvlet iv+=1shell中变量自增的实现方 ...

  10. Weblogic 打补丁冲突检测慢---解决方法

    转至:https://www.cnblogs.com/vzhangxk/p/13365457.html 1.Smart Update 智能升级工具版本: [root@pxc1 bsu]# ./bsu. ...