Export大数据量导出和打包
项目需求
 导出生成大批量数据的文件,一个Excel中最多存有五十万条数据,查询多余五十万的数据写多个Excel中。导出完成是生成的多个Excel文件打包压缩成zip,而后更新导出记录中的压缩文件路径。
 大数据量文件一般采用异步生成文件,导出时首先授权生成一个流水号,而后将数据携带流水号请求导出接口。
抛开实际业务,做成一个比较公共的导出功能。
参数说明
{
    "className": "ValideData",         //导出的数据的实体类,类中有别名和顺序相关的注解
    "createUser": "",				//操作人
    "downLoadNo": "202203181504732568468066304",  	//下载流水号
    "fileName": "机卡绑定",          //文件名      fileName+HHmmssSSS.xlsx
    "keys": [						//redis key的数据,分批获取数据
    ],
    "remark": "机卡绑定",				//备注(不关注)
    "type": "机卡绑定"					//导出类型(不关注)
}
坐标
<dependency>
  <groupId>org.apache.commons</groupId>
  <artifactId>commons-compress</artifactId>
  <version>1.21</version>
</dependency>
注:抛开导出前的参数校验,只关注导出操作 。
主要代码
逻辑说明:
- 导出前将请求参数更新到导出记录中。
- 类加载器加载需要导出数据的实体类
- 设置一个数据量指针,记录到每个文件的数据量
- 达到阈值时指定文件写出到磁盘并清缓。
- 重置数据量指针,新增一条文件记录(循环)
- 数据量指针未到阈值时但数据已经查询完成---->>写入剩余数据
- 查询该流水号的所有文件记录
- 压缩文件并返回压缩文件地址
- 更新到导出记录中
主流程
public void bigDataExport(PortDto dto) throws Exception {
    long start = System.currentTimeMillis();
    log.info("开始导出,批次号:<{}>, 开始时间:{}", dto.getDownLoadNo(), DateUtil.now());
    //修改导出记录
    LambdaUpdateWrapper<PortDto> updateWrapper = new LambdaUpdateWrapper<>();
    updateWrapper.eq(PortDto::getDownLoadNo, dto.getDownLoadNo());
    //生成导出记录
    int row = this.baseMapper.update(dto, updateWrapper);
    if (row > 0) {
        log.info("批次号:<{}>准备生成文件", dto.getDownLoadNo());
        try {
            Iterator<String> iterator = keys.iterator();
            Workbook workbook = null;
            ExportParams params = new ExportParams();
            //加载导出数据实体类
            Class<?> aClass = Class.forName(entityBasePackage + dto.getClassName());
            int element = 0;
            while (iterator.hasNext()) {
                String key = iterator.next();
                Collection<?> list = getList(key, aClass);
                element += list.size();
                workbook = ExcelExportUtil.exportBigExcel(params, aClass, list);
                //文件数据达到阈值
                if (element >= maxDataCount) {
                    String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(),
                            "HHmmssSSS") + ".xlsx";
                    ExcelExportUtil.closeExportBigExcel();
                    FileOutputStream fos =
                            new FileOutputStream(fileProp.getPath().getPath() + fileName);
                    workbook.write(fos);
                    fos.close();
                    element = 0;
                    //更新地址
                    Map<String, Object> map = new HashMap<>();
                    map.put("downloadNo", dto.getDownLoadNo());
                    map.put("filePath", fileProp.getPath().getPath() + fileName);
                    map.put("createTime", new Date());
                    this.baseMapper.insertPathRecord(map);
                    log.info("文件写入完成,文件名:{}", fileName);
                    continue;
                }
                iterator.remove();
            }
            //写入剩余文件
            if (element != 0) {
                String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(),
                        "HHmmssSSS") + ".xlsx";
                ExcelExportUtil.closeExportBigExcel();
                FileOutputStream fos = new FileOutputStream(fileProp.getPath().getPath() + fileName);
                workbook.write(fos);
                fos.close();
                element = 0;
                //更新地址
                Map<String, Object> map = new HashMap<>();
                map.put("downloadNo", dto.getDownLoadNo());
                map.put("filePath", fileProp.getPath().getPath() + fileName);
                map.put("createTime", new Date());
                this.baseMapper.insertPathRecord(map);
                log.info("文件写入完成,文件名:{}", fileName);
            }
            long end = System.currentTimeMillis();
            log.info("导出结束,批次号:<{}>, 结束时间:{}, 耗时:{}", dto.getDownLoadNo(), DateTime.of(end),
                    DateUtil.formatBetween(end - start));
        } catch (Exception e) {
            log.info("批次号<{}>导出异常:", dto.getDownLoadNo(), e);
            throw new BusinessException("");
        } finally {
            log.info("批次号<{}>生成文件结束,准备压缩文件,修改状态", dto.getDownLoadNo());
            //合并文件到导出文件记录主表
            //当只有一个文件记录时直接更新主表文件地址
            List<PortDto> recordList = exportDao.getPathRecord(dto);
            if (recordList.size() > 1) {
                //zipPath
                dto.setFilePath(zcat(dto, recordList));
            } else {
                //xlsxPath
                dto.setFilePath(recordList.size()==0? "":recordList.get(0).getFilePath());
            }
            updateWrapper.clear();
            updateWrapper.set(PortDto::getFilePath, dto.getFilePath());
            updateWrapper.set(PortDto::getSuccessTime, new Date());
            updateWrapper.set(PortDto::getStatus, "1");
            updateWrapper.eq(PortDto::getDownLoadNo, dto.getDownLoadNo());
            this.baseMapper.update(null, updateWrapper);
            log.info("批次号<{}>更新下载记录表文件地址,修改状态成功", dto.getDownLoadNo());
        }
    }
}
文件压缩
/**
 *  多文件压缩
 * @param dto 导出信息
 * @Param recordList 文件路径
 * @return void
 * @throws
 * @author Surpass
 * @date 2022/3/17 9:59
 */
private String zcat(PortDto dto, List<PortDto> recordList) throws Exception {
    String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(), "HHmmssSSS") + ".zip";
    String zipPath = fileProp.getPath().getPath() + fileName;
    Archiver archiver = CompressUtil.createArchiver(
            CharsetUtil.CHARSET_UTF_8,
            ArchiveStreamFactory.ZIP,
            new File(zipPath)
    );
    for (PortDto portDto : recordList) {
        archiver.add(FileUtil.file(portDto.getFilePath()));
    }
    archiver.finish();
    archiver.close();
    return zipPath;
}
查询数据
/**
 *   查询redis数据
 * @param key
 * @param cls
 * @return java.util.Collection<?>
 * @throws
 * @author Surpass
 * @date 2022/3/18 15:51
 */
private Collection<?> getList(String key, Class<?> cls) {
    List<String> list = redis.getList(key);
    return list.stream().map(item -> JSONObject.parseObject(item, cls)).collect(Collectors.toList());
}
补充
导出还设置了队列计数器来限制同一时间最大的导出请求,使用aop在申请流水号时计数器+1,导出完成或者异常时队列计数器-1。导出完成后根据操作人发送邮件通知导出结果。
Export大数据量导出和打包的更多相关文章
- poi 操作Excel 以及大数据量导出
		maven 依赖 (版本必须一致,否则使用SXSSFworkbook 时程序会报错) <dependency> <groupId>org.apache.poi</grou ... 
- SQL Server 使用bcp进行大数据量导出导入
		转载:http://www.cnblogs.com/gaizai/archive/2010/04/17/1714389.html SQL Server的导出导入方式有: 在SQL Server中提供了 ... 
- 使用内存映射文件MMF实现大数据量导出时的内存优化
		前言 导出功能几乎是所有应用系统必不可少功能,今天我们来谈一谈,如何使用内存映射文件MMF进行内存优化,本文重点介绍使用方法,相关原理可以参考文末的连接 实现 我们以单次导出一个excel举例(csv ... 
- EasyPoi大数据导入导出百万级实例
		EasyPoi介绍: 利用注解的方式简化了Excel.Word.PDF等格式的导入导出,而且是百万级数据的导入导出.EasyPoi官方网址:EasyPoi教程_V1.0 (mydoc.io).下面我写 ... 
- java 导出Excel 大数据量,自己经验总结!
		出处: http://lyjilu.iteye.com/ 分析导出实现代码,XLSX支持: /** * 生成<span style="white-space: normal; back ... 
- NPOI大数据量多个sheet导出源码(原)
		代码如下: #region NPOI大数据量多个sheet导出 /// <summary> /// 大数据量多个sheet导出 /// </summary> /// <t ... 
- java excel大数据量导入导出与优化
		package com.hundsun.ta.utils; import java.io.File; import java.io.FileOutputStream; import java.io.I ... 
- POI3.8解决导出大数据量excel文件时内存溢出的问题
		POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用.SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入 ... 
- elasticsearch5.0集群大数据量迁移方法及注意事项
		当es集群的数据量较小的情况下elasticdump这个工具比较方便,但是当数据量达到一定级别比如上百G的时候,elasticdump速度就很慢了,此时我们可以使用快照的方法进行备份 elasticd ... 
随机推荐
- Java微信公众号服务器配置-验证Token
			一.填写服务器配置 首先我们需要在微信公众平台上填写服务器配置 重点内容 服务器地址URL(一定要外网能访问的到) 在我们提交配置的时候,微信会发送GET请求到URL上, ... 
- 自动归档autoArchive By H.l
			写点简单的代码,让开发更简单 详情:ios 应用实现快速的临时缓存之模型的自动归档 Demo:https://files.cnblogs.com/files/sixindev/AutoArchiver ... 
- Java线程--ThreadPoolExecutor使用
			原创:转载需注明原创地址 https://www.cnblogs.com/fanerwei222/p/11871132.html Java线程--ThreadPoolExecutor使用 public ... 
- Spring中声明式事务的几个属性的解释
			声明式事务 @Transactional (通常用在service层)事务属性:传播行为,隔离级别,回滚,只读,过期 1,spring支持事务传播行为:propagation(常用以下两个) ① ... 
- Python支付宝单笔转账接口
			开发信息 接口加签方式为证书模式 证书模式好处是可以使用支付宝的转账到支付宝账户,也就是提现功能,公钥模式不能实现转账到支付宝账户. 此DEMO利用单笔转账到支付宝账户接口[提现功能]用户可以通过此D ... 
- 12、Linux基础--挂载磁盘步骤、流处理工具awk(正则 比较 逻辑 算数表达式 流程控制)
			笔记 1.晨考 1.用两种方法,实现将文件中的以# 开头的行把# 去掉 sed -r 's/^#//g' /etc/fstab cat /etc/fstab | tr -d '^#' 2.将文件中的H ... 
- RISC-V 特权指令结构
			机器模式 机器模式(缩写为 M 模式,M-mode)是 RISC-V 中 hart(hardware thread,硬件线 程)可以执行的最高权限模式.在 M 模式下运行的 hart 对内存,I/O ... 
- 公式编辑器CVE-2018-0798样本分析
			当前样本是一个RTF文档,内嵌一个公式编辑器对象,该对象利用Office编辑器漏洞CVE-2018-0798执行shellcode,对EQNEDT32.exe进行代码注入,执行恶意代码. 使用 ... 
- suse 12 部署chrony时间同步服务器
			文章目录 1.ntp和chrony的区别 1.1.关于chrony 1.2.chronyd的优势 2.环境介绍 3.部署chrony 4.配置chrony 4.1.配置文件解析 4.2.查看chron ... 
- vue methods中的函数调用时带括号与不带括号的区别
			@click='getList(id)',但是为什么有时候明明没有传参的需要,却要加上()呢? 百思不得其解,于是去查阅了相关的资料,意思就是,当不加括号直接调用这个函数是可以直接获取到这个事件对象的 ... 
