最近公司需求解析excel,一开始使用poi做的挺好的,后来直接上了几十万条数据的excel文件,内存直接溢出了,网上查到apache poi还提供了专门处理海量数据的方法,使用sax解析,果然用了内存使用率下降,但是不能解析xls文件,只能解析xlsx文件,所以把工具简单封装了一下,如果是xls的用传统方式解析,如果是xlsx的大文件,用sax,这样灵活一定,详见md文件

(建议前往github查看最新内容)

https://github.com/hellojamie/ebatis  下载项目源码

https://gitee.com/hellojamie/ebatis

Ebatis

用于解析excel表格内容到 java bean 目前支持xls、xlsx格式文件 对于大数据量文件自动使用sax方式解析,防止内存溢出

目录(记得看注意):

  1. 开始
  2. 扩展功能
  3. 注意

开始

因为经常有改动,需要手动打包发布

// Maven导入第三方poi依赖,或者直接把master pull下来发布到本地
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>3.17</version>
</dependency>
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>3.17</version>
</dependency>
<dependency>
<groupId>xerces</groupId>
<artifactId>xercesImpl</artifactId>
<version>2.9.1</version>
</dependency>

  

首先你需要创建好你的实体类,假设现在有这样一个excel表格需要解析

姓名 手机号 生日
王文娟 18888888888 1996-01-01
大美丽 16666666666 1996-01-01

首先你需要一个实体类 有几点要求,必须正确封装,包含get\set方法 属性上包含必要的Mapping注解,key属性填入与表格对应的名称,属性类型根据需要自己定义

package cc.ebatis.controller;

import java.io.File;

import cc.ebatis.bean.People;
import cc.ebatis.impl.Init;
import cc.ebatis.pojo.ActionContext; public class Test {
public static void main(String[] args) {
File file = new File("c://Users//Pei//Desktop//pei.xlsx");
Init<People> init = new Init<People>(file, People.class, false);
System.out.println("init===="+init);
ActionContext<People> act = init.start();
System.out.println("act===="+act);
} }

  

package cc.ebatis.bean;

import java.util.Date;

import cc.ebatis.annotation.Mapping;

public class People {
@Mapping(key = "姓名")
private String name; @Mapping(key = "手机号")
private String phone; @Mapping(key = "生日")
private Date birth; public String getName() {
return name;
} public void setName(String name) {
this.name = name;
} public String getPhone() {
return phone;
} public void setPhone(String phone) {
this.phone = phone;
} public Date getBirth() {
return birth;
} public void setBirth(Date birth) {
this.birth = birth;
} @Override
public String toString() {
return "People [name=" + name + ", phone=" + phone + ", birth=" + birth + "]";
} }

  

  然后将你的文档以流的方式加载进来,通过以下代码开始解析

// Init接受一个InputStream对象,以及一个实体对象
// 调用start开始
// 通过ActionContext获取需要的信息
// 参数依次为-文件-实体class-是否去重
File file = new File("excel.xlsx");
Init<ExcelPojo> init = new Init<ExcelPojo>(file, ExcelPojo.class, false);
ActionContext<ExcelPojo> act = init.start();

  (注意:如果要去重的话请重写实体中的hashCode和equals方法,内部使用set来去重,false表示不去重) ActionContext中包含了所需要的所有信息,信息格式如下,这里以json的形式展示

{
  "sheets":[
    {
      "line":5,
"sheetName":"Sheet1",
"column":6,
"correctLine":5,
"blankLineSize":0,
"errorLineSize":0,
"repeatLineSize":0,
      "info":[
        {
          "date":1331481600000,
          "name":"王文娟",
          "phone":"15035214458"
        },
        {
          "date":1331481600000,
          "name":"大美丽",
          "phone":"14555874458"
        }
      ],
      "blankLine":[],
"errorLine":[],
"repeatLine":[]
    }
  ],
  "fileType":"XLSX",
"SheetSize":1,
"fileSizeByte":9138,
"useSax":true,
"distinct":false,
"result":true
}

  

属性名 含义
sheets sheet数组
line 解析当前sheet一共多少行数据,不算表头
sheetName sheet的名称
column 列数
info 实体对象数组,包含实体的列表,也就是行数据
correctLine 实际正确解析出的数量(行数)
blankLineSize 空行的数量
errorLineSize 错误行的数量,包括正则不通过被删除的
repeatLineSize 重复行的数量
fileType 文件类型
blankLine 空白行的行号-数组
errorLine 错误行的行号-数组
repeatLine 重复行的行号-数组
fileSizeByte 文件大小(字节)
useSax 是否使用了sax方式
distinct 是否去重
result 最后是否解析成功,如果中间出错则是false
sheetSize 文件中有几个sheet
useSax 是否使用sax解析,即是否解析的是xlsx文件
distinct 是否去重

使用ActionContext的getXXX方法获取上面的内容

扩展功能

@Mapping注解有三个非必选属性

  1.  
    @Mapping(key = "手机号", rex = "^[0-9]{11}$", delNull = true, length = 11)
  2.  
    private String phone;
属性名 含义 是否必填
key 填写与excel文件头的映射名称 必填
rex 填写解析内容时使用的正则表达式,如果不符合正则则不赋值 非必填
delNull 如果该属性为null的话,是否删除整条信息,默认false不删除 非必填
length 填写提取内容的最大长度,默认不限制 非必填

@LineNumber注解,获取当前记录是第几行,不算表头那行

  1.  
    @LineNumber
  2.  
    private Integer line;

@MappingSheetName注解,将sheet名称作为属性值添加

  1.  
    @MappingSheetName
  2.  
    private String type;

注意

  • 解析xlsx大文件的时候,POI本身会占据较大内存,例如100W行15列,POI自身将消耗400M+的内存,加上解析出来的内容会大于这个值,以100W为例大概需要700M+内存
  • 实体中请使用包装类,不支持int等类型,请使用Integer
  • 列与列之间不能包含表头为空的列,即不能有空列将信息隔开,如果有,以空列前一列为末尾解析
  • excel文件请使用第一行表头,其余行信息的标准格式,如果有合并单元格情况,可能会解析失败(可以包含空行和空单元格,会自动过滤,但必须有表头)
  • 实体类的属性不严格要求与列的数量一致,根据需要添加映射注解即可
  • 实体类 的属性和表头的顺序没有严格要求,只要key匹配即可
  • 如果需要去重,请重写实体的hashCode和equals方法,内部使用HashSet方式去重,重写时请注意
  • 最后是否解析成功请以result属性为准

java解析导入excel表格转为实体类javabean,根据实体类中的中文名称的更多相关文章

  1. Java解析导入Excel文件后台代码实现

    使用MultipartFile上传Excel文件后端代码实现:(springmvc下的spring-webmvc (MultipartFile )上传) 由于POST一个包含文件上传的Form会以mu ...

  2. 在java poi导入Excel通用工具类示例详解

    转: 在java poi导入Excel通用工具类示例详解 更新时间:2017年09月10日 14:21:36   作者:daochuwenziyao   我要评论   这篇文章主要给大家介绍了关于在j ...

  3. java数据库导入excel数据

    导入数据会将表格分为xls和xlsx两种格式,网上有很多案例 1.excel数据表中的数据不全,数据库中又是必填选项:---从sql语句入手:判断有无 来改变语句 //设置可有可无 字段 加一个必有字 ...

  4. VLOOKUP函数将一个excel表格的数据匹配到另一个表中

    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

  5. 使用Excel表格的记录单功能轻松处理工作表中数据的方法

    使用Excel表格的记录单功能轻松处理工作表中数据的方法 记录单是将一条记录分别存储在同一行的几个单元格中,在同一列中分别存储所有记录的相似信息段.使用记录单功能可以轻松地对工作表中的数据进行查看.查 ...

  6. java导入Excel表格数据

    首先导入Excel数据需要几样东西 第一需要两个依赖包,这里直接是在pom注入依赖 <!--excel--> <dependency> <groupId>org.a ...

  7. 使用SqlBulkCopy类实现导入excel表格

    前言: 上篇博客介绍了SqlBulkCopy类批量操作数据库的相关操作,最后提到了可以使用这个类实现excel文件导入数据库,接下来我做简单介绍. 首先说一下思路: 把excel中的数据读出来并放入到 ...

  8. 在java中实现数据导入excel表格中

    1.首先前端代码如下: 一个导出按钮:<input id="export" class="btn btn-primary" type="butt ...

  9. java之导入excel

    接口: /** * * Description: 导入excel表 * @param map * @param request * @param session * @return * @author ...

随机推荐

  1. 学会了这一招,距离Git大神不远了!

    大家好,今天我们来介绍git当中一项非常重要的功能--交互式工具 有的时候如果我们要处理的文件很多,使用git add .等操作会非常有隐患,因为很有可能我们一不小心就疏忽了一些内容.如果我们使用一个 ...

  2. 推荐:国产etl调度工具Taskctl web应用版,0元永久授权

    写在前面 2020年疫情席卷全球,更是对整个市场经济造成了严重影响,年初疫情肆虐,西方世界单方面的科技.经济封锁,国际关系吃紧.....导致很多中小型企业业务链受阻,大型企业经费资金吃紧,轮班制导致公 ...

  3. linux ssh远程连接控制 linux(centOS) 口令、密钥连接

    sshd服务提供两种安全验证的方法: 基于口令的安全验证:经过验证帐号与密码即可登陆到远程主机. 基于密钥的安全验证:需要在本地生成"密钥对"后将公钥传送至服务端,进行公共密钥的比 ...

  4. Docker 指南

    一.docker 介绍 1.1 引言 环境不一致 "我本地运行没问题啊?!" 多用户相互影响 "哪个哥们又写死循环了,怎么这么卡?!" 运维成本高 " ...

  5. oracle 流程控制句式

    --for loop declare val number(10):=0; begin for val in 0..10 loop dbms_output.put_line('val='||val); ...

  6. IdentityServer4系列 | 快速搭建简易项目

    一 .前言 从上一篇关于 常见术语说明中,主要是对IdentityServer4的说明,以及其中涉及常见的术语的表述说明,包括对身份认证服务器.用户.客户端.资源以及各个令牌等进行对比区别说明. 而在 ...

  7. moviepy AudioClip帧处理ValueError: The truth value of array with more than one element is ambiguous

    ☞ ░ 前往老猿Python博文目录 ░ 一.环境 操作系统:win7 64位 moviepy:1.0.3 numpy:1.19.0 Python:3.7.2 二.应用代码及报错信息 程序代码 if ...

  8. PyQt(Python+Qt)学习随笔:QAbstractItemView的showDropIndicator属性

    老猿Python博文目录 老猿Python博客地址 概述 QAbstractItemView的showDropIndicator属性用于控制在拖拽过程中显示当前拖拽到的位置,当释放时则在当前拖拽位置覆 ...

  9. PyQt(Python+Qt)学习随笔:Designer中的QDialogButtonBox的ButtonRole详解

    一.引言 在Designer中创建的QDialogButtonBox对应的Button,都有指定的ButtonRole,而我们创建自定义的Button加入到QDialogButtonBox中去时,也需 ...

  10. 树的直径,LCA复习笔记

    前言 复习笔记第6篇. 求直径的两种方法 树形DP: dfs(y); ans=max( ans,d[x]+d[y]+w[i] ); d[x]=max( d[x],d[y]+w[i] ); int di ...