使用SpringBatch读取csv文件
1、需求
系统每日从某个固定的目录中读取csv文件,并在控制台上打印。
2、解决方案
要解决上述需求,可以使用的方法有很多,此处选择使用Spring Batch来实现。
3、注意事项
1、文件路径的获取
此处简单处理,读取 JobParameters 中的日期,然后构建一个文件路径,并将文件路径放入到 ExecutionContext中。此处为了简单,文件路径会在程序中写死,但是同时也会将文件路径存入到 ExecutionContext 中,并且在具体的某个Step中从ExecutionContext中获取路径。
注意:
ExecutionContext中存入的数据虽然在各个Step中都可以获取到,但是不推荐存入比较大的数据到ExecutionContext中,因为这个对象的数据需要存入到数据库中。
2、各个Step如果获取到ExecutionContext中的值
- 类上加入
@StepScope注解 - 通过
@Value("#{jobExecutionContext['importPath']}")来获取
eg:
@Bean
@StepScope
public FlatFileItemReader<Person> readCsvItemReader(@Value("#{jobExecutionContext['importPath']}") String importPath) {
// 读取数据
return new FlatFileItemReaderBuilder<Person>()
.name("read-csv-file")
.resource(new ClassPathResource(importPath))
.delimited().delimiter(",")
.names("username", "age", "sex")
.fieldSetMapper(new RecordFieldSetMapper<>(Person.class))
.build();
}
解释:在程序实例化FlatFileItemReader的时候,此时是没有jobExecutionContext的,那么就会报错,如果加上@StepScope,此时就没有问题了。@StepScope表示到达Step阶段才实例化这个Bean
3、FlatFileItemReader使用注意
当我们使用FlatFileItemReader来读取我们的csv文件时,此处需要返回 FlatFileItemReader类型,而不能直接返回ItemReader,否则可能出现如下错误 Reader must be open before it can be read
4、实现步骤
1、导入依赖,配置
1、导入依赖
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-batch</artifactId>
</dependency>
</dependencies>
2、初始化SpringBatch数据库
spring.datasource.username=root
spring.datasource.password=root@1993
spring.datasource.url=jdbc:mysql://127.0.0.1:3306/spring-batch?useUnicode=true&characterEncoding=utf8&autoReconnectForPools=true&useSSL=false
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver
# 程序启动时,默认不执行job
spring.batch.job.enabled=false
spring.batch.jdbc.initialize-schema=always
# 初始化spring-batch数据库脚本
spring.batch.jdbc.schema=classpath:org/springframework/batch/core/schema-mysql.sql
2、构建文件读取路径
此处我的想法是,在JobExecutionListener中完成文件路径的获取,并将之放入到ExecutionContext,然后在各个Step中就可以获取到文件路径的值了。
/**
* 在此监听器中,获取到具体的需要读取的文件路径,并保存到 ExecutionContext
*
* @author huan.fu
* @date 2022/8/30 - 22:22
*/
@Slf4j
public class AssemblyReadCsvPathListener implements JobExecutionListener {
@Override
public void beforeJob(JobExecution jobExecution) {
ExecutionContext executionContext = jobExecution.getExecutionContext();
JobParameters jobParameters = jobExecution.getJobParameters();
String importDate = jobParameters.getString("importDate");
log.info("从 job parameter 中获取的 importDate 参数的值为:[{}]", importDate);
String readCsvPath = "data/person.csv";
log.info("根据日期组装需要读取的csv路径为:[{}],此处排除日期,直接写一个死的路径", readCsvPath);
executionContext.putString("importPath", readCsvPath);
}
@Override
public void afterJob(JobExecution jobExecution) {
}
}
3、构建Tasklet,输出文件路径
@Slf4j
@Component
@StepScope
public class PrintImportFilePathTaskLet implements Tasklet {
@Value("#{jobExecutionContext['importPath']}")
private String importFilePath;
@Value("#{jobParameters['importDate']}")
private String importDate;
@Override
public RepeatStatus execute(StepContribution contribution, ChunkContext chunkContext) throws Exception {
log.info("从job parameter 中获取到的 importDate:[{}],从 jobExecutionContext 中获取的 importPath:[{}]",
importDate, importFilePath);
return RepeatStatus.FINISHED;
}
}
需要注意的是,此类上加入了 @StepScope注解
4、编写实体类
@AllArgsConstructor
@Getter
@ToString
public class Person {
/**
* 用户名
*/
private String username;
/**
* 年龄
*/
private Integer age;
/**
* 性别
*/
private String sex;
}
5、编写Job配置
@Configuration
@AllArgsConstructor
@Slf4j
public class ImportPersonJobConfig {
private final JobBuilderFactory jobBuilderFactory;
private final StepBuilderFactory stepBuilderFactory;
private final PrintImportFilePathTaskLet printImportFilePathTaskLet;
private final ItemReader<Person> readCsvItemReader;
@Bean
public Job importPersonJob() {
// 获取一个job builder, jobName可以是不存在的
return jobBuilderFactory.get("import-person-job")
// 添加job execution 监听器
.listener(new AssemblyReadCsvPathListener())
// 打印 job parameters 和 ExecutionContext 中的值
.start(printParametersAndContextVariables())
// 读取csv的数据并处理
.next(handleCsvFileStep())
.build();
}
/**
* 读取数据
* 注意:此处需要返回 FlatFileItemReader类型,而不要返回ItemReader
* 否则可能报如下异常 Reader must be open before it can be read
*
* @param importPath 文件路径
* @return reader
*/
@Bean
@StepScope
public FlatFileItemReader<Person> readCsvItemReader(@Value("#{jobExecutionContext['importPath']}") String importPath) {
// 读取数据
return new FlatFileItemReaderBuilder<Person>()
.name("read-csv-file")
.resource(new ClassPathResource(importPath))
.delimited().delimiter(",")
.names("username", "age", "sex")
.fieldSetMapper(new RecordFieldSetMapper<>(Person.class))
.build();
}
@Bean
public Step handleCsvFileStep() {
// 每读取一条数据,交给这个处理
ItemProcessor<Person, Person> processor = item -> {
if (item.getAge() > 25) {
log.info("用户[{}]的年龄:[{}>25]不处理", item.getUsername(), item.getAge());
return null;
}
return item;
};
// 读取到了 chunk 大小的数据后,开始执行写入
ItemWriter<Person> itemWriter = items -> {
log.info("开始写入数据");
for (Person item : items) {
log.info("{}", item);
}
};
return stepBuilderFactory.get("handle-csv-file")
// 每读取2条数据,执行一次write,当每read一条数据后,都会执行process
.<Person, Person>chunk(2)
// 读取数据
.reader(readCsvItemReader)
// 读取一条数据就开始处理
.processor(processor)
// 当读取的数据的数量到达 chunk 时,调用该方法进行处理
.writer(itemWriter)
.build();
}
/**
* 打印 job parameters 和 ExecutionContext 中的值
* <p>
* TaskletStep是一个非常简单的接口,仅有一个方法——execute。
* TaskletStep会反复的调用这个方法直到获取一个RepeatStatus.FINISHED返回或者抛出一个异常。
* 所有的Tasklet调用都会包装在一个事物中。
*
* @return Step
*/
private Step printParametersAndContextVariables() {
return stepBuilderFactory.get("print-context-params")
.tasklet(printImportFilePathTaskLet)
// 当job重启时,如果达到了3此,则该step不在执行
.startLimit(3)
// 当job重启时,如果该step的是已经处理完成即COMPLETED状态时,下方给false表示该step不在重启,即不在执行
.allowStartIfComplete(false)
// 添加 step 监听
.listener(new CustomStepExecutionListener())
.build();
}
}
6、编写Job启动类
@Component
@Slf4j
public class StartImportPersonJob {
@Autowired
private Job importPersonJob;
@Autowired
private JobLauncher jobLauncher;
@PostConstruct
public void startJob() throws JobInstanceAlreadyCompleteException, JobExecutionAlreadyRunningException, JobParametersInvalidException, JobRestartException {
JobParameters jobParameters = new JobParametersBuilder()
.addString("importDate", LocalDate.of(2022, 08, 31).format(DateTimeFormatter.ofPattern("yyyyMMdd")))
.toJobParameters();
JobExecution execution = jobLauncher.run(importPersonJob, jobParameters);
log.info("job invoked");
}
}
7、自动配置SpringBatch
@SpringBootApplication
@EnableBatchProcessing
public class SpringBatchReadCsvApplication {
public static void main(String[] args) {
SpringApplication.run(SpringBatchReadCsvApplication.class, args);
}
}
主要是 @EnableBatchProcessing 注解
5、执行结果

6、完整代码
https://gitee.com/huan1993/spring-cloud-parent/tree/master/spring-batch/spring-batch-read-csv
使用SpringBatch读取csv文件的更多相关文章
- sparkR读取csv文件
sparkR读取csv文件 The general method for creating SparkDataFrames from data sources is read.df. This met ...
- VB6.0 读取CSV文件
最近做了一个Upload文件的需求,文件的格式为CSV,读取文件的方法整理了一下,如下: 1.先写了一个读取CSV文件的Function: '读取CSV文件 '假设传入的参数strFile=C:\Do ...
- php读取csv文件,在linux上出现中文读取不到的情况 解决方法
今,php读取csv文件,在linux上出现中文读取不到的情况,google,后找到解决办法<?phpsetlocale(LC_ALL, 'zh_CN');$row = 1;$handle = ...
- 使用univocity-parsers创建和读取csv文件
import com.univocity.parsers.csv.CsvFormat;import com.univocity.parsers.csv.CsvParser;import com.uni ...
- Python 读取csv文件到excel
朋友问我如何通过python把csv格式的文件另存为xls文件,自己想了想通过读取csv文件然后再保存到xls文件中即可,也许还有其他简单的方法,但这里也为了练习python语法及其他知识,所以采用了 ...
- 转换成CSV文件、Word、Excel、PDF等的方法--读取CSV文件的方法
1. 转换成CSV文件: http://www.dotnetgallery.com/lab/resource93-Export-to-CSV-file-from-Data-Table-in-Aspne ...
- java读取CSV文件添加到sqlserver数据库
在直接将CSV文件导入sqlserver数据库时出现了错误,原因还未找到,初步怀疑是数据中含有特殊字符.于是只能用代码导数据了. java读取CSV文件的代码如下: package experimen ...
- C#:StreamReader读取.CSV文件(转换成DataTable)
using System.Data; using System.IO; /// <summary> /// Stream读取.csv文件 /// </summary> /// ...
- R语言如何读取.csv文件
以下是我关于如何在R语言中读取.csv文件及一些需要注意的细节的总结,希望能帮助到大家~
- selenium3 文件系列之------ opencsv读取csv文件
最近在学习selenium有关文件的读取测试,今天先总结一下如何读取csv文件.CSV的定义是与逗号分隔的值(Comma-Separated Values),在Java中需要用到第三方lib去处理读取 ...
随机推荐
- CF1826D Running Miles
题目链接 题解 知识点:贪心,前缀和,枚举. 首先考虑一个贪心结论,选择区间端点一定是两个最大值,因此 \(i_1 = l,i_3 = r\) . 考虑变形式子 \((b_l + l) + b_{i_ ...
- 玩转 CMS
玩转 CMS 目前接手的内容管理系统(CMS)基于 ant-design-vue-pro(简称模板项目或ant-vue-pro) 开发的,经过许多次迭代,形成了现在的模样(简称本地项目). 假如让一名 ...
- 【Unity3D】粒子系统ParticleSystem
1 简介 拖尾(TrailRenderer).线段渲染器(LineRenderer).粒子系统(ParticleSystem)是 Unity3D 提供的三大特效,其中粒子系统的功能最为强大,特效也 ...
- numpy数组初始化方法总结
1 使用list初始化 a=np.array([[1,2,3],[4,5,6]],dtype='float32') #a=[[1. 2. 3.],[4. 5. 6.]] 2 赋值与复制 (1)赋值 a ...
- PC端应用程序自动化测试——pywinauto、pywin32、pyautogui
1 前言 PC 端自动化测试使用到的 python 模块主要有 pywinauto.win32gui.pyautogui,主要功能如下: pywinauto:主要使用到 Application 类,用 ...
- win32 - this 指针
this指针是存在与类的成员函数中,指向被调用函数所在的类实例的地址. 根据以下程序来说明this指针, #include<iostream.h> class Point { int x, ...
- golang常用库包:redis操作库go-redis使用(02)-Redis5种基本数据类型操作
第一篇:go-redis使用,介绍Redis基本数据结构和其他特性,以及 go-redis 连接到Redis https://www.cnblogs.com/jiujuan/p/17207166.ht ...
- RAID 10磁盘阵列实践
RAID概述 RAID技术通过把多个硬盘设备组合成一个容量更大.安全性更好的磁盘阵列,利用分散读写技术来提升磁盘阵列整体的性能,同时把多个重要数据的副本同步到不同的物理硬盘设备上,从而起到了非常好的数 ...
- 详细的BoltDB学习记录文档
最近项目中用到了boltdb这个go开发的key/value 数据库,但是之前并有接触过,所以特意去看了官方,也找了些资料,网上找的资料要不就是官方文档的翻译,要不就是简单的介绍一点,都不是很全,所以 ...
- error: RPC failed; curl 92 HTTP/2 stream 0 was not closed cleanly: PROTOCOL_ERROR (err 1)
起因:自己顶不住好奇心,升级了Mac系统.界面看起来,真香!然鹅用起来其实也挺香,就是有些开发常用的竟然挂掉了,挂掉了. 最直观的就是Parallels Desktop , xcode , git,完 ...