1.概述

最近有同学留言咨询，Flink消费Kafka的一些问题，今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据，通过Flink任务来消费并存储到HDFS上。

2.内容

这里举个消费Kafka的数据的场景。比如，电商平台、游戏平台产生的用户数据，入库到Kafka中的Topic进行存储，然后采用Flink去实时消费积累到HDFS上，积累后的数据可以构建数据仓库（如Hive）做数据分析，或是用于数据训练（算法模型）。如下图所示：

2.1 环境依赖

整个流程，需要依赖的组件有Kafka、Flink、Hadoop。由于Flink提交需要依赖Hadoop的计算资源和存储资源，所以Hadoop的YARN和HDFS均需要启动。各个组件版本如下：

组件	版本
Kafka	2.4.0
Flink	1.10.0
Hadoop	2.10.0

2.2 代码实现

Flink消费Kafka集群中的数据，需要依赖Flink包，依赖如下：

<dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-connector-filesystem_2.12</artifactId>

    <version>${flink.connector.version}</version>

 </dependency>

<dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-connector-kafka-0.11_2.12</artifactId>

    <version>${flink.kafka.version}</version>

 </dependency>

<dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-streaming-java_2.12</artifactId>

    <version>${flink.streaming.version}</version>

 </dependency>

编写消费Topic的Flink代码，这里不对Topic中的数据做逻辑处理，直接消费并存储到HDFS上。代码如下：

/**

 * Flink consumer topic data and store into hdfs.

 *

 * @author smartloli.

 *

 *         Created by Mar 15, 2020

 */

public class Kafka2Hdfs {

    private static Logger LOG = LoggerFactory.getLogger(Kafka2Hdfs.class);

    public static void main(String[] args) {

        if (args.length != 3) {

            LOG.error("kafka(server01:9092), hdfs(hdfs://cluster01/data/), flink(parallelism=2) must be exist.");

            return;

        }

        String bootStrapServer = args[0];

        String hdfsPath = args[1];

        int parallelism = Integer.parseInt(args[2]);

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.enableCheckpointing(5000);

        env.setParallelism(parallelism);

        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

        DataStream<String> transction = env.addSource(new FlinkKafkaConsumer010<>("test_bll_data", new SimpleStringSchema(), configByKafkaServer(bootStrapServer)));

        // Storage into hdfs

        BucketingSink<String> sink = new BucketingSink<>(hdfsPath);

        sink.setBucketer(new DateTimeBucketer<String>("yyyy-MM-dd"));

        sink.setBatchSize(1024 * 1024 * 1024); // this is 1GB

        sink.setBatchRolloverInterval(1000 * 60 * 60); // one hour producer a file into hdfs

        transction.addSink(sink);

        env.execute("Kafka2Hdfs");

    }

    private static Object configByKafkaServer(String bootStrapServer) {

        Properties props = new Properties();

        props.setProperty("bootstrap.servers", bootStrapServer);

        props.setProperty("group.id", "test_bll_group");

        props.put("enable.auto.commit", "true");

        props.put("auto.commit.interval.ms", "1000");

        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        return props;

    }

}

2.3 注意事项

存储到HDFS时，不用添加其他HDFS依赖，只需要Flink采用yarn-cluster模式提交即可；
采用FSDataOutputStream写入时，会先写入缓冲区，放在内存中；
Flink每次做Checkpoint的时候，会Flush缓冲区的数据，以及将Pending（已经完成的文件，但为被Checkpoint记录，可以通过sink.setPendingSuffix("xxx")来设置）结尾的文件记录下来
Flink每60秒（可以通过sink.setInactiveBucketCheckInterval(60 * 1000)来进行设置）检测，如果一个文件的FSDataOutputStream在60秒内（可以通过sink.setInactiveBucketThreshold(60 * 1000)来设置），都还没有接收到数据，Flink就会认为该文件是不活跃的Bucket，那么就会被Flush后关闭该文件；
我们再深入一点查看代码，实际上只是在processingTimeService中注册了当前的时间（currentProcessingTime）+ 60秒不写入的时间（inactiveBucketCheckInterval）。接着通过onProcessIngTime方法去不停的判断是否满足60秒不写入，同时也会判断是否到了滚动时间。代码如下：

public void onProcessingTime(long timestamp) throws Exception {

        long currentProcessingTime = processingTimeService.getCurrentProcessingTime();

        closePartFilesByTime(currentProcessingTime);

        processingTimeService.registerTimer(currentProcessingTime + inactiveBucketCheckInterval, this);

}

在Flink内部封装了一个集合Map<String, BucketState<T>> bucketStates = new HashMap<>();用来记录当前正在使用的文件，key是文件的路径，BucketState内部封装了该文件的所有信息，包括创建时间，最后一次写入时间(这里的写入指的是写入缓存区的时间，不是Flush的时间)。当前文件是打开还是关闭，写缓冲区的方法。都在这里。每次Flink要对文件进行操作的时候，都会从这里拿到文件的封装对象；
当程序被取消的时候，当前正在操作的文件，会被Flush，然后关闭。然后将文件的后缀名从in-progress改为pending。这个前后缀都是可以设置，但如果没有什么特殊需求，默认即可。这里拿文件，用的就是上面说的bucketStates这个map。它在close方法中，会去遍历这个map，去做上述的操作；代码如下：

public void close() throws Exception {

        if (state != null) {

            for (Map.Entry<String, BucketState<T>> entry : state.bucketStates.entrySet()) {

                closeCurrentPartFile(entry.getValue());

            }

        }

}

每次写入的时候，都是会bucketStates这个map中获取对应的对象，如果没有，就会new一个该对象。然后先判断是否需要滚动（通过当前文件大小和滚动时间去判断），然后才将数据写入缓冲区，更新最后写入时间，代码如下：

public void invoke(T value) throws Exception {

        Path bucketPath = bucketer.getBucketPath(clock, new Path(basePath), value);

        long currentProcessingTime = processingTimeService.getCurrentProcessingTime();

        BucketState<T> bucketState = state.getBucketState(bucketPath);

        if (bucketState == null) {

            bucketState = new BucketState<>(currentProcessingTime);

            state.addBucketState(bucketPath, bucketState);

        }

        if (shouldRoll(bucketState, currentProcessingTime)) {

            openNewPartFile(bucketPath, bucketState);

        }

        bucketState.writer.write(value);

        bucketState.lastWrittenToTime = currentProcessingTime;

}

写入和关闭HDFS是通过异步的方式的，异步的超时时间默认是60秒，可以通过 sink.setAsyncTimeout(60 * 1000)去设置

3.总结

Flink消费Kafka数据并写到HDFS的代码实现是比较简短了，没有太多复杂的逻辑。实现的时候，注意Kafka的地址、反序列化需要在属性中配置、以及Flink任务提交的时候，设置yarn-cluster模式、设置好内存和CPU、HDFS存储路径等信息。

4.结束语

这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

另外，博主出书了《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。关注下面公众号，根据提示，可免费获取书籍的教学视频。

Flink消费Kafka到HDFS实现及详解的更多相关文章

FLume监控文件夹，将数据发送给Kafka以及HDFS的配置文件详解
详细配置文件flume-conf.properties如下: ############################################ # producer config ###### ...
Flink消费Kafka数据并把实时计算的结果导入到Redis
1. 完成的场景在很多大数据场景下,要求数据形成数据流的形式进行计算和存储.上篇博客介绍了Flink消费Kafka数据实现Wordcount计算,这篇博客需要完成的是将实时计算的结果写到redis. ...
Flink消费kafka
Flink消费Kafka https://blog.csdn.net/boling_cavalry/article/details/85549434 https://www.cnblogs.com/s ...
hdfs文件系统架构详解
hdfs文件系统架构详解官方hdfs分布式介绍 NameNode *Namenode负责文件系统的namespace以及客户端文件访问 *NameNode负责文件元数据操作,DataNode负责文件 ...
Hadoop（四）HDFS集群详解
前言前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群.接下来这篇我详细的分享一下HDFS. HDFS前言: 设计思想:(分而治之)将大文件.大 ...
adoop（四）HDFS集群详解
阅读目录(Content) 一.HDFS概述 1.1.HDFS概述 1.2.HDFS的概念和特性 1.3.HDFS的局限性 1.4.HDFS保证可靠性的措施二.HDFS基本概念 2.1.HDFS主从 ...
Kafka单线程Consumer及参数详解
请使用0.9以后的版本: 示例代码 Properties props = new Properties(); props.put("bootstrap.servers", &quo ...
HDFS NameNode内存详解
前言 <HDFS NameNode内存全景>中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题 ...
【Kafka】Kafka-配置参数详解-参数调优
Kafka-配置参数详解-参数调优 kafka 目录_百度搜索为什么kafka使用磁盘而不是内存 - CSDN博客 Kafka 配置说明 - 風吹云动 - 博客园 kafka生产服务器配置 - Or ...

随机推荐

3亿(int)数据-2亿(int)数据求差集
两个大文本,每行一条int数据 3亿(int)数据-2亿(int)数据求差集原始(粗暴)办法 1redis set 或类似方案本地内存 cpu都撑不住 2持久化两张表 sql join mysq ...
Xming+SecureCRT的安装与使用
博主本人平和谦逊,热爱学习,读者阅读过程中发现错误的地方,请帮忙指出,感激不尽 Xming下载地址:https://xming.en.softonic.com/ 安装完后打开文件位置: 一.Xming ...
RabbitMQ传输原理、五种模式
本文代码基于SpringBoot,文末有代码连接 .首先是一些在Spring Boot的一些配置和概念,然后跟随代码看下五种模式 MQ两种消息传输方式,点对点(代码中的简单传递模式),发布/订阅(代码 ...
getResource()和getResourceAsStream()以及路径问题
用JAVA获取文件,听似简单,但对于很多像我这样的新人来说,还是掌握颇浅,用起来感觉颇深,大常最经常用的,就是用JAVA的File类,如要取得c:/test.txt文件,就会这样用File file ...
Shell 快速入门（十八）：特殊符号的使用
在 Shell 语言中,经常会看到中括号和括号组成的特殊标识,例如:[].[[]].(()).$(()).().这些符号经常使我们非常迷惑,弄清楚它们之间的作用和区别非常必要. 在开始之前,我们先来学 ...
Eclipse 配置Android 开发环境
1.eclipse安装ADT插件. 地址:http://dl-ssl.google.com/android/eclipse/ 2.安装成功后,提示重启.重新启动后弹出android sdk 的路径选择 ...
linux上apache的安装
1.简介 Apache HTTP Server(简称Apache或httpd)是Apache软件基金会的一个开放源代码的网页服务器软件,旨在为unix,windows等操作系统中提供开源httpd服务 ...
[洛谷P4549] [模板] 裴蜀定理
18.10.03模拟赛T1. 出题人xcj(Mr.Handsome)十分良心,给了一道送分题...... 互测题好久没有出现送分题了.xcj真棒. 题目传送门幸亏之前看过,否则真的是送分题都拿不到. ...
转：ZABBIX监控H3C设备的CPU和内存使用率
由于最近监控的H3C路由器经常出现死机现象,SNMP获取不到数据,后面检查发现是CPU使用率过高,直接导致无法处理SNMP请求,所以需求来了,怎样通过SNMP监控H3C路由器的CPU和内存使用率? ...
吴裕雄--天生自然KITTEN编程：对话

Flink消费Kafka到HDFS实现及详解