1.概述

在流数据应用场景中，往往会通过Flink消费Kafka中的数据，然后将这些数据进行结构化到HDFS上，再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后，将消费后的数据结构化到Hive数据仓库中。

2.内容

Hive能够识别很多类型的文件，其中包含Parquet文件格式。因此，我们只需要将Flink消费Kafka后的数据以Parquet文件格式生成到HDFS上，后续Hive就可以将这些Parquet文件加载到数据仓库中。具体流程图如下所示：

2.1 Flink On YARN

实现整个案例，我们需要Hadoop环境、Kafka环境、Flink环境、Hive环境。这里，笔者只介绍Flink环境的部署，其他环境可自行搜索部署方案。关于Flink On YARN的安装步骤如下：

2.1.1 准备安装包

【官方下载地址】

2.2.2 解压

解压命令如下所示：

# 解压Flink安装包并重名名为flink

tar -zxvf flink-1.7.1-bin-hadoop27-scala_2.12.tgz && mv flink-1.7.1 flink

# 配置环境变量

vi ~/.bash_profile

# 添加如下内容

export FLINK_HOME=/data/soft/new/flink

export PATH=$PATH:$FLINK_HOME/bin

# 保存并退出

Flink On YARN有两种模式，分别是Flink Session和Flink Job On YARN。

2.2.3 Flink Session

Flink Session命令如下：

# 启动一个Flink Session

yarn-session.sh -n 2 -jm 1024 -tm 1024 -d

各个参数含义如下：

参数	含义
-n 2	指定2个容器
-jm 1024	JobManager内存为1024MB
-tm 1024	TaskManager内存为1024MB
-d	任务后台运行

如果你不想让Flink YARN客户端一直运行，也可以启动分离的YARN Session，通过参数-d来实现。这种情况下Flink YARN客户端只会将Flink提交给集群，然后自行关闭。需要注意的是，这种情况无法使用Flink停止YARN会话，需要使用YARN的命令来停止，命令如下：

yarn application -kill <appId>

2.2.4 Flink On YARN

命令如下：

# yarn-cluster模式提交Flink任务

flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 WordCount.jar

各个参数含义如下：

参数	含义
-m yarn-cluster	连接指定集群，如使用标识yarn-cluster
-yn 2	2个容器
-yjm 1024	JobManager内存为1024MB
-ytm	TaskManager内存为1024MB

如果不知道提交队列，任务会提交到默认队列中，如果需要指定提交队列，可以使用参数-yqu queue_01进行提交。

3.消费Kafka并生成Parquet文件

准备一个Topic的Schema类TopicSource，TopicSource类定义如下：

public class TopicSource {

    private long time;

    private String id;

    public long getTime() {

        return time;

    }

    public void setTime(long time) {

        this.time = time;

    }

    public String getId() {

        return id;

    }

    public void setId(String id) {

        this.id = id;

    }

}

编写一个生成Parquet的Flink类FlinkParquetUtils，具体代码实现如下：

/**

 * Consumer kafka topic & convert data to parquet.

 *

 * @author smartloli.

 *

 *         Created by Feb 24, 2019

 */

public class FlinkParquetUtils {

    private final static StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    private final static Properties props = new Properties();

    static {

        /** Set flink env info. */

        env.enableCheckpointing(60 * 1000);

        env.setParallelism(1);

        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

        /** Set kafka broker info. */

        props.setProperty("bootstrap.servers", "dn1:9092,dn2:9092,dn3:9092");

        props.setProperty("group.id", "flink_group_parquet");

        props.setProperty("kafka.topic", "flink_parquet_topic_d");

        /** Set hdfs info. */

        props.setProperty("hdfs.path", "hdfs://cluster1/flink/parquet");

        props.setProperty("hdfs.path.date.format", "yyyy-MM-dd");

        props.setProperty("hdfs.path.date.zone", "Asia/Shanghai");

        props.setProperty("window.time.second", "60");

    }

    /** Consumer topic data && parse to hdfs. */

    public static void getTopicToHdfsByParquet(StreamExecutionEnvironment env, Properties props) {

        try {

            String topic = props.getProperty("kafka.topic");

            String path = props.getProperty("hdfs.path");

            String pathFormat = props.getProperty("hdfs.path.date.format");

            String zone = props.getProperty("hdfs.path.date.zone");

            Long windowTime = Long.valueOf(props.getProperty("window.time.second"));

            FlinkKafkaConsumer010<String> flinkKafkaConsumer010 = new FlinkKafkaConsumer010<>(topic, new SimpleStringSchema(), props);

            KeyedStream<TopicSource, String> KeyedStream = env.addSource(flinkKafkaConsumer010).map(FlinkParquetUtils::transformData).assignTimestampsAndWatermarks(new CustomWatermarks<TopicSource>()).keyBy(TopicSource::getId);

            DataStream<TopicSource> output = KeyedStream.window(TumblingEventTimeWindows.of(Time.seconds(windowTime))).apply(new WindowFunction<TopicSource, TopicSource, String, TimeWindow>() {

                /**

                 *

                 */

                private static final long serialVersionUID = 1L;

                @Override

                public void apply(String key, TimeWindow timeWindow, Iterable<TopicSource> iterable, Collector<TopicSource> collector) throws Exception {

                    iterable.forEach(collector::collect);

                }

            });

            // Send hdfs by parquet

            DateTimeBucketAssigner<TopicSource> bucketAssigner = new DateTimeBucketAssigner<>(pathFormat, ZoneId.of(zone));

            StreamingFileSink<TopicSource> streamingFileSink = StreamingFileSink.forBulkFormat(new Path(path), ParquetAvroWriters.forReflectRecord(TopicSource.class)).withBucketAssigner(bucketAssigner).build();

            output.addSink(streamingFileSink).name("Sink To HDFS");

            env.execute("TopicData");

        } catch (Exception ex) {

            ex.printStackTrace();

        }

    }

    private static TopicSource transformData(String data) {

        if (data != null && !data.isEmpty()) {

            JSONObject value = JSON.parseObject(data);

            TopicSource topic = new TopicSource();

            topic.setId(value.getString("id"));

            topic.setTime(value.getLong("time"));

            return topic;

        } else {

            return new TopicSource();

        }

    }

    private static class CustomWatermarks<T> implements AssignerWithPunctuatedWatermarks<TopicSource> {

        /**

         *

         */

        private static final long serialVersionUID = 1L;

        private Long cuurentTime = 0L;

        @Nullable

        @Override

        public Watermark checkAndGetNextWatermark(TopicSource topic, long l) {

            return new Watermark(cuurentTime);

        }

        @Override

        public long extractTimestamp(TopicSource topic, long l) {

            Long time = topic.getTime();

            cuurentTime = Math.max(time, cuurentTime);

            return time;

        }

    }

    public static void main(String[] args) {

        getTopicToHdfsByParquet(env, props);

    }

}

然后将编写好的应用程序进行打包，这里我们可以利用Maven命令，可以很方便的进行打包，在pom.xml文件中添加如下插件：

<build>

        <plugins>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.3</version>

                <configuration>

                    <source>1.8</source>

                    <target>1.8</target>

                </configuration>

            </plugin>

            <plugin>

                <artifactId>maven-assembly-plugin</artifactId>

                <configuration>

                    <archive>

                        <manifest>

                            <mainClass>org.smartloli.kafka.connector.flink.hdfs.FlinkParquetUtils</mainClass>

                        </manifest>

                    </archive>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

            </plugin>

        </plugins>

    </build>

然后使用如下命令进行编译打包：

mvn clean && mvn assembly:assembly

最后将打包的JAR上传到Flink集群。

4.运行及预览

将应用程序的JAR上传到Flink集群后，执行如下命令进行提交：

flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 -yqu hadoop kafka-connector-flink-parquet.jar

查看ResourceManager的页面，提交任务如下：

在代码中，我们在HDFS上以日期yyyy-MM-dd的格式进行生产，结果如下：

5.总结

在编写Flink应用程序的时候，建议使用Maven来管理项目，这样添加依赖JAR的时候，只需将依赖的信息添加到pom.xml文件即可。打包的时候，同样使用Maven命令，这样应用程序所依赖的JAR包均会打包进行，防止遗漏导致提交任务时失败。

6.结束语

这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

另外，博主出书了《Kafka并不难学》，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。

Flink生成Parquet格式文件实战的更多相关文章

Parquet 格式文件
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop.Spark等),被多种查询引擎支持(Hive.Impala.Dril ...
weka数据挖掘拾遗（一）---- 生成Arff格式文件
一.什么是arff格式文件 1.arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思.它是weka数据挖掘开源程序使用的一种文件模式.由于weka ...
python 生成json格式文件，并存储到手机上
上代码 #!/usr/bin/env python # -*- encoding: utf-8 -*- import json import os import random "" ...
impala+hdfs+parquet格式文件
[创建目录]hdfs dfs -mkdir -p /user/hdfs/sample_data/parquet [赋予权限]sudo -u hdfs hadoop fs -chown -R impal ...
如何用python在Windows系统下，生成UNIX格式文件
平时测试工作中,少不了制造测试数据.最近一个项目,我就需要制造一批可在UNIX下正确读取的文件.为确保这批文件能从FTP下载成功,开发叮嘱我:“文件中凡是遇到换行,换行符必须是UNIX下的LF,而不是 ...
生成csv格式文件并导出至页面的前后台实现
一.前台实现: 1. HTML: <div> <a href="javascript:void(0);" class="btnStyleLeft&quo ...
java使用jdom生成xml格式文件
本文生成xml使用的工具是jdom.jar,下载地址如下: 链接:https://eyun.baidu.com/s/3slyHgnj 密码:0TXF 生成之后的文档格式类型,就如上面的图片一样,简单吧 ...
Parquet 格式文件，查看Schema
需要社区工具:parquet-tools-1.6.0rc3-SNAPSHOT.jar git project: https://github.com/apache/p ...
java 读写Parquet格式的数据 Parquet example
import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOExce ...

随机推荐

页面跳转之session
题意:设主页为index.jsp 通过session将index.jsp中的信息传送给结果页面result.jsp.(其实,session的生命周期是整个服务器开启过程,具体不做详细介绍).这个其实 ...
Android应用程序支持不同屏幕（尺寸、密度）
how to build a user interface using Android layouts for all types of devices 使用Android布局设计的UI接口用于不同的 ...
我的 FPGA 学习历程（01）—— FPGA 基础知识和 Quartus 的安装
高级的嵌入式市场主要分为以下三类:ARM.DSP 和 FPGA. 其中 ARM 是行业内的佼佼者,目前几乎所有的安卓智能手机都使用 ARM 授权的 CPU架构:而 DSP(数字信号处理器) 早年就被大 ...
APM和PIX飞控日志分析入门贴
我们在飞行中,经常会碰到各种各样的问题,经常有模友很纳闷,为什么我的飞机会这样那样的问题,为什么我的飞机会炸机,各种问题得不到答案是一件非常不爽的问题,在APM和PIX飞控中,都有记录我们整个飞行过程 ...
资源验证（Modified）
Last-Modified : 上次修改时间配合 If-Modified-Since 或者 If-Unmodified-Since (请求头携带) 对比上次修改时间对资源进行验证 Etag验证数 ...
TypeScript 函数-函数类型
//指定参数类型 function add(x:number,y:number){ console.log("x:"+x); // reutrn(x+y); } //指定函数类型 ...
Java之hashCode的作用和equals方法的重构规则
这个是博主对hashcode的初步理解,以后加深了会再来更新: 1.hashcode是什么? hashcode是对象的散列码,不同的对象几乎不一样,说几乎是因为还是可以一样的. 特点:每一个对象都有h ...
Golang实现requests库
Golang实现requests库简单的封装下,方便使用,像python的requests库一样. Github地址 Github 支持 GET.POST.PUT.DELETE applicatio ...
js的七大设计原则--迪米特原则
一.什么是迪米特原则迪米特原则也叫最少知道原则,一个类应该对其他对象保持最少的了解.通俗来讲,就是一个类对自己依赖的类知道的越少越好.因为类与类之间的关系越密切,耦合度越大,当一个类发生改变时,对另 ...
python Tags 母板组件静态文件相关自定义simpletag inclusion_tag
一.Tags(一)for 1.基本用法 <ul> {% for user in user_list %} <li>{{ user.name }}</li> {% e ...

Flink生成Parquet格式文件实战