flink ETL数据处理

　　　　　　　　　　　　　　　　　　　　　　Flink ETL 实现数据清洗

一：需求(针对算法产生的日志数据进行清洗拆分)

　　1. 算法产生的日志数据是嵌套json格式，需要拆分

　　2.针对算法中的国家字段进行大区转换

　　3.最后把不同类型的日志数据分别进行储存

二：整体架构

　　　　　　这里演示处理从rabbitmq来的数据进行数据处理然后发送到rabbitmq

自定义redistSource flink没有redis的source

package com.yw.source;

import org.apache.flink.streaming.api.functions.source.SourceFunction;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import redis.clients.jedis.Jedis;

import redis.clients.jedis.exceptions.JedisConnectionException;

import java.util.HashMap;

import java.util.Map;

/**

 * redis中进行数据初始化

 * <p>

 * 在reids中保存国家和大区关系

 * hset areas AREA_IN IN

 * hset areas AREA_US US

 * hset areas AREA_CT TW,HK

 * hset areas AREA_AR PK,KW,SA

 *

 *

 * @Auther: YW

 * @Date: 2019/6/15 10:23

 * @Description:

 */

public class MyRedisSource implements SourceFunction<HashMap<String, String>> {

    private final Logger LOG = LoggerFactory.getLogger(MyRedisSource.class);

    private boolean isRuning = true;

    private Jedis jedis = null;

    private final long SLEEP = 60000;

    private final long expire = 60;

    @Override

    public void run(SourceContext<HashMap<String, String>> ctx) throws Exception {

        this.jedis = new Jedis("localhost", 6397);

        // 存储国家和地区关系

        HashMap<String, String> map = new HashMap<>();

        while (isRuning) {

            try {

                map.clear(); // 老数据清除

                Map<String, String> areas = jedis.hgetAll("areas");

                for (Map.Entry<String, String> entry : areas.entrySet()) {

                    String key = entry.getKey();

                    String value = entry.getValue();

                    String[] splits = value.split(",");

                    for (String split : splits) {

                        map.put(split, key);

                    }

                }

                if (map.size() > 0) {

                    // map >0 数据发送出去

                    ctx.collect(map);

                }else {

                    LOG.warn("获取数据为空！");

                }

                // 歇6秒

                Thread.sleep(SLEEP);

            } catch (JedisConnectionException e) {

                LOG.error("redis连接异常 重新连接",e.getCause());

                // 如果连接异常 重新连接

                jedis = new Jedis("localhost", 6397);

            }catch (Exception e){

                LOG.error("redis Source其他异常",e.getCause());

            }

        }

    }

    @Override

    public void cancel() {

        isRuning = false;

        while (jedis != null) {

            jedis.close();

        }

    }

}

DataClean数据处理

package com.yw;

import com.alibaba.fastjson.JSONArray;

import com.alibaba.fastjson.JSONObject;

import com.rabbitmq.client.AMQP;

import com.yw.source.MyRedisSource;

import org.apache.flink.streaming.api.CheckpointingMode;

import org.apache.flink.streaming.api.datastream.DataStream;

import org.apache.flink.streaming.api.datastream.DataStreamSource;

import org.apache.flink.streaming.api.environment.CheckpointConfig;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.functions.co.CoFlatMapFunction;

import org.apache.flink.streaming.connectors.rabbitmq.RMQSink;

import org.apache.flink.streaming.connectors.rabbitmq.RMQSinkPublishOptions;

import org.apache.flink.streaming.connectors.rabbitmq.RMQSource;

import org.apache.flink.streaming.connectors.rabbitmq.common.RMQConnectionConfig;

import org.apache.flink.streaming.util.serialization.SimpleStringSchema;

import org.apache.flink.util.Collector;

import java.util.HashMap;

/**

 * @Auther: YW

 * @Date: 2019/6/15 10:09

 * @Description:

 */

public class DataClean {

    // 队列名

    public final static String QUEUE_NAME = "two.aa.in";

    public static void main(String[] args) throws Exception {

        // 获取环境

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 一分钟 checkpoint

        env.enableCheckpointing(60000);

        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);

        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(30000); // enableCheckpointing最小间隔时间（一半）

        env.getCheckpointConfig().setCheckpointTimeout(10000);// 超时时间

        env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);

        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

        final RMQConnectionConfig rmqConf = new RMQConnectionConfig.Builder().setHost("127.0.0.1").setPort(5672).setVirtualHost("/").setUserName("guest").setPassword("guest").build();

        // 获取mq数据

        DataStream<String> data1 = env.addSource(new RMQSource<String>(rmqConf, QUEUE_NAME, false, new SimpleStringSchema())).setParallelism(1);

        //{"dt":"2019-06-10","countryCode":"US","data":[{"type":"s1","score":0.3,"level":"A"},{"type":"s2","score":0.1,"level":"B"},{"type":"s3","score":0.2,"level":"C"}]}

        DataStreamSource<HashMap<String, String>> mapData = env.addSource(new MyRedisSource());

        // connect可以连接两个流

        DataStream<String> streamOperator = data1.connect(mapData).flatMap(new CoFlatMapFunction<String, HashMap<String, String>, String>() {

            // 保存 redis返回数据  国家和大区的映射关系

            private HashMap<String, String> allMap = new HashMap<String, String>();

            // flatMap1 处理rabbitmq的数据

            @Override

            public void flatMap1(String value, Collector<String> out) throws Exception {

                JSONObject jsonObject = JSONObject.parseObject(value);

                String countryCode = jsonObject.getString("countryCode");

                String dt = jsonObject.getString("dt");

                // 获取大区

                String area = allMap.get(countryCode);

                JSONArray jsonArray = jsonObject.getJSONArray("data");

                for (int i = 0; i < jsonArray.size(); i++) {

                    JSONObject jsonObject1 = jsonArray.getJSONObject(i);

                    jsonObject1.put("area", area);

                    jsonObject1.put("dt", dt);

                    out.collect(jsonObject1.toJSONString());

                }

            }

            // 处理redis的返回的map类型的数据

            @Override

            public void flatMap2(HashMap<String, String> value, Collector<String> out) throws Exception {

                this.allMap = value;

            }

        });

        streamOperator.addSink(new RMQSink<String>(rmqConf, new SimpleStringSchema(), new RMQSinkPublishOptions<String>() {

            @Override

            public String computeRoutingKey(String s) {

                return "CC";

            }

            @Override

            public AMQP.BasicProperties computeProperties(String s) {

                return null;

            }

            @Override

            public String computeExchange(String s) {

                return "test.flink.output";

            }

        }));

        data1.print();

        env.execute("etl");

    }

}

rabbitmq 模拟数据

package com.yw;

import com.rabbitmq.client.Channel;

import com.rabbitmq.client.Connection;

import com.rabbitmq.client.ConnectionFactory;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.Random;

/**

 * @Auther: YW

 * @Date: 2019/6/5 14:57

 * @Description:

 */

public class RabbitMQProducerUtil {

    public final static String QUEUE_NAME = "two.aa.in";

    public static void main(String[] args) throws Exception {

        //创建连接工厂

        ConnectionFactory factory = new ConnectionFactory();

        //设置RabbitMQ相关信息

        factory.setHost("127.0.0.1");

        factory.setUsername("guest");

        factory.setPassword("guest");

        factory.setVirtualHost("/");

        factory.setPort(5672);

        //创建一个新的连接

        Connection connection = factory.newConnection();

        //创建一个通道

        Channel channel = connection.createChannel();

        // 声明一个队列

//        channel.queueDeclare(QUEUE_NAME, false, false, false, null);

        //发送消息到队列中

        String message = "{\"dt\":\""+getCurrentTime()+"\",\"countryCode\":\""+getCountryCode()+"\"," +

                "{\"type\":\""+getType()+"\",\"score\":"+getScore()+"\"level\":\""+getLevel()+"\"}," +

                "{\"type\":\""+getType()+"\",\"score\":"+getScore()+"\"level\":\""+getLevel()+"\"}," +

                "{\"type\":\""+getType()+"\",\"score\":"+getScore()+"\"level\":\""+getLevel()+"\"}]}";

        //我们这里演示发送一千条数据

        for (int i = 0; i < 20; i++) {

                channel.basicPublish("", QUEUE_NAME, null, (message + i).getBytes("UTF-8"));

              System.out.println("Producer Send +'" + message);

        }

        //关闭通道和连接

        channel.close();

        connection.close();

    }

    public static String getCurrentTime() {

        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

        return sdf.format(new Date());

    }

    public static String getCountryCode() {

        String[] types={"US","TN","HK","PK","KW","SA","IN"};

        Random random = new Random();

        int i = random.nextInt(types.length);

        return types[i];

    }

    public static String getType() {

        String[] types={"s1","s2","s3","s4","s5"};

        Random random = new Random();

        int i = random.nextInt(types.length);

        return types[i];

    }

    public static String getScore() {

        String[] types={"0.1","0.2","0.3","0.4","0.5"};

        Random random = new Random();

        int i = random.nextInt(types.length);

        return types[i];

    }

    public static String getLevel() {

        String[] types={"A","B","C","D","E"};

        Random random = new Random();

        int i = random.nextInt(types.length);

        return types[i];

    }

}

redis 初始化数据

* hset areas AREA_IN IN
* hset areas AREA_US US
* hset areas AREA_CT TW,HK
* hset areas AREA_AR PK,KW,SA

------------最后运行DataClean------------

flink ETL数据处理的更多相关文章

Spark与Flink大数据处理引擎对比分析！
大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop.Storm,还是后来的Spark.Flink.然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能 ...
基于docker构建flink大数据处理平台
https://www.cnblogs.com/1ssqq1lxr/p/10417005.html 由于公司业务需求,需要搭建一套实时处理数据平台,基于多方面调研选择了Flink. 初始化Swarm环 ...
基于Broadcast 状态的Flink Etl Demo
接上文: [翻译]The Broadcast State Pattern(广播状态) 最近尝试了一下Flink 的 Broadcase 功能,在Etl,流表关联场景非常适用:一个流数据量大,一个流数据 ...
Flink学习笔记-新一代Flink计算引擎
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...
Flink入门介绍
什么是Flink Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态计算.可部署在各种集群环境,对各种大小的数据规模进行快速计算. Flink特性支持高吞吐. ...
深度介绍Flink在字节跳动数据流的实践
本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据流的实践. 字节跳动数据流 ...
带你玩转Flink流批一体分布式实时处理引擎
摘要:Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架. 本文分享自华为云社区<[云驻共创]手把手教你玩转Flink流批一体分布式实时处理引擎>,作者: 萌兔 ...
Flink基础概念入门
Flink 概述什么是 Flink Apache Apache Flink 是一个开源的流处理框架,应用于分布式.高性能.高可用的数据流应用程序.可以处理有限数据流和无限数据,即能够处理有边界和无边 ...
ETL的经验总结
ETL的考虑做数据仓库系统,ETL是关键的一环.说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具.回忆一下工作这么些年来,处理数据迁移.转换的工作倒还真的不少.但是那些工作基 ...

随机推荐

Windows是如何将64位Ntdll映射到32位进程的---转自简书
今天我们探索一个问题: 64位的ntdll是如何被加载到WoW64下的32位进程?今天的旅程将会带领我们进入到Windows内核逻辑中的未知领域,我们将会发现32位进程的内存地址空间是如何被初始化的. ...
tbls ci 友好的数据库文档化工具
tbls 是用golang 编写的数据库文档化工具,当前支持的数据库有pg.mysql.bigquery 此工具同时提供了变更对比.lint 校验,生成是markdown格式的简单使用安装 mac ...
rpm 简单 package 创建demo
安装的工具 yum install -y rpmdevtools 准备环境主要是初始化,会自动创建rpm 包构建需要的目录 rpmdev-setuptree 编写简单的spec cd ~/rpmbu ...
干货 | 10分钟掌握branch and cut（分支剪界）算法原理附带C++求解TSP问题代码
00 前言 branch and cut其实还是和branch and bound脱离不了干系的.所以,在开始本节的学习之前,请大家还是要务必掌握branch and bound算法的原理. 01 应 ...
nodejs之MongoDB安装[windows平台]
下载MongoDB,本为下载msi文件安装,下载地址下载完成之后直接双击文件安装,安装时注意安装路径创建一个空文件夹,用于存放数据库文件通过控制台进入安装目录下的bin目录,或者在bin ...
移动端 - adb shell常用命令
一.文件操作相关命令 //进入设备 adb shell //进入指定目录"/data/local/tmp" cd /data/local/tmp //查看目录 ls //进入根目录 ...
在mybatis中写sql语句的一些体会
本文会使用一个案例,就mybatis的一些基础语法进行讲解.案例中使用到的数据库表和对象如下: article表:这个表存放的是文章的基础信息 -- ------------------------- ...
给lol人物模型添加动画库(mixamo)中的动画
参考链接:https://www.bilibili.com/video/av61771773/?p=4 作为一个懒人,给提取出来的lol人物模型亲手制作动画是不存在的,但是又想给人物模型应用新的有 ...
Dependency Parsing
句子的依赖结构表现在哪些单词依赖哪些单词.单词之间的这种关系及可以表示为优先级之间的关系等. Dependency Parsing 通常情况下,对于一个输入句子:\(S=w_{0} w_{1} \do ...
人工智能新编程语言-Gen
MIT 的一个研究小组正努力让初学者更容易入门人工智能,同时也帮助专家进一步推进这个领域的发展. 在 PLDI 大会(Programming Language Design and Implement ...

flink ETL数据处理

flink ETL数据处理的更多相关文章

随机推荐

热门专题