支付宽表

支付宽表的目的,最主要的原因是支付表没有到订单明细,支付金额没有细分到商品上, 没有办法统计商品级的支付状况。 所以本次宽表的核心就是要把支付表的信息与订单明细关联上。

解决方案有两个

一个是把订单明细表(或者宽表)输出到 Hbase 上,在支付宽表计算时查询 hbase, 这相当于把订单明细作为一种维度进行管理。

一个是用流的方式接收订单明细,然后用双流 join 方式进行合并。因为订单与支付产 生有一定的时差。所以必须用 intervalJoin 来管理流的状态时间,保证当支付到达时订 单明细还保存在状态中。

支付相关实体类

PaymentInfo.java:支付实体类

import lombok.Data;
import java.math.BigDecimal;
/**
* @author zhangbaohpu
* @date 2021/12/25 10:08
* @desc 支付实体类
*/
@Data
public class PaymentInfo {
   Long id;
   Long order_id;
   Long user_id;
   BigDecimal total_amount;
   String subject;
   String payment_type;
   String create_time;
   String callback_time;
}

PaymentWide.java:支付宽表实体类

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.commons.beanutils.BeanUtils;
import java.lang.reflect.InvocationTargetException;
import java.math.BigDecimal;
/**
* @author zhangbaohpu
* @date 2021/12/25 10:10
* @desc 支付宽表实体类
*/
@Data
@AllArgsConstructor
@NoArgsConstructor
public class PaymentWide {
   Long payment_id;
   String subject;
   String payment_type;
   String payment_create_time;
   String callback_time;
   Long detail_id;
   Long order_id ;
   Long sku_id;
   BigDecimal order_price ;
   Long sku_num ;
   String sku_name;
   Long province_id;
   String order_status;
   Long user_id;
   BigDecimal total_amount;
   BigDecimal activity_reduce_amount;
   BigDecimal coupon_reduce_amount;
   BigDecimal original_total_amount;
   BigDecimal feight_fee;
   BigDecimal split_feight_fee;
   BigDecimal split_activity_amount;
   BigDecimal split_coupon_amount;
   BigDecimal split_total_amount;
   String order_create_time;
   String province_name;//查询维表得到
   String province_area_code;
   String province_iso_code;
   String province_3166_2_code;
   Integer user_age ;
   String user_gender;
   Long spu_id; //作为维度数据 要关联进来
   Long tm_id;
   Long category3_id;
   String spu_name;
   String tm_name;
   String category3_name;
   public PaymentWide(PaymentInfo paymentInfo, OrderWide orderWide){
       mergeOrderWide(orderWide);
       mergePaymentInfo(paymentInfo);
  }
   public void mergePaymentInfo(PaymentInfo paymentInfo ) {
       if (paymentInfo != null) {
           try {
               BeanUtils.copyProperties(this,paymentInfo);
               payment_create_time=paymentInfo.create_time;
               payment_id = paymentInfo.id;
          } catch (IllegalAccessException e) {
               e.printStackTrace();
          } catch (InvocationTargetException e) {
               e.printStackTrace();
          }
      }
  }
   public void mergeOrderWide(OrderWide orderWide ) {
       if (orderWide != null) {
           try {
               BeanUtils.copyProperties(this,orderWide);
               order_create_time=orderWide.create_time;
          } catch (IllegalAccessException e) {
               e.printStackTrace();
          } catch (InvocationTargetException e) {
               e.printStackTrace();
          }
      }
  }
}

支付宽表主程序

目前还没有任何计算,仍然放在dwm层

在dwm包下创建PaymentWideApp.java任务类

import cn.hutool.core.date.DatePattern;
import cn.hutool.core.date.DateUnit;
import cn.hutool.core.date.DateUtil;
import com.alibaba.fastjson.JSON;
import com.zhangbao.gmall.realtime.bean.OrderWide;
import com.zhangbao.gmall.realtime.bean.PaymentInfo;
import com.zhangbao.gmall.realtime.bean.PaymentWide;
import com.zhangbao.gmall.realtime.utils.MyKafkaUtil;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.co.ProcessJoinFunction;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
import org.apache.flink.util.Collector;

import java.time.Duration;

/**
* @author zhangbaohpu
* @date 2021/12/25 10:16
* @desc 支付宽表
*/
public class PaymentWideApp {
   public static void main(String[] args) {
       StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
       //添加并行度
       env.setParallelism(4);

       //设置检查点
//       env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE);
//       env.getCheckpointConfig().setCheckpointTimeout(60000);
//       env.setStateBackend(new FsStateBackend("hdfs://hadoop101:9000/gmall/flink/checkpoint/paymentWide"));
//       //指定哪个用户读取hdfs文件
//       System.setProperty("HADOOP_USER_NAME","zhangbao");

       //设置kafka主题及消费者组
       String paymentInfoTopic = "dwd_payment_info";
       String orderWideTopic = "dwm_order_wide";
       String paymentWideTopic = "dwm_payment_wide";
       String paymentWideGroup = "paymentWideGroup";

       //获取支付信息
       FlinkKafkaConsumer<String> paymentInfo = MyKafkaUtil.getKafkaSource(paymentInfoTopic, paymentWideGroup);
       DataStreamSource<String> paymentInfoJsonStrDs = env.addSource(paymentInfo);
       //获取订单宽表信息
       FlinkKafkaConsumer<String> orderWide = MyKafkaUtil.getKafkaSource(orderWideTopic, paymentWideGroup);
       DataStreamSource<String> orderWideJsonStrDs = env.addSource(orderWide);

       //转换格式
       SingleOutputStreamOperator<PaymentInfo> paymentJsonDs = paymentInfoJsonStrDs.map(paymentInfoStr -> JSON.parseObject(paymentInfoStr, PaymentInfo.class));
       SingleOutputStreamOperator<OrderWide> orderWideJsonDs = orderWideJsonStrDs.map(orderWideStr -> JSON.parseObject(orderWideStr, OrderWide.class));

       paymentJsonDs.print("payment info >>>");
       orderWideJsonDs.print("order wide >>>");

       //指定事件时间字段
       SingleOutputStreamOperator<PaymentInfo> paymentInfoWithWaterMarkDs = paymentJsonDs.assignTimestampsAndWatermarks(
           WatermarkStrategy.<PaymentInfo>forBoundedOutOfOrderness(Duration.ofSeconds(3))
              .withTimestampAssigner(new SerializableTimestampAssigner<PaymentInfo>() {
                   @Override
                   public long extractTimestamp(PaymentInfo paymentInfo, long l) {
                       return DateUtil.parse(paymentInfo.getCallback_time(), DatePattern.NORM_DATETIME_PATTERN).getTime();
                  }
              })
      );
       SingleOutputStreamOperator<OrderWide> orderWideWithWaterMarkDs = orderWideJsonDs.assignTimestampsAndWatermarks(
           WatermarkStrategy.<OrderWide>forBoundedOutOfOrderness(Duration.ofSeconds(3))
              .withTimestampAssigner(new SerializableTimestampAssigner<OrderWide>() {
                   @Override
                   public long extractTimestamp(OrderWide orderWide, long l) {
                       return DateUtil.parse(orderWide.getCreate_time(), DatePattern.NORM_DATETIME_PATTERN).getTime();
                  }
              })
      );

       //分组
       KeyedStream<PaymentInfo, Long> paymentInfoKeyedDs = paymentInfoWithWaterMarkDs.keyBy(payInfoObj -> payInfoObj.getOrder_id());
       KeyedStream<OrderWide, Long> orderWideKeyedDs = orderWideWithWaterMarkDs.keyBy(orderWideObj -> orderWideObj.getOrder_id());

       paymentInfoKeyedDs.print("paymentInfoKeyedDs >>>");
       orderWideKeyedDs.print("orderWideKeyedDs >>>");

       //双流join,用支付数据关联订单数据
       SingleOutputStreamOperator<PaymentWide> paymentWideObjDs = paymentInfoKeyedDs.intervalJoin(orderWideKeyedDs)
              .between(Time.seconds(-1800), Time.seconds(1800))
              .process(new ProcessJoinFunction<PaymentInfo, OrderWide, PaymentWide>() {
                   @Override
                   public void processElement(PaymentInfo paymentInfo, OrderWide orderWide, ProcessJoinFunction<PaymentInfo, OrderWide, PaymentWide>.Context context, Collector<PaymentWide> collector) throws Exception {
                       System.out.println(paymentInfo);
                       System.out.println(orderWide);
                       collector.collect(new PaymentWide(paymentInfo, orderWide));
                  }
              });
       //将数据流转换为json
       SingleOutputStreamOperator<String> paymentWideDs = paymentWideObjDs.map(paymentWide -> JSON.toJSONString(paymentWide));
       paymentWideDs.print("payment wide json >>> ");
       //发送到kafka
       FlinkKafkaProducer<String> kafkaSink = MyKafkaUtil.getKafkaSink(paymentWideTopic);
       paymentWideDs.addSink(kafkaSink);

       try {
           env.execute("payment wide task");
      } catch (Exception e) {
           e.printStackTrace();
      }
  }
}

到这里,支付宽表的操作就完成了。

项目地址:https://github.com/zhangbaohpu/gmall-flink-parent/tree/master/gmall-realtime

总结

DWM 层部分的代码主要的责任,是通过计算把一种明细转变为另一种明细以应对后续的统计。学完本阶段内容要求掌握

  • 学会利用状态(state)进行去重操作。(需求:UV 计算)

  • 学会利用 CEP 可以针对一组数据进行筛选判断。需求:跳出行为计算

  • 学会使用 intervalJoin 处理流 join

  • 学会处理维度关联,并通过缓存和异步查询对其进行性能优化。

更多请在某公号平台搜索:选手一号位,本文编号:1011,回复即可获取。

11.Flink实时项目之支付宽表的更多相关文章

  1. 9.Flink实时项目之订单宽表

    1.需求分析 订单是统计分析的重要的对象,围绕订单有很多的维度统计需求,比如用户.地区.商品.品类.品牌等等.为了之后统计计算更加方便,减少大表之间的关联,所以在实时计算过程中将围绕订单的相关数据整合 ...

  2. 10.Flink实时项目之订单维度表关联

    1. 维度查询 在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表.但是即使通过主键的方式查询,hbase 速度 ...

  3. 7.Flink实时项目之独立访客开发

    1.架构说明 在上6节当中,我们已经完成了从ods层到dwd层的转换,包括日志数据和业务数据,下面我们开始做dwm层的任务. DWM 层主要服务 DWS,因为部分需求直接从 DWD 层到DWS 层中间 ...

  4. 5.Flink实时项目之业务数据准备

    1. 流程介绍 在上一篇文章中,我们已经把客户端的页面日志,启动日志,曝光日志分别发送到kafka对应的主题中.在本文中,我们将把业务数据也发送到对应的kafka主题中. 通过maxwell采集业务数 ...

  5. 3.Flink实时项目之流程分析及环境搭建

    1. 流程分析 前面已经将日志数据(ods_base_log)及业务数据(ods_base_db_m)发送到kafka,作为ods层,接下来要做的就是通过flink消费kafka 的ods数据,进行简 ...

  6. 6.Flink实时项目之业务数据分流

    在上一篇文章中,我们已经获取到了业务数据的输出流,分别是dim层维度数据的输出流,及dwd层事实数据的输出流,接下来我们要做的就是把这些输出流分别再流向对应的数据介质中,dim层流向hbase中,dw ...

  7. 11. SpringCloud实战项目-初始化数据库和表

    SpringCloud实战项目全套学习教程连载中 PassJava 学习教程 简介 PassJava-Learning项目是PassJava(佳必过)项目的学习教程.对架构.业务.技术要点进行讲解. ...

  8. 1.Flink实时项目前期准备

    1.日志生成项目 日志生成机器:hadoop101 jar包:mock-log-0.0.1-SNAPSHOT.jar gmall_mock ​ |----mock_common ​ |----mock ...

  9. 4.Flink实时项目之数据拆分

    1. 摘要 我们前面采集的日志数据已经保存到 Kafka 中,作为日志数据的 ODS 层,从 kafka 的ODS 层读取的日志数据分为 3 类, 页面日志.启动日志和曝光日志.这三类数据虽然都是用户 ...

随机推荐

  1. python 模块之 selenium 自动化使用教程

    一.安装 pip install Selenium 二.初始化浏览器 Chrome 是初始化谷歌浏览器 Firefox 是初始化火狐浏览器 Edge 是初始化IE浏览器 PhantomJS 是一个无界 ...

  2. Linux服务器上搭建Centos7.0+Apache+php+Mysql网站

    一.安装Linux系统 1.1虚拟机搭建Linux Centos7.0版本,搭建过程省略. 二. 安装apache.php.mysql.php-gd等组件. 2.1安装Apache服务程序(apach ...

  3. 更新或添加properties文件(保留存在的properties文件的原有格式)

    转载: https://www.cnblogs.com/wangzhisdu/p/7815549.html import java.io.BufferedWriter; import java.io. ...

  4. Netty之DefaultAttributeMap与AttributeKey的机制和原理

    一.介绍和原理分析 1.什么是 DefaultAttributeMap? DefaultAttributeMap 是一个 数组 + 链表 结构的线程安全Map. 2.什么是 AttributeKey? ...

  5. loj6077. 「2017 山东一轮集训 Day7」逆序对

    题目描述: loj 题解: 容斥+生成函数. 考虑加入的第$i$个元素对结果的贡献是$[0,i-1]$,我们可以列出生成函数. 长这样:$(1)*(1+x)*(1+x+x^2)*--*(1+x+x^2 ...

  6. CF226E Noble Knight's Path/bzoj4704 旅行

    题目描述: bz luogu 题解: 主席树维护大力树剖. 一条路径上不允许过的点的个数是当前袭击数-$y$时袭击数, 所以允许经过的点的个数是总数-当前袭击数+$y$时袭击数. 用主席树去维护每个时 ...

  7. Jenkins+Docker+Git 自动化部署

    Jenkins+Docker+Git 自动化部署图文教程 https://blog.csdn.net/qq_38252039/article/details/89791247 前言: 通过几天的学习和 ...

  8. We're sorry but demo3 doesn't work properly without JavaScript enabled. Please enable it to continue.

    今天遇到一个问题为 vue请求得到的响应为 We're sorry but demo3 doesn't work properly without JavaScript enabled. Please ...

  9. 关于 DispatcherServlet.properties 文件

    1.文件位置 2.文件内容 3.文件作用 前端控制器会从 DispatcherServlet.properties 文件中加载 HandlerMapping(处理器映射器).HandlerAdapte ...

  10. 重定向(redirect)与转发(forward)的区别

    重定向(redirect)与转发(forward)的区别 1.重定向时地址栏会发生改变,转发时地址栏不会发生改变 当浏览器请求资源时,服务器直接访问目标地址的URL,将URL的响应内容读取,之后再将读 ...