【实时数仓】Day04-DWS层业务：DWS设计、访客宽表、商品主题宽表、流合并、地区主题表、FlinkSQL、关键词主题表、分词

一、DWS层与DWM设计

1、思路

之前已经进行分流

但只需要一些指标进行实时计算，将这些指标以主题宽表的形式输出

2、需求

访客、商品、地区、关键词四层的需求（可视化大屏展示、多维分析）

3、DWS层定位

轻度聚合、主题中管理

二、DWS层-访客主题宽表的计算

DWS表主要包含维度表和事实表

维度表主要包括渠道、地区、版本、新老用户等

事实表主要包括PV、UV、跳出次数、进入页面数(session_count)、连续访问时长等

1、需求分析

合并接收到的数据流，按时间窗口聚合，并将聚合结果写入数据库

2、实现

（1）读取kafka各个流的数据

page_log、dwm_uv、dwm_jump_user跳出用户

（2）合并读取到的数据流

使用union合并两个结构相同的数据流

需要提前调整数据结构封装主题宽表实体类（两个待合并的流也都要是这样的结构）

userJumpDStream.map实现转换

合并4条输入的流：

uniqueVisitStatsDstream.union(
pageViewStatsDstream,
sessionVisitDstream,
userJumpStatDstream
);

（3）根据维度进行聚合

设置时间标记及水位线

4个维度作为key，使用tuple4组合，进行分组，.keyBy(new KeySelector

reduce窗口内聚合，并补充时间字段

（4）写入OLAP数据库ClickHouse

专门解决大量数据统计分析的数据库，在保证了海量数据存储的能力，同时又兼顾了响应速度

先建表，使用 ReplacingMergeTree 引擎来保证幂等性

将日期变为数字作为分区类型

编写ClickhouseUtils工具类

创建 TransientSink 注解，标记不需要保存的字段

配置连接地址类，并增加写入OLAP的sink

查看控制台输出及表中数据 visitor_stats_2021

三、商品主题宽表

把多个事实表的明细数据汇总起来组合成宽表

1、需求及思路

获取数据流并转换为统一的数据对象格式

将统一数据结构合并为一个流

设定事件时间与水位线，分组、开窗、聚合

关联维度表补充数据

写入ClickHouse

2、功能实现

建商品统计实体类（各种业务数据的统计），并给必要字段添加@Builder.Default注解，各类添加@Builder注解（构造方法）

kafka中获取指定的流：FlinkKafkaConsumer<String> pageViewSource = MyKafkaUtil.getKafkaSource(pageViewSourceTopic,groupId);

对各种流数据进行结构转换，转换为构建的实体类

创建电商业务常量类 GmallConstant，类似维度表，用一个数字表示一个字符串

将统一的数据结构合并为一个流

设定事件时间与水位线

按商品id分组，10秒的窗口进行开窗window(TumblingEventTimeWindows.of(Time.seconds(10)))

补充商品维度、SKU维度、品类维度、品牌维度等信息

SingleOutputStreamOperator<ProductStats> productStatsWithTmDstream =

 AsyncDataStream.unorderedWait(productStatsWithCategory3Dstream,

 new DimAsyncFunction<ProductStats>("DIM_BASE_TRADEMARK") {

 @Override

 public void join(ProductStats productStats, JSONObject jsonObject) throws

Exception {

 productStats.setTm_name(jsonObject.getString("TM_NAME"));

 }

 @Override

 public String getKey(ProductStats productStats) {

 return String.valueOf(productStats.getTm_id());

 }

 }, 60, TimeUnit.SECONDS);

productStatsWithTmDstream.print("to save");

ClickHouse中创建商品主题宽表，添加写入ch的sink　　

//TODO 7.写入到 ClickHouse

productStatsWithTmDstream.addSink(

 ClickHouseUtil.<ProductStats>getJdbcSink(

"insert into product_stats_2021 values(?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)"));

查看ClickHouse表中的数据

四、地区主题表（Flink SQL）

1、需求分析

定义 Table 流环境，把数据源定义为动态表

通过 SQL 查询出结果表并转换为数据流

将数据流写入目标数据库

2、功能实现

（1）添加FlinkSQL依赖

（2）定义 Table 流环境StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, settings);

（3）将数据源topic定义为动态表WITH (" + MyKafkaUtil.getKafkaDDL(orderWideTopic, groupId) + ")");

WATERMARK FOR rowtime AS rowtime 是把某个虚拟字段设定为 EVENT_TIME

（4）拼接 Kafka 相关属性到 DDL

（5）做聚合运算

Env.sqlQuery("select " +……并将其转换为数据流

DataStream<ProvinceStats> provinceStatsDataStream =
tableEnv.toAppendStream(provinceStateTable, ProvinceStats.class);

（6）定义地区统计宽表实体类并写入到ClickHouse（addSink）

五、关键词主题表（Flink SQL）

1、需求分析

维度聚合决定关键词的大小

来源：用户在搜索框中的搜索、以商品为主题的统计中获取

2、搜索关键词的实现

（1）使用IK分词器对字符串进行分词

（2）编写自定义函数，将分词器加入FlinkSQL中

Flink的自定义函数包括：Scalar Function(相当于 Spark 的 UDF)、Table Function(相当于 Spark 的 UDTF)、Aggregation Functions (相当于 Spark 的 UDAF)

由于分词是一对多的拆分，应该选择TableFunction

封装 KeywordUDTF 函数，自定义UDTF，继承TableFunction

（3）定义Table流环境

（4）注册自定义函数，将数据源定义为动态表

（5）过滤非空数据 tableEnv.sqlQuery

（6）利用 UDTF 进行拆分（SQL内部）LATERAL TABLE(ik_analyze(fullword)) as T(keyword)");

（7）聚合，根据各个关键词出现次数进行 ct

（8）转换为流并写入 ClickHouse

建表、封装实体类、添加sink

六、总结

1、DWS 层主要是基于 DWD 和 DWM 层的数据进行轻度聚合统计

2、利用 union 操作实现多流的合并

3、窗口聚合操作

4、对 clickhouse 数据库的写入操作

5、FlinkSQL 实现业务

6、分词器的使用

7、在 FlinkSQL 中自定义函数的使用

【实时数仓】Day04-DWS层业务：DWS设计、访客宽表、商品主题宽表、流合并、地区主题表、FlinkSQL、关键词主题表、分词的更多相关文章

美团点评基于 Flink 的实时数仓建设实践
https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651749037&idx=1&sn=4a448647b3dae5 ...
基于 Kafka 的实时数仓在搜索的实践应用
一.概述 Apache Kafka 发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员.Apache Kafka 社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得 ...
实时数仓(二)：DWD层-数据处理
目录实时数仓(二):DWD层-数据处理 1.数据源 2.用户行为日志 2.1开发环境搭建 1)包结构 2)pom.xml 3)MykafkaUtil.java 4)log4j.properties ...
HBase实战 | 知乎实时数仓架构演进
https://mp.weixin.qq.com/s/hx-q13QteNvtXRpNsE5Y0A 作者 | 知乎数据工程团队编辑 | VincentAI 前线导读:“数据智能” (Data Inte ...
（转）用Flink取代Spark Streaming！知乎实时数仓架构演进
转:https://mp.weixin.qq.com/s/e8lsGyl8oVtfg6HhXyIe4A AI 前线导读:“数据智能” (Data Intelligence) 有一个必须且基础的环节,就 ...
flink实时数仓从入门到实战
第一章.flink实时数仓入门一.依赖 <!--Licensed to the Apache Software Foundation (ASF) under oneor more contri ...
基于Flink构建全场景实时数仓
目录: 一. 实时计算初期二. 实时数仓建设三. Lambda架构的实时数仓四. Kappa架构的实时数仓五. 流批结合的实时数仓实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有 ...
基于 Flink 的实时数仓生产实践
数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战.在智能商业中,数据的结果代表了用户反馈.获取数据的及时性尤为重要.快速获取数据反馈能够帮助公司更快地做出决策,更好地进行 ...
更强大的实时数仓构建能力！分析型数据库PostgreSQL 6.0新特性解读
阿里云 AnalyticDB for PostgreSQL 为采用MPP架构的分布式集群数据库,完备支持SQL 2003,部分兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务 ...
Clickhouse实时数仓建设
1.概述 Clickhouse是一个开源的列式存储数据库,其主要场景用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告.今天,笔者就为大家介绍如何使用Clickhouse来构建实 ...

随机推荐

Minio纠删码快速入门
官方文档地址:http://docs.minio.org.cn/docs/master/minio-erasure-code-quickstart-guide Minio使用纠删码erasure co ...
第一个Django应用 - 第二部分：Django数据库配置，模型和后台
汇总操作注:polls为应用名 1.执行命令:python manage.py migrate,生成默认的数据库表等 2.修改应用的models.py文件,添加数据库表模型等 3.INSTALLED ...
使用Receiver接收告警信息
告警接收器可以通过以下形式进行配置: receivers: - <receiver> ... 每一个receiver具有一个全局唯一的名称,并且对应一个或者多个通知方式: name: &l ...
echarts中setOption没有重新渲染表格
setOption是merge,而非赋值,所以第二次setOption后,实际是更新了option setOption支持notMerge为true的方案,但是需要全量更新option(性能不好): ...
洛谷P3810 陌上花开（cdq）
最近才学了cdq,所以用cdq写的代码(这道题也是cdq的模板题) 这道题是个三维偏序问题,先对第一维排序,然后去掉重复的,然后cdq分治即可. 为什么要去掉重复的呢?因为相同的元素互相之间都能贡献, ...
BZOJ3732 Network（Kruskal重构树）
Kruskal重构树的模板题. 给你N个点的无向图 (1 <= N <= 15,000),记为:1-N.图中有M条边 (1 <= M <= 30,000) ,第j条边的长度为: ...
ClickHouse(07)ClickHouse数据库引擎解析
目录 Atomic 建表语句特性 Table UUID RENAME TABLES DROP/DETACH TABLES EXCHANGE TABLES ReplicatedMergeTree in ...
Java学习之路：快捷键
常用的快捷键 Ctrl+Shift:切换输入法 Ctrl+C:复制 Ctrl+V:粘贴 Ctrl+X:剪切 Ctrl+A:全选 Ctrl+Z:撤销 Ctrl+Y:返回撤销 Ctrl+S:保存 Shif ...
JUC（3）
文章目录 1.集合类不安全 2.在高并发情况下arraylist()并不安全 3.高并发下set并不安全 3.测试map(高并发情况下出现问题) 1.集合类不安全 2.在高并发情况下arraylist ...
SpringCloud微服务实战——搭建企业级开发框架（四十六）：【移动开发】整合uni-app搭建移动端快速开发框架-环境搭建
近年来uni-app发展势头迅猛,只要会vue.js,就可以开发一套代码,发布移动应用到iOS.Android.Web(响应式).以及各种小程序(微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/ ...

【实时数仓】Day04-DWS层业务：DWS设计、访客宽表、商品主题宽表、流合并、地区主题表、FlinkSQL、关键词主题表、分词

【实时数仓】Day04-DWS层业务：DWS设计、访客宽表、商品主题宽表、流合并、地区主题表、FlinkSQL、关键词主题表、分词的更多相关文章

随机推荐

热门专题