简介：滴滴实时计算引擎从 Flink-1.4 无缝升级到 Flink-1.10 版本，做到了完全对用户透明。并且在新版本的指标、调度、SQL 引擎等进行了一些优化，在性能和易用性上相较旧版本都有很大提升。

一、背景

在本次升级之前，我们使用的主要版本为 Flink-1.4.2，并且在社区版本上进行了一些增强，提供了 StreamSQL 和低阶 API 两种服务形式。现有集群规模达到了 1500 台物理机，运行任务数超过 12000 ，日均处理数据 3 万亿条左右。

不过随着社区的发展，尤其是 Blink 合入 master 后有很多功能和架构上的升级，我们希望能通过版本升级提供更好的流计算服务。今年 2 月份，里程碑版本 Flink-1.10 发布，我们开始在新版上上进行开发工作，踏上了充满挑战的升级之路。

二、 Flink-1.10 新特性

作为 Flink 社区至今为止的最大的一次版本升级，加入的新特性解决了之前遇到很多的痛点。

1. 原生 DDL 语法与 Catalog 支持

Flink SQL 原生支持了 DDL 语法，比如 CREATE TABLE/CREATE FUNCTION，可以使用 SQL 进行元数据的注册，而不需要使用代码的方式。

也提供了 Catalog 的支持，默认使用 InMemoryCatalog 将信息临时保存在内存中，同时也提供了 HiveCatalog 可以与 HiveMetastore 进行集成。也可以通过自己拓展 Catalog 接口实现自定义的元数据管理。

2.Flink SQL 的增强

基于 ROW_NUMBER 实现的 TopN 和去重语法，拓展了 StreamSQL 的使用场景。
实现了 BinaryRow 类型作为内部数据交互，将数据直接以二进制的方式构建而不是对象数组，比如使用一条数据中的某个字段时，可以只反序列其中部分数据，减少了不必要的序列化开销。
新增了大量内置函数，例如字符串处理、FIRST/LAST_VALUE 等等，由于不需要转换为外部类型，相较于自定义函数效率更高。
增加了 MiniBatch 优化，通过微批的处理方式提升任务的吞吐

3.内存配置优化

之前对 Flink 内存的管理一直是一个比较头疼的问题，尤其是在使用 RocksDB 时，因为一个 TaskManager 中可能存在多个 RocksDB 实例，不好估算内存使用量，就导致经常发生内存超过限制被杀。

在新版上增加了一些内存配置，例如 state.backend.rocksdb.memory.fixed-per-slot 可以轻松限制每个 slot的RocksDB 内存的使用上限，避免了 OOM 的风险。

三、挑战与应对

本次升级最大的挑战是，如何保证 StreamSQL 的兼容性。StreamSQL 的目的就是为了对用户屏蔽底层细节，能够更加专注业务逻辑，而我们可以通过版本升级甚至更换引擎来提供更好的服务。保证任务的平滑升级是最基本的要求。

1. 内部 patch 如何兼容

由于跨越多个版本架构差距巨大，内部 patch 基本无法直接合入，需要在新版本上重新实现。我们首先整理了所有的历史 commit，筛选出那些必要的修改并且在新版上进行重新实现，目的是能覆盖已有的所有功能，确保新版本能支持现有的所有任务需求。

例如：

新增或修改 Connectors 以支持公司内部需要，例如 DDMQ（滴滴开源消息队列产品），权限认证功能等。
新增 Formats 实现，例如 binlog，内部日志采集格式的解析等。
增加 ADD JAR 语法，可以在 SQL 任务中引用外部依赖，比如 UDF JAR，自定义 Source/Sink。
增加 SET 语法，可以在 SQL 中设置 TableConfig，指导执行计划的生成

2. StreamSQL 语法兼容

社区在 1.4 版本时，FlinkSQL还处于比较初始的阶段，也没有原生的 DDL 语法支持，我们使用 Antlr 实现了一套自定义的 DDL 语法。但是在 Flink1.10 版本上，社区已经提供了原生的 DDL 支持，而且与我们内部的语法差别较大。现在摆在我们面前有几条路可以选择：

放弃内部语法的支持，修改全部任务至新语法。（违背了平滑迁移的初衷，而且对已有用户学习成本高）
修改 Flink 内语法解析的模块（sql-parser），支持对内部语法的解析。（实现较为复杂，且不利于后续的版本升级）
在 sql-parser 之上封装一层语法转换层，将原本的 SQL 解析提取有效信息后，通过字符串拼接的方式组织成社区语法再运行。

最终我们选用了第三种方案，这样可以最大限度的减少和引擎的耦合，作为插件运行，未来再有引擎升级完全可以复用现有的逻辑，能够降低很多的开发成本。

例如：我们在旧版本上使用 "json-path" 的库实现了 json 解析，通过在建表语句里定义类似 $.status 的表达式表示如何提取此字段。

新版本上原生的 json 类型解析可以使用 ROW 类型来表示嵌套结构，在转换为新语法的过程中，将原本的表达是解析为树并构建出新的字段类型，再使用计算列的方式提取出原始表中的字段，确保表结构与之前一致。类型名称、配置属性也通过映射转换为社区语法。

3. 兼容性测试

最后是测试阶段，需要进行完善的测试确保所有任务都能做到平滑升级。我们原本的计划是准备进行回归测试，对已有的所有任务替换配置后进行回放，但是在实际操作中有很多问题：

测试流程过长，一次运行可能需要数个小时。
出现问题时不好定位，可能发生在任务的整个生命周期的任何阶段。
无法验证计算结果，即新旧版本语义是否一致

所以我们按任务的提交流程分成多个阶段进行测试，只有在当前阶段能够全部测试通过后后进入下一个阶段测试，提前发现问题，将问题定位范围缩小到当前阶段，提高测试效率。

转换测试：对所有任务进行转换，测试结果符合预期，抽象典型场景为单元测试。
编译测试：确保所有任务可以通过 TablePlanner 生成执行计划，在编译成 JobGraph，真正提交运行前结束。
回归测试：在测试环境对任务替换配置后进行回放，确认任务可以提交运行
对照测试：对采样数据以文件的形式提交至新旧两个版本中运行，对比结果是否完全一致（因为部分任务结果不具有确定性，所以使用旧版本连续运行 2 次，筛选出确定性任务，作为测试用例）

四、引擎增强

除了对旧版本的兼容，我们也结合了新版本的特性，对引擎进行了增强。

1. Task-Load 指标

我们一直希望能精确衡量任务的负载状况，使用反压指标指标只能粗略的判断任务的资源够或者不够。

结合新版的 Mailbox 线程模型，所有互斥操作全部运行在 TaskThread 中，只需统计出线程的占用时间，就可以精确计算任务负载的百分比。

未来可以使用指标进行任务的资源推荐，让任务负载维持在一个比较健康的水平。

2. SubTask 均衡调度

在 FLIP-6 后，Flink 修改了资源调度模型，移除了--container 参数，slot 按需申请确保不会有闲置资源。但是这也导致了一个问题，Source 的并发数常常是小于最大并发数的，而 SubTask 调度是按 DAG 的拓扑顺序调度，这样 SourceTask 就会集中在某些 TaskManager 中导致热点。

我们加入了"最小 slot 数"的配置，保证在 Flink session 启动后立即申请相应数量的 slot，且闲置时也不主动退出，搭配 cluster.evenly-spread-out-slots 参数可以保证在 slot 数充足的情况下，SubTask 会均匀分布在所有的 TaskManager 上。

3. 窗口函数增强

以滚动窗口为例 TUMBLE(time_attr, INTERVAL '1' DAY)，窗口为一天时开始和结束时间固定为每天 0 点 -24 点，无法做到生产每天 12 点-次日 12 点的窗口。

对于代码可以通过指定偏移量实现，但是 SQL 目前还未实现，通过增加参数 TUMBLE(time_attr, INTERVAL '1' DAY, TIME '12:00:00') 表示偏移时间为 12 小时。

还有另外一种场景，比如统计一天的 UV，同时希望展示当前时刻的计算结果，例如每分钟触发窗口计算。对于代码开发的方式可以通过自定义 Trigger 的方式决定窗口的触发逻辑，而且 Flink 也内置了一些 Tigger 实现，比如 ContinuousTimeTrigger 就很适合这种场景。所以我们又在窗口函数里增加了一种可选参数，代表窗口的触发周期，TUMBLE(time_attr, INTERVAL '1' DAY, INTERVAL '1' MINUTES) 。

通过增加 offset 和 tiggger 周期参数（TUMBLE(time_attr, size[,offset_time][,trigger_interval])），拓展了 SQL 中窗口的使用场景，类似上面的场景可以直接使用 SQL 开发而不需要使用代码的方式。

4. RexCall 结果复用

在很多 SQL 的使用场景里，会多次使用上一个计算结果，比如将 JSON 解析成 Map 并提取多个字段。

虽然通过子查询，看起来 json 解析只调用一次，但是经过引擎的优化后，通过结果表的投影 (Projection) 生成函数调用链 (RexCall)，结果类似：

这样会导致 json 解析的计算重复运行了3次，即使使用视图分割成两步操作，经过 Planner 的优化一样会变成上边的样子。

对于确定性 (isDeterministic=true) 的函数来说，相同的输入一定代表相同的结果，重复执行 3 次 json 解析其实是没有意义的，如何优化才能实现对函数结果的复用呢？

在代码生成时，将 RexCall 生成的唯一标识（Digest）和变量符号的映射保存在 CodeGenContext 中，如果遇到 Digest 相同的函数调用，则可以复用已经存在的结果变量，这样解析 JSON 只需要执行第一次，之后就可以复用第一次的结果。

五、总结

通过几个月的努力，新版本已经上线运行,并且作为 StreamSQL 的默认引擎，任务重启后直接使用新版本运行。兼容性测试的通过率达到 99.9%，可以基本做到对用户的透明升级。对于新接触 StreamSQL 用户可以使用社区 SQL 语法进行开发，已有任务也可以修改 DML 部分语句来使用新特性。现在新版本已经支持了公司内许多业务场景，例如公司实时数据仓库团队依托于新版本更强的表达能力和性能，承接了多种多样的数据需求做到稳定运行且与离线口径保持一致。

版本升级不是我们的终点，随着实时计算的发展，公司内也有越来越多团队需要使用 Flink 引擎, 也向我们提出了更多的挑战，例如与 Hive 的整合做到将结果直接写入 Hive 或直接使用 Flink 作为批处理引擎，这些也是我们探索和发展的方向，通过不断的迭代向用户提供更加简单好用的流计算服务。

作者：Alan

原文链接

本文为阿里云原创内容，未经允许不得转载

滴滴 Flink-1.10 升级之路的更多相关文章

Oracle打怪升级之路二【视图、序列、游标、索引、存储过程、触发器】
前言在之前 <Oracle打怪升级之路一>中我们主要介绍了Oracle的基础和Oracle常用查询及函数,这篇文章作为补充,主要介绍Oracle的对象,视图.序列.同义词.索引等,以及P ...
将Ubuntu 15.10升级到Ubuntu 16.04
Ubuntu 16.04 LTS 代号为 Xenial Xerus,其最终版将于 2016 年 4 月 21 日正式发布,Ubuntu16.04 将是非常受欢迎的开源操作系统 Ubuntu 的第 6 ...
（三）Solrj4到Solrj5的升级之路
(三)Solrj4到Solrj5的升级之路 Solr5发布了,带来了许多激动人心的新特性,但Solrj的许多接口也发生了变化,升级是痛苦的,但也是必须的,下面就赶紧来看看有哪些代码需要升级吧. 变化1 ...
Flink 1.10 正式发布！——与Blink集成完成，集成Hive，K8S
Apache Flink社区宣布Flink 1.10.0正式发布! 本次Release版本修复1.2K个问题,对Flink作业的整体性能和稳定性做了重大改进,同时增加了对K8S,Python的支持. ...
SpringCloud升级之路2020.0.x版-41. SpringCloudGateway 基本流程讲解(1)
本系列代码地址:https://github.com/JoJoTec/spring-cloud-parent 接下来,将进入我们升级之路的又一大模块,即网关模块.网关模块我们废弃了已经进入维护状态的 ...
SpringCloud升级之路2020.0.x版-10.使用Log4j2以及一些核心配置
本系列代码地址:https://github.com/HashZhang/spring-cloud-scaffold/tree/master/spring-cloud-iiford 我们使用 Log4 ...
从苦逼到牛逼，详解Linux运维工程师的打怪升级之路
做运维也快四年多了,就像游戏打怪升级,升级后知识体系和运维体系也相对变化挺大,学习了很多新的知识点. 运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程,前提在于你要能忍能干能拼,还要具有敏锐的嗅觉感 ...
flink 1.10.0源码编译
1.安装git yum -y install git 2.安装maven 安装了3.3以下低版本的maven会有提示升级,这里安装3.6.3 wget https://mirrors.tuna.tsi ...
Windows 10升级如何立即进行，不用等微软分批推送？
如果你已经在 Windows 7/8.1 中预订,但现在还没收到 Windows 10 推送,可以试试下面的方法加速流程! 绝招:下载Windows 10 Media Creation Tool立即启 ...
ORACLE 10升级到10.2.0.5 Patch Set遇到的内核参数检测失败问题
在测试ORACLE 10.2.0.4升级到10.2.0.5 Patch Set的过程中,遇到一个内核参数检查失败的问题,具体错误信息如下所示实验环境: 操作系统:Oracle Linux Ser ...

随机推荐

day01-1-需求分析和项目设计
满汉楼01 1.需求分析满汉楼项目说明因为javaGUI不是学习的重点,这里将继续使用控制台界面来代替界面和事件处理完成的功能: 登录订座点餐结账查看账单等功能在实际项目中,独立完成项 ...
逆向通达信Level-2 续八 (BackTrace, Trace任意TdxW.exe内部函数, Breakin)
TdxW kun anti-debugging, i debug you without a debugger. 添加bt命令,BackTrace 下图是hack某一个函数后使用bt命令进行Trace ...
Morris遍历：常数空间遍历二叉树
Morris遍历 cur有左树且第一次遍历到,去左孩子没左树或者第二次遍历到,去右孩子没右树,去后继节点得到Morris序.对于该序列中出现两次的节点,只保留第一次遍历,结果就是先序遍历.只保留 ...
clickhouse 安装和远程登录开启
一.Clickhouse的安装 1.添加yum源 yum-config-manager --add-repo http://repo.red-soft.biz/repos/clickhouse/rep ...
【牛客小白月赛51 F平均题】数论，前缀和
import java.io.IOException; import java.util.Scanner; public class Main { static int MOD = 100000000 ...
python面向对象（继承）
一继承 1.什么是继承1)继承是一种创建新类的方式,新建的类可称为子类或派生类,父类又可称为基类或超类子类会遗传父类的属性2)需要注意的是:python支持多继承在python中,新建的类可以继承 ...
灰狼优化算法(MOGWO)
灰狼优化算法(MOGWO) 摘要固定大小的外部档案用来保存帕累托优化解在多目标搜索空间中,这个档案被用来定义狼群社会等级和捕猎行为这个算法在10个多目标测试集进行测试,并与MOEA/D和MOPS ...
docker-compose转义相关
环境变量值里面写$美元符号,用两个$符号来转义就可以了下面的MYSQL_ROOT_PASSWORD的密码是lehuiguan!@#$,转义后写的变量就是lehuiguan!@#$$ environm ...
浅谈 KingbaseES 和 SQLServer 中的 instead of 触发器
本文基于Kingbase和SqlServer的INSTEAD OF 触发器主要功能特点进行对比浅析,同时针对SqlServer 的INSTEAD OF 触发器提出了多种kingbase环境的等价代码方 ...
KingbaseES 分区表修改字段类型
KingbaseES普通表修改表结构请参考:KingbaseES变更表结构表重写问题数据类型转换重写与不重写: varchar(x) 转换到 varchar(y) 当 y>=x,不需要重写. ...

滴滴 Flink-1.10 升级之路

一、 背景