介绍

大概4月，Flink1.13就发布了，参加了Flink1.13 的Meetup，收获还是挺多，从大的方面讲就是FlingSql的改进和优化，资源调度管理方面的优化，以及流批一体Flink在运行时与DataStream API的优化，另外就是State backend 模块的优化，本篇文章既是当时做的笔记，又是在后续查阅官网等做的补充,

Flink 的一个主要目标取得了重要进展，即让流处理应用的使用像普通应用一样简单和自然。Flink 1.13 新引入的被动扩缩容使得流作业的扩缩容和其它应用一样简单，使用者仅需要修改并行度即可。

这个版本还包括一系列重要改动使使用者可以更好理解流作业的效能。当流作业的效能不及预期的时候，这些改动可以使使用者可以更好的分析原因。这些改动包括用于识别瓶颈节点的负载和反压视觉化、分析运算元热点程式码的 CPU 火焰图和分析 State Backend 状态的 State 存取效能指标

深入解读 Flink SQL 1.13

在刚刚发布的 1.13 版本中，Flink SQL 带来了许多新 feature 和功能提升，在这里围绕 Winddow TVF，时区支持，DataStream & Table API 交互，hive 兼容性提升，SQL Client 改进五个方面

flip-145 window tvf
- 完整关系代数表达
- 输入是一个关系，输出是一个关系
- 每个关系对应一个数据集
- cumulater window eg: 每10分钟一次统计uv,,结果准确，不会有跳变
- window 性能优化
  - 内存，切片，算子，迟到数据
  - benchmark 测试 2x提升
- 多维数据分析：grouping sets ,rollup,cube等
flip-162时区分析
- 时区问题：proctime未考虑时区，timestamp 也没有时区，各种current_time，now未考虑时区
- 时间函数：current_timestamp 返回utc+0
- 支持 tiestamp——ltz类型 timestamp vs timestamp_ltz
- 纠正proctime()函数
- 夏令时支持-同timestamp_ltz
flip-163 改进sql-client，hive兼容性
- 支持更多实用配置
- 支持statement set
flip-136 增强datastrem 和 table的转换
- 支持ds 和table转换时传递 event time 和 watermark
- 支持changelog数据流在table和datastream间相互转换

Flink 1.13: Towards Scalable Cloud Native Application

Flink 1.13 新增了被动资源管理模式与自适应调度模式，具备灵活的伸缩能力，与云原生的自动伸缩技术相结合，能够更好地发挥云环境下弹性计算资源的优势，是 Flink 全面拥抱云原生技术生态的又一重要里程碑。本次议题将对 Flink 1.13 中的被动资源管理、自适应调度、自定义容器模板等新特性，我觉得这个的扩展才是Flink此次版本特别重要的一个feature

云原生时代 flink，k8s,声明api，可弹性扩展
k8s高可用-（zk，k8s可选）
Rescale （reactive mode → adaptive mdoe → autoscaling mode(TBD，还未支持)）https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/elastic_scaling/
Flip-158 generalized incremental checkpoints 让checkpoint更短时间
Pod Template 自定义Pod模板支持
Fine-细粒度资源管理-featrue 大概1.14支持
纵向扩展资源和横向扩展资源，tm cpu → k8s, mem→no

面向流批一体的 Flink 运行时与 DataStream API 优化

在 1.13 中，针对流批一体的目标，Flink 优化了大规模作业调度以及批执行模式下网络 Shuffle 的性能，从而进一步提高了流作业与批作业的执行性能；同时，在 DataStream API 方面，Flink也正在完善有限流作业的退出语义，从而进一步提高不同执行模式下语义与结果的一致性

api下面的shuffle架构实现

有限作业和无限作业，和预期结果一致
大规模作业优化 consumerVetexGroup partitionGroup
有限流作业结束一致性，2pc
流批-数据回流
piplien and block-缓存主要是，离线处理

State backend Flink-1.13 优化及生产实践

统一savepoint 可以切换rocksdb
state-backend 内存管控，
checkpoint save point https://zhuanlan.zhihu.com/p/79526638
更快速的checkpoint & falover

flink1.14 的展望

删除legacy planner
完善window tvf
提升 schema handing
增强cdc

参考

参考部分：https://tw511.com/a/01/34869.html

吴邪，小三爷，混迹于后台，大数据，人工智能领域的小菜鸟。

更多请关注

大数据开发-Flink-1.13新特性的更多相关文章

BAT推荐免费下载JAVA转型大数据开发全链路教程（视频+源码）价值19880元
如今随着环境的改变,物联网.AI.大数据.人工智能等,是未来的大趋势,而大数据是这些基石,万物互联,机器学习都是大数据应用场景! 为什么要学习大数据?我们JAVA到底要不要转型大数据? 好比问一个程序 ...
Java转型大数据开发全套教程，都在这儿！
众所周知,很多语言技术已经在长久的历史发展中掩埋,这期间不同的程序员也走出的自己的发展道路. 有的去了解新的发展趋势的语言,了解新的技术,利用自己原先的思维顺利改变自己的title. 比如我自己,也都 ...
jdk 9 10 11 12 13 新特性
jdk 9 新特性 1.集合加强 jdk9 为所有集合(List/Set/Map)都增加了 of 和 copyOf 方法,用来创建不可变集合,即一旦创建就无法再执行添加.删除.替换.排序等操作,否则将 ...
大数据开发实战：HDFS和MapReduce优缺点分析
一. HDFS和MapReduce优缺点 1.HDFS的优势 HDFS的英文全称是 Hadoop Distributed File System,即Hadoop分布式文件系统,它是Hadoop的核心子 ...
详解Kafka: 大数据开发最火的核心技术
详解Kafka: 大数据开发最火的核心技术架构师技术联盟 2019-06-10 09:23:51 本文共3268个字,预计阅读需要9分钟. 广告大数据时代来临,如果你还不知道Kafka那你就真 ...
大数据开发-Flink-数据流DataStream和DataSet
Flink主要用来处理数据流,所以从抽象上来看就是对数据流的处理,正如前面大数据开发-Flink-体系结构 && 运行架构提到写Flink程序实际上就是在写DataSource.Tra ...
从 Airflow 到 Apache DolphinScheduler，有赞大数据开发平台的调度系统演进
点击上方蓝字关注我们作者 | 宋哲琦 ✎ 编者按在不久前的 Apache DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人宋哲琦带来了平台调度系统 ...
Atitit 数据融合merge功能v3新特性.docx
Atitit 数据融合merge功能v3新特性.docx 1.1. 版本历史1 1.2. 生成sql结果1 1.3. 使用范例1 1.4. 核心代码1 1.1. 版本历史 V2增加了replace部分 ...
大数据开发实战：Stream SQL实时开发三
4.聚合操作 4.1.group by 操作 group by操作是实际业务场景(如实时报表.实时大屏等)中使用最为频繁的操作.通常实时聚合的主要源头数据流不会包含丰富的上下文信息,而是经常需要实时关 ...

随机推荐

3、Spring教程之IOC创建对象方式
1.通过无参构造方法来创建 1.User.java public class User { private String name; public User() { System.out.printl ...
C# 输出一个字符串的前缀、后缀和它的子串（信息内容安全实验一）
一.什么是前后缀字符串的前缀:符号串左部的任意子串(或者说是字符串的任意首部) 字符串的后缀:符号串右部的任意子串(或者说是字符串的任意尾部) 举例:比如 101110 它的前缀就是空串.1.10. ...
Androi Studio 之 RelativeLayout
RelativeLayout简介 •基本属性 •根据父容器定位 •父容器定位属性示意图 •根据兄弟组件定位 •根据兄弟组件定位 •margin(偏移) •padding(填充) •margin与pad ...
SpringBoot中整合Redis、Ehcache使用配置切换并且整合到Shiro中
在SpringBoot中Shiro缓存使用Redis.Ehcache实现的两种方式实例 SpringBoot 中配置redis作为session 缓存器. 让shiro引用本文是建立在你是使用这sh ...
OOP第一次博客作业
一.关于Java&&面向对象本学期刚开始进行Java的学习,也是刚开始了解面向对象,目前也就学习了三四周的样子,期间进行了三次作业,我感觉到Java的语法和c语言中的有许多相似之处, ...
01-MySQL Linux安装
一.检查当前系统是否安装过mysql rpm -qa|grep mysql 或 ps -ef|grep mysql 二.安装mysql服务端 rpm -ivh MySQL-server-5.5.48- ...
Dynamics CRM产生公共签名，避免每次插件换环境重新输入签名密钥账号密码
在Dynamcs CRM项目维护交接过程中,我们经常会使用其他合作者的插件代码.但是每次拿到别人代码编译的时候插件密钥都要重新输入密钥的账号密码.而且如果密钥都是的话比较麻烦.所以这里就针对这个问题做 ...
docker之镜像配置
以管理员sudo执行以下命令 docker ps -a 查看镜像的id docker exec -it 镜像id /bin/bash -i表示交互模式 -t表示启动容器进入命令行加入这两参数,容器创 ...
C#与Python交互方式
前言: 在平时工作中,需求有多种实现方式:根据不同的需求可以采用不同的编程语言来实现.发挥各种语言的强项如:Python的强项是:数据分析.人工智能等 .NET 开发桌面程序界面比Python更简单 ...
在Visual Studio 中使用git——什么是Git（一）
写程序必然需要版本控制,哪怕是个人项目也是必须的,微软从Visual Studio 2019开始默认提供了对Git的支持,Visual Studio 2019之前的版本可以安装相应的插件来实现Git功 ...

大数据开发-Flink-1.13新特性

介绍