【kudu pk parquet】runtime filter实践

已经有好一阵子没有写博文了，今天给大家带来一篇最近一段时间开发相关的文章：在impala和kudu上支持runtime filter。

大家搜索下实践者社区，可以发现前面已经有好几位同学写了这个主题的博文（都是我们组的^_^），说明这个功能在数据库领域的重要性，所以，嘿嘿，再敲一遍黑板：“重点，必考题！”

附上年初测试kudu时候的博文《【大数据之数据仓库】kudu性能测试报告分析》作为背景。

背景准备

为了生动、立体的给大家展示runtime filter功能，这里就以一个具体的sql例子来讲解。

表结构：

       create table orders

       (

           o_orderkey      bigint,        ->   主键，也是分区键（分布式数据库用于数据分片）

           o_custkey       bigint,        ->   外键，同customer.c_custkey

           o_orderstatus   string,

           o_totalprice    double,

           o_orderdate     string,

           o_orderpriority string,

           o_clerk         string,

           o_shippriority  bigint,

           o_comment       string

       )

       create table customer

       (

           c_custkey       bigint,        ->   主键，也是分区键

           c_name          string,

           c_address       string,

           c_nationkey     bigint,

           c_phone         string,

           c_acctbal       double,

           c_mktsegment    string,

           c_comment       string

       )

测试sql：

select c.*  from orders o join customer c on c.c_custkey = o.o_custkey where o_orderkey = 1125;

我们用业界的TPC-H工具生成1TB的测试数据，使用上面的sql语句来测试orders和customer两表关联。

很多对数据库熟悉的同学会说，简单：从orders表里用“o_orderkey = 1125”条件过滤出o_custkey字段，再用“返回的o_orderkey值”作为条件到customer表里过滤出全部字段。

对，完全正确！！

可是，那是受过专业数据库知识培训的你的大脑的优化器的优化结果（比人工智能还智能，哈哈），但对于数据库计算引擎，则未必会如你般冰雪聪明。

不信？找你熟悉的数据库，用上面的表结构和sql语句，伪造几条数据测试一下^_^

那么，计算引擎是如何处理的呢？

以MPP的impala为例，简短讲就是先扫描（读）一张表，比如这里的orders表，把扫描结果保存到hash数据结构里，然后再扫描另一张表，比如这里的customer表，把扫描的结果到前面的hash数据结构里找（关联字段），匹配的就是关联到的结果。

修改前测试

我们以impala计算引擎对接kudu存储引擎为例，拿修改之前的版本测试：

在impala-shell执行sql：

查看profile：

       F02:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1

       PLAN-ROOT SINK

       |  mem-estimate=0B mem-reservation=0B

       |

       04:EXCHANGE [UNPARTITIONED]

       |  mem-estimate=0B mem-reservation=0B

       |  tuple-ids=1,0 row-size=251B cardinality=2

       |

       F00:PLAN FRAGMENT [RANDOM] hosts=3 instances=3

       02:HASH JOIN [INNER JOIN, BROADCAST]            ->  以hashJoin的方式两表关联

       |  hash predicates: c.c_custkey = o.o_custkey   ->  用“c.c_custkey = o.o_custkey”条件关联

       |  mem-estimate=9B mem-reservation=136.00MB

       |  tuple-ids=1,0 row-size=251B cardinality=2

       |

       |--03:EXCHANGE [BROADCAST]

       |  |  mem-estimate=0B mem-reservation=0B

       |  |  tuple-ids=0 row-size=8B cardinality=1

       |  |

       |  F01:PLAN FRAGMENT [RANDOM] hosts=3 instances=3

       |  00:SCAN KUDU [kudu_1000g.orders o]             ->  扫描orders表

       |     kudu predicates: o_orderkey = 1125          ->  用“o_orderkey = 1125”条件过滤

       |     mem-estimate=0B mem-reservation=0B

       |     tuple-ids=0 row-size=8B cardinality=1

       |

       01:SCAN KUDU [kudu_1000g.customer c]              ->  扫描customer表

          mem-estimate=0B mem-reservation=0B             ->  没有过滤条件，返回全部数据

          tuple-ids=1 row-size=243B cardinality=150000000

profile中已经做了一些批注，概括一下就是：

a.用“o_orderkey = 1125”条件扫描orders表，把返回的结果放入hash数据结构中；

b.再全表扫描customer表，返回所有的数据，返回过程中逐批同前面hash数据结构中的数据进行匹配，匹配成功的保存到结果集合中。

查看plan：

显而易见，plan中显示的数据更加直观，并且把耗时长的节点都标记成了红色。

我们可以看到，左边红色扫描customer表，活生生把全表（总共1.5亿条记录）的全部字段都扫描上来了，磁盘扫描开销、网络传输开销，还有大数据集合关联带来的CPU计算开销，所以耗时很长，达到了37秒钟。

修改后测试

在前面，我们有提到更聪明、更高效的方法，那是否可以实现呢？答案是肯定的，我们确实把扫描orders表的返回结果应用到了扫描customer表的扫描节点中，作为 动态谓词下发了。

术语：

谓词，就是filter或者过滤器，条件表达式；
静态则表示的是来自于sql语句本身，动态即运行过程中产生，也即runtime；
动态谓词就是runtime filter。

我们拿修改之后版本测试：

在impala-shell执行sql：

查看profile：

       F02:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1

       PLAN-ROOT SINK

       |  mem-estimate=0B mem-reservation=0B

       |

       04:EXCHANGE [UNPARTITIONED]

       |  mem-estimate=0B mem-reservation=0B

       |  tuple-ids=1,0 row-size=251B cardinality=2

       |

       F00:PLAN FRAGMENT [RANDOM] hosts=3 instances=3

       02:HASH JOIN [INNER JOIN, BROADCAST]            ->  以hashJoin的方式两表关联

       |  hash predicates: c.c_custkey = o.o_custkey   ->  用“c.c_custkey = o.o_custkey”条件关联

       |  runtime filters: RF000 <- o.o_custkey        ->  这里生成了1个runtime filter

       |  mem-estimate=9B mem-reservation=136.00MB

       |  tuple-ids=1,0 row-size=251B cardinality=2

       |

       |--03:EXCHANGE [BROADCAST]

       |  |  mem-estimate=0B mem-reservation=0B

       |  |  tuple-ids=0 row-size=8B cardinality=1

       |  |

       |  F01:PLAN FRAGMENT [RANDOM] hosts=3 instances=3

       |  00:SCAN KUDU [kudu_1000g.orders o]            ->  扫描orders表

       |     kudu predicates: o_orderkey = 1125         ->  用“o_orderkey = 1125”条件过滤

       |     mem-estimate=0B mem-reservation=0B

       |     tuple-ids=0 row-size=8B cardinality=1

       |

       01:SCAN KUDU [kudu_1000g.customer c]             ->  扫描customer表

          runtime filters: RF000 -> c.c_custkey         ->  这里应用了1个runtime filter

          mem-estimate=0B mem-reservation=0B

          tuple-ids=1 row-size=243B cardinality=150000000

查看plan：

跟修改前比较，可以发现左边红色部分只返回了1条记录。

所以，总结上面的对比可以发现性能：43.08秒对2.04秒，足足提升了20倍！

相关分享

对于runtime filter，我们需要明白谁产生和谁使用的关系，前者仅由关联节点生成，而后者仅由扫描节点使用，两者都属于计算引擎。其中扫描节点在使用runtime filter上有两种方式，一种是把runtime filter直接推送到存储引擎，离数据最近，理论上效果肯定是最佳的，我们选择的正是这种方式；还有一种是在扫描节点上过滤，把远端数据全部读取过来进行本地过滤，可以减少流入上层关联节点的数据量，比如parquet就是这种方式。这里有必要说明下parquet的特殊之处，它可以选择采用hdfs的short circuit，简短的理解：作为分布式文件系统的hdfs，它的数据文件是以block文件块的形式组织起来的，而parquet的数据是放在一个个的block上，在impala和hdfs配对部署的前提下，当impala把需要扫描block文件块的计算任务分配到block文件块所在的impala节点上，那这个impala计算节点就可以直接通过操作系统的文件系统读block文件块，省去了hdfs分布式文件系统的中间层传输开销；
runtime filter的类型可以有很多种：包括min/max（范围区间，或者大于、小于）、in list（数组）、bloom filter（布隆过滤器）、equality（等值）等，但是在目前的impala里仅支持bloom filter，这是万金油，最方便实现，后续我们可以考虑引入其他的类型，降低存储引擎扫描时候的计算量（节约CPU计算时间）。从kudu官方来看，一直建议使用min/max或者in list的方式进行下推，估计同修改的工作量有关，因为它目前的通信协议是不支持bloom filter这种谓词下发，而且两边（impala和 kudu）的bloom filter算法也是不一样的；
分布式计算引擎，对扫描返回的数据做重分布（repartition或者shuffle）后，会生成一个统一的runtime filter，这个工作由coordinator集中merge再分发给各个计算节点，并且在左子树上，只要关联字段一样，它会一直推送到最底层的扫描节点；同一个列，多份runtime filter、多种谓词，通过merge的方式进行合并，比如bloom filter + range组合，range + range组合等等；
通常数据扫描节点在启动扫描以后，就不会再更新过滤器，也即不会再下发新的谓词，因为本身这个过程就已经比较复杂。但是我们的修改，可以支持在扫描过程的中间(mid-scan)，把新的runtime filter下发下去，并且在kudu存储引擎层进行直接应用，这对于缩小返回的数据集非常有帮助；
最后一个是关于runtime filter应用于裁剪数据分片，这个意义也比较大，决定着响应时间。可以分两步：第一步是针对分区键，比较容易理解，就是启动扫描或者扫描的中间，把不需要扫描的数据分片直接跳过，有同学可能会说，关联键不一定是分区键哦，是的，这时，我们就需要第二步，针对非分区键的索引（俗称二级索引），实现上可以有多种方案，比如针对分片的min/max或者bitmap等，但是工作量都不小呢:(；

写在最后

说了半天，很多同学是否被runtime filter、过滤器、谓词、条件表达式给搞迷糊了？其实是同一个概念，用中间过程产生的数据构造出一个条件，并且应用于下一个阶段，对于数据计算效率的提升非常有帮助，这就是runtime filter存在的价值。

本文来自网易云社区，经作者何李夫授权发布。

原文地址：【kudu pk parquet】runtime filter实践

更多网易研发、产品、运营经验分享请访问网易云社区。

【kudu pk parquet】runtime filter实践的更多相关文章

【kudu pk parquet】TPC-H Query2对比解析
这是[kudu pk parquet]的第二篇,query2在kudu和parquet上的对比解析,其中kudu包含有不能下发的谓词. 3台物理机,1T规模的数据集,impala和kudu版本是我们修 ...
【原创】大叔经验分享（63）kudu vs parquet
一对比存储空间对比: 查询性能对比: 二设计方案将数据拆分为:历史数据(hdfs+parquet+snappy)+ 近期数据(kudu),可以兼具各种优点: 1)整体低于10%的磁盘占用: 2 ...
runtime MethodSwizzle 实践之扩展 NIAttributedLabel
runtime MethodeSwizzle 提供简单的方法交换已知类的 Method IMP. Method 可以是外部可访问的 public 或者 private Method .所谓的属性 ...
runtime MethodSwizzle 实践之奇怪crash : [UIKeyboardLayoutStar release]: message sent to deallocated instance
情景: 使用MethodSwizzle 实现对数组.字典等系统方法的安全校验.显然能达到预期效果,但实际发现当键盘显示的情况下 home app 进入后台,再单击app 图标切换回前台时发 ...
iOS Runtime 实践（1）
很多时候我们都在看iOS开发中的黑魔法——Runtime.懂很多,但如何实践却少有人提及.本文便是iOS Runtime的实践第一篇. WebView 我们这次的实践主题,是使用针对接口编程的方式,借 ...
【大数据之数据仓库】kudu性能测试报告分析
本文由网易云发布. 这篇博文主要的内容不是分析说明kudu的性能指标情况,而是分析为什么kudu的scan性能会这么龊!当初对外宣传可是加了各种逆天黑科技的呀:列独立存储.bloom filte ...
基于 Apache Hudi 极致查询优化的探索实践
摘要:本文主要介绍 Presto 如何更好的利用 Hudi 的数据布局.索引信息来加速点查性能. 本文分享自华为云社区<华为云基于 Apache Hudi 极致查询优化的探索实践!>,作者 ...
Presto 在字节跳动的内部实践与优化
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询.BI 可视化分析.近实时查询分析等场景,日查询量接近 100 万条.本文是字节跳动数据平台 Presto 团队-软件工程师常鹏飞在 Pre ...
华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
背景湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向. 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 Fusio ...

随机推荐

VirtualBox 虚拟机 centos7 下设置静态ip 并支持 xshell 远程登陆的设置方法
1.设置虚拟机使用“桥接模式” 2.使用 vi /etc/sysconfig/network-scripts/ifcfg-enp0s3 打开配置文件(其中 enp0s3 是你的linux的网卡名,在 ...
小程序WXML基本使用
数据绑定  <view> {{message}} </view> // page.js Page({ data: { message: 'He ...
Java 对象和实例的区别
本来我以为是一样的,其实是不一样的参看:http://www.blogjava.net/dreamstone/archive/2011/06/03/101733.html
PHP函数(三)-递归函数
递归函数就是函数本身在内部调用自己 <?php function DiGui($n){ echo $n." "; if($n>0) DiGui($n-1); else ...
InputStreamReader和BufferedReader的区别
.InputStream.OutputStream 处理字节流的抽象类 InputStream 是字节输入流的所有类的超类,一般我们使用它的子类,如FileInputStream等. OutputSt ...
XML文件中“>”和“<”的转码
在xml文件中,大于号“>”和小于号“<”是不能被直接识别的,需要经过转码才可以被识别,转码后的格式如下: < < 小于 > > 大于
java中FILE类常用API介绍
Gym101350 J Lazy Physics Cat
参考博客:https://blog.csdn.net/lengqiu2015/article/details/76855681#reply 题意给出一个长度为n的01串我们定义F(x,y)是区间[ ...
[luogu3369]普通平衡树(fhq-treap模板)
解题关键:无旋treap模板. #include<iostream> #include<cstdio> #include<cstring> #include< ...
linux下方便的录屏命令
linux下方便的录屏命令 ffmpeg -f x11grab -s 1024*768 -r 20 -i :0.0 -sameq ~/recode.mpg -r后是刷新屏率, 推出直接Ctrl ...

【kudu pk parquet】runtime filter实践

【kudu pk parquet】runtime filter实践的更多相关文章

随机推荐

热门专题