Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
在Delta Lake官网上提到的一篇新一代湖仓架构的论文.

这篇论文由Databricks团队2021年发表于CIDR会议. 这个会议是对sigmod和vldb会议的补充.
可以看到这篇论文和前一篇Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores发表时间仅隔了一年. 论述的内容也是对Delta Lake这套架构的补充(场景拓展).
Warehouse, lake, lakehouse

第一代数仓只将数据库操作的结构化日志通过ETL清洗存储到专门的数据仓库中, 典型的如基于Hive的数仓. 这一代数仓的主要服务的目标场景是BI分析. 他的架构也是一种计算存储紧耦合的架构, 例如hive上计算节点就和存储的数据节点部署在一起, 通常还会有data colocate的优化.
第二代演化成了2层的结构, Data Lake 可以存储半结构化, 和非结构化的数据, 例如视频, 音频

这种架构下可以支持非结构化数据, 也支持直接的数据访问, 可以更好的对接非SQL的机器学习系统. 但目前自己在业界没有明显的感受到这种两层的结构, 可能是因为我对AI场景没怎么接触
论文中描述这已经是绝大部分公司的架构了

那么有没有将传统基于标准格式的数据湖转化成既有数仓管理能力, 高性能的分析能力, 又有快速的开放的数据访问的架构呢?

答案是 Lakehouse = Data Lake + Data warehouse.
数据直接存储于Object store之上, 而上层的BI系统, 机器学习, 数据科学计算都直接从Lakehouse中取数分析, 这样就实现了存储层的统一. 通过Data Lake 和 Data warehouse的结合实现了两者能力的结合.
而Lakehouse 就可以基于前文所介绍的Delta lake来构建, 可以看出Lakehouse是对传统数仓的一次升级. 但是纯粹这样的架构性能也许没有原先数仓中计算存储紧耦合的性能好, 毕竟多了额外的跨网络拉取数据的开销



最大的问题就是性能问题
Lakehouse架构
- 基于可以直接访问的, 标准的文件格式, 典型的如Parquet. 所以Lakehouse提供是一套基于文件的接口, 可以直接访问存储的数据, 并且提供了事务性的保障
- 基于云上的廉价对象存储
- 通过元数据层实现事务机制
- 对机器学习和数据科学的支持是第一优先级
- 提供性能保障
如何保障性能呢?
- caching 对于热数据通过本地ssd缓存加速查询
- auxiliary data structures such as indexes and statistics, and data layout optimizations. 通过索引, 数据重排和数据排布的优化. 对于热数据, 通过缓存可以实现和传统数仓中数据co-locate的优化, 而对于冷数据, 影响最大的是数据读取的多少, 因此通过一系列辅助数据, 可以大大减少需要扫描的数据量
- Data layout: Zorder
- 查询引擎自身优化, 向量化执行引擎
有待探索的优化
- 专为Lakehouse所设计的format, 虽然在一直强调standard format: Parquet/Orc, 但是看出来还是有设计一套新的format的意图, 不知道Databricks在Parquet/Orc有碰到什么痛点

- 更多的索引和layout优化

与传统数仓的性能和cost对比. 咋没有snowflake呢? 不管是性能和性价比上都非常不错.
不过, 在SQL上能很好的利用下推, 剪枝优化. 但是机器学习库的很多api, 并没有将query的语义下推到存储层, 导致这种框架中就无法很好的利用这些statistics.

因此这里就需要重新设计这些机器学习库的api.

Related work
M. Brantner, D. Florescu, D. Graf, D. Kossmann, and T. Kraska. Building a database on S3. In SIGMOD, pages 251–264, 01 2008. 看到一篇2008年就尝试将DBMS存储落在s3上, 真是先进
总结
这篇论文的干货比较少, 感觉只是把Delta lake的使用场景泛化了一下, 推出了一个新名词, lakehouse. 现在确实有这个演进的方向, 统一存储, 并在统一的存储上运行各种workload. 不过其中的性能挑战也不小.
Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics的更多相关文章
- 使用Apache Pulsar + Hudi构建Lakehouse方案了解下?
1. 动机 Lakehouse最早由Databricks公司提出,其可作为低成本.直接访问云存储并提供传统DBMS管系统性能和ACID事务.版本.审计.索引.缓存.查询优化的数据管理系统,Lakeho ...
- MapReduce的核心资料索引 [转]
转自http://prinx.blog.163.com/blog/static/190115275201211128513868/和http://www.cnblogs.com/jie46583173 ...
- Top 20 IoT Platforms in 2018
https://internetofthingswiki.com/top-20-iot-platforms/634/ After learning what is the internet of th ...
- Market Guide for AIOps Platforms
AIOps platforms enhance IT operations through greater insights by combining big data, machine learni ...
- 10g+: Transportable Tablespaces Across Different Platforms (Doc ID 243304.1)
10g+: Transportable Tablespaces Across Different Platforms (Doc ID 243304.1) APPLIES TO: Oracle Data ...
- (转) [it-ebooks]电子书列表
[it-ebooks]电子书列表 [2014]: Learning Objective-C by Developing iPhone Games || Leverage Xcode and Obj ...
- Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)
ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...
- ocp 1Z0-042 61-120题解析
61. View the Exhibit.Which statement regarding the dept and emp tables is true?A) When you delete a ...
- Magic Quadrant for Security Information and Event Management
https://www.gartner.com/doc/reprints?id=1-4LC8PAW&ct=171130&st=sb Summary Security and risk ...
- Awesome Big Data List
https://github.com/onurakpolat/awesome-bigdata A curated list of awesome big data frameworks, resour ...
随机推荐
- Django框架——可视化界面之数据增删改查、Django请求生命周期、Django路由层、反向解析
可视化界面之数据增删改查 针对数据对象主键字段的获取可以使用更加方便的 obj.pk获取 在模型类中定义双下str方法可以在数据对象被执行打印操作的时候方便的查看 ''' form表单中能够触发调剂动 ...
- ctfshow菜狗杯(一)
CTFshow菜狗杯,web签到 传参. 需要注意的是传参的时候要对中文字符进行编码输出. 得到flag. 第二关 come-to_s1gn 打开页面源代码 这里好像给了一半的flag,另一半好像说在 ...
- 2020-01-04:mysql里的innodb引擎的数据结构,你有看过吗?
福哥答案2020-01-04: 面试官刚开始问我看过mysql源码没,然后问了这个问题.回答B+树,过不了面试官那关.答案来自<MySQL技术内幕 InnoDB存储引擎 第2版>第四章,时 ...
- 2022-02-19:安装栅栏。 在一个二维的花园中,有一些用 (x, y) 坐标表示的树。由于安装费用十分昂贵,你的任务是先用最短的绳子围起所有的树。只有当所有的树都被绳子包围时,花园才能围好栅栏。
2022-02-19:安装栅栏. 在一个二维的花园中,有一些用 (x, y) 坐标表示的树.由于安装费用十分昂贵,你的任务是先用最短的绳子围起所有的树.只有当所有的树都被绳子包围时,花园才能围好栅栏. ...
- 2021-08-09:给定一个有正、有负、有0的数组arr,给定一个整数k,返回arr的子集是否能累加出k。1)正常怎么做?2)如果arr中的数值很大,但是arr的长度不大,怎么做?
2021-08-09:给定一个有正.有负.有0的数组arr,给定一个整数k,返回arr的子集是否能累加出k.1)正常怎么做?2)如果arr中的数值很大,但是arr的长度不大,怎么做? 福大大 答案20 ...
- Prometheus采集Java程序指标信息
采集Java程序JVM信息 创建 Spring Boot Application 应用程序 进行 https://start.spring.io 使用版本 Spring Boot v2.7.11和JD ...
- Django django-rest-framework-simplejwt
Django(75)django-rest-framework-simplejwt「建议收藏」 发布于2022-09-16 11:56:13阅读 2440 大家好,又见面了,我是你们的朋友全栈君. ...
- Vue3.3 的新功能的一些体验
Vue3 在大版本 3.3 里面推出来了一些新功能(主要是语法糖),网上有各种文章,但是看起来似乎是一样的. 我觉得吧,有新特性了,不能光看,还要动手尝试一下. DefineOptions 宏定义 先 ...
- IDP 与 DevOps平台:相似之处与关键差异
软件开发是一个复杂而动态的过程,涉及许多工具.技术和实践.为了更快.更好地交付软件,开发人员需要有效地协作,自动执行任务,并管理环境.然而,由于软件架构的日益复杂,工具和平台的多样性,以及对安全和合规 ...
- phpstudy-sqlilabs-less-11
题目:POST - Error Based - Single quotes- String 基于错误的单引号post型字符变形的注入 看到有个账密输入口第一反应尝试post注入 打开post data ...