超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!)
开源大数据社区 & 阿里云 EMR 系列直播 第四期
主题:Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
讲师:棕泽,阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人
内容框架:
- Databricks 数据洞察产品介绍
- 功能介绍
- 典型场景
- 客户案例
- 产品Demo
直播回放:扫描文章底部二维码加入钉群观看回放
一、Databricks 数据洞察产品介绍
1、 Databricks 公司简介
2、 什么是阿里云 Databricks 数据洞察产品
01\ Databricks 公司简介

① ApacheSpark 创始公司,也是 Spark 的最大代码贡献者,Spark 技术生态背后的商业公司。
在2013年,由加州大学伯克利分校 AMPLab 的创始团队 ApacheSpark 的创建者所成立。
② 核心产品和技术,主导和推进 Spark 开源生态
ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform
③ 公司定位
- Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据科学和人工智能方面的服务,一体化的 Lakehouse 架构
- 开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品
- 多云策略,与顶级云服务商合作,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化分析平台
④ 市场地位
- 科技独角兽,行业标杆,领导Spark整体技术生态的走向及风向标
- 2021年最受期待的科技上市公司
02\ Databricks 公司估值及融资历史
(来源 Databricks 官网)
① 2019年10月G轮,估值 $ 6.2 Billion
② 2021年2月初F轮,估值 $ 28 Billion
- 本轮融资,三大云服务商 AWS、GCP、MSAzure 以及 Salesforce 都进行了跟投——足以看到云厂商对 Databricks 的发展的重视
- 上市预期:计划 IPO 在2021年——多方预测 Databricks 上市之时其估值可能达到350亿美元,甚至是高达500亿美元

03\ Databricks 和阿里云联手打造的高品质 Spark 大数据分析平台

- Apache Spark 背后的商业公司,Spark 创始团队,美国科技独角兽
- 在全球拥有5,000多个客户和450多个合作伙伴,品牌认知强
- 2020年,在 Gartner 发布的数据科学和机器学习(DSML)平台魔力象限报告中,位于领导者象限


04\ Databricks + 阿里云 = Databricks 数据洞察

产品核心:
- 基于商业版 Spark 的全托管大数据分析& AI 平台
- 内置商业版 Spark 引擎 Databricks Runtime ,在计算层面提供高效、稳定的保障
- 与阿里云产品集成互通,提供数据安全、动态扩容、监控告警等企业级特性
产品引擎与服务:
- 100% 兼容开源 Spark,经阿里云与 Databricks 联合研发性能优化
- 提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务

DDI 产品能力核心构件

产品关键信息与优势

二、DDI 产品功能介绍
1、整体架构
2、引擎能力
3、性能
4、功能
5、成本
01\ 阿里云 Databricks 数据洞察 (DDI) 架构

02\ 引擎:企业级性能优化,提升计算引擎效率和数据读写效率
企业级高性能、稳定性、可靠性

03\ 企业级 Databricks Runtime vs 社区版 Open Source Spark

04\ 基于计算存储分离的架构,HDFS vs OSS 成本的对比

05\ 基于 JindoFS 进行 OSS 访问优化加速,优化数据访问性能

06\ 交互式分析 Notebook ,聚集数据
优化的 Apache Zeppelin
- 多语言支持
- Scala、Python、Spark SQL、R
- 交互式分析
- 数据可视化
- 集成调度能力
- 一站式开发平台
- 多用户协作开发

07\ 数据开发作业提交 & 工作流调度
- 支持 jar 包提交作业及作业调度能力
- 支持 Spark/Spark Streaming/Notebook
- 不同作业类型工作流混合调度
- 支持调度运维、审计日志、版本控制等

08\ 丰富的数据源支持

09\ 元数据管理
三种元数据选择的方式

三、典型场景
1、客户存在的痛点问题及 DDI 如何解决
2、Lambda 架构到批流一体架构
3、Lakehouse 架构的演进
4、DDI 在阿里云中产品的组合
01\ 开源大数据平台客户普遍存在的痛点问题

02\ Databricks 数据洞察在四大场景帮助客户提升生产效率

03\ Delta Lake 的项目背景以及要解决的问题

04\ 大数据发展进入 Lake House 时代

05\ 使用 DDI 构建批流一体数仓,简化复杂架构


06\ DDI 在阿里云产品中的组合

07\ Databricks 数据洞察典型架构
DDI 与阿里云产品深度集成(典型场景)
数据获取
- 接收实时产生的流式数据和外部云存储上批量数据。
数据 ETL
- 持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障。
BI报表数据分析 & 交互式分析
- 支持 Ad hoc 查询,Notebook 可视化分析,无缝对接多种BI分析工具。
AI数据探索
- 支持机器学习,Mllib 等 Spark 生态 AI 场景。
上下游网络打通
- 如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等。
四、典型场景客户案例介绍
1、基智科技(STEPONE)自建上云案例
2、工业制造头部公司数据分析案例
客户案例 01:基智科技(STEPONE)Databricks 上云迁移
本架构描述利用 Databricks 数据洞察 解决客户大数据计算问题:
- 数据存储:自建 Hive数仓-》OSS (降低存储成本,同时做计算存储分离)
- 大数据分析:自建 CDH -》Databricks 数据洞察(全托管 Spark ,高性能 Runtime 引擎,Notebook 交互式分析,工作流 DAG 调度, Python 库的安装方便等)
- 元数据:自建 CDH -》RDS MySQL 自建元数据库或使用 DDI 统一元数据库
- 数据迁移:使用 DistCp 或 JindoDistCp 将数据迁移到 OSS,数据结果同步继续使用Sqoop 定时任务

客户成本收益分析
- 全托管 Spark 集群免运维,节省人力成本(省1运维+ 1大数据,此外免去性能调优)
- 相比自建机器资源多了3倍,此外算上 Databricks Runtime 相比开源 spark 来说(预估3倍),整体性能提升9倍
- Notebook 交互式分析+ DAG 工作流调度,提升数据开发/分析体验
- 技术方案统一,计算存储分离方案 OSS 存储节省客户存储成本,并为以后数据湖、多计算架构铺路
- Delta Lake 解决了客户增量数据更新的问题

客户案例 02:工业制造头部空调公司– 大数据分析方案架构
- 数据收集/存储: 接收实时产生的流式数据和外部云存储上批量数据
- 数据 ETL:持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障
- BI数据分析&交互式分析: 支持查询,Notebook 可视化分析,无缝对接多种BI分析工具
- 数据科学:支持机器学习/深度学习
- ⽣态对接:如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等

本文为阿里云原创内容,未经允许不得转载。
超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析的更多相关文章
- 【转】使用Apache Kylin搭建企业级开源大数据分析平台
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...
- 使用Apache Kylin搭建企业级开源大数据分析平台
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kylige ...
- 来开源吧!发布开源组件到 MavenCentral 仓库超详细攻略
请点赞关注,你的支持对我意义重大. Hi,我是小彭.本文已收录到 GitHub · AndroidFamily 中.这里有 Android 进阶成长知识体系,有志同道合的朋友,关注公众号 [彭旭锐] ...
- 寒城攻略:Listo 教你用Swift 语言编写 IOS 平台流媒体播放器
先展示播放器效果: 依然继承 Listo 本人的强迫症,还是从最初到完毕完整的写一个攻略来记录一下,这里声明 Listo 本人也是看了非常多的戴维营攻略才总结分享给大家这一篇攻略的. 首先,Lis ...
- 超详干货!Linux 环境变量配置全攻略
点击上方"开源Linux",选择"设为星标" 回复"学习"获取独家整理的学习资料! Linux环境变量配置 在自定义安装软件的时候,经常需要 ...
- 超稳攻略!Rancher 2.3手动轮换证书,保护集群安全!
本文转自Rancher Labs 前 言 Rancher 2.3正式发布已经一年,第一批使用Rancher 2.3的用户可能会遇到Rancher Server证书过期,但是没有自动轮换的情况.这会导致 ...
- 大数据下的数据分析平台架构zz
转自http://www.cnblogs.com/end/archive/2012/02/05/2339152.html 随着互联网.移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海 ...
- Spark大数据针对性问题。
1.海量日志数据,提取出某日访问百度次数最多的那个IP. 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^32个IP.同样可以采 ...
- 一个大数据平台省了20个IT人力——敦奴数据平台建设案例分享
认识敦奴 敦奴集团创立于1987年,主营服装.酒店.地产,总部位于中国皮都-海宁.浙江敦奴联合实业股份有限公司(以下简称"敦奴")是一家集开发.设计.生产.销售于一体的大型专业服装 ...
- JAVA EE企业级开发四步走完全攻略 [转]
http://bbs.51cto.com/thread-550558-1.html 本文是J2EE企业级开发四步走完全攻略索引,因内容比较广泛,涉及整个JAVA EE开发相关知识,这是一个长期的计划, ...
随机推荐
- Linux 上 libcurl库 curl_easy_perform Crash(signal 11 - SIGSEGV)
PS:要转载请注明出处,本人版权所有. PS: 这个只是基于<我自己>的理解, 如果和你的原则及想法相冲突,请谅解,勿喷. 前置说明 本文作为本人csdn blog的主站的备份.(Bl ...
- Toast源码深度分析
目录介绍 1.最简单的创建方法 1.1 Toast构造方法 1.2 最简单的创建 1.3 简单改造避免重复创建 1.4 为何会出现内存泄漏 1.5 吐司是系统级别的 2.源码分析 2.1 Toast( ...
- 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第6章
本章勘误: 暂无,等待细心的你告诉我哦. 本章注解: 暂无 本章释疑: 暂无,等待你的提问 致谢: MVP 林德熙 MVP 吕毅 sPhinX 相关链接 试读记录
- rnacos 版本更新为 v0.1.4
rnacos是一个用 rust重新实现的nacos. 周一发布 rnacos 后,有收到部分对2.0版本兼容问题的反馈. 主要是nacos2.0版本的注册心跳与1.0不同,rnacos之前没对2.0版 ...
- 并发CPU伪共享及优化
伪共享 缓存系统中是以缓存行(cache line)为单位存储的.缓存行是2的整数幂个连续字节,一般为32-256个字节.最常见的缓存行大小是64个字节.当多线程修改互相独立的变量时,如果这些变量共享 ...
- 可能是迄今为止最好用的WPF加载动画功能(没有之一)
前言 当我们在开发应用程序时,用户体验往往是至关重要的一环.在应用程序加载大量数据或执行复杂操作时,为用户提供一个良好的加载体验变得至关重要.加载动画是其中一个有效的方式,它不仅能够告知用户应用程序正 ...
- 一款比Typora更简洁优雅的Markdown编辑器神器(完全开源免费)
前言 自从Typora收费以后经常有朋友会问有没有一个好用.简洁.免费的Markdown编辑器推荐的,今天大姚给大家分享一款比Typora更简洁优雅的.完全开源免费(MIT License)Markd ...
- Scala编译原理
1 package com.atguigu.chapter01; 2 /** 3 * 4 */ 5 //main 方法名 6 //小括号表示参数列表 7 // 参数声明方式: java -> 类 ...
- SQLSERVER 的表分区(水平) 操作记录2
1 ----(非原创只是自己整理记录!!!)---------------原文地址: https://www.cnblogs.com/libingql/category/184251.h ...
- redis单机部署出现READONLY You can't write against a read only
(error) READONLY You can't write against a read only replica. 以上错误一般只会出现在主从集群配置中,可是我这里是redis单机配置,居然也 ...