Spark技术的总结 以及同storm,Flink技术的对比
spark总结
1.Spark的特点:
- 高可伸缩性
- 高容错
- 基于内存计算
- 支持多种语言:java,scala,python,R
- 高质量的算法,比MapReduce快100倍
- 多种调度引擎:可以运行于YARN,Mesos,standalone 等。
2.spark的提供的功能 以及应用场景
| **spark功能模块 ** | 应用场景 |
|---|---|
| RDD | 离线数据处理 |
| Spark SQL, DataFrames and Datasets | 结构化的关系数据运算 |
| Structured Streaming | 结构化流:统一批处理与流处理计算的工具 |
| Spark Streaming | 流数据实时计算 |
| Machine Learning (MLlib) | 机器学习 |
| GraphX | 图数据计算 |
| SparkR | R on Spark |
3.spark重大版本更新

spark2.3.0的重大更新:
1、支持第四种调度引擎 Kubernetes clusters。
2、Structured Streaming 引入了低延迟的连续处理(continuous processing);
spark2.0.0的重大更新:
1、SparkSession:这是一个新入口,取代了原本的SQLContext与HiveContext
2、基于DataFrame的机器学习API将作为主ML API出现;基于RDD的API进入维护模式。
3、spark 自己的标准SQL(Ansi-sql sql-2003标准)解析引擎,同时兼容hive-SQL.
4、数据框(DataFrame)/Dataset (数据集)API的统一。
spark1.6.X的重大更新:
1. 新增Dataset API
2. 使用堆外内存执行SQL,避免GC造成的瓶颈
3. 支持对非标准JSON文件的读操作
4. 支持基于文件的SQL查询。
4. spark-streaming,storm,Flink对比
- 技术特性上的对比:
| **对比项 ** | ** spark-streaming** | ** storm** | flink |
|---|---|---|---|
| 流模式 | 微批处理 | 行处理 / 或者微批处理 | 行处理/或者微批处理 |
| 可靠性 | Exactly-Once | At-Least-Once | Exactly-Once |
| 延迟 | 秒级 | 毫秒级 | 毫秒级 |
| 吞吐量 | 比较高 | 非常高 | 非常高 |
| 容错机制 | Recourd ACKs机制 | 基于RDD的 CheckPoint | CheckPoint |
| 是否有状态 | 是 | 否 | 是 |
| 支持SQL | 支持 | 不支持 | 支持 |
| 与Hadoop兼容性 | 支持HDFS、HBase等数据源 | 不支持 | 支持HDFS、HBase等数据源 |
storm 的任务编程组件是: Topology任务,由spout,bolt组成的DAG 拓扑结构。
spark-streaming任务变成组件:DStream 数据流的个各种处理方法。
spark-streaming 和 Flink 是将Flink Job 转换成 JobGraph -> ExecutionGraph.
- 平台架构上的对比:
| 对比项 | spark-streaming | storm | flink |
|---|---|---|---|
| 系统角色 | driver,executor | Numbius,supervisor,worker | Client,JobManager,Taskmanager |
| 应用名称 | application | Topology | application |
| 组件接口 | DataStream | DStream | spout,bolt |
| 部署方式 | YARN,standalone | numbius-supervisor | YARN, standalone |
结论:
- 由于spark 和Flink都可以基于YARN的方式部署,共用了hadoop生态的HDFS,YARN组件,降低了基础平台的运维工作量。同时Flink的毫秒级延迟实时计算能力和spark秒级延迟实时计算能力是一种相互补充。Flink和spark形成互补且竞争关系。
- Flink 在 Mlib,SQL 支持方面都有支持,功能方面和spark竞争关系,都是朝着生态方向发展。不过都可以基于相同的底层平台,大家切换和相互替换的成本都不高。
- 虽然storm的也可以基于yarn部署,但这不是其主流使用场景,所以在大数据基础平台方案中Flink可以最终替换的storm平台。
Spark技术的总结 以及同storm,Flink技术的对比的更多相关文章
- Spark/Storm/Flink
https://www.cnblogs.com/yaohaitao/p/5703288.html Spark Streaming与Storm的应用场景 对于Storm来说:1.建议在那种需要纯实时, ...
- 论文阅读计划1(Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming & An Enforcement of Real Time Scheduling in Spark Streaming & StyleBank: An Explicit Representation for Neural Ima)
Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming[1] 简介:雅虎发布的一份各种流处理引擎的基准 ...
- 20年硅谷技术牛人到访DataPipeline谈:技术如何与业务平衡发展
导读:技术人员的常态是“左手支持业务签单,右手提升系统性能”,却经常陷入技术和业务该如何平衡发展的困惑?今天,且听一位硅谷牛人分享他的平衡之道. 以个人名誉申请31个国内外技术和产品专利,中国最佳CT ...
- 20151028整理罗列某种开发所包括对技术(技术栈),“较为全面”地表述各种技术大系的图表:系统开发技术栈图、Web前端技术栈图、数据库技术栈图、.NET技术栈图
———————————— 我的软件开发生涯 (10年开发经验总结和爆栈人生) 爆栈人生 现在流行说全栈.每种开发都有其相关的技术.您是否觉得难以罗列某种开发所包括对技术(技术栈)呢? 您是否想过: ...
- JAVAEE——淘淘商城第一天:电商行业的背景和技术特点,商城的介绍、技术的选型、系统架构和工程搭建
1. 学习计划 1.电商行业的背景. 2.电商行业的技术特点 3.商城的介绍 a) 常用的名词介绍 b) 系统功能介绍 4.淘淘商城的系统架构 a) 传统架构 b) 分布式架构 c) 基于服务的架构 ...
- 搞懂分布式技术21:浅谈分布式消息技术 Kafka
搞懂分布式技术21:浅谈分布式消息技术 Kafka 浅谈分布式消息技术 Kafka 本文主要介绍了这几部分内容: 1基本介绍和架构概览 2kafka事务传输的特点 3kafka的消息存储格式:topi ...
- 深入探索Android热修复技术原理读书笔记 —— 代码热修复技术
在前一篇文章 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍中,对热修复技术进行了介绍,下面将详细介绍其中的代码修复技术. 1 底层热替换原理 在各种 Android 热修复方案中 ...
- 深入探索Android热修复技术原理读书笔记 —— 资源热修复技术
该系列文章: 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍 深入探索Android热修复技术原理读书笔记 -- 代码热修复技术 1 普遍的实现方式 Android资源的热修复,就 ...
- Storm笔记——技术点汇总
目录 概况 手工搭建集群 引言 安装Python 配置文件 启动与测试 应用部署 参数配置 Storm命令 原理 Storm架构 Storm组件 Stream Grouping 守护进程容错性(Dae ...
随机推荐
- How to change and add some params to request in Laravel controller?
$request->merge([ 'aae_id' => request('id', 0), 'foo' => 'bar', ]);
- [Robot Framework] 通过Robot Remote Server调用White Library测试WPF开发的桌面产品
参考 : https://github.com/jatalahd/WhiteRobotLibrary 通过此源代码编译WhiteRobotLibrary.dll,然后把高亮标记的这5个dll全部拷贝到 ...
- iphone手机safari浏览器访问网站滚动条不显示问题解决办法
近排有公司同事出差在外需使用OA系统,发现iphone手机safari浏览器在该出现滚动条的页面没有显示滚动条,导致无法正常使用. 系统前端页面是采用jeasyui搭建的框架,使用iframe变更主页 ...
- PDO beginTransaction (),exec(),commit ()
$dsn = 'sqlsrv:server=.\SQLExpress;Database=thinkphp'; $user = 'admin'; $password = 'pass1234'; try ...
- DOM-查找和修改
1. 查找: 按HTML查找: 问题: 每次只能按一个条件查找,如果查找条件复杂,则步骤很繁琐 解决: 选择器: 按选择器查找: 2个API 1. 只查找一个元素: var elem=parent.q ...
- python学习 day1 (3月1日)
01 cpu 内存 硬盘 操作系统 CPU:中央处理器,相当于人大脑. 飞机 内存:临时存储数据. 8g,16g, 高铁 1,成本高. 2,断电即消失. 硬盘:长期存储大量的数据. 1T 512G等等 ...
- AOP 环绕通知 (Schema-base方式) 和 AspectJ方式在通知中获取切点的参数
环绕通知(Schema- base方式) 1.把前置通知和后置通知都写到一个通知中,组成了环绕通知 2.实现步骤: 2.1 新建一个类实现 MethodInterceptor 接口 public cl ...
- ODT(old driver tree)详解(带例题)
文章目录 ODT简介 实现前提&&实现原理 初始化 split操作 assign操作 其它操作 区间第k小 区间加 区间所有数的k次方和 几道水题 ODT简介 ODT(old driv ...
- 2018.10.29 bzoj3718: [PA2014]Parking(树状数组)
传送门 显然只用判断两个会相交的车会不会卡住就行了. 直接树状数组维护后缀最大值就行了. 代码: #include<bits/stdc++.h> using namespace std; ...
- vue路由跳转的多种方式
1.router-link to 跳转 <router-link to="/child"><button>跳转</button></rou ...