十位一线专家分享Spark现状与未来----峰会摘录

CSDN大数据技术：

部分摘录：

加州大学伯克利分校AMP实验室博士Matei Zaharia：Spark的现状和未来 ----（Matei Zaharia是加州大学伯克利分校AMP实验室博士研究生，Databricks公司的联合创始人兼现任CTO。Zaharia致力于于大规模数据密集型计算的系统和算法。研究项目包括：Spark、Shark、Multi-Resource Fairness、MapReduce Scheduling、SNAP Sequence Aligner）

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。

Project History：

　　Spark started as research project in 2009

　　Open sourced in 2010

　　Growing community since

　　Entered Apache lncubator in June 2013

Release Growth：

　　Spark 0.6 ---- Java API、Maven、standalone mode ，17 contributors

　　Spark 0.7 ---- Python API、Spark Streaming ，31 contributors

　　Spark 0.8 ---- YARN、MLlib、monitoring UI ，67 contributors ---- High availability for standalone mode (0.8.1)

　　Spark 0.9 ---- Scala 2.10 support、Configuration system、Spark Streaming improvement

Projects Bulit on Spark：

　　Shark(SQL)、Spark Streaming(real-time)、GraphX(graph)、MLbase(machine learning)

Databricks公司CEO Ion Stoica：将数据转化为价值 ----（Ion Stoica是UC Berkeley计算机教授，AMPLab共同创始人，弹性P2P协议Chord、集群内存计算框架Spark、集群资源管理平台Mesos都出自他）

Turning Data into Value

What do We Need？

　　interactive queries(交互式查询) ---- enable faster decision

　　Queries on streaming data(基于数据流的查询) ---- enable decisions on real-time data ---- Eg：fraud detection(欺诈检测)、detect DDoS attacks(检测DDoS攻击)

　　Sophisticated data processing(复杂的数据处理) ---- enable "better" decision

Our Goal：

　　Support batch、Streaming、and interactive computation（批处理、流处理、交互计算）...... in a unified framework

　　Easy to develop sophisticated algorithms(e.g..，graph，ML algos)

Big Data Challenge：Time 、Money 、Answer Quality

处理速度与精确性的权衡：反比

Tim Tully ：集成Spark/Shark到雅虎数据分析平台

Sharethrough数据专家Ryan Weald：产品化Spark流媒体

Keys to Fault Tolerance：

　　Receive fault tolerance ---- Use Actors with supervisor、Use self healing connection pools

　　Monitoring job progress

RDDs：弹性分布式数据集

　　Low latency & Scale (低延时&大规模)

　　iterative and Interactive computation (迭代式和交互式计算)

Databricks创始人Patrick Wendell：理解Spark应用程序的性能 ---- (专注于大规模数据密集型计算。致力于Spark的性能基准测试，同时是spark-perf的合著者。此次峰会他就Spark 深度挖掘、UI概述和测试设备、普通性能和错误)

Summary of Components：

　　Tasks：Fundamental unit of work

　　Stage：Set of tasks that run in parallel

　　DAG：Logical graph of RDD operations

　　RDD：Parallel dataset with partitions

Demo of perf UI ---- Problems：

　　Scheduling and launching tasks

　　Execution of tasks

　　Writing data between stages

　　Collecting results

Databricks客户端解决方案主管Pat McDonough：用Spark并行程序设计 ---- (从Spark的性能、组件等方面全面介绍Spark的各种优异性能)

UC Berkeley博士Tathagata Das：用Spark流实时大数据处理 ---- (什么是Spark流，为什么选择Spark流，其性能和容错机制)

DStreams+RDDs=Power

Fault-tolerance：

　　Batches of input data are replicated in memory for fault-tolerance

　　Data lost due to worker failure，can be recomputed from replicated input data

　　All transformations are fault-tolerant，and exactly-once transformations

Higher throughput than Storm：

　　Spark Streaming：670K records/sec/node

　　Storm：115K records/sec/node

Fast Fault Recovery：

　　Recovers from faults/stragglers within 1 sec

Spark 0.9 in Jan 2014 ---- out of alpha

　　Automated master fault recovery

　　Performance optimizations

　　Web UI，and better monitoring capabilities

　　　　Cluster Manager UI ---- Standalone mode：<master>：8080

　　　　Executor Logs ---- Stored by cluster manager on each worker

　　　　Spark Driver Logs ---- Spark initializes a log4j when created ，Include log4j.properties file on the classpath

　　　　Application Web UI ---- http://spark-application-host:4040 ---- For executor / task / stage / memory status，etc

十位一线专家分享Spark现状与未来----峰会摘录的更多相关文章

【阿里云IoT+YF3300】1.时代大背景下的阿里云IoT物联网的现状和未来
“未来十到二十年,大家基本已经形成了一个共识,那便是新格局的奠定将由 AI 和物联网技术来支撑.放眼国内,在这些互联网巨头之中,未来真正成为竞争对手厮杀的,阿里和华为是首当其冲,在这两个领域双方分别暗 ...
【转载】第四范式涂威威：AutoML技术现状与未来展望
原文地址: https://www.jiqizhixin.com/articles/2018-07-12-17 -------------------------------------------- ...
第四范式涂威威：AutoML技术现状与未来展望
以下内容是对AutoML技术现状与未来展望讲座的总结. 1.机器学习定义 <西瓜书>中的直观定义是:利用经验来改善系统的性能.(这里的经验一般是指数据) Mitchell在<Mach ...
AutoML技术现状与未来展望
以下内容是对AutoML技术现状与未来展望讲座的总结. 1.机器学习定义 <西瓜书>中的直观定义是:利用经验来改善系统的性能.(这里的经验一般是指数据) Mitchell在<Mach ...
（函数即服务）Faas的现状与未来
刚看到jolestar一位从法律转行程序员的前辈写了一篇Faas现状与未来的文章,里面很多观点都很有启发,或许正如他说的那样,由于Faas能较好的解决资源利用率和开发效率问题,2018年Faas将变得 ...
【转载】 AutoML技术现状与未来展望
原文地址: https://www.cnblogs.com/marsggbo/p/9309520.html ---------------------------------------------- ...
一站式机器学习平台TI-ONE是什么？——云+未来峰会开发者专场回顾
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 背景:5月23-24日,以“焕启”为主题的腾讯“云+未来”峰会在广州召开,广东省各级政府机构领导.海内外业内学术专家.行业大咖及技术大牛等在 ...
新时代运维重器 Tencent Hub 最佳实践——云+未来峰会开发者专场回顾
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 演讲者:邹辉腾讯云 PaaS 产品总监背景:5月23-24日,以"焕启"为主题的腾讯"云+未来" ...
万物智联，腾讯云 IoT 边缘计算揭秘——云+未来峰会开发者专场回顾
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 背景:现在是万物互联的时代,智能穿戴设备,智能家居,无人商业,改变了我们的生活方式.预计到2021年,全球物联网设数将达到150亿,超过手机 ...

随机推荐

C语言课程1——Hello World
相信大家看了第一篇文章后,都信心满满,后边咱来点实际吧,上代码,经典之作:Hello World. 首先,不知道大家用的什么工具,VC6.0(太老了,强烈建议不用),VS,或是其他~ Hello Wo ...
SQL常见笔试面试题
sql理论题 1．触发器的作用? 答:触发器是一中特殊的存储过程,主要是通过事件来触发而被执行的.它可以强化约束,来维护数据的完整性和一致性,可以跟踪数据库内的操作从而不允许未经许可的更新和变化.可以 ...
canvas API ，通俗的canvas基础知识（六）
这篇是canvas API系列的首尾之作,这篇以后,所有的canvas的属性和方法就将完了,哦,不对,应该是大部分常用的,还有部分不常用的属性和方法,因为种种原因,就不介绍了,后期的重点就是多写一点c ...
hdu 1050 Moving Tables 解题报告
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1050 这道题目隔了很久才做出来的.一开始把判断走廊有重叠的算法都想错了.以为重叠只要满足,下一次mov ...
telnet 测试端口是否打开
[root@mysqld ~]# yum list |grep telnet telnet.x86_64 1:0.17-48.el6 @base telnet-server.x86_64 1:0.17 ...
Android文件Apk下载变ZIP压缩包解决方案
[root@ conf]# pwd /alidata/server/nginx/conf [root@ conf]# vi mime.types application/vnd.android.pac ...
分布式系统唯一ID生成方案汇总
系统唯一ID是我们在设计一个系统的时候常常会遇见的问题,也常常为这个问题而纠结.生成ID的方法有很多,适应不同的场景.需求以及性能要求.所以有些比较复杂的系统会有多个ID生成的策略.下面就介绍一些常见 ...
Linux snmp监控
http://blog.csdn.net/apple_llb/article/details/50494787 http://www.ttlsa.com/monitor/snmp-oid/
Maven使用笔记（二）Eclipse中maven项目添加依赖
1.在Eclipse中创建Eclipse项目后如何添加jar包? 点击pom.xml文件.我们可以看到下面有7个标签. 各个标签的含义如下: Overview:显示maven项目的一些基本信息Depe ...
jquery easy ui 1.3.4 表单（7）
7.1.ValidateBox(表单验证) 使用validType属性指定验证方法 1.标签方式创建 <input type="text" class="easyu ...

十位一线专家分享Spark现状与未来----峰会摘录

Tim Tully ：集成Spark/Shark到雅虎数据分析平台

十位一线专家分享Spark现状与未来----峰会摘录的更多相关文章

随机推荐

热门专题