CSDN大数据技术:

十位一线专家分享Spark现状与未来(一)

十位一线专家分享Spark现状与未来(二)

十位一线专家分享Spark现状与未来(三)


部分摘录:

加州大学伯克利分校AMP实验室博士Matei Zaharia:Spark的现状和未来 ----(Matei Zaharia是加州大学伯克利分校AMP实验室博士研究生,Databricks公司的联合创始人兼现任CTO。Zaharia致力于于大规模数据密集型计算的系统和算法。研究项目包括:Spark、Shark、Multi-Resource Fairness、MapReduce Scheduling、SNAP Sequence Aligner)

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。

Project History:

  Spark started as research project in 2009

  Open sourced in 2010

  Growing community since

  Entered Apache lncubator in June 2013

Release Growth:

  Spark 0.6 ---- Java API、Maven、standalone mode ,17 contributors

  Spark 0.7 ---- Python API、Spark Streaming ,31 contributors

  Spark 0.8 ---- YARN、MLlib、monitoring UI ,67 contributors ---- High availability for standalone mode (0.8.1)

  Spark 0.9 ---- Scala 2.10 support、Configuration system、Spark Streaming improvement

Projects Bulit on Spark:

  Shark(SQL)、Spark Streaming(real-time)、GraphX(graph)、MLbase(machine learning)

Databricks公司CEO Ion Stoica:将数据转化为价值 ----(Ion Stoica是UC Berkeley计算机教授,AMPLab共同创始人,弹性P2P协议Chord、集群内存计算框架Spark、集群资源管理平台Mesos都出自他)

Turning Data into Value

What do We Need?

  interactive queries(交互式查询) ---- enable faster decision

  Queries on streaming data(基于数据流的查询) ---- enable decisions on real-time data ---- Eg:fraud detection(欺诈检测)、detect DDoS attacks(检测DDoS攻击)

  Sophisticated data processing(复杂的数据处理) ---- enable "better" decision

Our Goal:

  Support batch、Streaming、and interactive computation(批处理、流处理、交互计算)...... in a unified framework

  Easy to develop sophisticated algorithms(e.g..,graph,ML algos)

Big Data Challenge:Time 、Money 、Answer Quality

处理速度与精确性的权衡:反比

Tim Tully :集成Spark/Shark到雅虎数据分析平台

Sharethrough数据专家Ryan Weald:产品化Spark流媒体

Keys to Fault Tolerance:

  Receive fault tolerance ---- Use Actors with supervisor、Use self healing connection pools

  Monitoring job progress

RDDs:弹性分布式数据集

  Low latency & Scale (低延时&大规模)

  iterative and Interactive computation (迭代式和交互式计算)

Databricks创始人Patrick Wendell:理解Spark应用程序的性能 ---- (专注于大规模数据密集型计算。致力于Spark的性能基准测试,同时是spark-perf的合著者。此次峰会他就Spark 深度挖掘、UI概述和测试设备、普通性能和错误)

Summary of Components:

  Tasks:Fundamental unit of work

  Stage:Set of tasks that run in parallel

  DAG:Logical graph of RDD operations

  RDD:Parallel dataset with partitions

Demo of perf UI ---- Problems:

  Scheduling and launching tasks

  Execution of tasks

  Writing data between stages

  Collecting results

Databricks客户端解决方案主管Pat McDonough:用Spark并行程序设计 ---- (从Spark的性能、组件等方面全面介绍Spark的各种优异性能)

UC Berkeley博士Tathagata Das:用Spark流实时大数据处理 ---- (什么是Spark流,为什么选择Spark流,其性能和容错机制)

DStreams+RDDs=Power

Fault-tolerance:

  Batches of input data are replicated in memory for fault-tolerance

  Data lost due to worker failure,can be recomputed from replicated input data

  All transformations are fault-tolerant,and exactly-once transformations

Higher throughput than Storm:

  Spark Streaming:670K records/sec/node

  Storm:115K records/sec/node

Fast Fault Recovery:

  Recovers from faults/stragglers within 1 sec

Spark 0.9 in Jan 2014 ---- out of alpha

  Automated master fault recovery

  Performance optimizations

  Web UI,and better monitoring capabilities

    Cluster Manager UI ---- Standalone mode:<master>:8080

    Executor Logs ---- Stored by cluster manager on each worker

    Spark Driver Logs ---- Spark initializes a log4j when created ,Include log4j.properties file on the classpath

    Application Web UI ---- http://spark-application-host:4040 ---- For executor / task / stage / memory status,etc

十位一线专家分享Spark现状与未来----峰会摘录的更多相关文章

  1. 【阿里云IoT+YF3300】1.时代大背景下的阿里云IoT物联网的现状和未来

    “未来十到二十年,大家基本已经形成了一个共识,那便是新格局的奠定将由 AI 和物联网技术来支撑.放眼国内,在这些互联网巨头之中,未来真正成为竞争对手厮杀的,阿里和华为是首当其冲,在这两个领域双方分别暗 ...

  2. 【转载】 第四范式涂威威:AutoML技术现状与未来展望

    原文地址: https://www.jiqizhixin.com/articles/2018-07-12-17 -------------------------------------------- ...

  3. 第四范式涂威威:AutoML技术现状与未来展望

    以下内容是对AutoML技术现状与未来展望讲座的总结. 1.机器学习定义 <西瓜书>中的直观定义是:利用经验来改善系统的性能.(这里的经验一般是指数据) Mitchell在<Mach ...

  4. AutoML技术现状与未来展望

    以下内容是对AutoML技术现状与未来展望讲座的总结. 1.机器学习定义 <西瓜书>中的直观定义是:利用经验来改善系统的性能.(这里的经验一般是指数据) Mitchell在<Mach ...

  5. (函数即服务)Faas的现状与未来

    刚看到jolestar一位从法律转行程序员的前辈写了一篇Faas现状与未来的文章,里面很多观点都很有启发,或许正如他说的那样,由于Faas能较好的解决资源利用率和开发效率问题,2018年Faas将变得 ...

  6. 【转载】 AutoML技术现状与未来展望

    原文地址: https://www.cnblogs.com/marsggbo/p/9309520.html ---------------------------------------------- ...

  7. 一站式机器学习平台TI-ONE是什么?——云+未来峰会开发者专场回顾

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 背景:5月23-24日,以“焕启”为主题的腾讯“云+未来”峰会在广州召开,广东省各级政府机构领导.海内外业内学术专家.行业大咖及技术大牛等在 ...

  8. 新时代运维重器 Tencent Hub 最佳实践——云+未来峰会开发者专场回顾

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 演讲者:邹辉 腾讯云 PaaS 产品总监 背景:5月23-24日,以"焕启"为主题的腾讯"云+未来" ...

  9. 万物智联,腾讯云 IoT 边缘计算揭秘——云+未来峰会开发者专场回顾

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 背景:现在是万物互联的时代,智能穿戴设备,智能家居,无人商业,改变了我们的生活方式.预计到2021年,全球物联网设数将达到150亿,超过手机 ...

随机推荐

  1. ios socket(基础demo)

    http://blog.sina.com.cn/s/blog_7a2f0a830101ecv4.html clinetSocket 1.viewcontroller.h @interface View ...

  2. BZOJ 1004

    一道奇怪的数学题.为了这道题我看了很多题解,到底还是一知半解..整个感觉就是上了一场数学课. HNOI2008 Cards 题目描述 小春现在很清闲,面对书桌上的N张牌,他决定给每张染色,目前小春只有 ...

  3. 默认hosts后面为files dns

    售后工程师 : 您好,问题已经解决,问题原因是您修改了/etc/nsswitch.conf配置文件中的hosts:这项导致的,默认hosts后面为files dns,但是后面去掉了DNS导致直接使用本 ...

  4. 腾讯新浪通过IP地址获取当前地理位置(省份)的接口

    腾讯新浪通过IP地址获取当前地理位置(省份)的接口  腾讯的接口是 ,返回数组 http://fw.qq.com/ipaddress 返回值 var IPData = new Array(" ...

  5. Dan计划:重新定义人生的10000个小时

    一. 1985年,芝加哥大学的Benjamin Bloom教授,出版了一本重要著作<如何培养天才>(Developing Talent in Young People). 他研究的是,如何 ...

  6. iOS 图片拉伸的解释

    以前对于ios的图片拉伸参数一直不太理解,终于看到一篇好文章,转载一下,原文地址:http://blog.csdn.net/q199109106q/article/details/8615661 主要 ...

  7. c标签设置jsp页面的绝对路径

    <%@ page language="java" pageEncoding="UTF-8"%><%@ taglib prefix=" ...

  8. Spell checker(poj 1035)

    题意:     此题是一个字符串的问题,首先要给出一个字典,里面存储了数个单词.而后,给出一个单词,如果字典中存在,那么就输出correct,如果字典中没有,那么就要判断是不是这个单词有错误,错误有3 ...

  9. Android之Fragment(二)

    本文主要内容 如何管理Fragment回退栈 Fragment如何与Activity交互 Fragment与Activity交互的最佳实践 没有视图的Fragment的用处 使用Fragment创建对 ...

  10. 二、JavaScript语言--JS基础--JavaScript入门篇

    1.如何插入JS 使用<script>标签在HTML网页中插入JavaScript代码.注意, <script>标签要成对出现,并把JavaScript代码写在<scri ...