好程序员分享ApacheSpark常见的三大误解

　　误解一：Spark是一种内存技术

　　大家对Spark最大的误解就是其是一种内存技术（in-memorytechnology）。其实不是这样的！没有一个Spark开发者正式说明这个，这是对Spark计算过程的误解。

　　我们从头开始说明。什么样的技术才能称得上是内存技术？在我看来，就是允许你将数据持久化（persist）在RAM中并有效处理的技术。然而Spark并不具备将数据数据存储在RAM的选项，虽然我们都知道可以将数据存储在HDFS,Tachyon,HBase,Cassandra等系统中，但是不管是将数据存储在磁盘还是内存，都没有内置的持久化代码（nativepersistencecode）。它所能做的事就是缓存（cache）数据，而这个并不是数据持久化（persist）。已经缓存的数据可以很容易地被删除，并且在后期需要时重新计算。

　　但是即使有这些信息，仍然有些人还是会认为Spark就是一种基于内存的技术，因为Spark是在内存中处理数据的。这当然是对的，因为我们无法使用其他方式来处理数据。操作系统中的API都只能让你把数据从块设备加载到内存，然后计算完的结果再存储到块设备中。我们无法直接在HDD设备上计算；所以现代系统中的所有处理基本上都是在内存中进行的。

　　虽然Spark允许我们使用内存缓存以及LRU替换规则，但是你想想现在的RDBMS系统，比如Oracle和PostgreSQL，你认为它们是如何处理数据的？它们使用共享内存段（sharedmemorysegment）作为tablepages的存储池，所有的数据读取以及写入都是通过这个池的，这个存储池同样支持LRU替换规则；所有现代的数据库同样可以通过LRU策略来满足大多数需求。但是为什么我们并没有把Oracle和PostgreSQL称作是基于内存的解决方案呢？你再想想LinuxIO，你知道吗？所有的IO操作也是会用到LRU缓存技术的。

　　你现在还认为Spark在内存中处理所有的操作吗？你可能要失望了。比如Spark的核心：shuffle，其就是将数据写入到磁盘的。如果你再SparkSQL中使用到groupby语句，或者你将RDD转换成PairRDD并且在其之上进行一些聚合操作，这时候你强制让Spark根据key的哈希值将数据分发到所有的分区中。shuffle的处理包括两个阶段：map和reduce。Map操作仅仅根据key计算其哈希值，并将数据存放到本地文件系统的不同文件中，文件的个数通常是reduce端分区的个数；Reduce端会从Map端拉取数据，并将这些数据合并到新的分区中。所有如果你的RDD有M个分区，然后你将其转换成N个分区的PairRDD，那么在shuffle阶段将会创建M*N个文件！虽然目前有些优化策略可以减少创建文件的个数，但这仍然无法改变每次进行shuffle操作的时候你需要将数据先写入到磁盘的事实！

　　所以结论是：Spark并不是基于内存的技术！它其实是一种可以有效地使用内存LRU策略的技术。

　　误解二：Spark要比Hadoop快10x-100x

　　这个图片是分别使用Spark和Hadoop运行逻辑回归（LogisticRegression）机器学习算法的运行时间比较，从上图可以看出Spark的运行速度明显比Hadoop快上百倍！但是实际上是这样的吗？大多数机器学习算法的核心部分是什么？其实就是对同一份数据集进行相同的迭代计算，而这个地方正是Spark的LRU算法所骄傲的地方。当你多次扫描相同的数据集时，你只需要在首次访问时加载它到内存，后面的访问直接从内存中获取即可。这个功能非常的棒！但是很遗憾的是，官方在使用Hadoop运行逻辑回归的时候很大可能没有使用到HDFS的缓存功能，而是采用极端的情况。如果在Hadoop中运行逻辑回归的时候采用到HDFS缓存功能，其表现很可能只会比Spark差3x-4x，而不是上图所展示的一样。

　　根据经验，企业所做出的基准测试报告一般都是不可信的！一般独立的第三方基准测试报告是比较可信的，比如：TPC-H。他们的基准测试报告一般会覆盖绝大部分场景，以便真实地展示结果。

　　一般来说，Spark比MapReduce运行速度快的原因主要有以下几点：

　　task启动时间比较快，Spark是fork出线程；而MR是启动一个新的进程；

　　更快的shuffles，Spark只有在shuffle的时候才会将数据放在磁盘，而MR却不是。

　　更快的工作流：典型的MR工作流是由很多MR作业组成的，他们之间的数据交互需要把数据持久化到磁盘才可以；而Spark支持DAG以及pipelining，在没有遇到shuffle完全可以不把数据缓存到磁盘。

　　缓存：虽然目前HDFS也支持缓存，但是一般来说，Spark的缓存功能更加高效，特别是在SparkSQL中，我们可以将数据以列式的形式储存在内存中。

　　所有的这些原因才使得Spark相比Hadoop拥有更好的性能表现；在比较短的作业确实能快上100倍，但是在真实的生产环境下，一般只会快2.5x~3x！

　　误解三：Spark在数据处理方面引入了全新的技术

　　事实上，Spark并没有引入任何革命性的新技术！其擅长的LRU缓存策略和数据的pipelining处理其实在MPP数据库中早就存在！Spark做出重要的一步是使用开源的方式来实现它！并且企业可以免费地使用它。大部分企业势必会选择开源的Spark技术，而不是付费的MPP技术

好程序员分享ApacheSpark常见的三大误解的更多相关文章

好程序员分享该如何选择background-image和img标签
好程序员分享该如何选择background-image和img标签,用img标签如果你希望别人打印页面时候包含这张图片请使用img标签当这张图片有非常有意义的语义,比如警告图标,请使用img标签及 ...
好程序员分享居中一个float元素
好程序员分享居中一个float元素,我们布局的时候,用margin来设置float元素的外边距来达到效果.对于,在文档流中的元素,我们很容易让它水平居中,只要给元素设置一个固定的宽度,用margin: ...
好程序员分享Web前端面试题汇总JS篇之跨域问题
为什么80%的码农都做不了架构师?>>> 好程序员分享Web前端面试题汇总JS篇之跨域问题,接着上一篇文章我们继续来探讨web前端面试必备面试题. 跨域解决方案 1. 通过jso ...
拿到蚂蚁金服的offer是一种什么体验？3年Java程序员分享面经
前言:我是一名三年的Java程序员,之前一直是在外包公司工作的.在这个月五号的时候,通过我的学长做内推,有了去蚂蚁金服面试的机会.我是在12号接到的电话面试的,因为蚂蚁金服需要7天的简历评估的.还有就 ...
程序员必懂：javaweb三大框架知识点总结
原文链接:http://www.cnblogs.com/SXTkaifa/p/5968631.html javaweb三大框架知识点总结一.Struts2的总结 1.Struts 2的工作流程,从请 ...
好程序员分享DIV+CSS3和html5+CSS3有什么区别
DIV+CSS3和html5+CSS3有什么区别,不管是DIV+CSS3还是html5+CSS3,他们都是我们对网页开发布局方式的统称,但是DIV+CSS3作为网页的基础开发这句话其实并不严谨,因为而 ...
好程序员分享Javascript设计模式
方法一对象字面量表示法在对象字面量表示法中,一个对象被描述为一组包含在大括号中,以逗号分隔的 name/value 对.对象内的名称可以是字符串或标识符,后面跟着一个冒号.对象中最后一个 name ...
Java程序员可能犯的3个常见SQL错误
概述:Java程序员不仅要具备扎实的Java编程能力,在日常的工作当中往往还要涉及到其他语言的基础知识,尤其是SQL.那么哪些常见的SQL错误是程序员们容易犯的呢?让我们一起来看看吧! 你可能看到Ja ...
PHP程序员的能力水平层次(二)
PHPer的定义:PHPer是以PHP程序编写为主要工作,其他方面略有涉及的一种职业人士,大家所说的程序猿. 对PHPer的等级划分 PHP 爱好者 (半个PHPer) PHP 初学者 (PHP Be ...

随机推荐

Asp.Net Core 程序部署到Linux（centos）生产环境（二）：docker部署
运行环境照例,先亮环境:软件的话我这里假设你已经批准好了.net core 运行环境,未配置可以看我的这篇[linux(centos)搭建.net core 运行环境] 腾讯云 centos:7.2 ...
css加载会造成阻塞吗
本文由云+社区发表作者:嘿嘿嘿可能大家都知道,js执行会阻塞DOM树的解析和渲染,那么css加载会阻塞DOM树的解析和渲染吗?接下来,我就来对css加载对DOM树的解析和渲染的影响做一个测试. 为 ...
执行对象Statement、PreparedStatement和CallableStatement详解 JDBC简介（五）
执行对象是SQL的执行者,SQL是“安排好的任务”,执行对象就是“实际工作的人”. 执行对象有三种: Statement.PreparedStatement和CallableStatement,他们都 ...
第31章日志 - Identity Server 4 中文文档(v1.0.0)
IdentityServer使用ASP.NET Core提供的标准日志记录工具.Microsoft文档有一个很好的介绍和内置日志记录提供程序的描述. 我们大致遵循Microsoft使用日志级别的指导原 ...
第4章打包和构建 - Identity Server 4 中文文档(v1.0.0)
IdentityServer由许多nuget包组成. 4.1 IdentityServer4 nuget | github上包含核心IdentityServer对象模型,服务和中间件.仅包含对内存配 ...
[PHP]命令执行函数的区别
<?php $cmd="ps aux|grep php-fpm"; $res=exec($cmd,$o); var_dump($o);//数组形式返回,每行一个元素 var_ ...
[leetcode](4.21)4. 有效子数组的数目
给定一个整数数组 A,返回满足下面条件的非空.连续子数组的数目: 子数组中,最左侧的元素不大于其他元素. 示例 1: 输入:[1,4,2,5,3] 输出:11 解释:有 11 个有效子数组,分别是 ...
php设计模式--面向对象编程规范PSR
php业界提出大家要遵循的面向对象编码规范,下面一一列出. PSR-0: 1.命名空间必须与绝对路径一致 2.类的首字母必须大写 3.出入口文件外,其他‘.php’必须只有一个类 PSR-1:基础编码 ...
ios手机录屏软件哪个好
苹果手机中的airplay镜像,是苹果手机系统的一大特色,可以轻松把手机屏幕投射电脑,这个功能使苹果手机相较安卓手机投屏会更加轻松,那么如何实现苹果手机投射电脑屏幕?下面小编便来分享ios手机录屏软件 ...
如何正确使用Espresso来测试你的Android程序
UI测试在Android平台上一直都是一个令人头痛的事情, 由于大家平时用的很少, 加之很多文档的缺失, 如果很多东西从头摸索,势必踩坑无数. 自Android24正式淘汰掉了Instrumentat ...

好程序员分享ApacheSpark常见的三大误解

好程序员分享ApacheSpark常见的三大误解的更多相关文章

随机推荐

热门专题