新版本来袭：Apache Spark 1.5新特性介绍

年9月9日发布了1.5版本，该版本由230+开发人员和80+机构参与，修复了1400多个补丁，该版本可以通过 http://spark.apache.org/downloads.html进行下载。Spark1.5中最主要的修改内容是为了提升Spark性能、可用性和操作稳定性，特别在该版本中引入了Project Tungsten（钨丝项目），该项目通过对几个底层框架构建的优化进一步Spark性能。另外在该版本中添加了Streaming组件、机器学习算法和新的SparkR接口等。具体内容如下：

性能提升与Project Tungsten（钨丝项目）

在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成，并且在Spark1.5版本中正式加入了主要功能。该功能是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式，计算直接发生在二进制格式上，省去了序列化和反序列化时间。同时这种格式也更加紧凑，节省内存空间，而且能更好的估计数据量大小和内存使用情况。

以下图表给出了性能提升直观的印象，在默认配置情况下，对比测试了spark1.4、Spark1.5在处理小规模和大规模数据量性能表现：

在External Data Source方面，Parquet的支持有了很大的加强。Parquet的版本升级到1.7；更快的metadata discovery和schema merging；同时能够读取其他工具或者库生成的非标准合法的parquet文件；以及更快更鲁棒的动态分区插入。

可用性和互操作性

Spark1.5增加了在UI界面中查看SQL和DataFrame查询计划，能够根据不同的操作和运行时的内存使用显示不同的查询计划，以下图为通过UI界面显示查询计划：

另外Spark1.5加入了其他的易用组件，在Hive模块最大的变化是支持连接Hive 1.2版本的metastore，同时支持metastore partition pruning（通过spark.sql.hive.metastorePartitionPruning=true开启，默认为false）。因为很多公司的Hive集群都升级到了1.2以上，那么这个改进对于需要访问Hive元数据的Spark集群来说非常重要。Spark 1.5支持可以连接Hive 0.13, 0.14, 1.0/0.14.1, 1.1, 1.2的metastore。

机器学习MLlib

MLlib最大的变化就是从一个机器学习的library开始转向构建一个机器学习工作流的系统，这些变化发生在ML包里面。MLlib模块下现在有两个包：MLlib和ML。ML把整个机器学习的过程抽象成Pipeline，一个Pipeline是由多个Stage组成，每个Stage是Transformer或者Estimator。

以前机器学习工程师要花费大量时间在training model之前的feature的抽取、转换等准备工作。ML提供了多个Transformer，极大提高了这些工作的效率。在1.5版本之后，已经有了25+个feature transformer，其中CountVectorizer, Discrete Cosine Transformation, MinMaxScaler, NGram, PCA, RFormula, StopWordsRemover, and VectorSlicer这些feature transformer都是1.5版本新添加的，做机器学习的朋友可以看看哪些满足你的需求。

这里面的一个亮点就是RFormula的支持，目标是使用户可以把原来用R写的机器学习程序（目前只支持GLM算法）不用修改直接搬到Spark平台上来执行。不过目前只支持集中简单的R公式(包括'.', '~', '+'和 '-')，社区在接下来的版本中会增强这项功能。

另外越来越多的算法也作为Estimator搬到了ML下面，在1.5版本中新搬过来的有Naive Bayes, K-means, Isotonic Regression等。大家不要以为只是简单的在ML下面提供一个调用相应算法的API，这里面变换还是挺多的。例如Naive Bayes原来的模型分别用Array[Double>和Array[Array[Double]]来存储pi和theta，而在ML下面新的API里面使用的是Vector和Matrix来存储。从这也可以看出，新的ML框架下所有的数据源都是基于DataFrame，所有的模型也尽量都基于Spark的数据类型表示。在ML里面的public API下基本上看不到对RDD的直接操作了，这也与Tungsten项目的设计目标是一致的。

除了这些既有的算法在ML API下的实现，ML里面也增加了几个新算法：

lMultilayerPerceptronClassifier(MLPC) 这是一个基于前馈神经网络的分类器，它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型，中间的节点使用sigmoid (logistic)函数，输出层的节点使用softmax函数。输出层的节点的数目表示分类器有几类。MLPC学习过程中使用BP算法，优化问题抽象成logistic loss function并使用L-BFGS进行优化。

lMLlib包里面增加了一个频繁项挖掘算法PrefixSpan，AssociationRules能够把FreqItemset生成关联式规则。

l在MLlib的统计包里面实现了Kolmogorov–Smirnov检验，用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。

l另外还有一些现有算法的增强：LDA算法，决策树和ensemble算法，GMM算法。

lML里面的多个分类模型现在都支持预测结果的概率而不像过去只支持预测结果，像LogisticRegressionModel, NaiveBayesModel, DecisionTreeClassificationModel, RandomForestClassificationModel, GBTClassificationModel等，分别使用predictRaw, predictProbability, predict分别可以得到原始预测、概率预测和最后的分类预测。同时这些分类模型也支持通过设置thresholds指定各个类的阈值。

lRandomForestClassificationModel和RandomForestRegressionModel模型都支持输出feature importance

lGMM EM算法实现了当feature维度或者cluster数目比较大的时候的分布式矩阵求逆计算。实验表明当feature维度>30，cluster数目>10的时候，这个优化性能提升明显。

l对于LinearRegressionModel和LogisticRegressionModel实现了LinearRegressionTrainingSummary和LogisticRegressionTrainingSummary用来记录模型训练过程中的一些统计指标。

1.5版本的Python API也在不断加强，越来越多的算法和功能的Python API基本上与Scala API对等了。此外在tuning和evaluator上也有增强。

其它

从1.5开始，Standalone, YARN和Mesos三种部署方式全部支持了动态资源分配。

SparkR支持运行在YARN集群上，同时DataFrame的函数也提供了一些R风格的别名，可以降低熟悉R的用户的迁移成本。

新版本来袭：Apache Spark 1.5新特性介绍的更多相关文章

Spark 1.5新特性介绍
一.DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成.主 ...
Apache Cassandra 4.0新特性介绍
引言大家好,我是蔡一凡,是Cassandra的贡献者之一.(虽然我不便透露我的公司名称),但目前我们公司Cassandra的部署是全世界最大的之一,Cassandra在我们公司也有很多的应用. Ca ...
Hadoop3.0新特性介绍，比Spark快10倍的Hadoop3.0新特性
Hadoop3.0新特性介绍,比Spark快10倍的Hadoop3.0新特性 Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+ ...
Java 11 新特性介绍
Java 11 已于 2018 年 9 月 25 日正式发布,之前在Java 10 新特性介绍中介绍过,为了加快的版本迭代.跟进社区反馈,Java 的版本发布周期调整为每六个月一次——即每半年发布一个 ...
jdk7和8的一些新特性介绍
jdk7和8的一些新特性介绍本文是我学习了解了jdk7和jdk8的一些新特性的一些资料,有兴趣的大家可以浏览下下面的内容. 官方文档:http://www.oracle.com/technetwor ...
webpack 4.0.0-beta.0 新特性介绍
webpack 可以看做是模块打包机.它做的事情是:分析你的项目结构,找到JavaScript模块以及其它的一些浏览器不能直接运行的拓展语言(Scss,TypeScript等),并将其打包为合适的格式 ...
MyBatis 3.5.2 新特性介绍
1.MyBatis 最新版本 3.5.2 发布 MyBatis最新版本是:3.5.2,发布时间是:2019年7月15日 2.MyBatis 3.5.2 新特征介绍我们知道,MyBatis 是支持定制 ...
GrapeCity Documents for Excel 文档API组件 V2.2 新特性介绍
GrapeCity Documents for Excel 文档API组件 V2.2 正式发布,本次新版本包含诸多重量级产品功能,如:将带有形状的电子表格导出为 PDF.控制分页和电子表格内容.将Ex ...
dubbox新特性介绍
dubbx是当当网对原阿里dubbo2.x的升级,并且兼容原有的dubbox.其中升级了zookeeper和spring版本,并且支持restfull风格的远程调用. dubbox git地址: h ...

随机推荐

解决ie8（及其以下）不支持getElementsByClassName的问题
这篇技术笔记与大家分享的是:解决IE8(及以下)不支持getElementsByClassName的方法.如果有说错的地方,麻烦留言告诉我,我及时更正,一来是更新一下我的认知,二来也是不要误导的他人, ...
Ubuntu之root权限的获取
方案一: Ubuntu的root密码在没有设置之前是随机的,即在每一次开机的时候他的密码都不同,但是由于在安装Ubuntu的时候需要建立一个账户,而这个招呼又属于admin组,因此它可以对root进行 ...
【腾讯Bugly干货分享】微信读书iOS性能优化
本文来自于腾讯bugly开发者社区,非经作者同意,请勿转载,原文地址:http://dev.qq.com/topic/578c93ca9644bd524bfcabe8 “8小时内拼工作,8小时外拼成长 ...
设计模式之美：Observer（观察者）
索引意图结构参与者适用性效果相关模式实现实现方式(一):Observer 模式结构样式代码. 别名 Dependency Publish-Subscribe 意图定义对象间的一种一对 ...
C#将dll打包到程序中
最近比较懒,加上内容也不多就懒得排版了,字放大了,看起来应该方便一点直接进入主题先来看一个栗子,假设现在有一个第三方dll namespace TestLibrary1 { public clas ...
基于Task的异步模式--全面介绍
今天是国庆长假第一天,也是今天十月的开始.每到这个时候都是看海的季节-一个看"人海"的季节.反正我是不想在这样一个尴尬期出去放松自己,于是不如在家写写博客,长点本领呢.今天就来给大 ...
CGFloat Float 互转
直接上代码吧 var positionX:CGFloat = 10 var positionY:CGFloat = 20 var tmpX:Float = 30 var tmpY:Float = 40 ...
Maven项目环境搭建实例.
前言:最近下班比较早, 总是不愿意让自己闲着, 此时刚好从网上找到了一些项目的资源, 结合自己在公司做的项目, 所以拿来一起学习加复习一些平常用到和没接触过的新知识.做的这个项目的名称叫做babasp ...
CSS3常用属性
CSS是我们常用的控制网页样式和布局的一种标准. CSS3是最新的CSS标准. CSS3被拆分为"模块",旧的规范也已经拆分为小的块,同时还增加了新的属性. 一些比较重要的CSS3 ...
动手搭个wordpress
看到很多人都是自己搭建博客服务器,然后一切都在自己的掌控之下,这样就不存在什么迁移,数据安全之类的问题,当然需要自己搞个空间了,不过现在都便宜的不行,$15/year,也是醉了.我不怎么写博客,但是个 ...

新版本来袭：Apache Spark 1.5新特性介绍

新版本来袭：Apache Spark 1.5新特性介绍的更多相关文章

随机推荐

热门专题