spark-2.0.2

机器学习库（MLlib）指南

MLlib是Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

MLllib目前分为两个代码包：

spark.mllib 包含基于RDD的原始算法API。
spark.ml 则提供了基于DataFrames 高层次的API，可以用来构建机器学习管道。

我们推荐您使用spark.ml，因为基于DataFrames的API更加的通用而且灵活。不过我们也会继续支持spark.mllib包。用户可以放心使用，spark.mllib还会持续地增加新的功能。不过开发者需要注意，如果新的算法能够适用于机器学习管道的概念，就应该将其放到spark.ml包中，如：特征提取器和转换器。

下面的列表列出了两个包的主要功能。

spark.mllib: 数据类型，算法以及工具

Data types（数据类型）
Basic statistics（基础统计）
- summary statistics（摘要统计）
- correlations（相关性）
- stratified sampling（分层抽样）
- hypothesis testing（假设检验）
- streaming significance testing
- random data generation（随机数据生成）
- Kernel density estimation （核密度估计）
Classification and regression（分类和回归）
- linear models (SVMs, logistic regression, linear regression)（线性模型（SVM，逻辑回归，线性回归））
- naive Bayes（朴素贝叶斯）
- decision trees（决策树）
- ensembles of trees (Random Forests and Gradient-Boosted Trees)（树套装（随机森林和梯度提升决策树））
- isotonic regression（保序回归）
Collaborative filtering（协同过滤）
- alternating least squares (ALS)（交替最小二乘（ALS））
Clustering（聚类）
- k-means（K-均值）
- Gaussian mixture（高斯混合）
- power iteration clustering (PIC)（幂迭代聚类（PIC））
- latent Dirichlet allocation (LDA)（隐含狄利克雷分配）
- bisecting k-means（平分K-均值）
- streaming k-means（流式K-均值）
Dimensionality reduction（降维）
- singular value decomposition (SVD)（奇异值分解（SVD））
- principal component analysis (PCA)（主成分分析（PCA））
Feature extraction and transformation（特征抽取和转换）
Frequent pattern mining（频繁模式挖掘）
- FP-growth（FP-增长）
- association rules（关联规则）
- PrefixSpan（PrefixSpan）
Evaluation metrics（评价指标）
PMML model export（PMML模型导出）
Optimization (developer)（优化（开发者））
- stochastic gradient descent（随机梯度下降）
- limited-memory BFGS (L-BFGS)（有限的记忆BFGS（L-BFGS））

spark.ml: 机器学习管道高级API

Overview: estimators, transformers and pipelines（概览：评估器，转换器和管道）
Extracting, transforming and selecting features（抽取，转换和选取特征）
Classification and regression（分类和回归）
Clustering（聚类）
Advanced topics（高级主题）

虽然还有些降维技术在spark.ml中尚不可用，不过用户可以将spark.mllib中的的相关实现和spark.ml中的算法无缝地结合起来。

依赖项

MLlib使用的线性代数代码包是Breeze，而Breeze又依赖于 netlib-java 优化的数值处理。如果在运行时环境中这些原生库不可用，你将会收到一条警告，而后spark会使用纯JVM实现来替代之。

由于许可限制的原因，spark在默认情况下不会包含netlib-Java的原生代理库。如果需要配置netlib-java/Breeze使用其系统优化库，你需要添加依赖项：com.github.fommil.netlib:all:1.1.2（或者在编译时加上参数：-Pnetlib-lgpl），然后再看一看 netlib-java 相应的安装文档。

要使用MLlib的Python接口，你需要安装NumPy 1.4以上的版本。

迁移指南

MLlib目前还在积极的开发当中。所以标记为 Experimental / DeveloperApi 的接口可能在未来发生变化，下面的迁移指南说明了版本升级后的变化。

从1.5升级到1.6

从1.5到1.6，spark.mllib 和 spark.ml 包中并没有重大的API变化，不过有一些行为不再支持或者发生变化。

已经废弃:

SPARK-11358: spark.mllib.clustering.KMeans 的runs参数已经废弃
SPARK-10592: spark.ml.classification.LogisticRegressionModel和spark.ml.regresion.LinearRegressionModel 中，weights字段改名为coefficients。这一变动有助于消除歧义，可以和输入给算法的实例（行）权重（weights）区分开来。

行为有变:

SPARK-7770: spark.mllib.tree.GradientBoostedTrees: validationTol 的语义在1.6中有变。原先其代表误差变化绝对值的一个阈值，而现在它类似于GradientDescent中的convergenceTol：对于较大的误差，使用相对误差（相对于上一次）；而对于较小的误差（<0.01），使用绝对误差。
SPARK-11069: spark.ml.feature.RegexTokenizer：以前，在分词之前不会讲字符串转小写。现在的实现是，默认会将字符串转小写，不过有选项可以设为不转。这中实现和Tokenizertransformer的行为相匹配。

Spark老版本

以前版本的迁移指南归档在这里：on this page

要了解更多有关系统优化的好处和背景资料，可以看看Sam Halliday关于ScalaX的演讲：High Performance Linear Algebra in Scala

转载自并发编程网 – ifeve.com本文链接地址: Spark机器学习库（MLlib）指南

《Spark 官方文档》机器学习库（MLlib）指南的更多相关文章

Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
【译】Spark官方文档——Spark Configuration（Spark配置）
注重版权,尊重他人劳动转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统: 环境变量:用来启动 ...
《Spark 官方文档》在Mesos上运行Spark
本文转自:http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使 ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
【译】Spark官方文档——编程指南
本文翻自官方博客,略有添加:https://github.com/mesos/spark/wiki/Spark-Programming-Guide Spark发指南从高的面看,其实每一个Spark的 ...
spark api之一：Spark官方文档 - 中文翻译
转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initi ...
Spark 官方文档（2）——集群模式
Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件.可以通过阅读应用提交文档了解如何在集群中提交应用. 组件 spark应用程序通过主程序的Sp ...
spark 官方文档（1）——提交应用程序
Spark版本:1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置.Spark支持三种集群:Standalone.Apache Mesos和Ha ...
Spark 官方文档（4）——Configuration配置
Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过lo ...

随机推荐

css解决div的各种浏览器兼容性问题
方法一: min-height:500px;/*解决ie8.9.ff.chromet*/ height:100%;/*解决ie6.7*/ _height:500px;/*解决ie6超出自动溢出*/ 方 ...
如何在eclipse将程序导出成jar文件
如何在eclipse将程序导出成jar文件听语音 | 浏览:916 | 更新:2015-08-22 17:57 1 2 3 4 5 6 7 分步阅读一键约师傅百度师傅为你的电脑系统,选个靠谱师傅 ...
Android 操作系统的内存回收机制（转载）
Android 操作系统的内存回收机制(转载) Android APP 的运行环境 Android 是一款基于 Linux 内核,面向移动终端的操作系统.为适应其作为移动平台操作系统的特殊需要,谷歌对 ...
js 时间函数封装
html代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT ...
用户引导页--- ScrollView的使用
一.首先第一步,写好用户轮播页的viewController,比如叫做LVUserGuideVC,关键代码是配置和scrollView和pageControl. (1)scrollView的设置 se ...
sql条件为空查询全部，不为空按条件查询以及多条件筛选查询。
procedure queryLackLonOrLatTdCell(i_region_name varchar2, i_state varchar2) is begin select region_n ...
一些NSArray,NSDictionary,NSSet相关的算法知识
iOS编程当中的几个集合类:NSArray,NSDictionary,NSSet以及对应的Mutable版本,应该所有人都用过.只是简单使用的话,相信没人会用错,但要做到高效(时间复杂度)精确(业务准 ...
成为一个高效的web开发人员，只需要三步
想成为一名专业的web开发人员并不像你想象的那么容易,开发人员在开发自己的web项目时常常需要牢记很多东西,他们要不断寻找新理念,新创意,在特定时间内开发出高质量的产品,一名优秀的程序员必须明白时间的 ...
CentOS下 pycharm开发环境搭建
经过一系统列的折腾之后,我终于有高版本的python和我熟悉的输入法用了,下面来搭建pycharm下的python开发环境. 1.首先安装java jdk注意是JAVA 的JDK,不是JAVA VM什 ...
Python之路----------生成器
一.列表生成式想想如何创建一个列表[0,1,2,3,4,5] l = [0,1,2,3,4,5] 如果上面的列表元素足够多的话,是不是会写很多代码?看看列表生成式怎么写 #列表生成式 l = [x ...

《Spark 官方文档》机器学习库（MLlib）指南