机器学习库（MLlib）指南

MLlib是Spark的机器学习（ML）库。其目标是使实际的机器学习可扩展和容易。在高层次上，它提供了如下工具：

ML算法：通用学习算法，如分类，回归，聚类和协同过滤
特征提取，特征提取，转换，降维和选择
管道：用于构建，评估和调整ML管道的工具
持久性：保存和加载算法，模型和管道
实用程序：线性代数，统计，数据处理等

公告：基于DataFrame的API是主要的API

MLlib基于RDD的API现在处于维护模式。

从Spark 2.0开始，包中的基于RDD的API spark.mllib已进入维护模式。Spark的主要机器学习API现在是包中的基于DataFrame的API spark.ml。

有什么影响？

MLlib将仍然支持基于RDD的API spark.mllib并修复错误。
MLlib不会将新功能添加到基于RDD的API。
在Spark 2.x版本中，MLlib将向基于DataFrame的API添加功能，以便与基于RDD的API达成功能对等。
达到功能对等（大致估计为Spark 2.2）后，基于RDD的API将被弃用。
基于RDD的API预计将在Spark 3.0中被删除。

为什么MLlib切换到基于DataFrame的API？

DataFrames提供比RDD更友好的API。DataFrame的许多优点包括Spark数据源，SQL / DataFrame查询，Tungsten和Catalyst优化以及跨语言的统一API。
MLlib的基于DataFrame的API提供跨ML算法和跨多种语言的统一API。
数据框便于实际的ML管线，特别是功能转换。

什么是“Spark ML”？

“Spark ML”不是一个正式的名字，偶尔用于指代基于MLlib DataFrame的API。这主要是由于org.apache.spark.ml基于DataFrame的API所使用的Scala包名以及我们最初用来强调管道概念的“Spark ML Pipelines”术语。

MLlib是否被弃用？

编号MLlib包括基于RDD的API和基于DataFrame的API。基于RDD的API现在处于维护模式。

依赖

MLlib使用线性代数包Breeze，它依赖于 netlib-java进行优化的数值处理。如果本机库在运行时不可用，您将看到一条警告消息，而将使用纯JVM实现。

由于运行时专有二进制文件的授权问题，netlib-java默认情况下，我们不包含本地代理。要配置netlib-java/ Breeze以使用系统优化的二进制文件，请包括 com.github.fommil.netlib:all:1.1.2（或者构建Spark -Pnetlib-lgpl）作为项目的依赖项，并阅读netlib-java文档以获取平台的其他安装说明。

要在Python中使用MLlib，您将需要NumPy 1.4或更高版本。

ml中的逻辑回归的例子

from pyspark.sql import Row

 from pyspark.ml.linalg import Vectors

 bdf = sc.parallelize([

        Row(label=1.0, weight=2.0, features=Vectors.dense(1.0)),

        Row(label=0.0, weight=2.0, features=Vectors.sparse(1, [], []))]).toDF()

 blor = LogisticRegression(maxIter=5, regParam=0.01, weightCol="weight")

 blorModel = blor.fit(bdf)

 blorModel.coefficients

DenseVector([5.5   ])

 blorModel.intercept

-2.68

 mdf = sc.parallelize([

        Row(label=1.0, weight=2.0, features=Vectors.dense(1.0)),

        Row(label=0.0, weight=2.0, features=Vectors.sparse(1, [], [])),

        Row(label=2.0, weight=2.0, features=Vectors.dense(3.0))]).toDF()

 mlor = LogisticRegression(maxIter=5, regParam=0.01, weightCol="weight",

        family="multinomial")

 mlorModel = mlor.fit(mdf)

 print(mlorModel.coefficientMatrix)

DenseMatrix([[-2.3   ],

             [ 0.2   ],

             [ 2.1    ]])

 mlorModel.interceptVector

DenseVector([2.0   , 0.8   , -2.8   ])

 test0 = sc.parallelize([Row(features=Vectors.dense(-1.0))]).toDF()

 result = blorModel.transform(test0).head()

 result.prediction

0.0

 result.probability

DenseVector([0.99   , 0.00   ])

 result.rawPrediction

DenseVector([8.22   , -8.22   ])

 test1 = sc.parallelize([Row(features=Vectors.sparse(1, [0], [1.0]))]).toDF()

 blorModel.transform(test1).head().prediction

1.0

 blor.setParams("vector")

Traceback (most recent call last):

TypeError: Method setParams forces keyword arguments.

 lr_path = temp_path + "/lr"

 blor.save(lr_path)

 lr2 = LogisticRegression.load(lr_path)

 lr2.getMaxIter()

 model_path = temp_path + "/lr_model"

 blorModel.save(model_path)

 model2 = LogisticRegressionModel.load(model_path)

 blorModel.coefficients[0] == model2.coefficients[0]

True

 blorModel.intercept == model2.intercept

True

Spark的MLlib和ML库的区别的更多相关文章

Spark之MLlib
目录 Part VI. Advanced Analytics and Machine Learning Advanced Analytics and Machine Learning Overview ...
VS中Debug和Realease、及静态库和动态库的区别整理（转）
原文出自:http://www.cnblogs.com/chensu/p/5632486.html 一.Debug和Realease区别产生的原因 Debug 通常称为调试版本,它包含调试信息,并且不 ...
VS中Debug和Realease、及静态库和动态库的区别整理
一.Debug和Realease区别产生的原因 Debug 通常称为调试版本,它包含调试信息,并且不作任何优化,便于程序员调试程序.Release 称为发布版本,它往往是进行了各种优化,使得程序在代码 ...
maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令
maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository. ...
iOS 静态库和动态库的区别&静态库的生成
linux中静态库和动态库的区别一.不同库从本质上来说是一种可执行代码的二进制格式,可以被载入内存中执行.库分静态库和动态库两种. 1. 静态函数库这类库的名字一般是libxxx.a:利用静态函 ...
iOS中的静态库与动态库，区别、制作和使用
如果我们有些功能要给别人用,但是又不想公开代码实现,比如高德地图.第三方登录分享等等,这时候我们就要打包成库了.库分静态库和动态库两种: 静态库:以.a 和 .framework为文件后缀名.动态库: ...
iOS 中的静态库与动态库，区别、制作和使用
如果我们有些功能要给别人用,但是又不想公开代码实现,比如高德地图.第三方登录分享等等,这时候我们就要打包成库了.库分静态库和动态库两种: 静态库:以.a 和 .framework为文件后缀名.动态库: ...
Spark机器学习MLlib系列１（for python）－－数据类型，向量，分布式矩阵，API
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...
静态库和动态库的区别和win平台和linux平台代码实现
静态库和动态库的区别什么是库库是写好的,现有的,成熟的,可以复用的代码.现实中每个程序都要依赖很多基础的底层库,不可能每个人的代码都从零开始,因此库的存在意义非同寻常. 本质上来说,库是一种可 ...

随机推荐

Java 线程与锁
Synchronization synchronized语法可以获取锁, 当其他线程持有锁的时候该线程想要获取锁将会进入等待状态, 直到没有其他线程持有该锁显示使用 synchronized (lo ...
数据库实例: STOREBOOK > 用户 > 编辑用户: SYS
ylbtech-Oracle:数据库实例: 数据库实例: STOREBOOK > 用户 > 编辑用户: SYS 编辑用户: SYS 1. 一般信息返回顶部 1.1, 1.2, ...
DevExpress ChartControl控件实现图表【转】
1.饼状图图 1.1添加ChartControl控件在工具箱中找到ChartControl控件,拖到窗口中,创建Pie: 1.2准备数据 private DataTable CreateChartD ...
ArcGisServer根据最大最小坐标换算瓦片行列号【转】
1.前言在上一节中我们知道了屏幕上一像素等于实际中多少单位长度(米或经纬度)的换算方法,而知道这个原理后,接下来我们要怎么用它呢?它和我们前端显示地图有什么关联呢?这一节,我会尽量详细的将这两个问题 ...
Generate Parentheses leetcode java
题目: Given n pairs of parentheses, write a function to generate all combinations of well-formed paren ...
初学 Delphi 嵌入汇编[1] - 汇编语言与机器语言
非科班出身, 现在才接触汇编, 惭愧呀, 好好学! 主选课本是清华大学王爽老师的<汇编语言>. 推荐王爽老师的汇编网汇编语言之前是机器语言. 机器语言是机器指令的集合, 机器指令是一系 ...
不能从const char *转换为LPCWSTR --VS经常碰到
不能从const char *转换为LPCWSTR 在VC 6.0中编译成功的项目在VS2005 vs2005.vs2008.vs2010中常会出现类型错误. 经常出现的错误是:不能从const ch ...
从数据库中取 datetime类型，界面展示 yyyy-MM-dd
//处理提问时间,去掉时分秒 if(array!=null && array.size()>0){ for(int i=0;i<array.size();i++){ JSO ...
浅析ARM公司在物联网领域的战略布局(转)
随着ARM芯片的出货量越来越多,自信满满的ARM公司统一软硬件平台的战略和雄心壮志越来越凸显.最初ARM公司仅是出售自己的知识产权(IP核)给各大芯片公司,由于最初ARM公司处于劣势,所以给芯片厂商很 ...
Python输出信息
Python很多情况下,都是通过Console输出信息,大量翻屏滚动的信息,太乱.而pip安装的效果就很好,只是在一行输出信息,不断变化.网上找资料,不难. 用print的话,跟一个“,”就表示不换行 ...

Spark的MLlib和ML库的区别

机器学习库（MLlib）指南

公告：基于DataFrame的API是主要的API

依赖

ml中的逻辑回归的例子

Spark的MLlib和ML库的区别的更多相关文章

随机推荐

热门专题