Spark MLlib 之 Basic Statistics

Spark MLlib提供了一些基本的统计学的算法，下面主要说明一下：

1、Summary statistics

对于RDD[Vector]类型，Spark MLlib提供了colStats的统计方法，该方法返回一个MultivariateStatisticalSummary的实例。他封装了列的最大值，最小值，均值、方差、总数。如下所示：

    val conf = new SparkConf().setAppName("Simple Application").setMaster("yarn-cluster")

    val sc = new SparkContext(conf)

    val observations = sc.textFile("/user/liujiyu/spark/mldata1.txt")

      .map(_.split(' ') //     转换为RDD[Array[String]]类型

        .map(_.toDouble)) //            转换为RDD[Array[Double]]类型

      .map(line => Vectors.dense(line)) //转换为RDD[Vector]类型

    // Compute column summary statistics.

    val summary: MultivariateStatisticalSummary = Statistics.colStats(observations)

    println(summary.mean) // a dense vector containing the mean value for each column

    println(summary.variance) // column-wise variance

    println(summary.numNonzeros) // number of nonzeros in each column

2、Correlations（相关性）

计算两个序列的相关性，提供了计算Pearson’s and Spearman’s correlation.如下所示：

    val conf = new SparkConf().setAppName("Simple Application").setMaster("yarn-cluster")

    val sc = new SparkContext(conf)

    val observations = sc.textFile("/user/liujiyu/spark/mldata1.txt")

    val data1 = Array(1.0, 2.0, 3.0, 4.0, 5.0)

    val data2 = Array(1.0, 2.0, 3.0, 4.0, 5.0)

    val distData1: RDD[Double] = sc.parallelize(data1)

    val distData2: RDD[Double] = sc.parallelize(data2) // must have the same number of partitions and cardinality as seriesX

    // compute the correlation using Pearson's method. Enter "spearman" for Spearman's method. If a

    // method is not specified, Pearson's method will be used by default.

    val correlation: Double = Statistics.corr(distData1, distData2, "pearson")

    val data: RDD[Vector] = observations // note that each Vector is a row and not a column

    // calculate the correlation matrix using Pearson's method. Use "spearman" for Spearman's method.

    // If a method is not specified, Pearson's method will be used by default.

    val correlMatrix: Matrix = Statistics.corr(data, "pearson")

Spark MLlib 之 Basic Statistics的更多相关文章

spark mllib docs，MLlib: RDD-based API
MLlib: RDD-based API This page documents sections of the MLlib guide for the RDD-based API (the spar ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
Spark MLlib知识点学习整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法.MLlib就是RDD上一系列可供调用的函数的集合. 操作步骤: 1.用字符串RDD来表示信息. 2.运行MLlib中的 ...
spark MLLib的基础统计部分学习
参考学习链接:http://www.itnose.net/detail/6269425.html 机器学习相关算法,建议初学者去看看斯坦福的机器学习课程视频:http://open.163.com/s ...
spark MLlib BasicStatistics 统计学基础
一, jar依赖,jsc创建. package ML.BasicStatistics; import com.google.common.collect.Lists; import org.apach ...
Spark MLlib 机器学习
本章导读机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新 ...
RandomForest in Spark MLLib
决策树类模型 ml中的classification和regression主要基于以下几类: classification:决策树及其相关的集成算法,Logistics回归,多层感知模型: regres ...
Spark Mllib里的卡方检验
不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...
Spark Mllib里的如何对单个数据集用斯皮尔曼计算相关系数
不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...

随机推荐

GCC for Win32开发环境介绍
http://blog.csdn.net/VisionCat/article/details/711693 http://blog.csdn.net/VisionCat/article/categor ...
soapUI请求参数Style与Level使用
http://blog.sina.com.cn/s/blog_71bc9d680102wsuw.html 1.2.资源参数在这一节中,我们更为详细的看看提供给你不同类型的REST参数.有五种类型的可 ...
contiki-rtimer
struct rtimer { rtimer_clock_t time; rtimer_callback_t func; void *ptr; }; typedef unsigned short rt ...
j.APR连接器整体框图(含SSL实现分析)
APR连接器的思路和bio,nio的整体架构也是类似的,可以看到下面的整体框图: 第一个区别是,对于从Acceptor线程中的socket解析这块,无论是nio还是bio都是在Acceptor线程内直 ...
android native crash 分析
工具: addr2line arm-linux-androideabi-addr2line -aCfe libart.so 0x63006d 当libart.so包含符号表的情况下,可以查询到他的地址 ...
使用 Box2D 做一个 JansenWalker 机器人
在 Box2DFlash 的官网的首页有一个小 Demo,这个 Demo 中有11个例子,可以通过左右方向键查看不同的例子,里面的每个例子都非常有趣,但最让我感兴趣的,是其中一个叫 JansenWal ...
深入剖析tomcat 笔记——第8章载入器
深入剖析tomcat 笔记目录:
ios基础篇（二十六）—— UITableViewCell的分组索引与标记
一.表视图的索引目录首先要创建一个TableView,之前有说过,这里就不详细说了(参考前面第十四篇). 直接贴代码吧, #import "ViewController.h" @ ...
JVM 平台上的各种语言的开发指南
JVM 平台上的各种语言的开发指南为什么我们需要如此多的JVM语言? 在2013年你可以有50中JVM语言的选择来用于你的下一个项目.尽管你可以说出一大打的名字,你会准备为你的下一个项目选择一种新的 ...
kotlin 练习
Kotlin 定义函数的一些语法 fun main(args:Array<String>):Unit { val x:() -> Unit = { println("hel ...

Spark MLlib 之 Basic Statistics

Spark MLlib 之 Basic Statistics的更多相关文章

随机推荐

热门专题