原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html

在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的相关系数计算的原理与实现:

一、基本原理

  在stat包中实现了皮尔逊(Pearson)与斯皮尔曼(Spearman)两类相关系数的计算

    (1)Pearson:   (x,y)协方差/[(x标准方差)*(y标准方差)]

    
    详情可以参考:http://zh.wikipedia.org/wiki/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0
    协方差:
      
    方差:
      
    标准方差:
      
    协方差与方差关系:
       
        
   
    协方差矩阵:
      
    因此,pearson相关系数的关键就是计算协方差矩阵即可
 (2)Spearman :等级变量之间的皮尔逊相关系数。将向量x、y根据值大小排序,然后根据排序后的序号计算Pearson相关系数

         详情可以参考:http://zh.wikipedia.org/wiki/%E6%96%AF%E7%9A%AE%E5%B0%94%E6%9B%BC%E7%AD%89%E7%BA%A7%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0

二、java api调用example

  详情可以参考:https://github.com/tovin-xu/mllib_example/blob/master/src/main/java/com/mllib/example/stat/CorrelationSuite.java

三、源码分析

  1、相关系数计算接口

    主要包含两类接口:(1)计算x,y两个向量相关系数 ,实际也会调用(2)的实现方法

             (2)计算矩阵相关系数,会计算矩阵所有列向量之间的相关系数

    

  2、Pearson相关系数实现

    调用了computeCorrelationMatrix实现方法 

    

    在mllib的RowMatrix类中,实现了一些矩阵运算操作。computeCovariance函数就是求协方差矩阵

    先调用了treeAggregate方法计算矩阵M的行数m与每列的和向量mean

    computeGramianMatrix函数计算格拉姆矩阵,就是对矩阵M进行M^T *M的操作,最后根据GramianMatrix即可得到协方差矩阵

    

    调用computeCorrelationMatrixFromCovariance函数,利用协方差与方差的关系计算出标准方差,

    最后协方差/标准方差即可得出pearson相关系数

    

  

  3、Spearman相关系数实现

    调用computeCorrelationMatrix函数来计算Spearman相关系数

    首先给矩阵X分配行号uid,列号columnIndex,并根据列号、列值排序

    

    这段代码的功能是先调用zipWithIndex分配位置排名id,如果在一列中存在相同值,则需要用相同值的平均位置排名来当作它的实际位置排名,否则就用它的位置排名  

    

    最后,根据行号uid转化成DenseVector,调用pearson相关系数函数计算

    

原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html

spark(1.1) mllib 源码分析(二)-相关系数的更多相关文章

  1. spark(1.1) mllib 源码分析(一)-卡方检验

    原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4019131.html 在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数 ...

  2. spark(1.1) mllib 源码分析(三)-朴素贝叶斯

    原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4042467.html 本文主要以mllib 1.1版本为基础,分析朴素贝叶斯的基本原理与源码 一.基本原 ...

  3. spark(1.1) mllib 源码分析(三)-决策树

    本文主要以mllib 1.1版本为基础,分析决策树的基本原理与源码 一.基本原理 二.源码分析 1.决策树构造 指定决策树训练数据集与策略(Strategy)通过train函数就能得到决策树模型Dec ...

  4. Fresco 源码分析(二) Fresco客户端与服务端交互(1) 解决遗留的Q1问题

    4.2 Fresco客户端与服务端的交互(一) 解决Q1问题 从这篇博客开始,我们开始讨论客户端与服务端是如何交互的,这个交互的入口,我们从Q1问题入手(博客按照这样的问题入手,是因为当时我也是从这里 ...

  5. 框架-springmvc源码分析(二)

    框架-springmvc源码分析(二) 参考: http://www.cnblogs.com/leftthen/p/5207787.html http://www.cnblogs.com/leftth ...

  6. Tomcat源码分析二:先看看Tomcat的整体架构

    Tomcat源码分析二:先看看Tomcat的整体架构 Tomcat架构图 我们先来看一张比较经典的Tomcat架构图: 从这张图中,我们可以看出Tomcat中含有Server.Service.Conn ...

  7. 十、Spring之BeanFactory源码分析(二)

    Spring之BeanFactory源码分析(二) 前言 在前面我们简单的分析了BeanFactory的结构,ListableBeanFactory,HierarchicalBeanFactory,A ...

  8. spark的存储系统--BlockManager源码分析

    spark的存储系统--BlockManager源码分析 根据之前的一系列分析,我们对spark作业从创建到调度分发,到执行,最后结果回传driver的过程有了一个大概的了解.但是在分析源码的过程中也 ...

  9. Vue源码分析(二) : Vue实例挂载

    Vue源码分析(二) : Vue实例挂载 author: @TiffanysBear 实例挂载主要是 $mount 方法的实现,在 src/platforms/web/entry-runtime-wi ...

随机推荐

  1. qt linux软件打包等

    我的脚本: #!/bin/sh appname=`basename $0 | sed s,\.sh$,,` dirname=`dirname $0` tmp="${dirname#?}&qu ...

  2. 复制VirtualBox中的虚拟机

    假设简单的复制虚拟机是行不通的.复制过程须要一个小技巧,复制出来的VDI文件无法在虚拟介质管理器中注冊.由于每一个VDI文件都有一个唯一的uuid.而VirtualBox不同意注冊反复的uuid. 为 ...

  3. 关于bitmap recycle trying to use a recycled bitmap android.graphics.Bitmap

    在开发中,一直使用4.0以上手机作为測试机所以一直没有出现这个问题,今天换了2.3版本号的手机.出现了这个错误: trying to use a recycled bitmap android.gra ...

  4. Visual studio之C#跨线程调用UI控件

    背景 当前串口通讯项目,多个线程需要同时利用richTextBoxMsg控件打印信息,直接调用会造成线程不安全,严重的时候会直接导致UI线程挂掉,因此本篇就跨线程调用UI控件做个记录. 正文 定义控件 ...

  5. 使用ipmitool 命令添加IPMI 界面的SMTP邮件服务器地址

    目前要通过ipmitool工具在IPMI的界面上添加邮件服务器地址,该脚本如下 SMTP.sh #!/bin/bash ipmitool raw 0x32 0x78 0x01 0x01 0x00 0x ...

  6. MFC中获取各个窗口之间的句柄或者指针对象的方法

    MFC在非常多的对话框操作中,我们常常要用到在一个对话框中调用还有一个对话框的函数或变量.能够用例如以下方法来解决.    HWND hWnd=::FindWindow(NULL,_T("S ...

  7. (一)Solr——简介和安装配置

    1. solr简介 1.1 Solr是什么 Solr是apache的顶级开源项目,它是使用java开发 ,基于lucene的全文检索服务器. Solr和lucene的版本是同步更新的,最新的版本是7. ...

  8. 采集音频和摄像头视频并实时H264编码及AAC编码

    转自:http://www.cnblogs.com/haibindev/archive/2011/11/10/2244442.html 0. 前言 我在前两篇文章中写了DirectShow捕获音视频然 ...

  9. oracle expdp导入时 提示“ORA-39002: 操作无效 ORA-39070: 无法打开日志文件 ”

    1.导出数据库的时候报错 expdp zz/zz@orcl directory=exp_dp dumpfile=zz_20170520.dump logfile=zz_20170520.log   2 ...

  10. python --存储对象

    转自:http://www.cnblogs.com/vamei/archive/2012/09/15/2684781.html 在之前对Python对象的介绍中 (面向对象的基本概念,面向对象的进一步 ...