http://www.cnblogs.com/chaosimple/p/3182157.html

http://blog.csdn.net/goodshot/article/details/8611178

一、统计学的基本概念

统计学里最基本的概念就是样本的均值、方差、标准差。首先，我们给定一个含有n个样本的集合，下面给出这些概念的公式描述：

均值：

标准差：

方差：

均值描述的是样本集合的中间点，它告诉我们的信息是有限的，而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，两个集合的均值都是10，但显然两个集合的差别是很大的，计算两者的标准差，前者是8.3后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是n，是因为这样能使我们以较小的样本集更好地逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、为什么需要协方差

标准差和方差一般是用来描述一维数据的，但现实生活中我们常常会遇到含有多维数据的数据集，最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义：

来度量各个维度偏离其均值的程度，协方差可以这样来定义：

协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的（从协方差可以引出“相关系数”的定义），也就是说一个人越猥琐越受女孩欢迎。如果结果为负值，就说明两者是负相关，越猥琐女孩子越讨厌。如果为0，则两者之间没有关系，猥琐不猥琐和女孩子喜不喜欢之间没有关联，就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质，如：

三、协方差矩阵

前面提到的猥琐和受欢迎的问题是典型的二维问题，而协方差也只能处理二维问题，那维数多了自然就需要计算多个协方差，比如n维的数据集就需要计算个协方差，那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义：

这个定义还是很容易理解的，我们可以举一个三维的例子，假设数据集有三个维度，则协方差矩阵为：

可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度的方差。

四、Matlab协方差实战

必须要明确一点，协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。以下的演示将使用Matlab，为了说明计算原理，不直接调用Matlab的cov函数：

首先，随机生成一个10*3维的整数矩阵作为样本集，10为样本的个数，3为样本的维数。

图 1 使用Matlab生成样本集

根据公式，计算协方差需要计算均值，前面特别强调了，协方差矩阵是计算不同维度之间的协方差，要时刻牢记这一点。样本矩阵的每行是一个样本，每列是一个维度，因此我们要按列计算均值。为了描述方便，我们先将三个维度的数据分别赋值：

图 2 将三个维度的数据分别赋值

计算dim1与dim2，dim1与dim3，dim2与dim3的协方差：

图 3 计算三个协方差

协方差矩阵的对角线上的元素就是各个维度的方差，下面我们依次计算这些方差：

图 4 计算对角线上的方差

这样，我们就得到了计算协方差矩阵所需要的所有数据，可以调用Matlab的cov函数直接得到协方差矩阵：

图 5 使用Matlab的cov函数直接计算样本的协方差矩阵

计算的结果，和之前的数据填入矩阵后的结果完全相同。

五、总结

理解协方差矩阵的关键就在于牢记它的计算是不同维度之间的协方差，而不是不同样本之间。拿到一个样本矩阵，最先要明确的就是一行是一个样本还是一个维度，心中明确整个计算过程就会顺流而下，这么一来就不会迷茫了。

http://blog.csdn.net/ybdesire/article/details/6270328

协方差的定义

对于一般的分布，直接代入E(X)之类的就可以计算出来了，但真给你一个具体数值的分布，要计算协方差矩阵，根据这个公式来计算，还真不容易反应过来。网上值得参考的资料也不多，这里用一个例子说明协方差矩阵是怎么计算出来的吧。

记住，X、Y是一个列向量，它表示了每种情况下每个样本可能出现的数。比如给定

则X表示x轴可能出现的数，Y表示y轴可能出现的。注意这里是关键，给定了4个样本，每个样本都是二维的，所以只可能有X和Y两种维度。所以

用中文来描述，就是：

协方差(i,j)=（第i列的所有元素-第i列的均值）*（第j列的所有元素-第j列的均值）

这里只有X,Y两列，所以得到的协方差矩阵是2x2的矩阵，下面分别求出每一个元素：

所以，按照定义，给定的4个二维样本的协方差矩阵为：

用matlab计算这个例子

z=[1,2;3,6;4,2;5,2]

cov(z)

ans =

2.9167 -0.3333

-0.3333 4.0000

可以看出，matlab计算协方差过程中还将元素统一缩小了3倍。所以，协方差的matlab计算公式为：

协方差(i,j)=（第i列所有元素-第i列均值）*（第j列所有元素-第j列均值）/（样本数-1）

下面在给出一个4维3样本的实例，注意4维样本与符号X,Y就没有关系了，X,Y表示两维的，4维就直接套用计算公式，不用X,Y那么具有迷惑性的表达了。

（3）与matlab计算验证

Z=[1 2 3 4;3 4 1 2;2 3 1 4]

cov(Z)

ans =

1.0000 1.0000 -1.0000 -1.0000

-1.0000 -1.0000 1.3333 0.6667

-1.0000 -1.0000 0.6667 1.3333

可知该计算方法是正确的。我们还可以看出，协方差矩阵都是方阵，它的维度与样本维度有关（相等）。参考2中还给出了计算协方差矩阵的源代码，非常简洁易懂，在此感谢一下!

参考：

[1] http://en.wikipedia.org/wiki/Covariance_matrix

[2] http://www.cnblogs.com/cvlabs/archive/2010/05/08/1730319.html

http://www.cnblogs.com/cezorzhao/archive/2013/01/11/xiefangcha.html

在做数字图像处理的时候，特别是PCA降维的时候，很多情况下要遇到协方差矩阵，其实一直糊里糊涂的不知道到底是个什么东西，

以下是我收集的网上资料做的整理和自己的一些理解。

统计学的基本概念

学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。

均值：

方差：

　　均值方差的意义我就不多说了，均值就是描述样本总体水品的，班级平均分你总归明白的吧。

方差呢就是描述样本稳定性的，比如你的成绩，一会儿全班第一，一会儿不及格，这就是方差很大。张三总是在班级前十，但也没当过第一，这方差就比较小。

　　那么协方差到底是做什么用的呢？

　　我们一直在讨论一个随机变量的情况，一个随机变量的均值，一个随机变量的方差，当涉及到两个随机变量的时候，有时候我们要判定他们两个的相关性，协方差的意义就在于此。

　　我们再回头看方差的定义：

　　　这是描述的一个随机变量，

　　然后我们看看两个随机变量X,Y，协方差的定义如下：

　　明白了吧，协方差在描述两个随机变量之间的相关度。

　　基于以上理论，我们明白了协方差的意义。那么协方差矩阵又是做什么的呢？想象一下，两个随机变量X,Y我们可以用协方差表示，那么10个，20个，n个呢。协方差矩阵就产生了。定义n维随机变量Xn=[X1，X2，X3，.....Xn-1，Xn]；（其实相当于n个随机变量的集合）

我们用协方差矩阵表示他们互相之间的协方差：

　　　　　　（式中Un表示Xn的均值）

明显这是个对称矩阵，第i行j列，或者j行i列的值，表示Xi与Xj的协方差。

好了，最后，我觉得理解协方差矩阵的关键点在于理解多维随机变量，不同维度之间的协方差，对应起来就是协方差矩阵的元素。

[zz]计算协方差矩阵的更多相关文章

opencv2学习：计算协方差矩阵
图像的高级处理中,协方差矩阵计算是必不可少的,但opencv关于这方面的资料却相当少. 首先,利用matlab计算一下,便于比较: >> data=[1,2,3;10,20,30] dat ...
numpy和matlab计算协方差矩阵的不同（matlab是标准的，numpy相当于转置后计算）
matlab是标准的,numpy相当于转置后计算 >> x = [2,0,-1.4;2.2,0.2,-1.5;2.4,0.1,-1;1.9,0,-1.2] x = 2.0000 0 ...
opencv_协方差矩阵与协方差讲解
统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧 ...
再谈协方差矩阵之主成分分析PCA
上次那篇文章在理论层次介绍了下协方差矩阵,没准很多人觉得这东西用处不大,其实协方差矩阵在好多学科里都有很重要的作用,比如多维的正态分布,再比如今天我们今天的主角——主成分分析(Principal Co ...
方差variance, 协方差covariance, 协方差矩阵covariance matrix
https://www.jianshu.com/p/e1c8270477bc?utm_campaign=maleskine&utm_content=note&utm_medium=se ...
Stat1—浅谈协方差矩阵
今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差 ...
numpy之数组计算
# coding=utf-8import numpy as npimport random #数组和数字计算,进行广播计算,包括加减乘除 t8 = t8 +2 print(t8,t8.dtype,t8 ...
机器学习 —— 基础整理（四）特征提取之线性方法：主成分分析PCA、独立成分分析ICA、线性判别分析LDA
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
机器学习-特征值,svd分解
求矩阵的秩设 ,已知r(A)=2,则参数x,y分别是解:任意三阶子式=0,有二阶子式≠0,但是这些子式比较多,可以使用初等变换,因为初等变换不改变矩阵的秩,可以将矩阵通过初等行(列)变换,化为行阶 ...

随机推荐

python——挖装饰器祖坟事件
装饰器是什么呢? 我们先来打一个比方,我写了一个python的插件,提供给用户使用,但是在使用的过程中我添加了一些功能,可是又不希望用户改变调用的方式,那么该怎么办呢? 这个时候就用到了装饰器.装饰器 ...
iOS开发UI篇—UIScrollView控件介绍
iOS开发UI篇—UIScrollView控件介绍一.知识点简单介绍 1.UIScrollView控件是什么? (1)移动设备的屏幕⼤大⼩小是极其有限的,因此直接展⽰示在⽤用户眼前的内容也相当有限 ...
stopPropagation, preventDefault 和 return false
e.stopPropagation()此方法用于阻止事件冒泡或者事件捕获.IE8及以下中没有此方法,使用e.cancelBubble=false 来阻止事件冒泡. 当标准W3C中,事件包括捕获阶段和冒 ...
Spring 中的 JDBC 事务
Spring 对 JDBC 的支持 JdbcTemplate 简介 •为了使 JDBC 更加易于使用, Spring 在 JDBC API 上定义了一个抽象层, 以此建立一个 JDBC 存取框架. • ...
win7 下设置时间格式为yyyy-MM-dd 格式无效的解决方法
部分win7 64位机器,在时间区域部分设置了时间格式为:yyyy-MM-dd后程序和数据库里面还是原来默认的yyyy/MM/dd格式打开注册表,搜索 yyyy/MM/dd ,修改为yyyy-MM- ...
RoseRT 建模学习
目录: 一.RoseRT理论知识二.一个完整模型的建立三.TD-SCDMA(UE侧)RRC层建模的学习四.LTE的RRC层建模(1.自主完成‘2.也可以是L2) 五.参考文献一.RoseRT理 ...
HDU 3622 Bomb Game(二分+2SAT)
题意:有一个游戏,有n个回合,每回合可以在指定的2个区域之一放炸弹,炸弹范围是一个圈,要求每回合的炸弹范围没有重合.得分是炸弹半径最小的值.求可以得到的最大分数. 思路:二分+2SAT. 二分炸弹范围 ...
C语言修炼－第2天
从昨天被打击到下定决心以来,还是觉得学习代码是能让自己真正觉得充实的事情.其实潜意识里一直是这样的不是吗?从开始选择工科就没有后悔过,更不应该现在就放弃,其实自己的缺点本来就是不够扎实,给自己150天 ...
MySQL起航
以前学php的时候用过MySQL,但是都没有认真地学习,只会在php代码中用几条极其简单SQL语句,以为MySQL就这么点用法,当时还在嘲笑学长们为什么会觉得MySQL难学,真是太尴尬了.好在开了数据 ...
无法建立SSL连接
在使用wget工具的过程中,当URL使用HTTPS协议时,经常出现如下错误:“无法建立SSL连接”. 这是因为wget在使用HTTPS协议时,默认会去验证网站的证书,而这个证书验证经常会失败.加上&q ...

[zz]计算 协方差矩阵