LDA 线性判别分析

LDA, Linear Discriminant Analysis，线性判别分析。注意与LDA（Latent Dirichlet Allocation，主题生成模型）的区别。

1、引入

　　上文介绍的PCA方法对提取样本数据的主要变化信息非常有效，而忽略了次要变化的信息。在有些情况下，次要信息可能正是把不同类别区分开来的分布方向。简单来说，PCA方法寻找的是数据变化的主轴方向，而判别分析寻找的是用来有效分类的方向。二者侧重点不同。在图1.1可以看出变化最大的方向不一定能最好的区分不同类别。

图1.1 用PCA和LDA对数据进行投影

2、LDA算法分析

　　LDA算法主要用来对样本进行分类，其分类的核心思想是：将高维样本数据投影到最佳分类的向量空间，保证在新的子空间中，有更大的类间距离和更小的类内距离。

　　设样本数据为：，将原始样本经过w变换后变成了z，其中，变换规则为：

　　变换的目的在于使得同一类的样本被w作用后距离更近，不同类的样本被w作用后距离更远。为了能更好的度量类内距离和类间距离，我们先定义中心点，即均值，设X_i为类别c_i的样本数据的集合，则X_i的中心点为：

　　N_i为类别c_i的样本数，即X_i的数目。

　　此中心点经过w变换后得到的中心点为：

　　即样本集Xi的中心点的投影为Xi中各元素投影后的均值。

　　现在，我们需要使得投影之后同类之间样本距离更小，而不同类之间的样本距离越大。为此，我们通过定义类间距离和类内距离：

1）类内距离。

　　类内距离主要用各样本点到该样本点所在类别的中心点的距离和来表示。我们使用散列度来表示一个类别的类内距离。对于投影之后类别为i的类内散列度(scatter，类似方差)为：

　　其中Z_i表示类别为i的所有样本集合。将上式进行变换得：

　　为了使得表达式简介，令：

　　所以有：

　　上式只是一个类别的散列度，若将所有类别的散列度相加，便得到整个样本的类内离散度：

　　将上式进行整理：

　　令：

　　所以：

　　其中，Sw被称为类内散度矩阵。

2）类间距离。

类间距离主要通过两个类之间的中心点距离来衡量。但是当类别很多时如何计算类间距离呢？下面分别进行分析。

A）只有两个类别时。假设两个类别样本数据分别为z1,z2，此时，类间离散度为：

其中，

将上式整理成只包含x的式子：

令：

于是：

其中，S_B被称为类间散度矩阵。

B）有多个类别时。根据只有两个类别的情况，我们很容易可以得到类间离散度为：

此时共有c(c-1)/2项的求和，时间复杂度为O(c²)。

通过上式，我们可以求得相应的类间散度矩阵为：

可能是这种方法复杂度太高，故而LDA并没有使用这种方法来计算多类别的类间离散度，而是采用了一种比较间接的方式。首先定义X的整体散度矩阵，

样本集的整体散度为类间散度和类内散度之和：

于是类间散度可是使用下式来进行计算：

现在我们对上式进行推导：

为了更加清楚的求解上式，我们将里面的求和搬出来进行分析：

将上式代入上上式得：

同样，最终得到类间散度为：

S_B：为类间散度矩阵。

至此，我们已经得到了类内散度J_W和类间散度J_B，现在可以使用这两个散度来构造目标函数J(w)：

　　现在，我们需要求得目标函数最大时的w，因为这时通过w映射后的样本数据具有最佳的类间距离和类内距离。从目标函数可以看出。当w成倍的放大或缩小时，目标函数保持不变，因而我们通过目标函数最大只能得到w的方向。为了使得计算简单，我们假设分母的值为1，即：

首先，上式的计算结果是一个数，而不是一个向量或矩阵，于是我们可以设为：

即：

于是有：

因为我们最终求得的w的大小是可以随意的，只是方向是确定的，因此，我们将上面的分母设为1是合理的。

这时我们将原问题转化成了有约束的最优化问题：

看到此问题毫不犹豫的想起了用了无数次的拉格朗日定理，于是，我们使用拉格朗日乘子得：

对w求导：

令导数为零：

　　上式中的Sw若可逆则可以直接移到等式左边，但是当样本维数较高，而样本数较少时，这时的Sw可能为奇异矩阵。此时可以考虑先使用PCA对样本进行降维，然后再对降维后的数据使用LDA。

在此，先假设Sw是可逆的，则有：

　　这就是传说中的Fisher Linear Discriminantion公式。其实FLD和LDA在很多情况下可以互换。

　　现在，我们可以看出w为上面式子的特征向量，而我们需要的w为特征值最大时所对应的特征向量。特征值最大，意味着在对应的特征向量上的变化最大。

　　上式的不一定是对称矩阵，在求它的特征向量时不能使用奇异值分解，这样就只能使用普通的求特征向量的方式，普通的方式时间复杂度为O(n³)，

　　于是我们对上式中的S_Bw进行分析得到：

　　于是：

　　至此，我们已经得到了样本的最佳映射w，w=(w1,w2,…,w_d’)，当我们将样本集x使用w进行映射后得到了具有最佳分类效果的样本z。

3、LDA分类

　　那么在最佳的分类空间如何对样本进行分类？

　　1）对二分类问题。由于只有两个类别，在经过上面的求解后，最后所有样本将会映射到一维空间中，设两个不同样本映射后的中心点分别为，我们将两个类别的中心点之间中心点作为分类点。

　　最后，我们将的x分为一类，其他的分为另一类。

　　2）对多分类问题。通过LDA方法最终将原始数据映射到c-1个维度上，现在我们需要在这c-1个维度上将样本集分成c类。这个怎么分呢？本人暂时也不知道，能想到的只是将问题转化为二分类问题。实际上，对于多类的情况主要考虑用来降维。

　　对于此类问题，我们主要将它转化为二分类来处理，我们使用一对其余的方法。简单来说就是先将所有c类样本分成1和2~c，然后再将2~c分为2和3~c，以此类推，直到完全分开。

3、维度分析和总结

上面我们将原样本的维度从d维降到了d’(此时使用d’来表示，d’<d)。那么d’到底最大是多少呢？因为特征向量是通过而求出，所以特征向量的维数d’不会大于的秩。而S_B的秩

　　而：

　　存在线性组合使得：

　　所以有：

　　因此：

　　所以通过LDA算法进行映射的最终空间维度不会超过c-1个维度。当只有两个类别时，那么就只能将其投影到一维的空间中进行分类。

　　在我们进行多分类时，并不是真的直接在c-1个维度上将样本分成c类，而是拆分成二分类的情况来进行分类。而我们千辛万苦推导出来的多分类的情形主要用来降维。

　　另外，本人认为应该可以在c-1个维度上对c个类别的样本进行划分，只是本人尚未发现好的方法！

　　在实际应用中，LDA算法表现出来的效果相比其他方法并不十分理想（一般情况下）。并且还可能会出现过拟合的情况。但是LDA算法的这种数学思想非常值得学习研究！

参考文献：

[1] Richard O. Duda, 模式分类

[2] peghoty, http://blog.csdn.net/itplus/article/details/12038357

http://blog.csdn.net/itplus/article/details/12038441

[3] http://www.cnblogs.com/cfantaisie/archive/2011/03/25/1995849.html

LDA 线性判别分析的更多相关文章

LDA线性判别分析
LDA线性判别分析给定训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能的近,异类样例点尽可能的远,对新样本进行分类的时候,将新样本同样的投影,再根据投影得到的位置进行判断,这个新样本的 ...
PCA主成分分析 ICA独立成分分析 LDA线性判别分析 SVD性质
机器学习(8) -- 降维核心思想:将数据沿方差最大方向投影,数据更易于区分简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法. 对于正交属性空间(对2维空间即为直角坐标系)中的样本点 ...
LDA线性判别分析原理及python应用（葡萄酒案例分析）
目录线性判别分析(LDA)数据降维及案例实战一.LDA是什么二.计算散布矩阵三.线性判别式及特征选择四.样本数据降维投影五.完整代码结语一.LDA是什么 LDA概念及与PCA区别 LD ...
LDA线性判别分析（转）
线性判别分析LDA详解 1 Linear Discriminant Analysis 相较于FLD(Fisher Linear Decriminant),LDA假设:1.样本数据服从正态分布,2 ...
LDA(线性判别分析，Python实现)
源代码: #-*- coding: UTF-8 -*- from numpy import * import numpy def lda(c1,c2): #c1 第一类样本,每行是一个样本 #c2 第 ...
LDA(Linear discriminate analysis)线性判别分析
LDA 线性判别分析与Fisher算法完全不同 LDA是基于最小错误贝叶斯决策规则的. 在EMG肌电信号分析中,... 未完待续:.....
机器学习理论基础学习3.2--- Linear classification 线性分类之线性判别分析(LDA)
在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),是一种处理文档的主题 ...
线性判别分析 LDA
点到判决面的距离点\(x_0\)到决策面\(g(x)= w^Tx+w_0\)的距离:\(r={g(x)\over \|w\|}\) 广义线性判别函数因任何非线性函数都可以通过级数展开转化为多项式函 ...
运用sklearn进行线性判别分析(LDA)代码实现
基于sklearn的线性判别分析(LDA)代码实现一.前言及回顾本文记录使用sklearn库实现有监督的数据降维技术——线性判别分析(LDA).在上一篇LDA线性判别分析原理及python应用(葡 ...

随机推荐

PAT1008
1008. Elevator (20) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B The highest building in our city has on ...
HQL中左连接，右连接，内连接
左连接:left join 如A left join B 即取出A表的所有数据,由on条件关联的B表数据,有则显示,没有则为空: 右连接:right join 如 A right join B 即取出 ...
配置suricata
yum -y install libpcap libpcap-devel libnet libnet-devel pcre \ pcre-devel gcc gcc-c++ automake auto ...
核心动画 CAAnimation 进阶
转载自:http://www.cofcool.net/development/2015/06/20/ios-study-note-nine-CoreAnimation/ Core Animation, ...
java中的装饰设计模式，浅谈与继承之间的区别
最初接触装饰设计模式,一直搞不懂这么做的意义是什么,看了网上很多的资料,对于与继承的区别并没有很清楚的分析,直到看到这篇博客:http://www.cnblogs.com/rookieFly-tdii ...
json python api
摘要:对于python来说,json并不是一种数据类型,可以把它视为函数.json.dumps把字典或列表变成json风格的str类型:json.loads把json风格的str类型变成原来的类型(列 ...
Persistent Bookcase
Persistent Bookcase time limit per test 2 seconds memory limit per test 512 megabytes input standard ...
OpenCV学习(20) grabcut分割算法
http://www.cnblogs.com/mikewolf2002/p/3330390.html OpenCV学习(20) grabcut分割算法在OpenCV中,实现了grabcut分割算法, ...
2014非专业知识学习---be smart
非专业部分--构建人生以书籍和网易公开课为主 (1)理财&投资基金投资相关,好的书籍? (2)哲学总览 <公正>这个看了大半,需要总结归纳. (必选) 同时结合哲学史,归纳西 ...
Hibernate-----关系映射重点!!!
1. 关系, 指的是对象之间的关系, 并不是数据库之间的关系. 2. 简化问题: a) 怎么写annotation b) 增删改查CRUD怎么写对象处于下列关系之一 (一对一, 一对多, 多对多)时 ...

LDA 线性判别分析

LDA 线性判别分析的更多相关文章

随机推荐

热门专题