机器学习：线性判别式分析(LDA)

1.概述

线性判别式分析（Linear Discriminant Analysis），简称为LDA。也称为Fisher线性判别（Fisher Linear Discriminant，FLD），是模式识别的经典算法，在1996年由Belhumeur引入模式识别和人工智能领域。

基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。

LDA与PCA都是常用的降维技术。PCA主要是从特征的协方差角度，去找到比较好的投影方式。LDA更多的是考虑了标注，即希望投影后不同类别之间数据点的距离更大，同一类别的数据点更紧凑。

但是LDA有两个假设:1.样本数据服从正态分布，2.各类得协方差相等。虽然这些在实际中不一定满足，但是LDA被证明是非常有效的降维方法，其线性模型对于噪音的鲁棒性效果比较好，不容易过拟合。

2.图解说明(图片来自网络)

可以看到两个类别，一个绿色类别，一个红色类别。左图是两个类别的原始数据，现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴，不同类别之间会有重复，导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的，可以看到，红色类别和绿色类别在映射之后之间的距离是最大的，而且每个类别内部点的离散程度是最小的（或者说聚集程度是最大的）。

3.图解LAD与PCA的区别(图片来自网络）

两个类别，class1的点都是圆圈，class2的点都是十字。图中有两条直线，斜率在1左右的这条直线是PCA选择的映射直线，斜率在 -1左右的这条直线是LDA选择的映射直线。其余不在这两条直线上的点是原始数据点。可以看到由于LDA考虑了“类别”这个信息（即标注），映射后，可以很好的将class1和class2的点区分开。

4.LAD与PCA的对比

(1)PCA无需样本标签,属于无监督学习降维;LDA需要样本标签,属于有监督学习降维。二者均是寻找一定的特征向量w来降维的,其中LDA抓住样本的判别特征,PCA则侧重描叙特征。概括来说，PCA选择样本点投影具有最大方差的方向，LDA选择分类性能最好的方向。

(2)PCA降维是直接和特征维度相关的,比如原始数据是d维的,那么PCA后可以任意选取1维、2维,一直到d维都行。LDA降维是直接和类别的个数C相关的,与数据本身的维度没关系,比如原始数据是d维的,一共有C个类别,那么LDA降维之后,一般就是1维,2维到C-1维进行选择。要求降维后特征向量维度大于C-1的,不能使用LDA。

(3）PCA投影的坐标系都是正交的,而LDA根据类别的标注关注分类能力,因此不保证投影到的坐标系是正交的（一般都不正交）

5.LAD的使用限制

(1)LDA至多可生成C-1维子空间
LDA降维后的维度区间在[1,C-1]，与原始特征数n无关，对于二值分类，最多投影到1维。

(2)LDA不适合对非高斯分布样本进行降维。如下图所示的数据分布分类效果不好

（3）LDA在样本分类信息依赖方差而不是均值时，效果不好。

6.实验及讲解

1）生成实验数据，如下图：

寻找一条直线，使按照椭圆圈出的分类进行投影，使得投影后模式样本在新的子空间有最大的类间距离和最小的类内距离。

2）核心函数

a）sklearn.discriminant_analysis.LinearDiscriminantAnalysis

b）主要参数(详细参数)

n_components ：减少到多少维空间

c）主要属性

coef_ ：权重。如果是投影到一维空间，则两个值对应的是直线的斜率和截距。

classes_ ：分类

3）详细代码

from sklearn.datasets.samples_generator import make_blobs

import numpy as np

import matplotlib.pyplot as plt

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

from itertools import cycle

##产生随机数据的中心

centers = [[2.5, 2],[1.8, 3] ]

##产生的数据个数

n_samples=100

##生产数据

X, labels = make_blobs(n_samples=n_samples, centers= centers, cluster_std=0.3,

                  random_state =0)

clf = LinearDiscriminantAnalysis()

clf.fit(X,labels)

##直线的斜率和截距

#print(clf.coef_) #-7.16451571  10.65392594]

##选取两个数进行预测

#print(clf.predict([[1.8, 3.2]]))  #1

#print(clf.predict([[2.7, 1.7]]))#0

##读取直线的斜率和截距

k1 = clf.coef_[0,0]

b1 = clf.coef_[0,1]

##绘图

plt.figure(1)

plt.clf()

'''

    说明：

     1）为了方便计算及说明，函数式1、2都采用了近似值

        y的斜率为-7.165，所以y1的斜率为0.14

     2）由于近似值或者绘图精度的问题，当y1斜率为0.14时与y不垂直，

        效果图中的绿色直线是下面函数绘制的：y1=0.37*x+1.7，即斜率为0.37

'''

#画LDA直线

x=np.linspace(0,4,50) ##在0-15直接画100个连续点

#y=k1*x+b1

y=-7.165*x+10.7 ##函数式1

plt.plot(x,y,color="red",linewidth=2)

#画与LDA直线垂直的直线

y1=0.14*x+2.2 ##函数式2

#y1=0.37*x+1.7  ##这个函数仅仅是为了绘制效果图用

plt.plot(x,y1,color="g",linewidth=2)

colors = cycle('mykbgrcmykbgrcmykbgrcmyk')

for k, col in zip(range(len(clf.classes_)), colors):

    ##根据lables中的值是否等于k，重新组成一个True、False的数组

    my_members = labels == k

    ##X[my_members, 0] 取出my_members对应位置为True的值的横坐标

    plt.plot(X[my_members, 0], X[my_members, 1],'o',c = col ,markersize=4)

plt.axis([0, 4, 0, 5])

plt.show()

4）结果图

在上图中，红线是LDA之后求出来的，绿线是通过数学的两直线相交的关系求出来的。在代码中，选取了两个点：[1.8, 3.2]，[2.7, 1.7]，如果直接用训练出的模型进行预测，点[1.8, 3.2] 属于类型1，点[2.7, 1.7]属于类型0.如果通过线与点的关系，使用绿线进行判断，0.14×1.8+2.2=2.45 <3.2,所以点[1.8, 3.2]在绿线上面，因此属于分类1。0.14×2.7+2.2=2.578>1.7，所以点[2.7, 1.7]在绿线下面，因此属于分类0.

对应投影是一维的情况，个人感觉如果能求出绿线的方程，无论是从预测计算还是理解，都比较方便。但是由于样本点分布的不确定性，绿线的斜率好求，但是截距难找，所以LDA算法并没有给出相关的属性内容。

机器学习：线性判别式分析(LDA)的更多相关文章

【LDA】线性判别式分析
1. LDA是什么线性判别式分析(Linear Discriminant Analysis),简称为LDA.也称为Fisher线性判别(Fisher Linear Discriminant,FLD) ...
吴裕雄 python 机器学习——线性判断分析LinearDiscriminantAnalysis
import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot ...
PCA主成分分析 ICA独立成分分析 LDA线性判别分析 SVD性质
机器学习(8) -- 降维核心思想:将数据沿方差最大方向投影,数据更易于区分简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法. 对于正交属性空间(对2维空间即为直角坐标系)中的样本点 ...
机器学习入门-线性判别分析（LDA）1.LabelEncoder(进行标签的数字映射) 2.LinearDiscriminantAnalysis (sklearn的LDA模块)
1.from sklearn.processing import LabelEncoder 进行标签的代码编译首先需要通过model.fit 进行预编译,然后使用transform进行实际编译 2. ...
吴裕雄--天生自然人工智能机器学习实战代码：线性判断分析LINEARDISCRIMINANTANALYSIS
import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot ...
机器学习笔记簿降维篇 LDA 01
机器学习中包含了两种相对应的学习类型:无监督学习和监督学习.无监督学习指的是让机器只从数据出发,挖掘数据本身的特性,对数据进行处理,PCA就属于无监督学习,因为它只根据数据自身来构造投影矩阵.而监督学 ...
线性判别分析（LDA）, 主成分分析(PCA)及其推导【转】
前言: 如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了. 谈到LDA,就不得不谈谈PCA,PCA ...
机器学习中的数学-线性判别分析（LDA）, 主成分分析(PCA)
转:http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html 版权声明: 本文由L ...
机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA)
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...

随机推荐

浅谈 angular新旧版本问题
一直在学习angularJs,之前用的版本比较老,前些天更新了一下angularJs的版本,然后发现了一些问题,希望和大家分享一下. 在老的版本里控制器直接用函数定义就可以比如: 在angularJ ...
WebService学习--股票走势图+天气预报实现
互联网上面有很多的免费webService服务,我们可以调用这些免费的WebService服务,将一些其他网站的内容信息集成到我们的Web应用中显示,下面就以获取股票数据和天气预报为例进行学习 ...
git 利用分支概念实现一个仓库管理两个项目
需求描述:开发了一个网站,上线之际,突然另一个客户说也想要个一样的网站,但网站的logo和内部展示图片需要替换一下,也就是说大部分的后台业务逻辑代码都是一致的,以后升级时功能也要保持一致:刚开始想反正 ...
web安全—浏览器的进制
浏览器的进制字符的ascii码值可以转化为进制形式.可以用来绕过XSS filter. HTML属性值中的进制使用 .十进制使用a 表示,&#作为前缀,;作为后缀,后缀也可以没有. 如果要使 ...
GBDT与LR融合提升广告点击率预估模型
1GBDT和LR融合 LR模型是线性的,处理能力有限,所以要想处理大规模问题,需要大量人力进行特征工程,组合相似的特征,例如user和Ad维度的特征进行组合. GDBT天然适合做特 ...
jquery实现网页倒计时
在毕设作品考试模块要做个倒计时,当时间到时自动结束答题.于是在jQuery插件社区找到一个简洁明了的倒计时.先上效果图. 感谢作者hacker(这是黑客的意思么),贴上地址:http://www.jq ...
我所知道的AJAX
AJAX为“Asynchronous JavaScript and XML”(异步的JavaScript与XML技术),是一种广泛应用在浏览器的网页开发技术.Ajax是多项技术的综合应用. 1. 不同 ...
一步步学习EF Core(2.事务与日志)
前言上节我们留了一个问题,为什么EF Core中,我们加载班级,数据并不会出来其实答案很简单,~ 因为在EF Core1.1.2 中我们在EF6.0+中用到的的延迟加载功能并没有被加入,不过在EF ...
Oracle 12C 新特性之 PDB热克隆（本地克隆、远端异机克隆）
说明:版本12.2.0.1 12c r1版本中 clone 一份PDB源库需要打开在read only只读模式 , 在12c r2版本中引入了local undo mode, 源PDB在read/wr ...
Vuejs实例-02Vue.js项目集成ElementUI
Vuejs实例-02Vue.js项目集成ElementUI 0:前言 vue.js的UI组件库,在git上有多个项目,我见的使用者比较多的是iView和Element.两个组件库,组件都很丰富. 官网 ...

机器学习：线性判别式分析(LDA)

机器学习：线性判别式分析(LDA)的更多相关文章

随机推荐

热门专题