高斯判别分析（附Matlab实现）

生成学习算法

高斯判别分析（Gaussian Discriminant analysis，GDA），与之前的线性回归和Logistic回归从方法上讲有很大的不同，GDA是一种生成学习算法（Generative Learning Algorithms），而之前的属于判别学习算法（Discriminative Learning Algorithms）。

它们的主要区别是：

判别学习算法是直接训练出p（y|x）；

生成学习算法是分别训练出各个类别的概率模型，之后再用Bayes公式算法出p（y|x）；

通俗的说，判别模型是通过训练样本训练出一个模型，再用测试点x带入这个模型，最后算出x的可能类别；而生成学习模型是通过训练样本训练出各个类别的多个模型，再将预测点x分别代入不同类别的模型中，进而判断x到底属于哪个类别（一般就看代入后那个模型的概率大就认为x是哪一类，当然也有例外）。

高斯判别分析

GDA就是一种生成学习算法，通过生成不同类别的模型，再进一步估计出预测样本的具体类别，为了简化问题，这里只讲二分类情况下的问题。

前提：

条件概率p（x|y）服从多维正态分布，且输入特征x是连续且随机的。

其分布函数为：

其中p(y)为类别i的先验概率，φ为y=1的先验概率值，μ0和μ1分别为y=0和y=1的期望，Σ为样本的协方差，由此可以看出y是服从Bernoulli（φ）的分布，x|y=0和x|y=1分别服从N（μ0，Σ）和N（μ1，Σ）。

Ps:这里y=0和y=1时用的是同一个协方差，至于为什么？我感觉很难说清

其似然函数如下

为了使似然函数达到最大，可得和参数的估计值为

有了这些估计值我们就能生成属于各个类别的模型了。

In Matlab

这代码其实很简单，分别算出各参数的值，再带入matlab预有的生成函数就行

代码如下：

clear all; close all; clc

% data 

x = [0.230000 0.394000;

0.238000 0.524000;

0.422000 0.494000;

0.364000 0.556000;

0.320000 0.448000;

0.532000 0.606000;

0.358000 0.660000;

0.144000 0.442000;

0.124000 0.674000;

0.520000 0.692000;

0.410000 0.086000;

0.344000 0.154000;

0.490000 0.228000;

0.622000 0.366000;

0.390000 0.270000;

0.514000 0.142000;

0.616000 0.180000;

0.576000 0.082000;

0.628000 0.286000;

0.780000 0.282000];

x1 = x(:,1);

x2 = x(:,2);

y = [0;

    0;

    0;

    0;

    0;

    0;

    0;

    0;

    0;

    0;

    1;

    1;

    1;

    1;

    1;

    1;

    1;

    1;

    1;

    1];

[m, n] = size(x);

% plot the datas

figure

pos = find(y); neg = find(y == 0);      %find是找到的一个向量，其结果是find函数括号值为真时的值的编号

plot(x(pos, 1), x(pos, 2), '+')

hold on

plot(x(neg, 1), x(neg, 2), 'o')

hold on

xlabel('axis X')

ylabel('axis Y')

m_ones = ones(m,1);  % 20 * 1的矩阵，元素全为1

sum0 = (1-y)' * m_ones; % 标记为0的样本个数

sum1 = y' * m_ones;     % 标记为1的样本个数

mu0 = [(1-y)'*x1/sum0 (1-y)'*x2/sum0];  % 标记为0的期望

mu1 = [y'*x1/sum1  y'*x2/sum1];         % 标记为1的期望

sigma = cov(x1,x2);     % 协方差

[x y]=meshgrid(linspace(0,1,50)',linspace(0,1,50)');

X=[x(:) y(:)];

z1=mvnpdf(X,mu0,sigma);

contour(x,y,reshape(z1,50,50),4);

hold on;

[x y]=meshgrid(linspace(0,1,50)',linspace(0,1,50)');

X=[x(:) y(:)];

z2=mvnpdf(X,mu1,sigma);

contour(x,y,reshape(z2,50,50),4);

hold off

效果图如下：

标准的结果应该是这样的：

感觉好像一样，又感觉好像不一样，也不知道我这到底错没错，也许是训练集没有服从高斯分布吧，等有空再找个服从高斯分布的样本集试试。

拓展

当将p（y=1|x；φ，μ0，μ1，Σ）看成是一个x的函数时，可以发现p（y=1|x）将会近似成一个Logistic函数。如下图（画的难看，见谅）

分布函数可以写成

其中θ是φ，μ0，μ1，Σ的函数。其实这个函数也就是这个问题的判别学习算法形式了。

那问题自然就来了，到底选哪一个会更好呢？

当然通常的回答肯定不会出现绝对哪一个会更好，要不差的那个根本就没有存在的价值了嘛，依然是具体问题具体分析，我相信机器学习中的很多问题都是这样的，看你对数据的理解程度了。

这里有几个tips可以帮助我们做判断，至于要讲出个之所以然来，我想，任重而道远啊。

1、当x|y服从多维高斯分布时，则其后验概率y|x服从Logistic回归；但反过来并不成立。

2、当已知x|y服从高斯分布，则GDA是一个好的选择，若不服从高斯分布，却使用了GDA，其表达效果往往没有Logistic回归好。----GDA是一个更强条件的分类算法

3、若x|y=0和x|y=1都服从Poisson分布（指数分布族），则y|x也遵守Logistic回归

Gaussian discriminant analysis 高斯判别分析的更多相关文章

机器学习理论基础学习3.4--- Linear classification 线性分类之Gaussian Discriminant Analysis高斯判别模型
一.什么是高斯判别模型? 二.怎么求解参数?
高斯判别分析 Gaussian Discriminant Analysis
如果在我们的分类问题中,输入特征xx是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了. 以二分类问题为例进行说明,模型建立如下: ...
生成式学习算法（三）之----高斯判别分析模型（Gaussian Discriminant Analysis ，GDA）
高斯判别分析模型(Gaussian Discriminant Analysis ,GDA) 当我们分类问题的输入特征$x $为连续值随机变量时,可以用高斯判别分析模型(Gaussian Discrim ...
高斯判别分析模型（ Gaussian discriminant analysis）及Python实现
高斯判别分析模型( Gaussian discriminant analysis)及Python实现 http://www.cnblogs.com/sumai 1.模型高斯判别分析模型是一种生成模型 ...
Gaussian Discriminant Analysis
如果在我们的分类问题中,输入特征$x$是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了. 以二分类问题为例进行说明,模型建立如下: ...
机器学习： Linear Discriminant Analysis 线性判别分析
Linear discriminant analysis (LDA) 线性判别分析也是机器学习中常用的一种降维算法,与 PCA 相比, LDA 是属于supervised 的一种降维算法.PCA考虑的 ...
【cs229-Lecture5】生成学习算法：1）高斯判别分析（GDA）;2）朴素贝叶斯（NB）
参考: cs229讲义机器学习(一):生成学习算法Generative Learning algorithms:http://www.cnblogs.com/zjgtan/archive/2013/ ...
线性判别分析(Linear Discriminant Analysis, LDA）算法分析
原文来自:http://blog.csdn.net/xiazhaoqiang/article/details/6585537 LDA算法入门一． LDA算法概述: 线性判别式分析(Lin ...
线性判别分析（Linear Discriminant Analysis，LDA）
一.LDA的基本思想线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD) ...

随机推荐

SpringBoot+MyBatis多数据源使用分页插件PageHelper
之前只用过单数据源下的分页插件,而且几乎不用配置.一个静态方法就能搞定. PageHelper.startPage(pageNum, pageSize); 后来使用了多数据源(不同的数据库),Page ...
【POJ1456】Supermarket（贪心）
BUPT2017 wintertraining(16) #4 F POJ - 1456 题意每个商品有过期日期和价格,每天可以卖一个商品,必须在过期前出售才能收益,求最大收益. 题解贪心,按价格排 ...
git命令行界面
学习目标:掌握git命令行界面的操作.掌握最基本的clone add commit push pull操作. 先下载客户端:http://github-windows.s3.amazonaws.com ...
[luogu1131][bzoj1060][ZJOI2007]时态同步【树形DP】
传送门:https://www.luogu.org/problemnew/show/P1131 题目大意给你一棵树,每条边有边权,要求增加一些边的边权,使得根节点到每个叶子节点的距离相等,求出最少共 ...
小trick总结
一个圆上的整点数量不会很多.(Cf AIM TR 5 F) 二分图完美匹配求字典序最小的方案:先一遍匈牙利求出任意一组完美匹配.再跑一遍逐位确定,要求不能修改编号比它小的匹配.(LG 4100) 如果 ...
使用ntlmrelayx在任何地方进行中继凭据
0x00 前言通过Fox-IT我们可以让客户了解其企业组织中出现的常见安全风险.当攻击者可以利用NT LAN Manager身份验证协议(以下简称:NTLM身份验证)时,凭据重用就有这样的风险,即这 ...
Luogu 2668 NOIP 2015 斗地主（搜索，动态规划）
Luogu 2668 NOIP 2015 斗地主(搜索,动态规划) Description 牛牛最近迷上了一种叫斗地主的扑克游戏.斗地主是一种使用黑桃.红心.梅花.方片的A到K加上大小王的共54张牌来 ...
【POJ1187】陨石的秘密
题目大意: 定义一个串:只含有 '( )','[ ]','{ }',3种(6个)字符. 定义 SS 串: 空串是SS表达式. 若A是SS表达式,且A串中不含有中括号和大括号,则(A)是SS表达式. 若 ...
（转）如何优雅的在 Microsoft word中插入代码
背景:最近项目需要自己编写文档,在文档中需要插入部分代码,记录下这个方法. 一.工具方法1.打开这个网页PlanetB; 方法2.或者谷歌搜索syntax highlight code in wor ...
Linux：打印（输出）所有的列（awk, $0）
如果想输出所有的列的话,只需要$0这个函数,例如以下命令: awk '/rs16945916/ {print $0}' test.txt > allcol.txt rs16945916指的是打印 ...

Gaussian discriminant analysis 高斯判别分析

高斯判别分析（附Matlab实现）

Gaussian discriminant analysis 高斯判别分析的更多相关文章

随机推荐

热门专题