作者:桂。

时间:2017-04-06  12:29:26

链接:http://www.cnblogs.com/xingshansi/p/6672908.html

声明:欢迎被转载,不过记得注明出处哦~


前言

之前在梳理最小二乘的时候,矩阵方程有一类可以利用非负矩阵分解(Non-negative matrix factorization, NMF)的方法求解,经常见到别人提起这个算法,打算对此梳理一下。优化问题求解,最基本的是问题描述与准则函数的定义,紧接着才涉及准则函数的求解问题,本文为NMF系列第一篇,主要梳理:

  1)矩阵方程基本问题;

  2)准则函数定义;

内容为自己的学习总结,其中多有借鉴他人的地方,最后一并给出链接。

一、矩阵方程基本问题

本段描述NMF对应的基本问题。

许多问题都可以建模成矩阵方程:

${\bf{AS}} = {\bf{X}}$

其中根据向量和矩阵的不同,矩阵方程的求解主要分为以下三类问题:

1)超定矩阵方程;m>n,$\bf{X}$和$\bf{A}$均已知,其中之一或二者可能存在观测误差、干扰;

2)盲矩阵方程:仅向量$\bf{X}$已知,矩阵$\bf{A}$未知;

3)欠定稀疏矩阵方程:m<n,$\bf{X}$和$\bf{A}$均已知.

每一类问题,都有对应的方法:如对于盲矩阵方程,由于只有观测向量$\bf{X}$,因此引入误差的时候只能假设观测向量存在误差,而不会像最小二乘那样分为普通最小二乘、数据最小二乘、总体最小二乘。给出矩阵方程及对应求解的示意图:

其实${\bf{AS}} = {\bf{X}}$仅仅是一个线性表达,求解本身没有非负的限制。但对于现实中很多应用:比如一张图片,可以认为它由鼻子、眼睛、眉毛...等等拼成,每一个成分对应一些像素值,而这些理论上都应该是非负的,因此在一些矩阵求解问题中,我们希望加入非负的限制。本系列文章主要针对其中的:盲矩阵方程求解——非负矩阵分解算法

二、准则函数定义

这里只分析最常用的两类准则函数,对于广义AB-散度不作讨论。假设非负矩阵${\bf{X}}$可以分解成:

${\bf{AS}} = {\bf{X}}$

由于观测数据${\bf{X}}$难免带来误差,因此有:

${\bf{X}} = {\bf{AS}}  + \bf{N}$

针对误差最小化,引入准则函数:

下面分析准则函数$D\left( {{\bf{X}}|{\bf{AS}}} \right)$.

  A-平方欧几里得(Euclidean)距离

当假设误差服从正态分布时,此时的最大似然估计与最小二乘等价,此时对应的准则函数为平方Euclidean距离,有时为了求导方便常添加比例系数1/2:

  B-Kullback-Leibler(KL)散度

1-KL定义

首先给出KL散度定义:

KL散度与Euclidean距离不同,是非对称的。

2-KL的含义

KL不像Euclidean那么直观,这就有了一个疑问?这么古怪的家伙是从哪冒出来的?

下面一点点理解。

从图中很容易求解$(x_0,y_0)$处的切线方程,其实$x$如果接近$x_0$,这就是一阶Taylor近似,写成更一般的形式:

一阶Taylor逼近的误差则定义为:

推广开来这就是Bregman距离

令$\phi $:为定义在闭合凸集的一连续可微分凸函数。与函数$\phi $对应的两个向量:之间的Bregman距离记作:,定义为:

如果$\phi $取凸函数:

其实如果$x_i$看作是概率密度,这个就是熵的表达式啊,也就是这里函数调用熵的形式。此时,Bregman距离对应的就是Kullback-Leibler散度,也叫信息散度、信息增益、相对熵、I散度。

从而可以得到:

对号入座,同样可以得出准则函数:

这样一来,KL散度的实际意义就比较明显了它表达了不同信息熵一阶Taylor的近似,如果细究,二阶、三阶....Taylor近似同样可以得出

3-KL对应分布

Euclidean距离对应:误差服从正态分布,KL散度是不是也该对应某种分布?答案是当然——泊松分布。泊松分布前面有文章分析过。泊松分布就常见的计数过程,描述的是一段时间事件发生的次数,与它关联较大的一个是二项分布,一个是指数分布。不过这里分析完之后,是不是该多出一个疑问:泊松分布与信息熵有何关系?下面说说泊松分布为什么可以对应KL散度。

给出泊松分布的定义:

从而对于两个分布:

概率相比并取对数:

已经有点KL散度的味道了,因为$x$是随机数,所以需要进行基于统计意义的均值计算:

KL散度就这么推导出来了。

参考:

张贤达《矩阵分析与应用》

非负矩阵分解(1):准则函数及KL散度的更多相关文章

  1. 非负矩阵分解(4):NMF算法和聚类算法的联系与区别

    作者:桂. 时间:2017-04-14   06:22:26 链接:http://www.cnblogs.com/xingshansi/p/6685811.html 声明:欢迎被转载,不过记得注明出处 ...

  2. KL散度相关理解以及视频推荐

    以下内容基于对[中字]信息熵,交叉熵,KL散度介绍||机器学习的信息论基础这个视频的理解,请务必先看几遍这个视频. 假设一个事件可能有多种结果,每一种结果都有其发生的概率,概率总和为1,也即一个数据分 ...

  3. 非负矩阵分解NMF

    http://blog.csdn.net/pipisorry/article/details/52098864 非负矩阵分解(NMF,Non-negative matrix factorization ...

  4. PRML读书会第十章 Approximate Inference(近似推断,变分推断,KL散度,平均场, Mean Field )

    主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:02:04 我们在前面看到,概率推断的核心任务就是计算某分布下的某个函数的期望.或者计算边缘概率分布.条件 ...

  5. 推荐算法——非负矩阵分解(NMF)

    一.矩阵分解回想 在博文推荐算法--基于矩阵分解的推荐算法中,提到了将用户-商品矩阵进行分解.从而实现对未打分项进行打分. 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积.对于上述的用户-商品矩阵 ...

  6. 非负矩阵分解(NMF)原理及算法实现

    一.矩阵分解回想 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积.对于上述的用户-商品(评分矩阵),记为能够将其分解为两个或者多个矩阵的乘积,如果分解成两个矩阵和 .我们要使得矩阵和 的乘积能够还 ...

  7. paper 23 :Kullback–Leibler divergence KL散度(2)

    Kullback–Leibler divergence KL散度 In probability theory and information theory, the Kullback–Leibler ...

  8. 深度学习中交叉熵和KL散度和最大似然估计之间的关系

    机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的. 熵和交叉熵 提到交叉熵就需要了解下信息论 ...

  9. KL散度(Kullback–Leibler divergence)

    KL散度是度量两个分布之间差异的函数.在各种变分方法中,都有它的身影. 转自:https://zhuanlan.zhihu.com/p/22464760 一维高斯分布的KL散度 多维高斯分布的KL散度 ...

随机推荐

  1. 【openstack N版】——走进云计算

    一.云计算 云计算是一种按使用量付费的模式,这种模式提供可用的.便捷的.按需的网络访问,进入可配置的计算资源共享池(资源包括:网络.服务器.存储.应用软件.服务),这些资源能够被快速提供,只需投入很少 ...

  2. 读书笔记 effective c++ Item 24 如果函数的所有参数都需要类型转换,将其声明成非成员函数

    1. 将需要隐式类型转换的函数声明为成员函数会出现问题 使类支持隐式转换是一个坏的想法.当然也有例外的情况,最常见的一个例子就是数值类型.举个例子,如果你设计一个表示有理数的类,允许从整型到有理数的隐 ...

  3. IOS设备对position的支持性

    最近在开发一个网页. 要嵌套在微信里 大家都知道 IOS版微信和安卓版微信还是一定的差距 IOS版微信在打开网页的时候回调取自己的浏览器以及内核 但是安卓版微信不会,他会默认使用自己的QQ浏览器和X5 ...

  4. Spring_构造注入

    依赖注入的第二种注入方式:构造器注入 创建带参数的构造方法,参数类型为注入类的类型 项目要先添加spring支持: package com; public class Computer { priva ...

  5. ERP实施规范化及示例——邮件沟通

    上门服务前 上门服务计划,要详细,提前发给客户,反复确定双方的行程 上门服务所需的常规文档(培训SOP,培训记录) 项目组内反复确认本次上门要完成的事项 …… 上门服务中 先跟老板沟通项目进展,本次上 ...

  6. 基于Asp.Net Core Mvc和EntityFramework Core 的实战入门教程系列-1

    来个目录吧: 第一章 第二章 第三章 暂时就这么多.后面路线更新吧 本系列文章为翻译加上我个人的使用心得理解,希望帮助热爱学习的程序员. 珍重声明:本系列文章会跟原文有点出入,去掉了罗里吧嗦的文字. ...

  7. Android -- 自定义ScrollView实现放大回弹效果

    1,刚刚在别人开源的项目中看到了一个挺不错的用户体验,效果图如下: 2,那下面我们就来实现一下,首先看一下布局,由于一般只是我们包含头像的那部分方法,所以这里我们要把布局分成两部分,对应的布局文件效果 ...

  8. 我的第一个webapiDemo

    最近在面试,总是被问到有没有接触过webapi 或者问webapi和MVC 的区别,今天看了看,原来如此,自己理解感觉webapi和webservice一样像是实现soa 的一种形式,也可以理解为服务 ...

  9. UNIX 网络编程知识,函数积累

    1: fprintf()#include <stdio.h> int fprintf( FILE *stream, const char *format, ... );fprintf()函 ...

  10. PHP后台程序员工作到如今的一点心得

    一个项目的建立,一开始一定要有需求文档,没有需求文档的项目注定会改来改去.还被骂的很惨.要时刻牢记一句话:口说无凭,有文档为证. 第一:开发语言的选择,PHP,当然还有JAVA,.NET你做的项目当然 ...