稀疏编码概率解释（基于1996年Olshausen与Field的理论）

一、Sparse Coding稀疏编码

稀疏编码算法是一种无监督学习方法，它用来寻找一组“超完备”基向量来更高效地表示样本数据。稀疏编码算法的目的就是找到一组基向量，使得我们能将输入向量表示为这些基向量的线性组合：

也就是

虽然形如主成分分析技术（PCA）能使我们方便地找到一组“完备”基向量，但是这里我们想要做的是找到一组 “超完备” 基向量来表示输入向量（也就是说，k > n）。超完备基的好处是它们能更有效地找出隐含在输入数据内部的结构与模式。然而，对于超完备基来说，系数 a_i 不再由输入向量唯一确定。因此，在稀疏编码算法中，我们另加了一个评判标准“稀疏性”来解决因超完备而导致的退化（degeneracy）问题。

这里，我们把“稀疏性”定义为：只有很少的几个非零元素或只有很少的几个远大于零的元素。要求系数 a_i 是稀疏的意思就是说：对于一组输入向量，我们只想有尽可能少的几个系数远大于零。选择使用具有稀疏性的分量来表示我们的输入数据是有原因的，因为绝大多数的感官数据，比如自然图像，可以被表示成少量基本元素的叠加，在图像中这些基本元素可以是面或者线。同时，比如与初级视觉皮层的类比过程也因此得到了提升。

我们把有 m 个输入向量的稀疏编码代价函数定义为：

此处 S(.) 是一个稀疏代价函数，由它来对远大于零的 a_i 进行“惩罚”。我们可以把稀疏编码目标函式的第一项解释为一个重构项，这一项迫使稀疏编码算法能为输入向量提供一个高拟合度的线性表达式，而公式第二项即“稀疏惩罚”项，它使的表达式变得“稀疏”。常量 λ 是一个变换量，由它来控制这两项式子的相对重要性。

虽然“稀疏性”的最直接测度标准是 "L₀" 范式，但这是不可微的，而且通常很难进行优化。在实际中，稀疏代价函数 S(.) 的普遍选择是L₁ 范式代价函数（具体为什么用详见我之前的博文稀疏编码学习笔记）

此外，很有可能因为减小 a_i 或增加至很大的常量，使得稀疏惩罚变得非常小。为防止此类事件发生，我们将限制要小于某常量 C 。包含了限制条件的稀疏编码代价函数的完整形式如下：

二、Olshausen与Field的理论例子

比如在图像的Feature Extraction的最底层要做Edge Detector的生成，那么这里的工作就是从Natural Images中randomly选取一些小patch，通过这些patch生成能够描述他们的”基“，也就是右边的8*8=64个basis组成的basis（具体选取基的方法可以参考http://blog.csdn.net/abcjennifer/article/details/7721834），然后给定一个test patch, 我们可以按照上面的式子通过basis的线性组合得到，而sparse matrix就是a，下图中的a中有64个维度，其中非零项只有3个，故称”sparse“。

这里可能大家会有疑问，为什么把底层作为Edge Detector呢？上层又是什么呢？这里做个简单解释大家就会明白，之所以是Edge Detector是因为不同方向的Edge就能够描述出整幅图像，所以不同方向的Edge自然就是图像的basis了……

而上一层的basis组合的结果，上上层又是上一层的组合basis……（具体请往下看）

如下图所示：

其他的例子同理：注意看下面的文字（第二条）

那究竟自然图像的基是如何选取呢？稀疏编码的代价函数又从何而来，基本的理论上是这么分析的

为了寻找到一个稀疏的、超完备基向量集，来覆盖我们的输入数据空间。现在换一种方式，我们可以从概率的角度出发，将稀疏编码算法当作一种“生成模型”。

我们将自然图像建模问题看成是一种线性叠加，叠加元素包括 k 个独立的源特征以及加性噪声 ν ：

我们的目标是找到一组特征基向量，它使得图像的分布函数尽可能地近似于输入数据的经验分布函数。一种实现方式是，最小化与之间的 KL 散度，此 KL 散度表示如下：

因为无论我们如何选择，经验分布函数都是常量，也就是说我们只需要最大化对数似然函数。假设 ν 是具有方差 σ² 的高斯白噪音，则有下式：

为了确定分布，我们需要指定先验分布。假定我们的特征变量是独立的，我们就可以将先验概率分解为：

此时，我们将“稀疏”假设加入进来——假设任何一幅图像都是由相对较少的一些源特征组合起来的。因此，我们希望 a_i 的概率分布在零值附近是凸起的，而且峰值很高。一个方便的参数化先验分布就是：

这里 S(a_i) 是决定先验分布的形状的函数。

当定义了和后，我们就可以写出在由定义的模型之下的数据的概率分布：

那么，我们的问题就简化为寻找：

这里 < . > 表示的是输入数据的期望值。

不幸的是，通过对的积分计算通常是难以实现的。虽然如此，我们注意到如果的分布（对于相应的）足够陡峭的话，我们就可以用的最大值来估算以上积分。估算方法如下：

跟之前一样，我们可以通过减小 a_i 或增大来增加概率的估算值（因为 P(a_i) 在零值附近陡升）。因此我们要对特征向量加一个限制以防止这种情况发生。

最后，我们可以定义一种线性生成模型的能量函数，从而将原先的代价函数重新表述为：

其中 λ = 2σ²β ，并且关系不大的常量已被隐藏起来。因为最大化对数似然函数等同于最小化能量函数，我们就可以将原先的优化问题重新表述为：

使用概率理论来分析，我们可以发现，选择 L₁ 惩罚和惩罚作为函数 S(.) ，分别对应于使用了拉普拉斯概率和柯西先验概率。

至此，对于概率的解释完毕

三、学习算法

使用稀疏编码算法学习基向量集的方法，是由两个独立的优化过程组合起来的。第一个是逐个使用训练样本来优化系数 a_i ，第二个是一次性处理多个样本对基向量进行优化。

如果使用 L₁ 范式作为稀疏惩罚函数，对的学习过程就简化为求解由 L₁ 范式正则化的最小二乘法问题，这个问题函数在域内为凸，已经有很多技术方法来解决这个问题（诸如CVX之类的凸优化软件可以用来解决L1正则化的最小二乘法问题）。如果 S(.) 是可微的，比如是对数惩罚函数，则可以采用基于梯度算法的方法，如共轭梯度法。

用 L₂ 范式约束来学习基向量，同样可以简化为一个带有二次约束的最小二乘问题，其问题函数在域内也为凸。标准的凸优化软件（如CVX）或其它迭代方法就可以用来求解，虽然已经有了更有效的方法，比如求解拉格朗日对偶函数（Lagrange dual）。

·······未完待续

参考资料 http://deeplearning.stanford.edu/wiki/index.php/%E7%A8%80%E7%96%8F%E7%BC%96%E7%A0%81

http://blog.csdn.net/abcjennifer/article/details/7804962

稀疏编码概率解释（基于1996年Olshausen与Field的理论）的更多相关文章

Sparsity稀疏编码（一）
稀疏编码来源于神经科学,计算机科学和机器学习领域一般一开始就从稀疏编码算法讲起,上来就是找基向量(超完备基),但是我觉得其源头也比较有意思,知道根基的情况下,拓展其应用也比较有底气.哲学.神经科学.计 ...
稀疏编码(Sparse Coding)的前世今生(一) 转自http://blog.csdn.net/marvin521/article/details/8980853
稀疏编码来源于神经科学,计算机科学和机器学习领域一般一开始就从稀疏编码算法讲起,上来就是找基向量(超完备基),但是我觉得其源头也比较有意思,知道根基的情况下,拓展其应用也比较有底气.哲学.神经科学.计 ...
转载 deep learning：八（SparseCoding稀疏编码）
转载 http://blog.sina.com.cn/s/blog_4a1853330102v0mr.html Sparse coding: 本节将简单介绍下sparse coding(稀疏编码),因 ...
Sparsity稀疏编码（二）
为了更进一步的清晰理解大脑皮层对信号编码的工作机制(策略),需要把他们转成数学语言,因为数学语言作为一种严谨的语言,可以利用它推导出期望和要寻找的程式.本节就使用概率推理(bayes v ...
稀疏编码直方图----一种超越HOG的轮廓特征
该论文是一篇来自CMU 的CVPR2013文章,提出了一种基于稀疏编码的轮廓特征,简称HSC(Histogram of Sparse Code),并在目标检测中全面超越了HOG(Histogram o ...
稀疏编码(Sparse Coding)的前世今生(二)
为了更进一步的清晰理解大脑皮层对信号编码的工作机制(策略),须要把他们转成数学语言,由于数学语言作为一种严谨的语言,能够利用它推导出期望和要寻找的程式.本节就使用概率推理(bayes views)的方 ...
Sparsity稀疏编码（三）
稀疏编码(sparse coding)和低秩矩阵(low rank)的区别上两个小结介绍了稀疏编码的生命科学解释,也给出一些稀疏编码模型的原型(比如LASSO),稀疏编码之前的探讨文章 ...
UFLDL深度学习笔记（七）拓扑稀疏编码与矩阵化
UFLDL深度学习笔记 (七)拓扑稀疏编码与矩阵化主要思路前面几篇所讲的都是围绕神经网络展开的,一个标志就是激活函数非线性:在前人的研究中,也存在线性激活函数的稀疏编码,该方法试图直接学习数据的特 ...
基于字典SR各种方法【稀疏编码多种方法】
基于字典的图像超分辨率实现 - CSDN博客 http://blog.csdn.net/u011630458/article/details/65635155 简介这段时间在看基于字典的单帧图像超分 ...

随机推荐

在spring+beranate中多数据源中使用 ThreadLocal ，总结的原理 --费元星
设计模式首先,ThreadLocal 不是用来解决共享对象的多线程访问问题的,一般情况下,通过ThreadLocal.set() 到线程中的对象是该线程自己使用的对象,其他线程是不需要访问的,也访问 ...
springmvc常用jar包
<dependency> <groupId>org.springframework</groupId> <artifactId>spring-beans ...
YAGNI 声明
1.YAGNI介绍 YAGNI 全名是 You aren't Going to Need It,在你设计草案的初稿中,应该努力使用最简单可以工作的事物,直至程序的某个方面要求你添加额外的特性. 2.思 ...
Cassandra 数据库设计
Cassandra 2.* CQL3.1 最近更新:2015-10-30 索引的设计在Cassandra中经常会发现,索引不够用,不好用,各种不强大. 比如,我关注的人的需求uid + follow ...
mysql数据库，编码错误解决
在写代码的过程中,经常会遇见,将中文字符输入到mysql数据库中,但是查看的时候,却发现,中文显示为乱码的情况,让人相当的头疼,今天正好解决了一个这样遇到的问题,所以简单总结一下: 1.首先查看数据库 ...
第一章 MATLAB环境
1.P5输入who 告诉MATLAB显示到目前为止所有变量名称. 2.P5输入whos 会得到更多的信息,告诉我们当前内存中的变量.类型,每个变量的所分配的内存空间,以及它们是否是负数(complex ...
VS2010历史记录清理
把如下粘贴到文本文件里,另存为批处理文件.(后缀为 *.bat)双击执行就可 @echo off cd \ @echo on @REG Delete HKEY_CURRENT_USER\Softwar ...
PHP+AJAX 实现表格实时编辑
https://blog.csdn.net/qq_29627497/article/details/81365107 源码链接:https://pan.baidu.com/s/1fAinVXU-nWt ...
附录A培训实习生-面向对象基础方法重载(3)
就上一篇代码而言,你如果写Cat cat = new Cat();会直接报错错误 : 1 “Cat”方法没有采用“0”个参数的重载 E:\大话设计模式学习\BigDesignPattern ...
sessionStorage的用法总结
sessionStorage用于本地存储一个会话(session)中的数据,这些数据只有在同一个会话中的页面才能访问并且当会话结束后数据也随之销毁.因此sessionStorage不是一种持久化的本地 ...

稀疏编码概率解释（基于1996年Olshausen与Field的理论 ）

稀疏编码概率解释（基于1996年Olshausen与Field的理论 ）的更多相关文章

随机推荐

热门专题

稀疏编码概率解释（基于1996年Olshausen与Field的理论）

稀疏编码概率解释（基于1996年Olshausen与Field的理论）的更多相关文章