Hyv"{a}rinen A. Estimation of Non-Normalized Statistical Models by Score Matching. Journal of Machine Learning Research, 2005.

我们常常会建模如下的概率模型:

\[p(\xi;\theta) = \frac{1}{Z(\theta)} q(\xi; \theta).
\]

比如energy-based models.

上述问题一般来说用极大似然不易求解, 因为

\[Z(\theta) = \int_{\xi} q(\xi;\theta) \mathrm{d}\xi,
\]

常常不易估计(特别是高维的情形, 用MCMC是致命的).

所以倘若能够抛开\(Z(\theta)\)就能估计参数就好了, 本文就是提出了这个一个方法(虽然要求二阶导, 倘若用梯度方法求解便是需要三阶偏导了.)

我发现这个人也是噪声对比估计(负样本采样)的作者之一.

主要内容

方法

\[\psi(\xi;\theta) =
\left (
\begin{array}{cc}
\frac{\partial \log p(\xi;\theta)}{\partial \xi_1} \\
\vdots \\
\frac{\partial \log p(\xi;\theta)}{\partial \xi_n} \\
\end{array}
\right )
=\left (
\begin{array}{cc}
\psi_1(\xi;\theta) \\
\vdots \\
\psi_n(\xi;\theta) \\
\end{array}
\right )
=\nabla_{\xi} \log p(\xi;\theta),
\]

并令

\[\psi_x(\xi) = \nabla_{\xi} \log p_x(\xi),
\]

其中\(p_x(\xi)\)表示数据真实的分布.

最小化下列损失能够保证\(p(\xi;\theta)\)逼近\(p_x(\xi)\):

\[J(\theta) = \frac{1}{2} \int_{\xi \in \mathbb{R}^n} p_x(\xi) \| \psi(\xi;\theta) - \psi_{x}(\xi) \|^2 d\xi.
\]

损失函数的转换

显然

\[\psi_x(\xi) = \nabla_{\xi} \log p_x(\xi),
\]

设及真实分布, 不易求解, 但是通过对损失函数的转换, 我们发现其与真实分布并没有大的联系.

\[\nabla_{\xi} \log p_x(\xi) = \frac{\nabla p_x(\xi)}{p_x(\xi)}, \\
\psi(\xi;\theta) = \nabla_{\xi} \log p(\xi;\theta) = \nabla_{\xi} \log q (\xi;\theta).
\]
\[\| \psi(\xi;\theta) - \psi_{x}(\xi) \|^2
=\|\psi(\xi;\theta)\|^2 - 2\psi^T(\xi;\theta) \psi_x(\xi) + \|\psi_x(\xi)\|^2,
\]

第一项与\(p_x\)无关, 最后一项与\(\theta\)无关, 故只需考虑第二项:

\[\psi^T(\xi;\theta)\psi_x(\xi) = \sum_{i=1}^n \psi_{i}\psi_{x,i}
= \sum_{i=1}^n \psi_{i}\frac{1}{p_x(\xi)} \frac{\partial p_x(\xi)}{\partial \xi_i},
\]

\[\begin{array}{ll}
\int p_x(\xi) \psi^T(\xi;\theta)\psi_x(\xi) \mathrm{d}\xi
&=\int \sum_{i=1}^n \psi_{i}\frac{\partial p_x(\xi)}{\partial \xi_i} \mathrm{d}\xi \\
&=\sum_{i=1}^n \int \psi_{i}\frac{\partial p_x(\xi)}{\partial \xi_i} \mathrm{d}\xi \\
&=\sum_{i=1}^n \int \psi_{i}p_x(\xi)|_{\xi_i=-\infty}^{\xi_i=+\infty} \mathrm{d}\xi_{\setminus i} - \int p_x(\xi) \frac{\partial \psi_i}{\partial \xi_i} \mathrm{d}\xi.\\
&=-\sum_{i=1}^n \int p_x(\xi) \frac{\partial \psi_i}{\partial \xi_i} \mathrm{d}\xi.
\end{array}
\]

故:

\[J(\theta) = \sum_{i=1}^n\int_{\xi} p_x(\xi) [\frac{1}{2}(\frac{\partial q(\xi;\theta)}{\partial \xi_i})^2+ \frac{\partial^2 \log q(\xi;\theta)}{\partial^2 \xi_i}] \mathrm{d}\xi + \text{ const }.
\]

故我们可以用如下损失近似:

\[\hat{J}(\theta) = \frac{1}{2}\sum_{t=1}^T \sum_{i=1}^n [\partial_i \psi_i(x(t); \theta) + \frac{1}{2} \psi_i(\xi;\theta)^2].
\]

注: 上述证明需要用到如下条件:

  1. \(p_x(\xi), \psi(\xi;\theta)\)可微;
  2. \(p_x(\xi) \psi(\xi;\theta) \rightarrow 0, \text{ if } \|\xi\| \rightarrow +\infty\).

一个例子

考虑多为正态分布:

\[p(x;\mu, M) = \frac{1}{Z(\mu, M)} \exp (-\frac{1}{2}(x-\mu)^2 M(x-\mu)),
\]

此时\(\hat{J}\)存在显示解, 且恰为:

\[\mu^* = \frac{1}{T}\sum_{t=1}^T x(t), \\
M^* = [\frac{1}{T}\sum_{t=1}^T (x(t) - \mu^*) (x(t) - \mu^*)^T]^{-1},
\]

为极大似然估计的解.

Estimation of Non-Normalized Statistical Models by Score Matching的更多相关文章

  1. Statistical Models and Social Science

    1.1 Statistical Models and Social Reality KEY: complex society v.s statistical models relationship,d ...

  2. 2.6. Statistical Models, Supervised Learning and Function Approximation

    Statical model regression $y_i=f_{\theta}(x_i)+\epsilon_i,E(\epsilon)=0$ 1.$\epsilon\sim N(0,\sigma^ ...

  3. My deep learning reading list

    My deep learning reading list 主要是顺着Bengio的PAMI review的文章找出来的.包括几本综述文章,将近100篇论文,各位山头们的Presentation.全部 ...

  4. Deep Learning关于Vision的Reading List

    最近开始学习深度学习了,加油! 下文转载自:http://blog.sina.com.cn/s/blog_bda0d2f10101fpp4.html 主要是顺着Bengio的PAMI review的文 ...

  5. NCE损失(Noise-Constrastive Estimation Loss)

    1.算法概述 假设X是从真实的数据(或语料库)中抽取的样本,其服从一个相对可参考的概率密度函数P(d),噪音样本Y服从概率密度函数为P(n),噪音对比估计(NCE)就是通过学习一个分类器把这两类样本区 ...

  6. Tensorflow.nn 核心模块详解

    看过前面的例子,会发现实现深度神经网络需要使用 tensorflow.nn 这个核心模块.我们通过源码来一探究竟. # Copyright 2015 Google Inc. All Rights Re ...

  7. Data - Tools

    数据工具汇总 史上最全的大数据分析和制作工具 全球100款大数据工具汇总 SQL 数据分析常用语句 01 - NumPy HomePage:http://www.numpy.org/ NumPy(数值 ...

  8. 使用movielens数据集动手实现youtube推荐候选集生成

    综述 之前在博客中总结过nce损失和YouTuBe DNN推荐;但大多都还是停留在理论层面,没有实践经验.所以笔者想借由此文继续深入探索YouTuBe DNN推荐,另外也进一步总结TensorFlow ...

  9. Noise Contrastive Estimation

    Notes from Notes on Noise Contrastive Estimation and Negative Sampling one sample: \[x_i \to [y_i^0, ...

随机推荐

  1. 【Reverse】每日必逆0x03

    BUU-刮开有奖 附件:https://files.buuoj.cn/files/abe6e2152471e1e1cbd9e5c0cae95d29/8f80610b-8701-4c7f-ad60-63 ...

  2. Can a C++ class have an object of self type?

    A class declaration can contain static object of self type,it can also have pointer to self type,but ...

  3. SpringBoot 整合 spring security oauth2 jwt完整示例 附源码

    废话不说直接进入主题(假设您已对spring security.oauth2.jwt技术的了解,不懂的自行搜索了解) 依赖版本 springboot 2.1.5.RELEASE spring-secu ...

  4. JS 的三种定义变量 var let const

    Let 只在 let 命令所在的代码块内有效,在外就会报错 Let 是块级作用域,函数内部使用let定义后,对函数外部无影响 Let/const 不存在变量提升,使用前一定要声明后,在使用,否则会报错 ...

  5. 【C/C++】例题3-5 生成元/算法竞赛入门经典/数组与字符串

    [题目] x+x的各位数之和为y,x为y的生成元. 求10万以内的n的最小生成元,无解输出0. [解答] 这是我根据自己的想法最初写的代码: #include<cstdio> #inclu ...

  6. Springboot 入门及Demo

    一:SpringBoot入门1.1:SpringBoot简介Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程.该框架使用了特定的 ...

  7. 分布式可扩展web体系结构设计实例分析

    Web分布式系统设计准则 下面以一个上传和查询图片的例子来说明分布式web结构的设计考虑和常用的提高性能的方法.该例子提供上传图片和下载图片两个简单功能,并且有一下假设条件?: - 可以存储无上限数量 ...

  8. 扬我国威,来自清华的开源项目火爆Github

    前几天TJ君跟大家分享了几个有趣的Github项目(加密解密.食谱.新冠序列,各种有趣的开源项目Github上都有),其中呢,有不少是来自斯坦福大学的项目,当时TJ君就不由得想,什么时候能看到的项目都 ...

  9. CF134A Average Numbers 题解

    Content 有 \(n\) 个数 \(a_1,a_2,a_3,...,a_n\).试求出使得 \(a_i\) 与其他所有整数的算术平均值相等的所有 \(i\). 数据范围:\(2\leqslant ...

  10. reducer在react使用

    ​ 编写store.js 小state reducer 怎么来 纯函数 state+action 生成新的state actions type return{ } state action === s ...