基于图嵌入的高斯混合变分自编码器的深度聚类

Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding, DGG

作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

1. 引言

这篇博文主要是对论文“Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding”的整理总结，这篇文章将图嵌入与概率深度高斯混合模型相结合，使网络学习到符合全局模型和局部结构约束的强大特征表示。将样本作为图上的节点，并最小化它们的后验分布之间的加权距离，在这里使用Jenson-Shannon散度作为距离度量。

阅读这篇博文的前提条件是：了解高斯混合模型用于聚类的算法，了解变分推断与变分自编码器，进一步了解变分深度嵌入(VaDE)模型。在知道高斯混合模型(GMM)与变分自编码器(VAE)之后，VaDE实际上是将这两者结合起来的一个产物。与VAE相比，VaDE在公式推导中多了一个变量c。与GMM相比，变量c就相当于是GMM中的隐变量z，而隐层得到的特征z相当于原来GMM中的数据x。而基于图嵌入的高斯混合变分自编码器的深度聚类(DGG)模型可以看做在VAE的基础上结合了高斯混合模型与图嵌入来完成聚类过程，公式推导中同样增加了表示类别的变量c，同时，目标函数后面加了一项图嵌入的约束项。比起VaDE来说，可以理解为多了一个约束项——图嵌入，当然目标函数还是有所不同。

下面主要介绍DGG模型目标函数的数学推导过程。推导过程用到了概率论与数理统计的相关知识，更用到了VaDE模型推导里面的知识，如果想要深入了解推导过程，请先看变分深度嵌入(VaDE)模型的相关推导。

2. 目标函数的由来与转化

3. 目标函数具体推导

4. 参数更新过程及聚类结果

5. 我的思考

在推导过程中我与原文中的推导有不一样的地方。

1）我的推导过程中变分下界L中第二项系数是1/2，原文直接是1，而在支撑材料里面仍然是1/2，因此可以认为是作者笔误造成的。

2）我的推导过程中变分下界L中的第二项与第四项都有常数项（蓝框框标出的），这两项正好正负抵消，才没有这个参数项，而在原文支撑材料里面直接第二四项都没有常数项。不过这只是支撑材料的内容，在原文中没有太大影响。

3）我用的是πk，原文用的πik。这点没有太大影响。

6. 参考文献

[1] Linxiao Yang, Ngai-Man Cheung, Jiaying Li, and Jun Fang, "Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding", In ICCV 2019.

[2] 论文补充材料：Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding - Supplementary

[3] DGG Python代码：https://github.com/ngoc-nguyen-0/DGG

[4] 变分深度嵌入(Variational Deep Embedding, VaDE) - 凯鲁嘎吉 - 博客园

[5] 变分推断与变分自编码器 - 凯鲁嘎吉 - 博客园