Handing Incomplete Heterogeneous Data using VAEs
概
这篇文章利用VAE处理缺失数据, 以往的对缺失数据的处理往往是不区分连续离散, 数字符号的, 感觉这里利用分布的处理方式非常精彩.
主要内容
ELBO
首先, 既然是利用VAE, 那么就需要推导出相应的ELBO来.
文章首先假设数据\(x\)和隐变量之间关系满足:
\]
即\(x_n\)的各分量关于\(z_n\)的条件独立的.
进一步引入观测数据\(x^o\)和\(x^m\), 即
\left \{
\begin{array}{ll}
x_{nd}, & d \in \mathcal{O}_n \\
0, & d \in \mathcal{M}_n
\end{array}
\right ., \\
x^{m}_n = x_n - x_{n}^o.
\]
其中\(\mathcal{O}, \mathcal{M}\) 分别是观测的元素和缺失的元素位置, 且彼此是互斥的.
那么
\]
\]
则通过极大似然即可推出ELBO:
\log p(X^o)
&= \sum_{n} \mathbb{E}_{q(z_n|x_n^o)} \log \frac{p(x_n^o, z_n)}{q(z_n|x_n^o)} \frac{q(z_n|x_n^o)}{p(z_n|x^o_n)} \\
&\ge \sum_n \mathbb{E}_{q(z_n|x_n^o)} \log p(x_n^o|z_n)
- \sum_n \mathrm{KL}(q(z_n|x_n^o)\| p(z_n)).
\end{array}
\]
其中\(p(x_n^o|z_n)=\prod_{d \in \mathcal{O}_n} p(x_{nd}|z_n)\).
网络结构
从上面的假设就可以看出, 整体的VAE的结构是这样的:
- 观测数据\(x^o\)经过encoder得到\(\mu_q(x^o), \Sigma_q(x^o)\), 并从高斯分布中采样得到\(z\).
- 隐变量\(z\)经过独立的网络\(h_1, \cdots, h_d\)得到预测的数据\(\gamma_1, \gamma_2, \cdots, \gamma_d\), 这些用于构建各自的分布\(p(x_d|\gamma_d)\), 这个分布是数据的类型而不同.
不同的数据
这对不同的数据类型, 可以假设不同的分布\(p(x_d|\gamma_d)\), 这我认为是非常有趣的一个点.
- 如果\(x_d\)是实值变量, 则可以假设其为高斯分布:
\]
- 如果\(x_d \in \mathbb{R}^+\), 则
\]
- \(x_d \in \{0, 1, 2, \cdots \}\), 则假设poisson分布:
= \frac{\lambda_d(z)^{x_d} \exp (-\lambda_d(z_n))}{x_d!}.
\]
- 类别数据, \(\gamma_d \in \{h_{d0}(z), \cdots, h_{d(R-1)}(z)\}\)此时为logits, 最后的概率分布
\]
- Ordinal data
\]
其中
\]
HI-VAE
上述的假设有些过于强了, 为此, 作者做出了一些调整.

- 假设一个了一个混合的高斯先验: \(p(z|s_n)\);
- 隐变量需要先经过一个共同的变化得到\(Y_n\)再和\(s_n\)一起经过独立的网络得到\(\gamma_1, \gamma_2, \cdots, \gamma_d\).
个人感觉第二点的设计还是不错的.
代码
Handing Incomplete Heterogeneous Data using VAEs的更多相关文章
- RFC destination fails with error Incomplete Logon Data after system copy
1. 问题现象 1.1在system copy后,提示RFC报错Unable to configure STMS 2. 重要的参考文件: 2.1RFC passwords not available ...
- Interviews3D: APlatform for Interactive Handing of Massive Data Sets 读后感
横向比较: Inadequacy of current system design( 现代系统和一些软件的不足) 软件特点: Output sensitivity Out-of core data h ...
- Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)
ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...
- MySQL vs. MongoDB: Choosing a Data Management Solution
原文地址:http://www.javacodegeeks.com/2015/07/mysql-vs-mongodb.html 1. Introduction It would be fair to ...
- Opaque data type--不透明类型
Opaque:对使用者来说,类型结构和机制明晰即为transparent,否则为Opaque In computer science, an opaque data type is a data ty ...
- 论文翻译:Data mining with big data
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...
- Understanding Variational Autoencoders (VAEs)
Understanding Variational Autoencoders (VAEs) 2019-09-29 11:33:18 This blog is from: https://towards ...
- (转) [it-ebooks]电子书列表
[it-ebooks]电子书列表 [2014]: Learning Objective-C by Developing iPhone Games || Leverage Xcode and Obj ...
- Magic Quadrant for Security Information and Event Management
https://www.gartner.com/doc/reprints?id=1-4LC8PAW&ct=171130&st=sb Summary Security and risk ...
随机推荐
- 巩固javaweb第十五天
巩固内容: 单选按钮: 在注册功能中,用户选择学历使用的是单选按钮,并且是多个单选按钮,每个选项对 应一个单选按钮,用户只能选择其中一个,这多个单选按钮的格式相同.如果用户要输入 的信息只有少数几种可 ...
- 强化学习实战 | 表格型Q-Learning玩井字棋(一)
在 强化学习实战 | 自定义Gym环境之井子棋 中,我们构建了一个井字棋环境,并进行了测试.接下来我们可以使用各种强化学习方法训练agent出棋,其中比较简单的是Q学习,Q即Q(S, a),是状态动作 ...
- 商业爬虫学习笔记day1
day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.ne ...
- C++ 数组元素循环右移问题
这道题要求不用另外的数组,并且尽量移动次数少. 算法思想:设计一个结构体存储数组数据和它应在的索引位置,再直接交换,但是这种方法不能一次性就移动完成,因此再加一个判断条件.等这个判断条件满足后就退出循 ...
- JPA和事务管理
JPA和事务管理 很重要的一点是JPA本身并不提供任何类型的声明式事务管理.如果在依赖注入容器之外使用JPA,事务处理必须由开发人员编程实现. 123456789101112UserTransacti ...
- 通过静态分析和持续集成 保证代码的质量 (Helix QAC)2
续上.... 第二章 部署示例:Jenkins and Helix QAC工具 第一节 Jenkins 作为持续集成系统 现在有很多持续集成工具,既有免费的,也有商业的.最近的研究显示,Jenkins ...
- 访问者模式(Visitor Pattern)——操作复杂对象结构
模式概述 在软件开发中,可能会遇到操作复杂对象结构的场景,在该对象结构中存储了多个不同类型的对象信息,而且对同一对象结构中的元素的操作方式并不唯一,可能需要提供多种不同的处理方式,还有可能增加新的处理 ...
- Game On Serverless:SAE 助力广州小迈提升微服务研发效能
作者:洛浩 小迈于 2015 年 1 月成立,是一家致力以数字化领先为优势,实现业务高质量自增长的移动互联网科技公司.始终坚持以用户价值为中心,以数据为驱动,为用户开发丰富的工具应用.休闲游戏.益智. ...
- 【Azure 应用服务】Azure App Service For Linux 上实现 Python Flask Web Socket 项目 Http/Https
问题描述 在上篇博文"[Azure 应用服务]App Service for Linux 中实现 WebSocket 功能 (Python SocketIO)"中,实现了通过 HT ...
- SWPUCTF_2019_p1KkHeap(tcache_entry)
花了半天的时间去理解吃透这道题目,也参考了大佬的wp (1条消息) [pwn]SWPUCTF_2019_p1KkHeap_Nothing-CSDN博客. (1条消息) swpuctf2019 p1Kk ...