【流行前沿】联邦学习 Federated Learning with Only Positive Labels

核心问题：如果每个用户只有一类数据，如何进行联邦学习？

Felix X. Yu, , Ankit Singh Rawat, Aditya Krishna Menon, and Sanjiv Kumar. "Federated Learning with Only Positive Labels." (2020).

简述

在联邦学习中，如果每个用户节点上只有一类数据，那么在本地训练时会将任何数据映射到对应标签，此时使用分布式SGD或FedAvg算法学习分类器会导致整体学习失效。为了安全性，不能进行用户间数据交换，甚至不能相互交换模型参数（否则很容易推断出对方的数据类型）。这篇文章的想法是，将输入和标签通过嵌入（embedding）放入同一个高维空间，在用户端使输入和标签距离尽量近，在服务器端使标签的相互距离尽量远。仿真看来效果与集中数据后使用Softmax训练相差无几。

模型设置

这篇文章是收到了contrastive loss的启发

\(\ell_{\mathrm{cl}}(f(\boldsymbol{x}), y)=\underbrace{\alpha \cdot\left(\boldsymbol{d}\left(g_{\boldsymbol{\theta}}(\boldsymbol{x}), \boldsymbol{w}_{y}\right)\right)^{2}}_{\ell_{\mathrm{cl}}^{\mathrm{pos}}(f(\boldsymbol{x}), y)}+\underbrace{\beta \cdot \sum_{c \neq y}\left(\max \left\{0, \nu-\boldsymbol{d}\left(g_{\boldsymbol{\theta}}(\boldsymbol{x}), \boldsymbol{w}_{c}\right)\right\}\right)^{2}}_{\ell_{\mathrm{cl}}^{\mathrm{neg}}(f(\boldsymbol{x}), y)},\)

也就是将loss分为两个部分，分别表示在嵌入空间中，与标签的距离尽量近，与非标签的距离尽量远。由于联邦学习中接触不到非标签的位置，所以改在服务器端用标签间的距离代替这一操作。

其中两个损失函数为\(\hat{\mathcal{R}}_{\operatorname{pos}}\left(\mathcal{S}^{i}\right) =\alpha \cdot\left(\boldsymbol{d}\left(g_{\boldsymbol{\theta}}(\boldsymbol{x}), \boldsymbol{w}_{y}\right)\right)^{2}\)和\(\operatorname{reg}_{\mathrm{sp}}(W)=\sum_{c \in[C]} \sum_{c^{\prime} \neq c}\left(\max \left\{0, \nu-\boldsymbol{d}\left(\boldsymbol{w}_{c}, \boldsymbol{w}_{c^{\prime}}\right)\right\}\right)^{2}\)

。为了节省在大量标签中的遍历开销，在计算标签距离时只考虑拉开最近的若干个标签，因此损失函数修正为\(\operatorname{reg}_{\mathrm{sp}}^{\mathrm{top}}(W)=\sum_{c \in \mathcal{C}^{t}} \sum_{y \in \mathrm{e}^{\prime} \atop y \neq c}-\boldsymbol{d}^{2}\left(\boldsymbol{w}_{c}, \boldsymbol{w}_{y}\right) \cdot [ y \in \mathcal{N}_{k}(c) ]\)。在仿真中也体现了如果没有用这个技巧，准确率甚至还会降低3%到5%。

理论保证

这篇文章的理论分析是比较有意思的，说明文章所提的训练方式Federated Averaging with Spreadout (FedAwS)与数据集中时的效果相当。证明思路参考了该团队的前作[1]。【这部分挖坑待补充】

[1] Reddi, Sashank J., Kale, Satyen, Yu, Felix X., Holtmann-Rice, Daniel Niels, Chen, Jiecao and Kumar, Sanjiv. "Stochastic Negative Mining for Learning with Large Output Spaces.." Paper presented at the meeting of the AISTATS, 2019.

仿真结果

文章用ResNets对CIFAR-10和CIFAR-100数据集、自主构建的三层MLP在有4K个标签的AmazonCat等数据集上进行了验证，在90%准确下下最多的标签数达到了13K。均远远超过直接的FedAvg算法，和集中数据的学习效果相当。

评价

新意10×有效性100×问题大小1 = 1000

我之前想这个问题的时候，只局限在了Softmax激活函数上，导致思考的最终输出只是一维的
添加正则项来修改loss是不亚于修改网络结构的创新方法
embedding等来源于NLP中的内容现在很火