[论文理解] CapsuleNet

CapsuleNet

前言

找了很多资料，终于把整个流程搞懂了，其实要懂这个运算并不难，难的对我来说是怎么用代码实现，也找了github上的一些代码来看，对我来说都有点冗长，变量分布太远导致我脑袋炸了，所以我就在B站找视频看看有没有代码讲解，算是不负苦心吧，终于把实现部分解决了。

不写论文解读，因为原文实在太难读了，这个老外的英文我基本上每看一句都要取查翻译，很难受，而且网上的教程、解析非常非常之多，所以我留个代码，以后看一下就能想起来了。

Capsule是干什么的

capsule是换了一种神经元的表达方式，原来每个神经元我们是用一个scalar来表示的，现在在capsule中我们中vector来表示一个神经元。这样做的好处是可以多维度描述一个神经元，而在capsue中，我们用vector的模长来表示概率，其他每个维度可以表征神经元的属性。比如某个维度表征特征的朝向，当特征朝向改变时，神经元的模长并没有改变，而是该维度的值改变了，这是一个很好的理解。

这部分网上资料简直太多了，上面说的只是我个人的见解，可以看看别人的版本。

Capsule代码怎么写

网络的结构图还是得贴一张

整体网络分三层，第一层卷积层，将(3,28,28)的输入映射到(256,20,20),第二层称为primary_caps,拿32个filter分8次卷积，得到(32,6,6,8)的输出，然后reshape成(1152,1,8)这里就是为了后面vector in vector out做准备了。

这里表达的意思就是有1152个capsule，每个capsule里有1个8维的vector，老有意思了。

然后就是后面digit_caps层了，我们目标vector应该是(10,1,16)，输入是(1152,1,8)，所以我们在这里思考作者是如何得到这样的映射关系的。

利用动态路由算法，我们成功得到的v。

好，结束。重建的代码我就不写了。

附上总代码：

import torch

import torch.nn as nn

from torchsummary import summary

from torch.autograd import Variable

class CapsuleLayer(nn.Module):

    def __init__(self,routing = False):

        super(CapsuleLayer,self).__init__()

        self.routing = routing

        def create_conv(unit_idx):

            conv_unit = nn.Conv2d(256,32,kernel_size = 9,stride = 2)

            self.add_module("conv_unit_{}".format(unit_idx),conv_unit)

            return conv_unit

        self.conv_units = [create_conv(i) for i in range(8)]

        self.w = Variable(torch.randn(1,1152,10,16))

        self.fc = nn.Linear(8,16)

    def forward(self,x):

        if self.routing:

            return self.use_routing(x)

        else:

            return self.no_routing(x)

    @staticmethod

    def squash(x):

        f = torch.sum(x**2,dim =2,keepdim = True)

        return f / (1 + f) / (x / torch.sqrt(f))

    def use_routing(self,x):# (-1,8,32*6*6)

        x = x.transpose(1,2).view(-1,32*6*6,1,8)

        x = self.fc(x)

        w = torch.cat([self.w] * x.size(0), dim = 0)

        u = w * x # (b,1152,10,8)

        b = Variable(torch.zeros(x.size(0),x.size(1),10,1,1))

        for iter in range(3):

            c = torch.softmax(u,dim = -1)

            s = torch.sum(c,dim = 1,keepdim = True)

            v = self.squash(s).view(-1,1,10,16,1)

            b = b + u.view(x.size(0),1152,10,1,16) @ v.view(x.size(0),1,10,16,1)

        return v.view(x.size(0),10,16)

    def no_routing(self,x):

        u = [self.conv_units[i](x) for i in range(8)]

        # every u (-1,32,6,6)

        # (-1,8,32,6,6)

        u = torch.stack(u,dim =1)

        u = u.view(-1,8,32*6*6)

        return self.squash(u)

class CapsuleNet(nn.Module):

    def __init__(self):

        super(CapsuleNet,self).__init__()

        self.conv = nn.Sequential(

            nn.Conv2d(1,256,kernel_size = 9,stride = 1),

            nn.ReLU()

        )

        self.pri_caps = CapsuleLayer()

        self.digit_caps = CapsuleLayer(routing = True)

    def forward(self,x):

        x = self.conv(x) # (-1,256,20,20)

        x = self.pri_caps(x)

        x = self.digit_caps(x)

        return x

if __name__ == "__main__":

    x = torch.randn(2,1,28,28)

    net = CapsuleNet()

    y = net(x)

    print(y.size())