Google 2017年的论文 Attention is all you need 阐释了什么叫做大道至简!该论文提出了Transformer模型,完全基于Attention mechanism,抛弃了传统的RNN和CNN. 我们根据论文的结构图,一步一步使用 PyTorch 实现这个Transformer模型. Transformer架构首先看一下transformer的结构图: 解释一下这个结构图.首先,Transformer模型也是使用经典的encoer-decoder架构,由encode…