知识图谱与Bert结合

论文题目：

ERNIE: Enhanced Language Representation with Informative Entities（THU/ACL2019）

本文的工作也是属于对BERT锦上添花，将知识图谱的一些结构化信息融入到BERT中，使其更好地对真实世界进行语义建模。也就是说，原始的bert模型只是机械化地去学习语言相关的“合理性”，而并学习不到语言之间的语义联系，打个比喻，就比如掉包xia只会掉包，而不懂每个包里面具体是什么含义。于是，作者们的工作就是如何将这些额外的知识告诉bert模型，而让它更好地适用于NLP任务。

但是要将外部知识融入到模型中，又存在两个问题：

Structured Knowledge Encoding: 对于给定的文本，如何高效地抽取并编码对应的知识图谱事实；
Heterogeneous Information Fusion: 语言表征的预训练过程和知识表征过程有很大的不同，它们会产生两个独立的向量空间。因此，如何设计一个特殊的预训练目标，以融合词汇、句法和知识信息又是另外一个难题。

为此，作者们提出了ERNIE模型，同时在大规模语料库和知识图谱上预训练语言模型：

抽取+编码知识信息： 识别文本中的实体，并将这些实体与知识图谱中已存在的实体进行实体对齐，具体做法是采用知识嵌入算法（如TransE），并将得到的entity embedding作为ERNIE模型的输入。基于文本和知识图谱的对齐，ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。
语言模型训练： 在训练语言模型时，除了采用bert的MLM和NSP，另外随机mask掉了一些实体并要求模型从知识图谱中找出正确的实体进行对齐（这一点跟baidu的entity-masking有点像）。

如上图，整个模型主要由两个子模块组成：

底层的textual encoder (T-Encoder)，用于提取输入的基础词法和句法信息，N个；
高层的knowledgeable encoder (K-Encoder)，用于将外部的知识图谱的信息融入到模型中，M个。

knowledgeable encoder

这里T-encooder跟bert一样就不再赘述，主要是将文本输入的三个embedding加和后送入双向Transformer提取词法和句法信息：

K-encoder中的模型称为aggregator，输入分为两部分：

接着利用multi-head self-attention对文本和实体分别处理：

然后就是将实体信息和文本信息进行融合，实体对齐函数为

最终的输出为最顶层的Aggregator的token embedding和entity embedding。

改进的预训练

除了跟bert一样的MLM和NSP预训练任务，本文还提出了另外一种适用于信息融合的预训练方式，denoising entity auto-encoder (dEA). 跟baidu的还是有点不一样，这里是有对齐后的entity sequence输入的，而百度的是直接去学习entity embedding。dEA 的目的就是要求模型能够根据给定的实体序列和文本序列来预测对应的实体：

微调

为了使得模型可以更广泛地适用于不同的NLP任务，作者也学习BERT设计了不同的特殊的token：

【CLS】：该token含有句子信息的表示，可适用于一般任务
【HD】和【TL】：该token表示关系分类任务中的头实体和尾实体（类似于传统关系分类模型中的位置向量），然后使用【CLS】来做分类；【ENT】：该token表示实体类型，用于entity typing等任务。