摘要 BERT是“Bidirectional Encoder Representations from Transformers"的简称,代表来自Transformer的双向编码表示.不同于其他的语言模型,它是使用transformer联合所有层的左右上下文来预训练的深度双向表示.在这个表示的基础上,只需要一个额外的输出层,就可以根据特定的任务对预训练的bert进行微调,无需对特定的任务进行大量模型结构的修改.论文贡献:1.论证了双向预训练对语言表征的重要性.BERT使用遮蔽语言模型来实现预训练…