目录前言源码解析模型配置参数BertModelword embeddingembedding_postprocessorTransformerself_attention模型应用前言BERT的模型主要是基于Transformer架构(论文:Attention is all you need).它抛开了RNN等固有模式,直接用注意力机制处理Seq2Seq问题,体现了大道至简的思想.网上对此模型解析的资料有很多,但大都千篇一律.这里推荐知乎的一篇<Attention is all you need>…
前言 对Google开源出来的bert代码,来阅读下.不纠结于代码组织形式,而只是梳理下其训练集的生成,训练的self-attention和multi-head的具体实现. 训练集的生成 主要实现在create_pretraining_data.py和tokenization.py两个脚本里.输入文本格式举例,下面是两篇文章外加一篇空文章.两篇文章之间用空格作间隔. This is a blog about bert code reading.It is writed using markdow…