Bert预训练源码

主要代码

地址：https://github.com/google-research/bert

create_pretraning_data.py：原始文件转换为训练数据格式
tokenization.py：汉字，单词切分，复合词处理，create_pretraning_data中调用
modeling.py: 模型结构
run_pretraing.py: 运行预训练

tokenization.py

作用：句子切分，特殊符号处理。
主要类：BasicTokenizer, WordpieceTokenizer, FullTokenizer

BasicTokenizer.tokenize: 文本转为unicode, 去除特殊符号，汉字前后加空格，按空格切分单词，去掉文本重音，按标点符号切割单词。最后生成一个list
WordpieceTokenizer.tokenize: 长度过长的单词标记为UNK，复合词切分，找不到的词标记为UNK
FullTokenizer：先后调用BasicTokenizer和WordpieceTokenizer

create_pretraning_data.py

输入：词典，原始文本(空行分割不同文章，一行一句)
输出：训练数据
作用：生成训练数据，句子对组合，单词mask等
入口函数main

加载词典，加载原始文本
create_training_instances
读取原始文本文件，做unicode转换，中文，标点，特殊符号处理，空格切分，复合词切分。转换为[[[first doc first sentence],[first doc second sentence],[first doc third sentence]],[[second doc first sentence],[]],....] 这样的结构
去除空文章，文章顺序打乱
输入的原始文本会重复使用dupe_factor次
对每一篇文章生成训练数据create_instances_from_document
训练语句长度限制max_seq_length，0.1的概率生成长度较小的训练语句，增加鲁棒性
句子对(A,B)随机组合
对于一篇文章，按顺序获取n行句子，其长度总和限制为target_seq_length,
随机选取n行中的前m行作为A
0.5的概率，B是n行中后面剩余的部分；其他情况，B是随机选取的其他文章内容，开始位置是随机的
文章中没有使用的部分继续组合(A, B)
添加CLS,SEP分隔符，生成句子向量
对句子对中的单词做随机mask (create_masked_lm_predictions), 随机取num_to_predict个单词做mask，0.8的概率标记为MASK，0.1的概率标记为原始单词，0.1的概率标记为随机单词
封装，句子对，句子id，是否为随机下一句，mask的下标位置，mask对应的原始单词
训练数据序列化，存入文件。单词转为id，句子长度不足的后面补0。

modeling.py

BertConfig: 配置
BertModel：模型主体

建模主体过程：

获取词向量 [batch_size, seq_length, embedding_size]
添加句向量，添加位置向量，在最后一个维度上做归一化，整体做dropout
transformer
全连接映射 [B*F, embedding_size]->[B*F, N*H]
$dropout(softmax(QK^T))V$, 其中mask了原本没有数据的部分
全连接，dropout,残差处理，归一化，全连接，dropout，残差处理，归一化
上述循环多层
取最终[CLS]对应的向量做句向量

run_pretraining.py

作用：生成目标函数，加载已有参数，迭代训练
主要函数：model_fn_builder

评估mask单词的预测准确性，整体loss为mask处预测对的分数的平均值
评估next_sentence预测准确性，loss为预测对的概率值
总损失为上面两个损失相加

【算法】Bert预训练源码阅读的更多相关文章

谷歌BERT预训练源码解析（一）：训练数据生成
目录预训练源码结构简介输入输出源码解析参数主函数创建训练实例下一句预测&实例生成随机遮蔽输出结果一览预训练源码结构简介关于BERT,简单来说,它是一个基于Transformer架构,结合遮蔽词 ...
谷歌BERT预训练源码解析（三）：训练过程
目录前言源码解析主函数自定义模型遮蔽词预测下一句预测规范化数据集前言本部分介绍BERT训练过程,BERT模型训练过程是在自己的TPU上进行的,这部分我没做过研究所以不做深入探讨.BERT针对两个任务同 ...
谷歌BERT预训练源码解析（二）：模型构建
目录前言源码解析模型配置参数BertModelword embeddingembedding_postprocessorTransformerself_attention模型应用前言BERT的模型主要 ...
Bert源码阅读
前言对Google开源出来的bert代码,来阅读下.不纠结于代码组织形式,而只是梳理下其训练集的生成,训练的self-attention和multi-head的具体实现. 训练集的生成主要实现在c ...
caffe-windows中classification.cpp的源码阅读
caffe-windows中classification.cpp的源码阅读命令格式: usage: classification string(模型描述文件net.prototxt) string( ...
【原】SDWebImage源码阅读（四）
[原]SDWebImage源码阅读(四) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 SDWebImage中主要实现了NSURLConnectionDataDelega ...
如何阅读Java源码阅读java的真实体会
刚才在论坛不经意间,看到有关源码阅读的帖子.回想自己前几年,阅读源码那种兴奋和成就感(1),不禁又有一种激动. 源码阅读,我觉得最核心有三点:技术基础+强烈的求知欲+耐心. 说到技术基础,我打个比 ...
36 网络相关函数(四)——live555源码阅读(四)网络
36 网络相关函数(四)——live555源码阅读(四)网络 36 网络相关函数(四)——live555源码阅读(四)网络简介 7)createSocket创建socket方法 8)closeSoc ...
15 BasicHashTable基本哈希表类(二)——Live555源码阅读(一)基本组件类
这是Live555源码阅读的第一部分,包括了时间类,延时队列类,处理程序描述类,哈希表类这四个大类. 本文由乌合之众 lym瞎编,欢迎转载 http://www.cnblogs.com/oloroso ...

随机推荐

MT 【331】两元非齐次不等式
若正实数$x,y$满足$x^3+y^3=(4x-5y)y$ 则 $y$ 的最大值为____ 解答:$x^3+y^3+y^2=4(x-y)y\le x^2$,故$y^3+y^2=x^2-x^3=\dfr ...
THUWC2019滚粗记
Day-1 今年年初,留坑,以后补,多多关注. Day0 上午吃了碗粉,就坐地铁到了高铁站. 做高铁从长沙到了广州,最大的感受就是热热热热热热热热. 所以太热了不说了.(雾汉堡王真香 Day1 上午 ...
emwin之创建窗口与窗口回调函数的句柄是一致的
@2019-04-28 [小记] 由函数GUI_CreateDialogBox 创建的窗口所返回的句柄与回调函数形参中的窗口句柄参数是一样的
LeetCode--689_Maximum_Sum_of_3_NonOverlapping_Subarrays
原题链接:点击这里一道很水很水的背包问题? 大概算不上背包吧QAQ 自己的dp 真的是太差劲啦,以后每天一道LeetCode 备战秋招! package leetcode; public class ...
ajax参数传递与后台接收
目录 ajax参数传递与后台接收 Servlet中读取http参数的方法使用默认contentType,参数追加到url后传递使用默认contentType,参数放到data中传递使用默认con ...
redis-cli 通过管道 --pipe 快速导入数据到redis中
最近有个需求,需要把五千万条数据批量写入redis中,方法倒是有很多种!效率最高的就是通过redis-cl管道的方式写入一:先看看命令 cat redis.txt | redis-cli -h 12 ...
C#调用Java的WebService添加SOAPHeader验证
C#调用Java的WebService添加SOAPHeader验证(2) 1.问题描述调用的Java的webservice string Invoke(string func, string req ...
windows10安装docker，运行jhipster-registry
1.官网下载windows版docker 2.设置bios 3.CMD进入到某个jhipster的工程目录,执行"docker-compose -f src/main/docker/jhip ...
JSON循环遍历解析
使用递归方式遍历JSON,解析JSON用的是:net.sf.json, alibaba.fastjson测试可用 @Test public void test() { String json = &q ...
ArcGIS——使用符号级别区分重叠的面图层
1.有这样一个面图层shp文件(区域相重叠),需要做出如下右图的效果: 2.导入shp文件后,右键shp文件,属性->符号系统 3.高级->符号级别将面积最大的图层的级别设为最小,面积最 ...

【算法】Bert预训练源码阅读