bert模型参数简化

　　我们下载下来的预训练的bert模型的大小大概是400M左右，但是我们自己预训练的bert模型，或者是我们在开源的bert模型上fine-tuning之后的模型的大小大约是1.1G，我们来看看到底是什么原因造成的，首先我们可以通过下一段代码来输出我们训练好的模型的参数变量。

　　下面这段代码可以输出我们下载的官方预训练模型的参数变量

import tensorflow as tf

from tensorflow.python import pywrap_tensorflow

model_reader = pywrap_tensorflow.NewCheckpointReader("chinese_L-12_H-768_A-12/bert_model.ckpt")

var_dict = model_reader.get_variable_to_shape_map()

for key in var_dict:

    print(key)

　　我们截取了部分参数如下：

　　现在换成我们自己预训练的bert模型，代码和上面一样

from tensorflow.python import pywrap_tensorflow

model_reader = pywrap_tensorflow.NewCheckpointReader("H_12_768_L12_vocab5/model.ckpt-1500000")

var_dict = model_reader.get_variable_to_shape_map()

for key in var_dict:

    print(key)

　　我们同样截取部分参数

　　我们可以看到这里混入了不少带有"adam"的变量，我们来看adam优化算法，在计算一阶矩和二阶矩时，我们是要保存之前时刻的滑动平均值的，而每个需要通过梯度更新的参数，都要维护这样一个一阶矩和二阶矩之前时刻的滑动平均值，也就是对应上面的 "adam_m" (一阶矩) 和 “adam_v” (二阶矩)，因此导致我们自己预训练的模型的大小大约是官方预训练模型的大小的3倍。而这些参数变量只有训练模型的时候有用，在之后预测的时候以及fine-tuning阶段都是没有用的（fine-tuning时我们只是用到了之前预训练好的模型的参数来作为初始化值，并不会用到优化算法中的中间值），因此我们可以在训练完或者fine-tuning完bert模型之后，在保存模型时将这些参数去掉，也可以在保存了完整的参数之后，再加载去掉这些参数，然后重新保存，这样就不需要改动bert的源码，具体的实现如下：

import re

import tensorflow as tf

from tensorflow.contrib.slim import get_variables_to_restore

# 将bert中和adam相关的参数的值去掉，较小模型的内存

graph = tf.Graph()

with graph.as_default():

    sess = tf.Session()

    checkpoint_file = tf.train.latest_checkpoint("H_12_768_L12_vocab5/")

    saver = tf.train.import_meta_graph("{}.meta".format(checkpoint_file))

    saver.restore(sess, checkpoint_file)

    variables = get_variables_to_restore()

    other_vars = [variable for variable in variables if not re.search("adam", variable.name)]

    var_saver = tf.train.Saver(other_vars)

    var_saver.save(sess, "light_bert/model.ckpt")

　　之后就可以直接加载这个去掉带"adam"的变量的模型用来做预测。这样虽然不能提升模型的预测速度，但是可以减小模型的内存。

bert模型参数简化的更多相关文章

NLP突破性成果 BERT 模型详细解读 bert参数微调
https://zhuanlan.zhihu.com/p/46997268 NLP突破性成果 BERT 模型详细解读章鱼小丸子不懂算法的产品经理不是好的程序员关注她 82 人赞了该文章 Goo ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
attention、self-attention、transformer和bert模型基本原理简述笔记
attention 以google神经机器翻译(NMT)为例无attention: encoder-decoder在无attention机制时,由encoder将输入序列转化为最后一层输出state ...
深度学习方法（七）：最新SqueezeNet 模型详解，CNN模型参数降低50倍，压缩461倍！
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 继续前面关于深度学习CNN经典模型的 ...
BERT模型介绍
前不久,谷歌AI团队新发布的BERT模型,在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步.BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越 ...
想研究BERT模型？先看看这篇文章吧！
最近,笔者想研究BERT模型,然而发现想弄懂BERT模型,还得先了解Transformer. 本文尽量贴合Transformer的原论文,但考虑到要易于理解,所以并非逐句翻译,而是根据笔者的个人理解进 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
图示详解BERT模型的输入与输出
一.BERT整体结构 BERT主要用了Transformer的Encoder,而没有用其Decoder,我想是因为BERT是一个预训练模型,只要学到其中语义关系即可,不需要去解码完成具体的任务.整体架 ...
BERT模型
BERT模型是什么 BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为de ...

随机推荐

[LeetCode] 13. Roman to Integer 罗马数字转化成整数
Roman numerals are represented by seven different symbols: I, V, X, L, C, D and M. Symbol Value I 1 ...
[LeetCode] 895. Maximum Frequency Stack 最大频率栈
Implement FreqStack, a class which simulates the operation of a stack-like data structure. FreqStack ...
JaCoCo覆盖率计数器
覆盖率计数器 JaCoCo使用一组不同的计数器来计算覆盖率指标.所有这些计数器都是从Java类文件里获取信息,这些类文件包含Java 字节码指令和调试信息.即使没有可用源代码情况下,这种方法可以实时有 ...
UDF——读取文件作为边界条件(类似profile的效果)
本文编译工具:VC++ UDF Studio 该插件可以直接在Visual Studio中一键编译.加载.调试UDF源码,极大提高编写排错效率,且支持C++,MFC,Windows API和第三方库, ...
Harbor 忘记密码
Harbor密码重置 01,登入到harbor容器里面的数据库上 docker exec -it harbor-db /bin/bash 02,登入数据库 psql -h postgresql -d ...
GreenPlum 大数据平台--监控
数据库状态监控活动活动过程纠正措施列出当前状态为down的Segment.如果有任何行被返回,就会生成一个警告或者告警. 推荐频率:每5到10分钟重要度: IMPORTANT 在postgr ...
python多条插入问题
多条插入用excutemany(listtuple) #coding=utf-8 import MySQLdb import traceback sqlstr= "insert into t ...
Python - 批量下载 IIS 共享的文件
1.说明用 IIS 以WEB形式发布了本地文件夹,提供文件下载,并设置了访问权限:默认下载需要点击一个一个的下载,web界面如下: 3.脚本执行脚本批量下载文件,会在当前目录创建文件夹,并压缩该文 ...
xunsearch强制刷新
$index = $xs->index; $index->flushLogging(); 等价于 util/Indexer.php --flush-log demo
Thinkpad S430 3364-A59 （笔记本型号）加内存条过程
背景:13年初选购的本,目前使用发现卡得厉害,原装内存只有4G,遂寻思扩充内存. [1]准备工具待准备工具明细: (1)螺丝刀主要为了卸后盖的螺丝. (2)内存条待增加的内存条,如下图: 说明一 ...

bert模型参数简化

bert模型参数简化的更多相关文章

随机推荐

热门专题