bert，albert的快速训练和预测

　　随着预训练模型越来越成熟，预训练模型也会更多的在业务中使用，本文提供了bert和albert的快速训练和部署，实际上目前的预训练模型在用起来时都大致相同。

　　基于不久前发布的中文数据集chineseGLUE，将所有任务分成四大类：文本分类，句子对判断，实体识别，阅读理解。同类可以共享代码，除上面四个任务之外，还加了一个learning to rank ，基于pair wise的方式的任务，代码见：https://github.com/jiangxinyang227/bert-for-task。

　　具体使用见readme

　　模型定义在每个项目下的model.py文件中，直接调用bert和albert的源码modeling.py将预训练模型引入，将预训练模型作为encoder部分，也可以只作为embedding层，再自己定义encoder部分，总之可以非常方便的接入下游任务网络层，尤其是当你只想使用预训练模型作为embedding层时，我们需要自己些encoder部分。

　　　　 bert_config = modeling.BertConfig.from_json_file(self.__bert_config_path)

        model = modeling.BertModel(config=bert_config,

                                   is_training=self.__is_training,

                                   input_ids=self.input_ids,

                                   input_mask=self.input_masks,

                                   token_type_ids=self.segment_ids,

                                   use_one_hot_embeddings=False)

        output_layer = model.get_pooled_output()

        hidden_size = output_layer.shape[-1].value

        if self.__is_training:

            # I.e., 0.1 dropout

            output_layer = tf.nn.dropout(output_layer, keep_prob=0.9)

        with tf.name_scope("output"):

            output_weights = tf.get_variable(

                "output_weights", [self.__num_classes, hidden_size],

                initializer=tf.truncated_normal_initializer(stddev=0.02))

            output_bias = tf.get_variable(

                "output_bias", [self.__num_classes], initializer=tf.zeros_initializer())

            logits = tf.matmul(output_layer, output_weights, transpose_b=True)

            logits = tf.nn.bias_add(logits, output_bias)

            self.predictions = tf.argmax(logits, axis=-1, name="predictions")

　　在训练时加载预训练的参数值来初始化预训练模型的变量，具体在trainer.py文件中

tvars = tf.trainable_variables()

            (assignment_map, initialized_variable_names) = modeling.get_assignment_map_from_checkpoint(

                tvars, self.__bert_checkpoint_path)

print("init bert model params")
tf.train.init_from_checkpoint(self.__bert_checkpoint_path, assignment_map)

print("init bert model params done")

sess.run(tf.variables_initializer(tf.global_variables()))

　　在预测时可以直接实例化predict.py文件中的Predictor类就会加载checkpoint模型文件，调用类中的predict方法就可以进行预测，在不需要考虑模型代码加密，模型优化等情况下，可以直接线上部署。

import json

from predict import Predictor

with open("config/tnews_config.json", "r") as fr:

    config = json.load(fr)

predictor = Predictor(config)

text = "歼20座舱盖上的两条“花纹”是什么？"

res = predictor.predict(text)

print(res)

bert，albert的快速训练和预测的更多相关文章

ResNet网络的训练和预测
ResNet网络的训练和预测简介 Introduction 图像分类与CNN 图像分类是指将图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法,是计算机视觉中其他任务,比如目标检测 ...
YOLO2 (3) 快速训练自己的目标
1快速训练自己的目标在 YOLO2 (2) 测试自己的数据中记录了完整的训练自己数据的过程. 训练时目标只有一类 car. 如果已经执行过第一次训练,改过一次配置文件,之后仍然训练同样的目标还是只 ...
机器学习使用sklearn进行模型训练、预测和评价
cross_val_score(model_name, x_samples, y_labels, cv=k) 作用:验证某个模型在某个训练集上的稳定性,输出k个预测精度. K折交叉验证(k-fold) ...
初识Sklearn-IrisData训练与预测
笔记:机器学习入门---鸢尾花分类 Sklearn 本身就有很多数据库,可以用来练习. 以 Iris 的数据为例,这种花有四个属性,花瓣的长宽,茎的长宽,根据这些属性把花分为三类:山鸢尾花Setosa ...
【HEVC帧间预测论文】P1.1 基于运动特征的HEVC快速帧间预测算法
基于运动特征的 HEVC 快速帧间预测算法/Fast Inter-Frame Prediction Algorithm for HEVC Based on Motion Features <HE ...
Spark技术在京东智能供应链预测的应用——按照业务进行划分，然后利用scikit learn进行单机训练并预测
3.3 Spark在预测核心层的应用我们使用Spark SQL和Spark RDD相结合的方式来编写程序,对于一般的数据处理,我们使用Spark的方式与其他无异,但是对于模型训练.预测这些需要调用算 ...
Tensorflow训练和预测中的BN层的坑
以前使用Caffe的时候没注意这个,现在使用预训练模型来动手做时遇到了.在slim中的自带模型中inception, resnet, mobilenet等都自带BN层,这个坑在<实战Google ...
fcn训练及预测tgs数据集
一.背景 kaggle上有这样一个题目,关于盐份预测的语义分割题目.TGS Salt Identification Challenge | Kaggle https://www.kaggle.com ...
siftflow-fcn32s训练及预测
一.说明 SIFT Flow 是一个标注的语义分割的数据集,有两个label,一个是语义分类(33类),另一个是场景标签(3类). Semantic and geometric segmentatio ...

随机推荐

centos7下关闭防火墙
查看防火墙:systemctl status firewalld.service 关闭防火墙:systemctl stop firewalld.service 以上方式是暂时的,重启系统则防火墙仍然开 ...
Redis缓存策略
常用策略有“求留余数法”和“一致性HASH算法” redis存储的是key,value键值对一.求留余数法使用HASH表数据长度对HASHCODE求余数,余数作为索引,使用该余数,直接设置或访问缓 ...
Deformable Convolutional Networks
1 空洞卷积 1.1 理解空洞卷积在图像分割领域,图像输入到CNN(典型的网络比如FCN)中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预 ...
Ubuntu16.04下安装Cmake-3.8.2并为其配置环境变量
下载安装包首先我们到官网下载最新的cmake二进制安装包https://cmake.org/files/ 这里,我下载的是比较新的cmake-3.8.2-Linux-x86_64.tar.gz解压安 ...
luoguP3306 [SDOI2013]随机数生成器
题意将\(x_1,x_2,x_3...x_n\)写出来可以发现通项为\(a^{i-1}*x_1+b*\sum\limits_{j=0}^{i-2}a^j=a^{i-1}*x_1+b*\frac{1- ...
MySQL 字符集与比较规则
MySQL 字符集与比较规则由于 MySQL 客户端与服务端之间通信时需要将字符串编码传输,所以不可避免会产生编码转换字符集 MySQL 中 utf8 就是 utf8mb3,只使用 1-3 个字节 ...
html行级元素与块级元素以及meta标签的使用
块级元素的特性: 永远都会占满父级元素的宽度(块级元素的宽度永远都等于它父级元素的宽度) 行级元素的特性: 所占的空间刚好等于内容的大小常见的块级元素: h1~h6.p.ul.div.li.form ...
.Net Framework与.Net Core文件系统的差异
在.Net Fx下,可通过try/catch实例化DirectoryInfo/FileInfo来判断用户输入的路径是否合法,但我把代码拷到 .Net Core 下运行,发现运行结果完全不同 var d ...
在Azure DevOps Server中运行基于Spring Boot和Consul的微服务项目单元测试
1 概述谈到微服务架构体系,绕不开服务发现这个功能.服务发现机制是简化微服务配置.实现容灾.水平扩缩容.提高运维效率的重要方式.在服务发现工具中,Consul在部署和使用方面与容器结合的天衣无缝,成 ...
二、Spring注解之@Conditional
Spring注解之@Conditional [1]@Conditional介绍 @Conditional是Spring4新提供的注解,它的作用是按照一定的条件进行判断,满足条件给容器注册bean. ...

bert，albert的快速训练和预测

bert，albert的快速训练和预测的更多相关文章

随机推荐

热门专题