Chain训练准则的计算

轮迭代时验证集的日志：

log/compute_prob_valid.1000.log：

LOG (nnet3-chain-compute-prob[5.5.100-d66be]:PrintTotalStats():nnet-chain-diagnostics.cc:194) Overall log-probability for 'output-xent' is -2.14993 per frame, over 18230 frames.

LOG (nnet3-chain-compute-prob[5.5.100-d66be]:PrintTotalStats():nnet-chain-diagnostics.cc:194) Overall log-probability for 'output' is -0.238675 per frame, over 18230 frames.

其中的Overall log-probability是指，这次迭代（iteration）的平均损失函数的值。

对于chain，其损失函数为LF-MMI：

其中

nnet3/nnet-chain-diagnostics.cc

void NnetChainComputeProb::ProcessOutputs(const NnetChainExample &eg,

NnetComputer *computer) {

std::vector<NnetChainSupervision>::const_iterator iter = eg.outputs.begin(),

end = eg.outputs.end();

for (; iter != end; ++iter) {

BaseFloat tot_like, tot_l2_term, tot_weight;

//...

ComputeChainObjfAndDeriv(chain_config_, den_graph_,

sup.supervision, nnet_output,

&tot_like, &tot_l2_term, &tot_weight,

(nnet_config_.compute_deriv ? &nnet_output_deriv :

NULL), (use_xent ? &xent_deriv : NULL));

//...

ChainObjectiveInfo &totals = objf_info_[sup.name];

totals.tot_weight += tot_weight;

totals.tot_like += tot_like;

totals.tot_l2_term += tot_l2_term;

//...

}

void ComputeChainObjfAndDeriv(...){

*objf = num_logprob_weighted - den_logprob_weighted;

//supervision.weight：样本（egs）的权重，通常为1.0

//supervision.num_sequences：Supevision对象（由lattice或对齐生成）的数量，即FST的数量，或语句的数量

//supervision.frames_per_sequence：每个Supevision中的帧数

//weight即一个archive中的带权帧数

*weight = supervision.weight * supervision.num_sequences *

supervision.frames_per_sequence;

}

//似然即一个archive的平均对数似然

BaseFloat like = (info.tot_like / info.tot_weight),

//一个archive的平均L2正则化项

l2_term = (info.tot_l2_term / info.tot_weight),

//一个archive的平均准则函数值

tot_objf = like + l2_term;

由于MMI的目标是最大化互信息值，因此，需要对准则函数进行最大化，或对负准则函数进行最小化。

因此，以下日志中的"Overall log-probability"值越大越好。

log/compute_prob_valid.1000.log：

LOG (nnet3-chain-compute-prob[5.5.100-d66be]:PrintTotalStats():nnet-chain-diagnostics.cc:194) Overall log-probability for 'output-xent' is -2.14993 per frame, over 18230 frames.

LOG (nnet3-chain-compute-prob[5.5.100-d66be]:PrintTotalStats():nnet-chain-diagnostics.cc:194) Overall log-probability for 'output' is -0.238675 per frame, over 18230 frames.

Chain训练准则的计算的更多相关文章

Java实现蓝桥杯算法训练多阶乘计算
试题算法训练多阶乘计算问题描述我们知道,阶乘n!表示n*(n-1)(n-2)-21, 类似的,可以定义多阶乘计算,例如:5!!=531,依次可以有n!..!(k个'!',可以简单表示为n(k) ...
蓝桥杯算法训练 ALGO-156 表达式计算
算法训练表达式计算时间限制:1.0s 内存限制:256.0MB 问题描述输入一个只包含加减乖除和括号的合法表达式,求表达式的值.其中除表示整除. 输入格式输入一行,包含一个表达式. 输 ...
UVA442 Matrix Chain Multiplication 矩阵运算量计算（栈的简单应用）
栈的练习,如此水题竟然做了两个小时... 题意:给出矩阵大小和矩阵的运算顺序,判断能否相乘并求运算量. 我的算法很简单:比如(((((DE)F)G)H)I),遇到 (就cnt累计加一,字母入栈,遇到) ...
SSD训练网络参数计算
一个预测层的网络结构如下所示: 可以看到,是由三个分支组成的,分别是"PriorBox"层,以及conf.loc的预测层,其中,conf与loc的预测层的参数是由PriorBox的 ...
Kaldi中的Chain模型
Chain模型的训练流程链式模型的训练过程是MMI的无网格的版本,从音素级解码图生成HMM,对其使用前向后向算法,获得分母状态后验,通过类似的方式计算分子状态后验,但限于对应于转录的序列. 对于神经 ...
SVM训练结果参数说明训练参数说明归一化加快速度和提升准确率归一化还原
原文:http://blog.sina.com.cn/s/blog_57a1cae80101bit5.html 举例说明 svmtrain -s 0 -?c 1000 -t 1 -g 1 -r 1 - ...
明风：分布式图计算的平台Spark GraphX 在淘宝的实践
快刀初试:Spark GraphX在淘宝的实践作者:明风 (本文由团队中梧苇和我一起撰写,并由团队中的林岳,岩岫,世仪等多人Review,发表于程序员的8月刊,由于篇幅原因,略作删减,本文为完整版) ...
caffe中全卷积层和全连接层训练参数如何确定
今天来仔细讲一下卷基层和全连接层训练参数个数如何确定的问题.我们以Mnist为例,首先贴出网络配置文件: name: "LeNet" layer { name: "mni ...
如何高效的通过BP算法来训练CNN
< Neural Networks Tricks of the Trade.2nd>这本书是收录了1998-2012年在NN上面的一些技巧.原理.算法性文章,对于初学者或者是正在学习NN的 ...

随机推荐

@Async的简单用法总结
前言: 在Java应用中,绝大多数情况下都是通过同步的方式来实现交互处理的:但是在处理与第三方系统交互的时候,容易造成响应迟缓的情况,之前大部分都是使用多线程来完成此类任务,其实,在Spring 3 ...
Uncaught SyntaxError: Unexpected token ' in JSON at position 1
听说js是一样很BT的语言,今天真是有点领教到了. 用python3.6+django2.0开发网站时,遇到了一个坑中之坑! 在异步数据提交Ajax的运用中,不免在回调函数中使用到JSON.parse ...
解决MySQL5.7密码重置问题
前言:最近活动,买了台服务器,环境什么的都弄完了,MySQL是安装的5.7的版本,连接进入的时候出现了下面的错误这其实是MySQL5.7的一个安全机制,需要你重新设置密码. set password ...
安装Nginx配置常用参数含义
--prefix #nginx安装目录,默认在/usr/local/nginx--pid-path #pid问件位置,默认在logs目录--lock-path #lock问件位置,默认在logs目录- ...
python 二维数组读入
study from : https://www.cnblogs.com/reaptomorrow-flydream/p/9613847.html python 二维数组键盘输入 1 m = int( ...
C++基础知识--DAY2
昨天我们主要是讲的C++相对于C语言的变化,结尾讲述了一点引用的基础知识,要明白,引用就是对一个变量取别名,在C++中需要用指针的都可以思考是否可以用引用来代替. 1. 常引用常引用(const s ...
使用postman测试hystrix
当在浏览器发送多次请求检测hystrix的作用时,我们可以使用postman来自动发送多次请求: 1.将链接保存到一个collection中 2.点击runner 3.设定运行次数
css+div基本知识；
1.居中: <div class="test"></div> css: .test{ margin: auto; //一行中居中: } 2.IE与其他浏览器 ...
Lock与synchronized的区别（浅谈）
Lock是一个接口 synchronized是一个关键字 Lock用法: synchronized用法: lock.lock() ...
Mysql数据约束整理
数据约束 1.默认值: 作用: 当用户对使用默认值的字段不插入值的时候,就使用默认值. 注意: 1)对默认值字段插入null是可以的. 2)对默认值字段可以插入非null CREATE TABLE ...

Chain训练准则的计算

Chain训练准则的计算的更多相关文章

随机推荐

热门专题