[转] kaldi中FST的可视化-以yesno为例

http://blog.csdn.net/u013677156/article/details/77893661

1、kaldi解码过程

kaldi识别解码一段语音的过程是：首先提取特征，然后过声学模型AM，然后过解码网络HCLG.fst，最后输出识别结果。

HCLG是解码时的重要组成部分。HCLG.fst是由4个fst经过一系列算法（组合、确定化和最小化等）组合而成的。4个fst分别是H.fst、C.fst、L.fst和G.fst，分别是HMM模型、上下文环境、词典和语言模型对应的fst。 trans-id -> context-tri -> mono ->word->grammar

HCLG = asl(min(rds(det(H' o min(det(C o min(det(Lo G))))))))

上面的o表示组合，det表示确定化,min表示最小化，rds表示去除消岐符号，asl表示增加自环。

Kaldi中，单独的C.fst是不存在的。L和G合并生成LG.fst，然后在其基础上，根据决策树的结果，直接生成CLG.fst。

2、fst可视化的两个基本命令

fstprint和fstdraw是可视化用到的两个基本命令
fstprint用于打印fst，可以将二进制的fst以文件形式打印出来。Fstprint的基本用法如下
fstprint [--isymbols=xxxx --osymbols=xxxx ] FST
参数—isymbols和—osymbols分别表示输入符号表和输出符号表，这两个参数可以省略。
fstdraw用于画fst图，其使用方式跟fstprint类似。Fstdraw得到的结果是dot文件，通过dot命令转为ps格式，然后可以由ps2pdf命令转为pdf文档。

fstdraw使用示例
fstdraw [--isymbols=phones.txt --osymbols=words.txt] L.fst | dot –Tps | ps2pdf – L.pdf

3、yesno例子中各个fst的可视化

3.1 语言模型生成的G.fst可视化

yesno例子中的语言模型很简单

cat input/task.arpabo
\data\
ngram 1=4
\1-grams:
-1 NO
-1 YES
-99 <s>
-1 </s>
\end\

这个语言模型生成的G.fst，将其用fstprint打印出来（symbols选words.txt）

0 0 NO NO 2.30258512
0 0 YES YES 2.30258512
0 2.30258512

上面是G.fst的打印结果。对于fst，其打印结果，一行一般有5列。一行对应一个弧。第一列和第二列，表示这个弧的起始状态和终止状态。第三列和第四列，表示输入和输出。第五列是权重。

将其对应的图打印出来，用fstdraw命令

3.2 词典文件生成的L.fst

yesno例子中的词典文件也很简单，如下所示

cat data/local/dict/lexicon.txt
<SIL> SIL
YES Y
NO N

在data/lang目录下会找到两个fst，分别是 L.fst和L_disambig.fst。后者是在L.fst上加消岐符号。

用fstprint查看这两个fst

fstprint --isymbols=phones.txt --osymbols=words.txt L.fst
0 1 <eps> <eps> 0.693147182
0 1 SIL <eps> 0.693147182
1 1 SIL <SIL>
1 1 N NO 0.693147182
1 2 N NO 0.693147182
1 1 Y YES 0.693147182
1 2 Y YES 0.693147182
1
2 1 SIL <eps>
fstprint --isymbols=phones.txt --osymbols=words.txt L_disambig.fst
0 1 <eps> <eps> 0.693147182
0 2 SIL <eps> 0.693147182
1 1 SIL <SIL>
1 1 N NO 0.693147182
1 3 N NO 0.693147182
1 1 Y YES 0.693147182
1 3 Y YES 0.693147182
1 1 #0 #0
1
2 1 #1 <eps>
3 2 SIL <eps>

用fstdraw看两个fst图，第一个图是 L.fst；第二个是 L_disambig.fst。实际生成HCLG时，用的是L_disambig.fst。

3.3 将L.fst（这里指L_disambig.fst）和G.fst合并起来，生成LG.fst。

1 0 SIL <eps> 0.829214692
1 1 Y YES 2.99609375
1 1 N NO 2.99609375
1 2.99609375
0 2 #1 <eps> 0.533971608
2 1 Y YES 1.63290751
2 1 N NO 1.63290751
2 1.63290739

3.4将LG.fst生成CLG.fst，得到的结果如下；因为是单音素，所以跟原先的LG.fst是一样的。

0 1 SIL <eps> 0.829214692
0 0 Y YES 2.99609375
0 0 N NO 2.99609375
0 2.99609375
1 2 #0 <eps> 0.533971608
2 0 Y YES 1.63290751
2 0 N NO 1.63290751
2 1.63290739

3.5 hmm模型生成的ha.fst。这里的hmm对应的fst，是不带自环的。

0 1 0 1
0 7 20 2 1.1920929e-07
0 10 26 3
0 13 31 4
0
1 2 2 0 2.70571232
1 3 3 0 2.70571232
1 4 4 0 0.14340198
2 3 6 0 0.936247587
2 4 7 0 1.19049001
2 5 8 0 1.19049001
3 2 9 0 1.80542946
3 4 11 0 0.398507833
3 5 12 0 1.80542946
4 2 13 0 2.34313083
4 3 14 0 2.34313083
4 5 16 0 0.213165522
5 6 18 0
6 0 0 0
7 8 22 0
8 9 24 0 -2.38418579e-07
9 0 0 0
10 11 28 0
11 12 30 0 4.76837158e-07
12 0 0 0
13 0 0 0

这个fst的第三列，输入，是transition-id；输出是音素。其对应的图如下

上面图中，圆圈表示的就是状态，里面的数字是状态的id。弧上面，冒号前面的数字时transition-id，冒号后面的数字是输出的音素；斜杠后面的数字是权重。

其中0-7-8-9-0这条“路径”，表示的就是音素Y； 0-10-11-12-0表示的就是音素N。

按照同样的方法，可以打印和画出 HCLGa.fst 和 HCLG.fst的内容。

其他有用的fst相关的命令： fstinfo fstcopy

[转] kaldi中FST的可视化-以yesno为例的更多相关文章

[转]决策树在Kaldi中如何使用
转自:http://blog.csdn.net/chenhoujiangsir/article/details/51613144 说明:本文是kaldi主页相关内容的翻译(http://kaldi-a ...
kaldi中CD-DNN-HMM网络参数更新公式手写推导
在基于DNN-HMM的语音识别中,DNN的作用跟GMM是一样的,即它是取代GMM的,具体作用是算特征值对每个三音素状态的概率,算出来哪个最大这个特征值就对应哪个状态.只不过以前是用GMM算的,现在用D ...
Docker入门（四）——MySQL镜像中的数据库可视化
在详细介绍这篇文章的内容前,需要说明下笔者写这篇文章的意图:笔者在现有的开发中,前后端联调的方式为Docker镜像对接,数据库使用MySQL镜像,开发环境为远程服务器,因此,笔者迫切需要一种能将远 ...
Python 数据分析中常用的可视化工具
Python 数据分析中常用的可视化工具 1 Matplotlib 用于创建出版质量图表的绘图工具库,目的是为 Python 构建一个 Matlab 式的绘图接口. 1.1 安装 Anaconada ...
关于 underscore 中模板引擎的应用演示样例
//关于 underscore 中模板引擎的应用演示样例 <!doctype html> <html> <head> <meta charset=" ...
OpenJDK源码研究笔记(十三):Javac编译过程中的上下文容器(Context)、单例(Singleton)和延迟创建(LazyCreation)3种模式
在阅读Javac源码的过程中,发现一个上下文对象Context. 这个对象用来确保一次编译过程中的用到的类都只有一个实例,即实现我们经常提到的"单例模式". 今天,特意对这个上下文 ...
以kaldi中的yesno为例谈谈transition
在基于GMM-HMM的传统语音识别里,比音素(phone)更小的单位是状态(state).一般每个音素由三个状态组成,特殊的是静音(SIL)由五个状态组成.这里所说的状态就是指HMM里的隐藏的状态,而 ...
Kaldi中的Chain模型
Chain模型的训练流程链式模型的训练过程是MMI的无网格的版本,从音素级解码图生成HMM,对其使用前向后向算法,获得分母状态后验,通过类似的方式计算分子状态后验,但限于对应于转录的序列. 对于神经 ...
【Unity】13.1 场景视图中的GI可视化
分类:Unity.C#.VS2015 创建日期:2016-05-19 一.简介在场景视图中设计不同的场景内容时,可以根据需要勾选相关的渲染选项,以便让场景仅显示其中的一部分或者全部渲染效果. 在这些 ...

随机推荐

转*SqlSever查询某个表的列名称、说明、备注、注释，类型等
@原文地址关键部分如下: ------sqlserver 查询某个表的列名称.说明.备注.类型等 SELECT 表名 then d.name else '' end, 表说明 then isnull ...
Redis分布式缓存
Redis 主 slave 数据库优化-- 加inex, 分区 JVM调优--参数设置,比如偏向于计算的如何设置? 线程池:queue放满了之后,有什么方式能让他不拒绝掉?blockqueue就等在那 ...
selenium之 chromedriver与chrome版本映射表（更新至v2.46）
chromedriver版本支持的Chrome版本 v2.46 v71-73 v2.45 v70-72 v2.44 v69-71 v2.43 v69-71 v2.42 v68-70 v2.41 v6 ...
mkfs.ext4快速格式化大容量硬盘
安装ext4: yum -y install e4fsprogs 使用如下命令可以快速格式化大容量硬盘: mkfs.ext4 -T largefile /dev/xxx
sftp免密登录
最近在linux服务器上搭建了一个sftp服务器,在做免密登录时,因为理解的问题,走了些弯路,在此记录一下. 先来说一下服务器端,在服务端的每一个用户的根目录下都有一个.ssh目录,在这个下面放的公私 ...
kubenetes安装记录和要点
https://blog.csdn.net/jinglexy/article/details/79813546 在官网web上进行kubenetes测试:kubectl run kubernetes- ...
linux wc使用详解
转载:https://www.cnblogs.com/peida/archive/2012/12/18/2822758.html Linux系统中的wc(Word Count)命令的功能为统计指定文件 ...
参加公司工作总结会要准备的内容 IT 技术部
季度总结PPT内容: 1.工作总概述:在总结期内完成的具有代表性的工作内容(最好是直观的实现界面或功能演示截图,而不是苍白的文字描述): 2.问题总结:操作有难度或者难以把握的问题,在和相关人员沟通后 ...
new-xml-data
~<cyfxml> <hhis> <hhi name="大货系统" is-sub-item-folder="True" is-su ...
shell脚本编写某一文件夹内拷贝某一段文件（有则跳过没有则拷贝）
必须是同一台服务器下,或者挂载目录,不同服务器下没办法查询目录中是否有该文件如果不在同一服务器下,可以把要查询的那个服务器的文件夹设置共享挂在到当前服务器或者可以把脚本写到要拷贝的服务器上,那么s ...

[转] kaldi中FST的可视化-以yesno为例

[转] kaldi中FST的可视化-以yesno为例的更多相关文章

随机推荐

热门专题