Getting started, and prerequisites.

rm/s5/run.sh

Data preparation

如果有GridEngine,

train_cmd="queue.pl -q all.q@a*.clsp.jhu.edu"
decode_cmd="queue.pl -q all.q@[ah]*.clsp.jhu.edu"

如果需要在本地运行

train_cmd="run.pl"
decode_cmd="run.pl" 创建训练集和测试集
local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp 
生成如下:
  • local : Contains the dictionary for the current data.   包含当前数据的发音词典
  • train : The data segmented from the corpora for training purposes.  训练数据的seg标注信息
  • test_* : The data segmented from the corpora for testing purposes. 测试数据的seg标注信息
cd local/dict
head lexicon.txt
head nonsilence_phones.txt
head silence_phones.txt  /train和/test结构相同
head text
head spk2gender.map
head spk2utt
head utt2spk
head wav.scp
wc train/text test_feb89/text 比较训练集和测试集的词数,文件大小

下一步创建原始的语言文件
utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang
这将会产生一个lang的文件夹,里面包含一个FST描述语言文件,输出文件夹(data/lang). words.txt and phones.txt(data/lang/)被会用到,它们是openfst格式的符号表,代表从一个字符串到整数
的映射,
suffix .csl (in data/lang/phones)   non-silence, and silence, phones 整数id键值对列表
phones.txt (in data/lang/) 音素符号表,处理FST的歧义符号,这些符号会被替换成 #1, #2  L.fst是编译后的lexicon FST格式。
用下面的命令可以查看L.fst的内容
fstprint --isymbols=data/lang/phones.txt --osymbols=data/lang/words.txt data/lang/L.fst | head
如果没有找到fstpirnt命令,则需要将OPenFst添加到PATH环境,或者简单点执行../path.sh

下一步使用上一步创建的文件,创建一个FST描述语法
 local/rm_prepare_grammar.sh,将会产生/data/lang/G.fst.

Feature extraction

Monophone training

输出文件夹:
exp/mono
nohup steps/train_mono.sh --nj 4 --cmd "$train_cmd" data/train.1k data/lang exp/mono &
tail nohup.out
data/lang/topo 立即创建,1个音素的内部状态转移topo
data/phones.txt 音素 音素id 查看生成的模型文件0.mdl gmm-copy --binary=false exp/mono/0.mdl - | less
mdl file 包含两个对象,1个对象TransitionModel,它包含HMM拓扑信息;1个对象包含模型类型

查看tree文件
copy-tree --binary=false exp/mono/tree - | less
单音素的tree,它没有任何的splits。  exp/mono/ali.1.gz
 copy-int-vector "ark:gunzip -c exp/mono/ali.1.gz|" ark,t:- | head -n 2

 这是训练数据的维特比对其,对于每个训练文件都有1行。对齐文件里面有许多数字,都是特别大,它里面并不包含pdf的id,而是transition-id,它以音素的
topo原型,编码音素和transition,这是非常有用的,如果想查看transitions信息,则如下命令:
 show-transitions data/lang/phones.txt exp/mono/0.mdl

为了更清晰的查看对齐,可以用下面的命令
 show-alignments data/lang/phones.txt exp/mono/0.mdl "ark:gunzip -c exp/mono/ali.1.gz |" | less
查看训练过程;匹配log文件overall关键字行
grep Overall exp/mono/log/acc.{?,??}.{?,??}.log
当单音素训练完毕,可以进行解码测试,如下命令
utils/mkgraph.sh --mono data/lang exp/mono exp/mono/graph
 which fstdeterminizestar
在图创建完后,开始解码
steps/decode.sh --config conf/decode.config --nj 20 --cmd "$decode_cmd" \
exp/mono/graph data/test exp/mono/decode
less exp/mono/decode/log/decode.2.log 

从2.tra文件里查看真实的解码词序列,命令:
words.txt包含了词与int的关系
utils/int2sym.pl -f 2- data/lang/words.txt exp/mono/decode/scoring/2.tra

查看真实的解码词序列,然后再转换回整型:

utils/int2sym.pl -f 2- data/lang/words.txt exp/mono/decode/scoring/2.tra | \
utils/sym2int.pl -f 2- data/lang/words.txt   将符号转换成整数
tail exp/mono/decode/log/decode.2.log  查看decode.2.log结尾一些总结性信息
 
gmm-decode-faster
 Decode features using GMM-based model.
												

kaldi实例脚本运行的更多相关文章

  1. unity脚本运行顺序具体的解释

    unity脚本自带函数执行顺序例如以下:将以下脚本挂在随意物体执行就可以得到 Awake ->OnEable-> Start ->-> FixedUpdate-> Upd ...

  2. Linux版Matlab R2015b的bug——脚本运行的陷阱(未解决)

    0 系统+软件版本 系统:CentOS 6.7 x64, 内核 2.6.32-573.el6.x86_64软件:Matlab R2015b(包括威锋网和东北大学ipv6下载的资源,都测试过) 1 脚本 ...

  3. genymotion+Oracle VM VirtualBox + eclipse + appium 脚本运行慢解决步骤

    genymotion+Oracle VM VirtualBox + eclipse + appium 脚本运行慢解决步骤 1.lenove 机器启动时按F1 进入bios 设置,设置cpu virtu ...

  4. Ansible 脚本运行一次后,再次运行时出现报错情况,原因:ansible script 的格式不对,应改成Unix编码

    Ansible 脚本运行一次后,再次运行时出现报错情况,原因:ansible  script 的格式不对,应改成Unix编码 find . -name "*" | xargs do ...

  5. 插件写法之脚本运行环境,mac和window检测

    (function(root, factroy){   /* * 在这里进行对脚本运行环境的检测判断 * 浏览器中 有window对象 * node.js服务器端 有Global对象 * * IE11 ...

  6. 把Scala代码当作脚本运行

    1. 在类UNIX系统上作为脚本运行 在类Unix系统上,你可以设置一个shell前导词来执行脚本.如下例: Script.scala #!/usr/bin/env scala !# println( ...

  7. 来来来,有讲一个吐血的故事(matlab)之脚本运行路径是什么

    脚本运行路径是什么,这真是太重要!! 重要1:你默认保存的路径 重要2:你访问的相对路径 先放图: 再看一幅图: 我的操作,点击左侧的文件夹,使上框的显示栏路径不一样,再点击运行,发现pwd指示的路径 ...

  8. bat脚本运行py文件失败(一闪而过)

    简单记录下问题及原因,方便回顾. 问题 通过 bat 脚本运行 py 文件时,终端一闪而过,没能成功运行. 查证后发现问题出在编码上: 首先检查下bat文件编码格式(推荐 notepad++ ) 打开 ...

  9. LoadRunner如何在脚本运行时修改log设置选项

    LoadRunner如何在脚本运行时修改log设置选项?答案是使用lr_set_debug_message函数: lr_set_debug_message Sets the message level ...

随机推荐

  1. 20165304 2017-2018-2《Java程序设计》学习总结

    20165304 2017-2018-2<Java程序设计>学习总结 一.每周作业及实验报告链接汇总 1.我期望的师生关系 2.20165304学习基础和C语言基础调查 3.linux系统 ...

  2. Redux-persist使用

    redux-persist作用是将store中的数据缓存到浏览器中,减少数据请求,每当白名单中的数据发生变化,才会进行一次更新缓存的操作,并且这个数据缓存是存在localStorage中的,不是会话级 ...

  3. 非virtual函数,用指针进行upcast

    void print_func(A* p) { p -> print(); } int main() { A a(); B b(,); //a.print(); //b.print(); pri ...

  4. linux check

    建议安装chkrootkit.rkhunter.Lynis.ISPProtect这类安全工具,定期做扫描

  5. centos系统有多个内核,修改默认启动内核

    打开系统文件 vim  /boot/grub/grub.conf default=0,意思是GRUB在默认情况下,也就是用户没有选择的情况下,去启动显示在用户界面的第一个系统:GRUB启动系统时是从0 ...

  6. c++ 中的数字和字符串的转换

    理由:一直忘记数字型的字符串和数字之间的转换,这次总结一下,以便后面再次用到. 其实 C++ 已经给我们写好了相应的函数,直接拿来用即可 QA1:如何把一个数字转换为一个数字字符串?(这个不是很常用) ...

  7. Android 滑块验证

    先上图看看实现效果 1.在 app 的 build.gradle 添加依赖 implementation 'com.luozm.captcha:captcha:1.1.2' 2.将 Captcha 添 ...

  8. Python+Selenium学习--自动化测试模型

    前言 一个自动化测试框架就是一个集成体系,在这一体系中包含测试功能的函数库.测试数据源.测试对象识别标准,以及种可重用的模块.自动化测试框架在发展的过程中经历了几个阶段,模块驱动测试.数据驱动测试.对 ...

  9. Mac 安装、卸载JDK 1.6

    卸载 输入 sudo rm -fr /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin sudo rm -fr /Library/Preferenc ...

  10. SpringMVC不能引入静态资源

    SpringMVC不能引入静态资源 问题:部署项目后程序加载或用浏览器访问时出现类似的警告, 2011-01-19 10:52:51,646 WARN [org.springframework.web ...