语言模型srilm基本用法

一、基本训练

#功能

读取分词后的text文件或者count文件，然后用来输出最后汇总的count文件或者语言模型

#参数

输入文本：

  -read 读取count文件

  -text 读取分词后的文本文件

词典文件：

  -vocab 限制text和count文件的单词，没有出现在词典的单词替换为<unk>；如果没有，所有的单词将会被自动加入词典

  -limit-vocab 只限制count文件的单词（对text文件无效），没有出现在词典里面的count将会被丢弃

  -write-vocab 输出词典

语言模型：

  -lm 输出语言模型

  -write-binary-lm 输出二进制的语言模型

  -sort 输出语言模型gram排序

有两种训练方法，分别如下：

#choice1: text->count->lm

#ngram-count -text $text -vocab ${vocab} -order 2 -sort -tolower -lm ${arpa}

#choice2: text->count count->lm

#ngram-count -text ${text} -order 2 -sort -tolower -write ${count}

cat data/corpus/* | tools/SRILM/ngram-count -vocab dict/aicar.v9.wlist -text - -order 3 -debug 1 -interpolate -kndiscount -gt3min 1 -lm lm/aicar_music.v7.13.tg.lm &

二、语言模型打分

#功能

用于评估语言模型的好坏，或者是计算特定句子的得分，用于语音识别的识别结果分析。

#参数

计算得分：

  -order 模型阶数，默认使用3阶

  -lm 使用的语言模型

  -use-server S 启动语言模型服务，S的形式为port@hostname

  -ppl 后跟需要打分的句子（一行一句，已经分词），ppl表示所有单词，ppl1表示除了</s>以外的单词

    -debug  只输出整体情况

    -debug  具体到句子

    -debug  具体每个词的概率

产生句子：

  -gen 产生句子的个数

  -seed 产生句子用到的random seed

ngram -lm ${lm} -order  -ppl ${file} -debug  > ${ppl}

例:

./tools/SRILM/ngram -debug  -order  -lm lm/final/$name.pru1e-.fg.lm -ppl $fie.wseg > ppltest/ppl/$p.aicar0..pru1e-.fg.ppl

三、语言模型剪枝

#功能

用于减小语言模型的大小，剪枝原理参考(http://blog.csdn.net/xmdxcsj/article/details/50321613)

#参数

模型裁剪：

  -prune threshold 删除一些ngram，满足删除以后模型的ppl增加值小于threshold，越大剪枝剪得越狠

  -write-lm 新的语言模型

ngram -lm ${oldlm} -order  -prune ${thres} -write-lm ${newlm}

例:

./tools/SRILM/ngram -debug  -order  -lm lm/final/$name.fg.lm -prune 0.0000000000001 -write-lm lm/final/$name.pru1e-.fg.lm &

四、语言模型合并

#功能

用于多个语言模型之间插值合并，以期望改善模型的效果

#参数

模型插值：

  -mix-lm 用于插值的第二个ngram模型，-lm是第一个ngram模型

  -lambda 主模型（-lm对应模型）的插值比例，~，默认是0.

  -mix-lm2 用于插值的第三个模型

  -mix-lambda2 用于插值的第二个模型（-mix-lm对应的模型）的比例，那么第二个模型的比例为1-lambda-mix-lambda2

  -vocab 当两个模型的词典不一样的时候，使用该参数限制词典列表，没有效果

  -limit-vocab 当两个模型的词典不一样的时候，使用该参数限制词典列表，没有效果

ngram -lm ${mainlm} -order  -mix-lm ${mixlm} -lambda 0.8 -write-lm ${mergelm}

在合并语言模型之前，可以使用脚本计算出最好的比例，参考srilm的compute-best-mix脚本 #这个后面算下,如何求得最好的比例

五、语言模型使用词典限制

有两种方法可以根据给定的词典对模型加以限制
一种是在训练的时候使用-vocab限制
另外一种是在训练完成以后，使用srilm的脚本，如下：

#功能

对已有的语言模型，使用新的字典进行约束，产生新的语言模型

.n-grams的概率保持不变

.回退概率重新计算

.增加新的一元回退概率

#参数

模型裁剪：

  -vocab 词典单词的列表，不包括发音

  -write-lm 新的语言模型

change-lm-vocab -vocab ${vocab} -lm ${oldlm} -write-lm ${newlm} -order

这个一般都是在训练的时候加词典,很少在训练之后加.

语言模型srilm基本用法的更多相关文章

[转]语言模型训练工具SRILM
SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现 ...
SRILM语言模型格式解读
先看一下语言模型的输出格式 \data\ ngram = ngram = ngram = \-grams: -5.24036 'cause -0.2084827 -4.675221 'em -0.22 ...
SRILM Ngram 折扣平滑算法
关于n-gram 语言模型,大部分在这篇博客里记过了, SRILM 语言模型格式解读 , 其实看完了,ngram的大概用法都比较清楚了, 但是关于平滑算法,一直很模糊,就晓得一个"劫富 ...
Deep Learning in NLP （一）词向量和语言模型
原文转载:http://licstar.net/archives/328 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果.关于这 ...
Word2Vec之Deep Learning in NLP （一）词向量和语言模型
转自licstar,真心觉得不错,可惜自己有些东西没有看懂这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交 ...
SRILM的使用及平滑方法说明
1.简介 SRILM是通过统计方法构建语言模型,主要应用于语音识别,文本标注和切分,以及机器翻译等. SRILM支持语言模型的训练和评测,通过训练数据得到语言模型,其中包括最大似然估计及相应的平滑算法 ...
【NLP】自然语言处理：词向量和语言模型
声明: 这是转载自LICSTAR博士的牛文,原文载于此:http://licstar.net/archives/328 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领 ...
斯坦福大学自然语言处理第四课“语言模型（Language Modeling）”
http://52opencourse.com/111/斯坦福大学自然语言处理第四课-语言模型(language-modeling) 一.课程介绍斯坦福大学于2012年3月在Coursera启动了在 ...
srilm使用杂记
训练n-gram语言模型 ngram-count -text train.txt -order -lm model -kndiscount -interpolate -gt3min -gt4min 计 ...

随机推荐

《JavaScript高级程序设计（第三版）》-3
相等操作符相等和不相等在转换不同的数据类型时,相等和不想等操作符遵循下面基本规则: 如果有一个操作符数是布尔值,则在比较相等性之前先将其转换为数值——false转换为0,而true转换为1: 如果 ...
POJ1011 木棒（dfs+剪枝）
问题重述: Description乔治拿来一组等长的木棒,将它们随机地砍断,使得每一节木棍的长度都不超过50个长度单位.然后他又想把这些木棍恢复到为裁截前的状态,但忘记了初始时有多少木棒以及木棒的初始 ...
对于redis框架的理解(三)
上一篇讲完了initServer的大体流程,其中aeCreateEventLoop(),这个函数没有详细说明,我们在这一篇里讲述Ae.h和Ae.c, 这里面的api阐述了如何创建 eventLoop ...
[大数据可视化]-saiku的源码打包运行/二次开发构建
Saiku构建好之后,会将项目的各个模块达成jar包,整个项目也会打成war包 saiku目录结构: 我们选中saiku-server/target/ 下面的zip压缩包.这是个打包后的文件,进行 ...
Tests for normality正态分布检验
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/ ...
用python + openpyxl处理excel(07+)文档 + 一些中文处理的技巧
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&am ...
2.aop中几个注解的含义
参考地址:http://elim.iteye.com/blog/2395255
NYOJ 1022 合纵连横（并查集）
题目链接描述乱世天下,诸侯割据.每个诸侯王都有一片自己的领土.但是不是所有的诸侯王都是安分守己的,实力强大的诸侯国会设法吞并那些实力弱的,让自己的领土面积不断扩大.而实力弱的诸侯王为了不让自己的领 ...
netif_receive_skb->__netif_receive_skb_core
在设备驱动收包之后,会通过netif_receive_skb将收取的包,按照注册的协议回调,传递到上层进行处理: /* 将skb传递到上层 */ static int __netif_receive_ ...
linux内核数据结构之链表【转】
转自:http://www.cnblogs.com/Anker/p/3475643.html 1.前言最近写代码需用到链表结构,正好公共库有关于链表的.第一眼看时,觉得有点新鲜,和我之前见到的链表结 ...

语言模型srilm基本用法

一、基本训练

二、语言模型打分

三、语言模型剪枝

四、语言模型合并

五、语言模型使用词典限制

语言模型srilm基本用法的更多相关文章

随机推荐

热门专题