SRILM的使用及平滑方法说明

1.简介

SRILM是通过统计方法构建语言模型，主要应用于语音识别，文本标注和切分，以及机器翻译等。

SRILM支持语言模型的训练和评测，通过训练数据得到语言模型，其中包括最大似然估计及相应的平滑算法；评测是计算测试集的困惑度。其最基础和最核心的模块是n-gram模块，包括两个工具：ngram-count和ngram，被用来估计语言模型和计算语言模型的困惑度。

2.使用方法

(1).语料初始化

a.数据清洗 b.分词(以空格划分) c.将数据分为训练集和测试集

(2).从训练集中统计n-gram

ngram-count -text train.txt -order  -write train.count

其中参数-text指向训练集；-order指向生成几元的n-gram；-write指向输出文件，其包含两列，第一列为n元词，第二列为相应的频率。

(3).训练语言模型

ngram-count -read train.count -order  -lm train.lm -interpolate -kndiscount

其中参数-read指向(2)中的输出文件；-order同上；-lm指向语言模型输出文件，其为 ARPA文件格式；最后两个参数为所采用的平滑方法，-interpolate为插值平滑，-kndiscount为 modified　Kneser-Ney 打折法，这两个是联合使用的。

(4).测试语言模型

ngram -ppl test.txt -order  -lm train.lm >　train.lm.ppl

其中test.txt为测试集；参数-ppl对测试集句子进行评分(logP(T)，其中P(T)为所有句子的概率乘积）和计算测试集困惑度的参数；train.lm.ppl为输出结果文件；其他参数同上。输出文件结果如下：

file devtest2006.en: 2000 sentences, 52388 words, 249 OOVs

0 zeroprobs, logprob= -105980 ppl= 90.6875 ppl1= 107.805

第一行文件devtest2006.en的基本信息：2000句，52888个单词，249个未登录词；

第二行为评分的基本情况：无0概率；logP(T)=-105980，ppl==90.6875, ppl1= 107.805，均为困惑度。

参考博客

https://blog.csdn.net/zhoubl668/article/details/8365716

3.平滑方法说明

在训练语言模型中，往往训练语料只是输入空间中的一个采样，也就是语料不足以包含所有情况的ngram，这样就会出现0概率的ngram。为了解决这种问题，就需要用到打折(discounting)或叫平滑(smoothing)方法。常用回退(backoff)和插值(interpolate)法实现平滑。

(1).回退

(2).插值

SRILM的使用及平滑方法说明的更多相关文章

CTR预估中的贝叶斯平滑方法及其代码实现
1. 背景介绍广告形式: 互联网广告可以分为以下三种: 1)展示广告(display ad) 2)搜索广告(sponsored search ad) 3)上下文广告(contextual ad) ...
CTR预估中的贝叶斯平滑方法（二）参数估计和代码实现
1. 前言前面博客介绍了CTR预估中的贝叶斯平滑方法的原理http://www.cnblogs.com/bentuwuying/p/6389222.html. 这篇博客主要是介绍如何对贝叶斯平滑的参 ...
CTR预估中的贝叶斯平滑方法（一）原理及实验介绍
1. 背景介绍广告形式: 互联网广告可以分为以下三种: 1)展示广告(display ad) 2)搜索广告(sponsored search ad) 3)上下文广告(contextual ad) ...
语言模型 N-gram 与其平滑方法推导
N-gram N-gram 作为一个名词表示的是一个给定文本/音频样本中有n项(音素,音节,字母,单词)的一个连续序列. 数学表达 N-gram 模型表示的是当前这个 word \(w_i\) 依赖于 ...
SRILM Ngram 折扣平滑算法
关于n-gram 语言模型,大部分在这篇博客里记过了, SRILM 语言模型格式解读 , 其实看完了,ngram的大概用法都比较清楚了, 但是关于平滑算法,一直很模糊,就晓得一个"劫富 ...
[转]语言模型训练工具SRILM
SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现 ...
Ngram折扣平滑算法
本文档翻译自srilm手册ngram-discount.7.html NAME ngram-discount – 这里主要说明srilm中实现的平滑算法 NOTATION a_z ...
OpenCV学习 3：平滑过度与边缘检测
原创文章,欢迎转载,转载请注明出处用来记录学习的过程,这个是简单的相关函数的熟悉,内部机制和选择何种选择函数参数才能达到自己的要求还不太清楚,先学者吧..后面会慢慢清楚的. 和前面相比,主 ...
Kinect2.0骨骼跟踪与数据平滑
Kinect v1和Kinect v2传感器的配置比较: Kinect v1 Kinect v2 颜色(Color) 分辨率(Resolution) 640×480 1920× ...

随机推荐

VM下安装Windows 2008 R2服务器操作系统
打开虚拟机,双击双击新的虚拟机. 2 硬件兼容性选择workstation10.点击下一步. 3 选择我以后安装操作系统.点击继续 4 选择Microsoft windows,版本为windows s ...
Centos7的防火墙关闭
第一步.centos7安装service 第二步. 或者可以不用service,有另一个办法.
Java好的的工具类:JsonUtils
package com.nxhfzx.gdshopping.utils; import java.util.List; import com.fasterxml.jackson.core.JsonPr ...
第五篇、Python之迭代器与生成器
1.迭代和递归等概念循环(loop):指的是在满足条件的情况下,重复执行同一段代码.比如,while语句,for循环. 迭代(iterate):指的是按照某种顺序逐个访问列表中的每一项.比如,for ...
react组建生命周期
实例化首次实例化 getDefaultProps //创建默认 props getInitialState //创建默认的State componentWillMount //在装 ...
Json、JavaBean、Map、XML之间的互转
思路是JavaBean.Map.XML都可以用工具类很简单的转换为Json,进而实现互相转换 1.Map.XML与Json互转 mvn依赖 <dependency> <groupId ...
使用cmd命令导入SQL文件
1 . 进入SQL安装目录下的bin目录,比如我的是在 C:\Program Files\MySQL\MySQL Server 5.5\bin目录下 2. 开始 --->运行--->输入c ...
SQL Server扩展事件的使用ring_buffer target时“丢失”事件的原因分析以及ring_buffer target潜在的问题
事情起因: 排查SQL Server上的死锁问题,一开始想到的就是扩展事件, 第一种方案,开profile守株待兔吧,显得太low了,至于profile的变种trace吧,垂垂老矣,也一直没怎么用过. ...
webapi+ajax跨域问题及cookie设置
最近小玩了点东西,发现简单的东西总能遇到点问题 1.webapi跨域设置 [EnableCors(origins: "*", headers: "*", met ...
[]、()、None的区别
def product(*numbers): if numbers == (): raise TypeError for x in numbers: if not isinstance (x, (in ...

SRILM的使用及平滑方法说明

SRILM的使用及平滑方法说明的更多相关文章

随机推荐

热门专题