【转】统计模型-n元文法

在谈N-Gram模型之前，我们先来看一下Mrkove假设：

　　1.一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词；

　　2.一个词出现的概率条件地依赖于前N-1个词的词类。

定义

　　N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型（CLM，Chinese Language Model）。汉语语言模型利用上下文中相邻词之间的搭配信息，在需要把连续无空格的拼音、比划，或者代表字母或者比划的数字，转换成汉字串（即句子）时，可以计算出具有最大概率的句子，从而实现到汉字之间的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音的重码问题。

　　该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其他任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从预料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。在中文语言模型中，可以字、词、词性(POS)或词义等作为n-gram的统计单元。

　　由于n-gram模型只观察2到3个历史信息，所以它反映的是语言的局部规律，但如果训练语料足够大，模型构造合理，这个局部规律比较可靠。利用这一特点，我们还可以应用n-gram对文本进行局部分析，以查出文本中的局部错误。它基于如下假设：对正确的语言现象，词与词之间的共现概率比较高，对一些不符合语法的错误语言，词与词之间的共现概率较低。

详细介绍

　　- - N-gram思想

　　在介绍N-gram模型之前，让我们先来做个香农游戏（Shannon Game）。我们给定一个词，然后猜测下一个词是什么。当我说“艳照门”这个词时，你想到下一个词是什么呢？我想大家很有可能会想到“陈冠希”，基本上不会有人会想到“陈志杰”吧。N-gram模型的主要思想就是这样的。

　　对于一个句子T，我们怎么算它出现的概率呢？假设T是由词序列W1W2W3…Wn组成的，那么，

　　P(T)=P(W1W2W3...Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

　　但这样做的两个致命缺陷是：

　　（1）参数空间过大；

　　（2）数据稀疏严重。

　　为了解决这个问题，引入Markov假设：一个词的出现仅仅依赖于他前面出现的有限的一个或者几个词。

　　如果一个词的出现仅仅依赖于他前面出现的一个词，那么我们就称之为Bi-gram，即

　　 P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

　　同样地，如果一个词的出现仅仅依赖于前面出现的两个词，那么我们就称之为Tri-gram。

　　在实践中用的最多的就是bigram和trigram了，而且效果很不错。高于四元的用的很少，因为训练它需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多。

　　- -计算P(Wn|W1W2…Wn-1)

　　那么我们怎么得到P(Wn|W1W2…Wn-1)呢？一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate）了。即

　　P(Wn|W1W2…Wn-1) = (C(W1 W2…Wn))/(C(W1 W2…Wn-1))

　　剩下的工作就是在训练语料库中数数儿了，即统计序列C(W1 W2…Wn) 出现的次数和C(W1 W2…Wn-1)出现的次数。

举例介绍

　　模型为Bi-gram，假设语料库总词数为13748

稀疏问题

　　这里还有一个问题要说，那就是数据稀疏问题了，假设词表中有20000个词，如果是Bi-gram那么可能的N-gram就有400000000个，如果是trigram，那么可能的N-gram就有8000000000000个！那么对于其中的很多词对的组合，在语料库中都没有出现，根据最大似然估计得到的概率将会是0，这会造成很大的麻烦，在算句子的概率时一旦其中的某项为0，那么整个句子的概率就会为0，最后的结果是，我们的模型只能算可怜兮兮的几个句子，而大部分的句子算得的概率是0. 因此，我们要进行数据平滑（data Smoothing），数据平滑的目的有两个：一个是使所有的N-gram概率之和为1，使所有的N-gram概率都不为0.有关数据平滑的详细内容后面会再讲到，这里不再赘述。

【转】统计模型-n元文法的更多相关文章

Nature重磅：Hinton、LeCun、Bengio三巨头权威科普深度学习
http://wallstreetcn.com/node/248376 借助深度学习,多处理层组成的计算模型可通过多层抽象来学习数据表征( representations).这些方法显著推动了语音识别 ...
【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...
实战HMM-Viterbi角色标注地名识别
http://www.hankcs.com/nlp/ner/place-names-to-identify-actual-hmm-viterbi-role-labeling.html 命名实体识别(N ...
DeepNLP的核心关键/NLP词的表示方法类型/NLP语言模型 /词的分布式表示/word embedding/word2vec
DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇.序一.DeepNLP的核心关键:语言表示(Representation) 二.NL ...
NLP十大里程碑
NLP十大里程碑 2.1 里程碑一:1985复杂特征集复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...
深度学习综述（LeCun、Bengio和Hinton）
原文摘要:深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示.这些方法在很多方面都带来了显著的改善,包含最先进的语音识别.视觉对象识别.对象检測和很多其他领域,比如药物发现和基 ...
NLP之语言模型
参考: https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENA http://yangminz.coding.me/blog/post/MinkolovRN ...
word2vec原理浅析
1.word2vec简介 word2vec,即词向量,就是一个词用一个向量来表示.是2013年Google提出的.word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型( ...

随机推荐

JS实现有点炫的图片展示效果-图片解体和组合
经过4个月的努力学习,迎来了进入市场的最后一个学习项目.自己模仿了一个图片展示效果,用在了项目中,感觉挺炫的.在这里分享一下,希望大家喜欢~! bomb-showImg : 在线演示http://ru ...
HowTo:使用数据流读写消息
本文主要演示使用TPL 数据流库从数据流块(dataflow block)读写消息. 提供了同步方法和异步方法. 主要使用BufferBlock,其既能作为message source,有能作为m ...
Azkaban 2.5.0 job type 插件安装
一.环境及软件安装环境: 安装目录: /usr/local/ae/ankaban Hadoop 安装目录 export HADOOP_HOME=/usr/local/ae/hadoop-1.2.1 ...
使用expdp时遇到ORA-39002、ORA-39070错误
使用expdp时,遇到”ORA-39002.ORA-39070......”连续报错. 1. 遇到的问题 expdp yguo/dbimp@botnet schemas=yguo dumpfile= ...
BZOJ 1901 & 整体二分
题意: 带修改的区间第K小. SOL: 看了很久很久很久很久的整体二分,网上的各种题解也不是很多,也一直很不了解所谓的"贡献","将询问一起递归"是什么意思.. ...
20145304 Java第八周学习报告
20145304<Java程序设计>第八周学习总结教材学习内容总结 NIO NIO使用频道来衔接数据节点,在处理数据时,NIO可以让你设定缓冲区容量,在缓冲区中对感兴趣的数据区块进行标记 ...
20145308刘昊阳《Java程序设计》实验一 Java开发环境的熟悉实验报告
20145308刘昊阳 <Java程序设计>实验一报告实验名称 Java开发环境的熟悉实验内容使用JDK编译.运行简单的Java程序 2.使用Eclipse 编辑.编译.运行.调试J ...
Code[VS] 2152 滑雪题解
Code[VS] 2152 滑雪题解题目描述 Description trs喜欢滑雪.他来到了一个滑雪场,这个滑雪场是一个矩形,为了简便,我们用r行c列的矩阵来表示每块地形.为了得到更快的速度,滑行 ...
【BZOJ3207】花神的嘲讽计划I 可持久化线段树/莫队
看到题目就可以想到hash 然后很自然的联想到可持久化权值线段树 WA:base取了偶数这道题还可以用莫队做,比线段树快一些可持久化线段树: #include<bits/stdc++.h&g ...
ffmpeg入门
总入口 http://blog.csdn.net/leixiaohua1020/article/details/15811977 各结构体介绍 http://blog.csdn.net/leixiao ...

【转】统计模型-n元文法

【转】统计模型-n元文法的更多相关文章

随机推荐

热门专题