Good-turning估计

在学习NLP过程中，遇到了Good-turning的介绍，网上找了相关的资料查看，总结如下。

思想：

其主要思想是从概率的总量中分配少量的比例给零概率项。

思路：

假定给定的语料库中出现 \(r\)次数的词有\(N_r\)个，则有

\[N = \sum_{i=1}^{\infty }rN_r
\]

当\(r\)较小时，我们使用\(d_r\)代替\(r\)，这里\(d_r < r\)，\(d_r\)的值可有下式表示

\[d_r = ( r+1 )N_{r+1}/N_r
\]

其期望可以表示为

\[\hat{\theta }\left ( r \right )=\frac{1}{N}\left (r+1 \right )\frac{N_{r+1}}{N_r}
\]

其中\(N\)为现有语料库中所有单词频数的总和，这样可以保证

\[N = \sum_{r}^{ }d_rN_r
\]

一般情况下，发生次数为\(r\)的词个数大于发生次数为\(r+1\)的词个数，\(r\)越大，词的数量\(N_r\)越小。通过Good-turning smooth可以让数据稀疏度有效的降低，所有词的概率估计会看起来很平滑。

证明：

要证明上述假设的正确性，只需要证明期望和为1即可，即

\[\sum_{r}^{ }\hat{\theta }\left ( r \right )N_r=1
\]

证明

\[\sum_{r}^{ }\hat{\theta }\left ( r \right )N_r=\frac{1}{N}\sum_{r}^{ }\left (r+1 \right )\frac{N_{r+1}}{N_r}N_r=\frac{1}{N}\sum_{r}^{ }\left (r+1 \right )N_{r+1}
\]

我们知道

\[\sum_{r}^{ }\left (r+1 \right )N_{r+1}=\sum_{r}^{ }rN_r
\]

另外

\[\frac{1}{N}\sum_{r}^{ }rN_r=\frac{N}{N}=1
\]

则

\[\sum_{r}^{ }\hat{\theta }\left ( r \right )N_r=\frac{1}{N}\sum_{r}^{ }\left (r+1 \right )N_{r+1}=\frac{1}{N}\sum_{r}^{ }rN_r=1
\]

故上述证明说明了Good-turning估计的正确性

参考文章：

Good-turning估计

srilm语言模型中的平滑算法——Good-Turing平滑算法

Good-turning估计的更多相关文章

DataBase异常状态：Recovery Pending，Suspect，估计Recovery的剩余时间
一,RECOVERY PENDING状态今天修改了SQL Server的Service Account的密码,然后重启SQL Server的Service,发现有db处于Recovery Pendi ...
Automysqlbackup: WARNING: Turning off multicore support, since pigz isn’t there.
在使用Automysqlbackup备份MySQL时,有时候你会在邮件里面看见"WARNING: Turning off multicore support, since pigz isn' ...
相机位姿估计1_1：OpenCV:solvePnP二次封装与性能测试
关键词:OpenCV::solvePnP 文章类型:方法封装.测试 @Author:VShawn(singlex@foxmail.com) @Date:2016-11-27 @Lab: CvLab20 ...
相机位姿估计0：基本原理之如何解PNP问题
关键词:相机位姿估计 PNP问题求解用途:各种位姿估计文章类型:原理 @Author:VShawn(singlex@foxmail.com) @Date:2016-11-18 @Lab: CvLa ...
SPSS数据分析—广义估计方程
广义线性模型虽然很大程度上拓展了线性模型的应用范围,但是其还是有一些限制条件的,比如因变量要求独立,如果碰到重复测量数据这种因变量不独立的情况,广义线性模型就不再适用了,此时我们需要使用的是广义估计 ...
手势估计- Hand Pose Estimation
http://blog.csdn.net/myarrow/article/details/51933651 1. 目前进展 1.1 相关资料 1)HANDS CVPR 2016 2 ...
多元线性回归 ——模型、估计、检验与预测
一.模型假设传统多元线性回归模型最重要的假设的原理为: 1. 自变量和因变量之间存在多元线性关系,因变量y能够被x1,x2-.x{k}完全地线性解释:2.不能被解释的部分则为纯粹的无法观测到的误差 ...
.net 估计要死在你手里了
最近不太爽,想换工作,上这些知名的招聘网站,一搜 .net 心凉了一截,很少有大公司用.net,工资也不是很高. 不用我多说什么,想必很多人应该有类似经历,只是打了牙往肚子里咽. 来两副图: 最近用滴 ...
最大似然估计(MLE)与最小二乘估计(LSE)的区别
最大似然估计与最小二乘估计的区别标签(空格分隔): 概率论与数理统计最小二乘估计对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小. ...
Daily Scrum1--团队项目分工及估计时间
团队项目分工及估计时间 PM(黄剑锟): 任务一:监督进度,将每一天完成的任务总结,在各个部分进行协调与帮助.(贯穿整个项目周期) 任务二:提高搜索反应时间,优化搜索算法.(估计时间8小时) 程序设计 ...

随机推荐

前端03 /css简绍/css选择器
前端03 /css简绍/css选择器目录前端03 /css简绍/css选择器昨日内容回顾 html标签常用标签 table标签:表格标签 input标签 select下拉框 textarea多 ...
Python函数05/内置函数/闭包
Python函数05/内置函数/闭包目录 Python函数05/内置函数/闭包内容大纲 1.内置函数(二) 2.匿名函数及内置函数(重要) 3.闭包 4.今日总结 5.今日练习内容大纲 1.内置 ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
面试软件测试工程师——盘点HR的那些黑话
当疫情过后,应该有很多测试实习生寻找测试岗或者已从业测试岗的群体进行跳槽:最近也收到很多测试新生的咨询,在这里简单分享一下!老铁们走起!今天在这里就简单做跟大家聊一聊面试过程中你与面试官/HR聊天过程 ...
vue : watch、computed、以及对象数组
watch和computed是vue框架中很重要的特性. 那么,他们是怎么作用于对象数组的? 今天我们就来探究一下. 上代码. <template> <div class=" ...
java基础知识--数据类型
计算机时识别不了我们编写的代码语言,计算机中的数据全部采用二进制表示,即0和1表示的数字,每一个0或者1就是一个位,一个位叫做一个bit(比特).(实际上计算机只能识别高低电平,而不是0和1.) 字节 ...
Win7安装Python失败提示Setup failed
一.安装报错如图所示,双击Python安装包后进行安装显示Setup failed 安装失败: 二.错误排除 1.首先查看自己的计算机是否已经安装了 Win7 Service Pack 1大补丁,没 ...
Terminal终端控制台常用操作命令
新建文件夹和文件 cd .. 返回上一级 md test 新建test文件夹 md d:\test\my d盘下新建文件夹 cd test 进入test文件夹 cd.>cc.txt 新建cc.t ...
【C++】初次学习C++指针时的一些易混或疑惑的地方
C++中的指针是一个比较复杂的知识概念,最近我有在学习这一方面的知识,就借此文章记录一下在学习时容易产生的混淆.本人初次发技术类的分享,可能会有纰漏,欢迎诸位指正^_^! 1.*在两种语境下的含义先 ...
初识Elastic search—附《Elasticsearch权威指南—官方guide的译文》
本文作为Elastic search系列的开篇之作,简要介绍其简要历史.安装及基本概念和核心模块. 简史 Elastic search基于Lucene(信息检索引擎,ES里一个index—索引,一个索 ...

Good-turning估计

思想：

思路：

证明：

参考文章：

Good-turning估计的更多相关文章

随机推荐

热门专题