0-4评价一个语言模型Evaluating Language Models:Perplexity

有了一个语言模型，就要判断这个模型的好坏。

现在假设：

我们有一些测试数据，test data.测试数据中有m个句子;s1,s2,s3…,sm

我们可以查看在某个模型下面的概率：

我们也知道，如果计算相乘是非常麻烦的，可以在此基础上，以另一种形式来计算模型的好坏程度。

在相乘的基础上，运用Log，来把乘法转换成加法来计算。

补充一下，在这里的p(Si)其实就等于我们前面所介绍的q(the|*,*)*q(dog|*,the)*q(…)…

有了上面的式子，评价一个模型是否好坏的原理在于：

a good model should assign as high probability as possible to these test data sentences.

,this value as being a measure of how well the alleviate to make sth less painful or difficult to deal with language model predict these test data sentences.

The higher the better.

上面的意思也就是说，如果的值越大，那么这个模型就越好。

实际上，普遍的评价的指标是perplexity

其中，M的值是测试数据test data中的所有的数量。

那么从公式当中查看，可以知道。perplexity的值越小越好。

为了更好的理解perplexity，看下面这个例子：

我们现在有一个单词集V，N=|V|+1

有了上面的条件，可以很容易的计算出：

Perplexity是测试branching factor的数值。

branching factor又是什么呢？有的翻译为分叉率。如果branching factor高，计算起来代价会越大。也可以理解成，分叉率越高，可能性就越多，需要计算的量就越大。

上面的例子q=1/N只是一个举例，再看看下面这些真实的数据：

Goodman的结果，其中|V|=50000，在trigram model的中，Perplexity=74
在bigram model中，，Perplexity=137
在unigram model中，，perplexity=955

在这里也看到了，几个模型的perplexity的值是不同的，这也就表明了三元模型一般是性能良好的。

0-4评价一个语言模型Evaluating Language Models:Perplexity的更多相关文章

吴恩达机器学习笔记54-开发与评价一个异常检测系统及其与监督学习的对比（Developing and Evaluating an Anomaly Detection System and the Comparison to Supervised Learning）
一.开发与评价一个异常检测系统异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量
斯坦福大学自然语言处理第四课“语言模型（Language Modeling）”
http://52opencourse.com/111/斯坦福大学自然语言处理第四课-语言模型(language-modeling) 一.课程介绍斯坦福大学于2012年3月在Coursera启动了在 ...
NLP问题特征表达基础 - 语言模型（Language Model）发展演化历程讨论
1. NLP问题简介 0x1:NLP问题都包括哪些内涵人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
【NLP】Recurrent Neural Network and Language Models
0. Overview What is language models? A time series prediction problem. It assigns a probility to a s ...
Django 从0开始创建一个项目
title: Django 从0开始创建一个项目 tags: Django --- Django 从0开始创建一个项目创建Django工程及配置创建工程:django-admin starproj ...
ASP.NET Core 1.0 入门——了解一个空项目
var appInsights=window.appInsights||function(config){ function r(config){t[config]=function(){var i= ...
Java开发中经典的小实例-（鸡蛋0.1元一个，鸭蛋3元一个，鹅蛋6元一个。求一百元买一百个蛋。）
public class Test24 { public static void main(String[] args) { // 鸡蛋0.1元一个,鸭蛋3元一个,鹅蛋6元一个.求 ...
如何在Cocos2D 1.0 中掩饰一个精灵(一)
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请告诉我,如果觉得不错请多多支持点赞.谢谢! hopy ;) 原帖来自Ray Wunderlich写的精彩的文章 How To ...
【NLP】Conditional Language Models
Language Model estimates the probs that the sequences of words can be a sentence said by a human. Tr ...

随机推荐

centos官网镜像下载方法
1.CentoS简介 CentOS(Community Enterprise Operating System,社区企业操作系统)是一个基于Red Hat Linux 提供的可自由使用源代码的企业级L ...
Flink架构和调度
1.Flink架构 Flink系统的架构与Spark类似,是一个基于Master-Slave风格的架构,如下图所示: Flink集群启动时,会启动一个JobManager进程.至少一个TaskMana ...
oracle-参数文件的备份与还原
oracle-参数文件的备份与还原参数文件是实例启动到nomount状态的必要条件,规定了实例的行为特征,位置跟操作系统相关,一般unix类的系统在$ORACLE_HOME/dbs目录下 (wind ...
(四) appium-desktop 脚本录制常用AW使用介绍
通过使用appium-desktop录制脚本,编写app自动化脚本的过程中,会使用到一些AW,下面就这些AW的使用方法做详细的介绍.通过实践可以看到这几个AW可以完成测试工作. AWOpenGiveP ...
XSS注入常用语句（整理）
<script>alert('hello,gaga!');</script> //经典语句,哈哈! >"'><img src="javas ...
link标签中的integrity和crossorigin字段
https://blog.csdn.net/SNP_fuyun/article/details/77113985?locationNum=10&fps=1
2019 Multi-University Training Contest 2 - 1011 - Keen On Everything But Triangle - 线段树
http://acm.hdu.edu.cn/showproblem.php?pid=6601 首先要贪心地想,题目要最长的边长,那么要怎么构造呢?在一段连续的区间里面,一定是拿出最长的三根出来比,这样 ...
BZOJ 5317: [Jsoi2018]部落战争
传送门写出式子,若存在 $a \in A$,$b \in B$,使得 $b+v=a$,那么此方案会产生冲突即存在 $a \in A$,$b \in B$,使得 $v=a+(-b)$,设 $C=A+ ...
剑指offer-二叉树的下一结点-树-python
题目描述给定一个二叉树和其中的一个结点,请找出中序遍历顺序的下一个结点并且返回.注意,树中的结点不仅包含左右子结点,同时包含指向父结点的指针. 思路:中序遍历,pNode节点的下一个节点根据中序 ...
java中的数据类型，基本数据类型及其包装类型
java中的8大基本类型及其包装类型 1,int--->Integer 2,byte--->Byte 3,short--->Short 4,long--->Long 5,cha ...

0-4评价一个语言模型Evaluating Language Models:Perplexity

0-4评价一个语言模型Evaluating Language Models:Perplexity的更多相关文章

随机推荐

热门专题