Negative log-likelihood function

姜楠 2024-09-27 18:20:59 原文

Softmax function

Softmax 函数 \(y=[y_1,\cdots,y_m]\) 定义如下：
\[y_i=\frac{exp(z_i)}{\sum\limits_{j=1}^m{exp(z_j)}}, i=1,2,\cdots,m\]

它具有很好的求导性质：
\[\frac{\partial y_i}{\partial z_i}=y_i* (1-y_i)\]

其中，\(y\)的每一个维度 \(y_i\) 表明，属于第 \(i\) 类的概率。求导过程，请参考：Softmax vs. Softmax-Loss: Numerical Stability

Negative log-likehood

当我们使用softmax 函数作为 output function的时候，即：
\[y=softmax(z)\]
\(z\) 在这里只表示某些需要优化的参数。

我们需要选择 negiative log-likelihood 作为代价函数( cost function), 也被称作 Cross-Entropy cost function. 即：
\[ E(t,y)= -\sum\limits_i {t_i \log y_i} \]

\(t\)表示的是 tagert, \(y\) 表示的是model's prediction. 通常，\(t\) 表示的是 one-hot representation, \(y\) 表示的是各类的 predicted probability.

Note

如果 \(t\) 采用的是 one-hot representation, 那么我们的计算公式是:
\[ E(t,y)= -t \log y\]

如果 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话，计算公式：
\[ E(t,y)= - \log y [t]\]

它的求导公式也很简单:
\[\frac{\partial E(t,y)}{\partial z_i}= \sum\limits_j {\frac{\partial E(t,y)}{\partial y_i}\frac{\partial y_j}{\partial z_j}}= y_i -t_i\]

Note

如果 \(t\) 采用的是 one-hot representation, 那么我们的计算公式是:
\[ \frac{\partial E(t,y)}{\partial z}= y -z\]

如果 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话，计算公式：
\[y[t]-=1\]
\[ \frac{\partial E(t,y)}{\partial z} := y\]

Negative log-likelihood function的更多相关文章

似然函数（likelihood function）
1. 似然函数基本定义令 X1,X2,-,Xn 为联合密度函数 f(X1,X2,-,Xn|θ),给定观测值 X1=x1,X2=x2,-,Xn=xn,关于 θ 的似然函数(likelihood fun ...
What is the reason that a likelihood function is not a pdf?
From: http://stats.stackexchange.com/questions/31238/what-is-the-reason-that-a-likelihood-function-i ...
likelihood(似然) and likelihood function(似然函数)
知乎上关于似然的一个问题:https://www.zhihu.com/question/54082000 概率(密度)表达给定下样本随机向量的可能性,而似然表达了给定样本下参数(相对于另外的参数)为真 ...
Likelihood function
似然函数统计学中,似然函数是一种关于统计模型参数的函数,表示模型参数中的似然性. 给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ ...
似然函数 | 最大似然估计 | likelihood | maximum likelihood estimation | R代码
学贝叶斯方法时绕不过去的一个问题,现在系统地总结一下. 之前过于纠结字眼,似然和概率到底有什么区别?以及这一个奇妙的对等关系(其实连续才是f,离散就是p). 似然函数 | 似然值 wiki:在数理统计 ...
CCJ PRML Study Note - Chapter 1.6 : Information Theory
Chapter 1.6 : Information Theory Chapter 1.6 : Information Theory Christopher M. Bishop, PRML, C ...
a note of R software write Function
Functionals “To become significantly more reliable, code must become more transparent. In particular ...
负对数似然(negative log-likelihood)
negative log likelihood文章目录negative log likelihood似然函数(likelihood function)OverviewDefinition离散型概率分布 ...
[pytorch]pytorch loss function 总结
原文: http://www.voidcn.com/article/p-rtzqgqkz-bpg.html 最近看了下 PyTorch 的损失函数文档,整理了下自己的理解,重新格式化了公式如下,以便以 ...
高斯混合模型（GMM）
复习: 1.概率密度函数,密度函数,概率分布函数和累计分布函数概率密度函数一般以大写“PDF”(Probability Density Function),也称概率分布函数,有的时候又简称概率分布函 ...

随机推荐

深入理解OOP(二):多态和继承(继承)
本文是深入浅出OOP第二篇,主要说说继承的话题. 深入理解OOP(一):多态和继承(初期绑定和编译时多态) 深入理解OOP(二):多态和继承(继承) 深入理解OOP(三):多态和继承(动态绑定和运行时 ...
ALinq Dynamic 使用指南——前言
一.简介 ALinq Dynamic 为ALinq以及Linq to SQL提供了一个Entiy SQL的查询接口,使得它们能够应用Entity SQL 进行数据的查询.它的原理是将Entiy SQL ...
js前端分页
转载:http://www.cnblogs.com/lyzg/p/5791011.html http://www.cnblogs.com/m-m-g-y0416/p/5601903.html
[HDOJ5451]Best Solver(乱搞）
题目:http://acm.hdu.edu.cn/showproblem.php?pid=5451 分析:A=5+2根号6 B=6-2根号6 n=1+2^x 那么A^n+B^n是整数注意到0< ...
exgcd，求乘法逆元
procedure exgcd(a,b:int64); var t:longint; begin then begin x:=;y:=; exit; end else exgcd(b,a mod b) ...
Exif
Exif是一种图像文件格式,它的数据存储与JPEG格式是完全相同的.实际上Exif格式就是在JPEG格式头部插入了数码照片的信息,包括拍摄时的光圈.快门.白平衡.ISO.焦距.日期时间等各种和拍摄条件 ...
DataGridView 绑定List集合后实现自定义排序
这里只贴主要代码,dataList是已添加数据的全局变量,绑定数据源 datagridview1.DataSource = dataList,以下是核心代码. 实现点击列表头实现自定义排序 priva ...
SqlServer——批量插入数据
像Major表里面批量插入数据演示: 代码如下: Declare @I int Set @I= Begin Tran InsertData: Insert into Major values(@I,' ...
Tomcat本地服务器搭建
首先,下载jdk-8u111-windows-x64.exe,然后配置环境,以安装目录D:\jdk1.8.0_111为例: 新建一个变量: 然后打开path新建两个变量: 最后去控制台敲javac或者 ...
Java文件拷贝
package com.lxm.demos; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io. ...