负对数似然(negative log-likelihood)
negative log likelihood
文章目录
negative log likelihood
似然函数(likelihood function)
Overview
Definition
离散型概率分布(Discrete probability distributions)
连续型概率分布(Continuous probability distributions)
最大似然估计(Maximum Likelihood Estimation,MLE)
对数似然(log likelihood)
负对数似然(negative log-likelihood)
Reference
似然函数(likelihood function)
Overview
在机器学习中,似然函数是一种关于模型中参数的函数。“似然性(likelihood)”和"概率(probability)"词意相似,但在统计学中它们有着完全不同的含义:概率用于在已知参数的情况下,预测接下来的观测结果;似然性用于根据一些观测结果,估计给定模型的参数可能值。
Probability is used to describe the plausibility of some data, given a value for the parameter. Likelihood is used to describe the plausibility of a value for the parameter, given some data.
—from wikipedia[3] ^[3]
[
3]
其数学形式表示为:
假设X XX是观测结果序列,它的概率分布fx f_{x}f
x
依赖于参数θ \thetaθ,则似然函数表示为
L(θ∣x)=fθ(x)=Pθ(X=x) L(\theta|x)=f_{\theta}(x)=P_{\theta}(X=x)
L(θ∣x)=f
θ
(x)=P
θ
(X=x)
Definition
似然函数针对**离散型概率分布(Discrete probability distributions)和连续型概率分布(Continuous probability distributions)**的定义通常不同.
离散型概率分布(Discrete probability distributions)
假设X XX是离散随机变量,其概率质量函数p pp依赖于参数θ \thetaθ,则有
L(θ∣x)=pθ(x)=Pθ(X=x) L(\theta|x)=p_{\theta}(x)=P_{\theta}(X=x)
L(θ∣x)=p
θ
(x)=P
θ
(X=x)
L(θ∣x) L(\theta|x)L(θ∣x)为参数θ \thetaθ的似然函数,x xx为随机变量X XX的输出.
Sometimes the probability of "the value of for the parameter value " is written as P(X = x | θ) or P(X = x; θ).
连续型概率分布(Continuous probability distributions)
假设X XX是连续概率分布的随机变量,其密度函数(density function)f ff依赖于参数θ \thetaθ,则有
L(θ∣x)=fθ(x) L(\theta|x)=f_{\theta}(x)
L(θ∣x)=f
θ
(x)
最大似然估计(Maximum Likelihood Estimation,MLE)
假设每个观测结果x xx是独立同分布的,通过似然函数L(θ∣x) L(\theta|x)L(θ∣x)求使观测结果X XX发生的概率最大的参数θ \thetaθ,即argmaxθf(X;θ) argmax_{\theta}f(X;\theta)argmax
θ
f(X;θ) 。
在“模型已定,参数未知”的情况下,使用最大似然估计算法学习参数是比较普遍的。
对数似然(log likelihood)
由于对数函数具有单调递增的特点,对数函数和似然函数具有同一个最大值点。取对数是为了方便计算极大似然估计,MLE中直接求导比价困难,通常先取对数再求导,找到极值点。
负对数似然(negative log-likelihood)
实践中,softmax函数通常和负对数似然(negative log-likelihood,NLL)一起使用,这个损失函数非常有趣,如果我们将其与softmax的行为相关联起来一起理解.首先,让我们写下我们的损失函数:
L(y)=−log(y) L(y)=-log(y)
L(y)=−log(y)
回想一下,当我们训练一个模型时,我们渴望能够找到使得损失函数最小的一组参数(在一个神经网络中,参数指权重weights和偏移biases).
对数函数如下图红线所示:
由于是对概率分布求对数,概率p pp的值为0≤p≤1 0\leq{p}\leq10≤p≤1,取对数后为红色线条在[0,1] [0,1][0,1]区间中的部分,再对其取负数,得到负对数似然函数如下图所示:
我们希望得到的概率越大越好,因此概率越接近于1,则函数整体值越接近于0,即使得损失函数取到最小值。
最大似然估计的一般步骤如下:
(1) 写出似然函数;
(2) 对似然函数取对数,得到对数似然函数;
(3) 求对数似然函数的关于参数组的偏导数,并令其为0,得到似然方程组;
(4) 解似然方程组,得到参数组的值.
Reference
[1]王海良,李卓恒,林旭鸣.智能问答与深度学习[M].北京:电子工业出版社,2019:19-20.
[2]Lj Miranda.Understanding softmax and the negative log-likelihood.2017.
[link]https://ljvmiranda921.github.io/notebook/2017/08/13/softmax-and-the-negative-log-likelihood/
[3]wikipedia-likelihood function
[link]https://en.wikipedia.org/wiki/Likelihood_function#Log-likelihood
---------------------
作者:不一样的雅兰酱
来源:CSDN
原文:https://blog.csdn.net/silver1225/article/details/88914652
版权声明:本文为博主原创文章,转载请附上博文链接!
负对数似然(negative log-likelihood)的更多相关文章
- 挑子学习笔记:对数似然距离(Log-Likelihood Distance)
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/log-likelihood_distance.html 本文是“挑子”在学习对数似然距离过程中的笔记摘录,文 ...
- 【MLE】最大似然估计Maximum Likelihood Estimation
模型已定,参数未知 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值.最大似然估计是建立在这样的思想上:已知某个参数能使这个 ...
- 二次代价函数、交叉熵(cross-entropy)、对数似然代价函数(log-likelihood cost)(04-1)
二次代价函数 $C = \frac{1} {2n} \sum_{x_1,...x_n} \|y(x)-a^L(x) \|^2$ 其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本 ...
- 归纳学习(Inductive Learning),直推学习(Transductive Learning),困难负样本(Hard Negative)
归纳学习(Inductive Learning): 顾名思义,就是从已有训练数据中归纳出模式来,应用于新的测试数据和任务.我们常用的机器学习模式就是归纳学习. 直推学习(Transductive Le ...
- 似然和对数似然Likelihood & LogLikelihood
One of the most fundamental concepts of modern statistics is that of likelihood. In each of the disc ...
- 朴素贝叶斯-对数似然Python实现-Numpy
<Machine Learning in Action> 为防止连续乘法时每个乘数过小,而导致的下溢出(太多很小的数相乘结果为0,或者不能正确分类) 训练: def trainNB0(tr ...
- sql server 对数运算函数log(x)和log10(x)
--LOG(x)返回x的自然对数,x相对于基数e的对数 --LOG10(x)返回x的基数为10的对数 示例:select LOG(3),LOG(6),LOG10(1),LOG10(100),LOG10 ...
- 高斯混合模型(GMM)
复习: 1.概率密度函数,密度函数,概率分布函数和累计分布函数 概率密度函数一般以大写“PDF”(Probability Density Function),也称概率分布函数,有的时候又简称概率分布函 ...
- [白话解析] 深入浅出 极大似然估计 & 极大后验概率估计
[白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要 本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找 ...
随机推荐
- 第十七周 Leetcode 403. Frog Jump(HARD) 线性dp
leetcode403 我们维护青蛙从某个石头上可以跳那些长度的距离即可 用平衡树维护. 总的复杂度O(n^2logn) class Solution { public: bool canCross( ...
- 从0开始学习Hadoop(2) 环境准备-Win7主机与Ubuntu虚拟机共享文件夹设置
主机要跟虚拟机共享文件夹设置有很多种办法,这里提供一种本地用户的方式 1. 新增一个本地用户,密码等其他设置如下 2.选择文件目录,这是共享属性 Ubuntu端设置: 文件夹->连接到网络-&g ...
- C++实现二叉树(建树,前序,中序,后序)递归和非递归实现
#include<iostream> #include<string.h> #include<stack> using namespace std; typedef ...
- Linux 常用命令十四 killall和pkill
用killall杀死所有同名的进程. wang@wang:~/workpalce/git$ ps -aux | grep vim wang pts/ S+ : : vim a wang pts/ S+ ...
- bzoj 1567: [JSOI2008]Blue Mary的战役地图【二分+hash】
二维哈希+二分 说是二维,其实就是先把列hash了,然后再用列的hash值hash行,这样可以O(n)的计算一个正方形的hash值,然后二分边长,枚举左上角点的坐标然后hash判断即可 只要base选 ...
- 关于浮动与清浮动 float
浮动常见的几种属性值 float {left; right; none; } 主要是定义元素朝哪个方向浮动: 元素浮动后的特性 在一行显示,父级的宽度放不下,自己折行: 支持宽高等样式: 不设置 ...
- 查找MySQL和 SQL sever data
MySql SQL server
- [Usaco2017 Feb]Why Did the Cow Cross the Road II (Platinum)
Description Farmer John is continuing to ponder the issue of cows crossing the road through his farm ...
- Mondriaan's Dream POJ - 2411
Mondriaan's Dream POJ - 2411 可以用状压dp,但是要打一下表.暴力枚举行.这一行的状态.上一行的状态,判断如果上一行的状态能转移到这一行的状态就转移. 状态定义:ans[i ...
- Create the first sql server 2016 mobile report;创建 第一个 sqlserver 2016 Mobile report
在微软收购了datazen之后,sqlserver2016 集成了mobilereport,mobile report 基于html5,兼容各类主流浏览器,之前ssrs2008 R2中很多chart类 ...