拉普拉斯平滑（Laplacian smoothing）

　　概念

零概率问题：在计算事件的概率时，如果某个事件在观察样本库（训练集）中没有出现过，会导致该事件的概率结果是 $0$ 。这是不合理的，不能因为一个事件没有观察到，就被认为该事件一定不可能发生（即该事件的概率为 $0$ ）。

　　拉普拉斯平滑(Laplacian smoothing) 是为了解决零概率的问题。

法国数学家拉普拉斯最早提出用加 $1$ 的方法，估计没有出现过的现象的概率。
理论假设：假定训练样本很大时，每个分量 $x$ 的计数加 $1$ 造成的估计概率变化可以忽略不计，但可以方便有效的避免零概率问题

　　具体公式
　　对于一个随机变量 $\mathrm{z} $ , 它的取值范围是 $\{1,2,3 \ldots, \mathrm{k}\} $, 对于 $\mathrm{m} $ 次试验后的观测结果 $ \left\{\mathrm{z}^{(1)}, \mathrm{z}^{(2)}, \mathrm{z}^{(3)}, \ldots, \mathrm{z}^{(\mathrm{m})}\right\} $, 极大似然估计按照下式计算:

　　　　$\varphi_{j}=\frac{\sum_{i=1}^{m} I\left\{z^{(i)}=j\right\}}{m}$

　　使用 Laplace 平滑后, 计算公式变为:

　　　　$\varphi_{j}=\frac{\sum_{i=1}^{m} I\left\{z^{(i)}=j\right\}+1}{m+\mathrm{k}}$

　　即在分母上加上取值范围的大小, 在分子加 $1$ 。
　　总结: 分子加一，分母加 $K$，$K$ 代表类别数目。

　　应用场景举例
　　假设在文本分类中，有 $3$ 个类：$C_1$、$C_2$、$C_3$
　　在指定的训练样本中，某个词语 $K_1$ ，在各个类中观测计数分别为 $0$，$990$，$10$。
　　则对应 $K_1$ 的概率为 $0，0.99，0.01$。

　　显然 $C_1$ 类中概率为 $0$，不符合实际。

　　于是对这三个量使用拉普拉斯平滑的计算方法如下：
　　$1/1003 = 0.001$，$991/1003=0.988$，$11/1003=0.011$
　　在实际的使用中也经常使用加 $λ$（$0≤λ≤1$）来代替简单加 $1$。如果对 $N$个计数都加上 $λ$，这时分母也要记得加上 $N*λ$。

拉普拉斯平滑（Laplacian smoothing）的更多相关文章

拉普拉斯平滑处理 Laplace Smoothing
背景:为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0.在文本分类的问题中,当一个词语没有在训练样本中出现,该词 ...
拉普拉斯矩阵(Laplacian Matrix) 及半正定性证明
摘自 https://blog.csdn.net/beiyangdashu/article/details/49300479 和 https://en.wikipedia.org/wiki/Lapla ...
深度学习面试题28：标签平滑(Label smoothing)
目录产生背景工作原理参考资料产生背景假设选用softmax交叉熵训练一个三分类模型,某样本经过网络最后一层的输出为向量x=(1.0, 5.0, 4.0),对x进行softmax转换输出为: ...
SC3聚类 | 拉普拉斯矩阵 | Laplacian matrix | 图论 | R代码
Laplacian和PCA貌似是同一种性质的方法,坐标系变换.只是拉普拉斯属于图论的范畴,术语更加专业了. 要看就把一篇文章看完整,再看其中有什么值得借鉴的,总结归纳理解后的东西才是属于你的. 问题: ...
统计学习1：朴素贝叶斯模型(Numpy实现)
模型生成模型介绍我们定义样本空间为$\mathcal{X} \subseteq \mathbb{R}^n$,输出空间为\(\mathcal{Y} = \{c_1, c_2, ..., c_K\ ...
AI人工智能专业词汇集
作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客.论文.专家观点等内容上已经积累了超过两年多的经验.期间,从无到有,机器之心的编译团队一直在积累专业词汇.虽然有很多的文章因为专业性我们没能尽 ...
NLP相关问题中文本数据特征表达初探
1. NLP问题简介 0x1:NLP问题都包括哪些内涵人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
一步步教你轻松学朴素贝叶斯模型算法Sklearn深度篇3
一步步教你轻松学朴素贝叶斯深度篇3(白宁超 2018年9月4日14:18:14) 导读:朴素贝叶斯模型是机器学习常用的模型算法之一,其在文本分类方面简单易行,且取得不错的分类效果.所以很受欢迎,对 ...
生成学习算法(Generative Learning algorithms)
一.引言前面我们谈论到的算法都是在给定$x$的情况下直接对$p(y|x;\theta)$进行建模.例如,逻辑回归利用$h_\theta(x)=g(\theta^T x)$对\(p(y|x ...

随机推荐

谱聚类算法—Matlab代码
% ========================================================================= % 算法名称: Spectral Clus ...
一站式云原生在线研发平台 StarOS 种子用户邀请计划正式开启！
云时代的开发者,你好: 你是否也曾畅想过,关于云的未来? 不是作为消费者,也不是作为企业,是对于开发者而言,云会变成什么样. 同为开发者,我们常在想,我们开发了一个又一个应用,让太多人因服务在线而获益 ...
.NET 云原生架构师训练营（建立系统观）--学习笔记
目录目标 ASP .NET Core 什么是系统什么是系统思维系统分解什么是复杂系统作业目标通过整体定义去认识系统通过分解去简化对系统的认识 ASP .NET Core ASP .NE ...
LuoguP7019 [NWRRC2017]Auxiliary Project 题解
Update $\texttt{2021.6.24}$ 修改了一处格式上的错误和一处笔误. Content 已知用 LED 灯来显示 $0\sim9$ 这十个数字分别需要 \(6,2,5,5, ...
.NET Core基础篇之：白话管道中间件
在.Net Core中,管道往往伴随着请求一起出现.客户端发起Http请求,服务端去响应这个请求,之间的过程都在管道内进行. 举一个生活中比较常见的例子:旅游景区. 我们都知道,有些景区大门离景区很远 ...
python进程管理工具Supervisor
一.Supervisor简单介绍 supervisor是一个 Client/Server模式的系统,允许用户在类unix操作系统上监视和控制多个进程,或者可以说是多个程序.supervisor与lau ...
MimeMessageHelper代码发邮件时，通过客服端登陆到邮箱，在已发送邮件里没有已经通过代码发送的邮件
MimeMessageHelper代码发邮件时,通过客服端登陆到邮箱,在已发送邮件里没有已经通过代码发送的邮件, 这个问题很奇怪,这样的话不能看到通过代码发送的邮件历史记录,所以只好借助秘密抄送了,抄 ...
SpringBoot整合nacos实现配置中心（配置动态更新）
官方教程:https://nacos.io/zh-cn/docs/quick-start-spring-boot.html Linux使用docker部署nacos:https://www.cnblo ...
layui(layer)的loading方法显示位置不居中
要在layer.load之前使用layer.ready方法 layui.use('layer', function () { layer.ready(function(){ index = layer ...
hdu-5568SUM (dp)
sequence2 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total S ...

拉普拉斯平滑（Laplacian smoothing）

拉普拉斯平滑（Laplacian smoothing）的更多相关文章

随机推荐

热门专题