L1范数损失函数，也被称为最小绝对值偏差（LAD），最小绝对值误差（LAE）

L2范数损失函数，也被称为最小平方误差（LSE）

L2损失函数	L1损失函数
不是非常的鲁棒（robust）	鲁棒
稳定解	不稳定解
总是一个解	可能多个解

鲁棒性

最小绝对值偏差之所以是鲁棒的，是因为它能处理数据中的异常值。如果需要考虑任一或全部的异常值，那么最小绝对值偏差是更好的选择。

L2范数将误差平方化（如果误差大于1，则误差会放大很多），模型的误差会比L1范数来得大，因此模型会对这个样本更加敏感，这就需要调整模型来最小化误差。如果这个样本是一个异常值，模型就需要调整以适应单个的异常值，这会牺牲许多其它正常的样本，因为这些正常样本的误差比这单个的异常值的误差小。

稳定性

最小绝对值偏差方法的不稳定性意味着，对于数据集的一个小的水平方向的波动，回归线也许会跳跃很大。

相反地，最小平方法的解是稳定的，因为对于一个数据点的任何微小波动，回归线总是只会发生轻微移动

总结

MSE对误差取了平方，如果存在异常值，那么这个MSE就很大。

MAE更新的梯度始终相同，即使对于很小的值，梯度也很大，可以使用变化的学习率。MSE就好很多，使用固定的学习率也能有效收敛。

总而言之，处理异常点时，L1损失函数更稳定，但它的导数不连续，因此求解效率较低。L2损失函数对异常点更敏感，但通过令其导数为0，可以得到更稳定的封闭解。

Huber

l1和l2都存在的问题：

若数据中90%的样本对应的目标值为150，剩下10%在0到30之间。

那么使用MAE作为损失函数的模型可能会忽视10%的异常点，而对所有样本的预测值都为150，因为模型会按中位数来预测；

MSE的模型则会给出很多介于0到30的预测值，因为模型会向异常点偏移。

这些情况下最简单的办法是对目标变量进行变换。而另一种办法则是换一个损失函数，这就引出了下面要讲的第三种损失函数，即Huber损失函数。

Huber损失，平滑的平均绝对误差

Huber损失对数据中的异常点没有平方误差损失那么敏感。

本质上，Huber损失是绝对误差，只是在误差很小时，就变为平方误差。误差降到多小时变为二次误差由超参数δ（delta）来控制。当Huber损失在[0-δ,0+δ]之间时，等价为MSE，而在[-∞,δ]和[δ,+∞]时为MAE。

Huber损失结合了MSE和MAE的优点，对异常点更加鲁棒。

L1、L2损失函数、Huber损失函数的更多相关文章

回归损失函数：L1，L2，Huber，Log-Cosh，Quantile Loss
回归损失函数:L1,L2,Huber,Log-Cosh,Quantile Loss 2019-06-04 20:09:34 clover_my 阅读数 430更多分类专栏: 阅读笔记版权声明: ...
机器学习之正则化【L1 & L2】
前言 L1.L2在机器学习方向有两种含义:一是L1范数.L2范数的损失函数,二是L1.L2正则化 L1范数.L2范数损失函数 L1范数损失函数: L2范数损失函数: L1.L2分别对应损失函数中的绝对 ...
正则化 L1 L2
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数. L1正则化和 ...
ML-线性模型泛化优化之 L1 L2 正则化
认识 L1, L2 从效果上来看, 正则化通过, 对ML的算法的任意修改, 达到减少泛化错误, 但不减少训练误差的方式的统称训练误差这个就损失函数什么的, 很好理解. 泛化错误假设我们知道预 ...
机器学习中L1,L2正则化项
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式.L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要.但是L1的求解过程,实在是太过蛋疼.所以即使L1能产生稀疏特征,不 ...
L0/L1/L2范数的联系与区别
L0/L1/L2范数的联系与区别标签(空格分隔): 机器学习最近快被各大公司的笔试题淹没了,其中有一道题是从贝叶斯先验,优化等各个方面比较L0.L1.L2范数的联系与区别. L0范数 L0范数表示 ...
机器学习 - 正则化L1 L2
L1 L2 Regularization 表示方式: $L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 ...
阅读ARM Memory(L1/L2/MMU)笔记
<ARM Architecture Reference Manual ARMv8-A>里面有Memory层级框架图,从中可以看出L1.L2.DRAM.Disk.MMU之间的关系,以及他们在 ...
L1&L2 Regularization的原理
L1&L2 Regularization 正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现 ...

随机推荐

远程仓库（GitHub）的使用
1.注册登录在 GitHub 上注册登录暂时忽略不讲 2.创建新的远程仓库在GitHub网站上创建新的仓库.不管你是先在本地创建仓库还是先在远程创建仓库,要想把代码提交到远程仓库都是要先手动创建 ...
CF 39E. What Has Dirichlet Got to Do with That?(记忆化搜索+博弈论)
传送门解题思路首先很好写出一个$O(ab)$的记搜,但发现这样无法处理$a=1$和$b=1$的情况,这两种情况需要特判.首先$a=1$的情况,就是如果当前选手让$a+1$必胜, ...
oracle函数自治事务解决不能增改删的语句操作
CREATE OR REPLACE FUNCTION SEQ3 (v_bname in VARCHAR2) return NUMBER is pragma autonomous_transaction ...
Unzip 解压报错
$ jar xvf pcre-8.10.zip 如果出现 jar:Command not found 要用yum下载 $ yum -y install java-1.6.0-openjdk-d ...
Debian 防火墙打开关闭
Debian原来用的是UFW防火墙,之前没接触过这种类型防火墙,懵逼了半天,这里记录一下简单的使用规则,后期在使用过程中慢慢完善UFW防火墙的使用操作方法: 查看防火墙现有规则: ufw status ...
matplotlib系列——中文显示
幕布视图:https://mubu.com/doc/alG8r_3iSw 参考文献:嵩天的Python课程讲义方式一: 示例 rcParams的属性方式二:(推荐使用) 示例: 中文字体种类
MVC http://stackoverflow.com/tags/model-view-controller/info
About model-view-controller Model–View–Controller (MVC) is an architectural pattern used in software ...
mySQL查看存储过程、函数、视图、触发器
一.查看存储过程 1.show procedure status; //查看所有的 2.show create procedure proc_AllUser[proc_name]; 查看proc_Al ...
2018-8-10-WPF-判断USB插拔
title author date CreateTime categories WPF 判断USB插拔 lindexi 2018-08-10 19:16:53 +0800 2018-8-5 13:0: ...
shell input value from console
echo "Please enter some input: " read input_variable echo "You entered: $input_variab ...

L1、L2损失函数、Huber损失函数

鲁棒性

稳定性

总结

Huber

l1和l2都存在的问题：

Huber损失，平滑的平均绝对误差

L1、L2损失函数、Huber损失函数的更多相关文章

随机推荐

热门专题