损失函数———有关L1和L2正则项的理解

一、损失函：

模型的结构风险函数包括了经验风险项和正则项，如下所示：

二、损失函数中的正则项

1.正则化的概念：

机器学习中都会看到损失函数之后会添加一个额外项，常用的额外项一般有2种，L1正则化和L2正则化。L1和L2可以看做是损失函数的惩罚项，所谓惩罚项是指对损失函数中某些参数做一些限制，以降低模型的复杂度。

L1正则化通过稀疏参数（特征稀疏化，降低权重参数的数量）来降低模型的复杂度；

L2正则化通过降低权重的数值大小来降低模型复杂度。

对于线性回归模型，使用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。

一般正则化项前面添加一个系数λ，数值大小需要用户自己指定，称权重衰减系数weight_decay，表示衰减的快慢。

2.L1正则化和L2正则化的作用：

·L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。

·L2正则化可以减小参数大小，防止模型过拟合；一定程度上L1也可以防止过拟合

稀疏矩阵的概念：

·在矩阵中，若数值为0的元素数目远远超过非0元素的数目时，则该矩阵为稀疏矩阵。与之相反，若非0元素数目占大多数时，则称该矩阵为稠密矩阵。

3、正则项的直观理解

引用文档链接：

https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc

分别从以下角度对L1和L2正则化进行解释：

1、优化角度分析

2、梯度角度分析

3、图形角度分析

4、 PRML的图形角度分析

优化角度分析：

L2正则化的优化角度分析：

即在限定区域找到使得E_D（W）最小的权重W。

假设n=2,即只有2个参数w1和w2;作图如下：

图中红色的圆即是限定区域，简化为2个参数就是w₁和w₂，限定区域w₁²+w₂²≤C即是以原点为圆心的圆。蓝色实线和虚线是等高线，外高内低，越靠里面的等高圆E_D（W）越小。梯度下降的方向（梯度的反方向-▽E_D（W）），即图上灰色箭头的方向，由外圆指向内圆的方向表示；正则项边界上运动点P1和P2的切线用绿色箭头表示，法向量用实黑色箭头表示。切点P1上的切线在梯度下降方向有分量，仍有往负梯度方向运动的趋势；而切点P2上的法向量正好是梯度下降的方向，切线方向在梯度下降方向无分量，所以往梯度下降方向没有运动趋势，已是梯度最小的点。

结论：L2正则项使E最小时对应的参数W变小（离原点的距离更小）

L1正则化的优化角度分析：

在限定区域，找到使E_D（w）的最小值。

同上，假设参数数量为2：w1和w2，限定区域为|w1|+|w2|≤C ,即为如下矩形限定区域，限定区域边界上的点的切向量的方向始终指向w2轴，使得w1=0,所以L1正则化容易使得参数为0，即使参数稀疏化。

梯度角度分析：

L1正则化：

L1正则化的损失函数为：

L1正则项的添加使参数w的更新增加了，sgn(w)为阶跃函数，当w大于0，sgn(w)>0,参数w变小；当w小于0时，更新参数w变大，所以总体趋势使得参数变为0，即特征稀疏化。

L2正则化：

L2正则化的损失函数为：

由上式可以看出，正则化的更新参数相比没有加正则项的更新参数多了，当w>0时，正则项使得参数增大变慢（减去一个数值，增大的没那么快），当w<0时，正则项使得参数减小变慢（加上一个数值，减小的没那么快），总体趋势变得很小，但不为0。

PRML的图形角度分析

L1正则化在零点附近具有很明显的棱角，L2正则化则在零附近是比较光滑的曲线。所以L1正则化更容易使参数为零，L2正则化则减小参数值，如下图。

L1正则项

L2正则项

以上是根据阅读百度网友文章做的笔记（其中包括自己的理解），感谢该文档作者，引用链接：

https://baijiahao.baidu.com/s?id=1621054167310242353

损失函数———有关L1和L2正则项的理解的更多相关文章

『科学计算』L0、L1与L2范数_理解
『教程』L0.L1与L2范数一.L0范数.L1范数.参数稀疏 L0范数是指向量中非0的元素的个数.如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0,换句话说,让参数W是稀 ...
回归损失函数：L1，L2，Huber，Log-Cosh，Quantile Loss
回归损失函数:L1,L2,Huber,Log-Cosh,Quantile Loss 2019-06-04 20:09:34 clover_my 阅读数 430更多分类专栏: 阅读笔记版权声明: ...
机器学习中正则化项L1和L2的直观理解
正则化(Regularization) 概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数的平方的和的开方值. L0正则化稀疏的参数可以防止 ...
L1和L2：损失函数和正则化
作为损失函数 L1范数损失函数 L1范数损失函数,也被称之为最小绝对值误差.总的来说,它把目标值$Y_i$与估计值$f(x_i)$的绝对差值的总和最小化. $$S=\sum_{i=1}^n|Y_i-f ...
L0、L1与L2范数
监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是在正则化参数的同时最小化误差.最小化误差是为了让我们的模 ...
机器学习中的L1、L2正则化
目录 1. 什么是正则化?正则化有什么作用? 1.1 什么是正则化? 1.2 正则化有什么作用? 2. L1,L2正则化? 2.1 L1.L2范数 2.2 监督学习中的L1.L2正则化 3. L1.L ...
深入理解L1、L2正则化
过节福利,我们来深入理解下L1与L2正则化. 1 正则化的概念正则化(Regularization) 是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称.也就是 ...
《机器学习实战》学习笔记第八章 —— 线性回归、L1、L2范数正则项
相关笔记: 吴恩达机器学习笔记(一) —— 线性回归吴恩达机器学习笔记(三) —— Regularization正则化 ( 问题遗留: 小可只知道引入正则项能降低参数的取值,但为什么能保证 Σθ2 ...
L1与L2损失函数和正则化的区别
本文翻译自文章:Differences between L1 and L2 as Loss Function and Regularization,如有翻译不当之处,欢迎拍砖,谢谢~ 在机器学习实 ...

随机推荐

Nginx目录结构与配置文件详解
Nginx安装具体安装nginx请移步:[nginx部署] 安装依赖安装pcre依赖软件 [root@ubuntu ~]# yum install -y pcre pcre-devel //外网情 ...
2019CCPC秦皇岛 F Forest Program
队友过的:https://blog.csdn.net/liufengwei1/article/details/101632506 Forest Program Time Limit: 2000/100 ...
什么是RESTful？RESTfule风格
导读理解什么是REST之前,先去脑补以下什么是HTTP,参考[Http协议] 什么是REST? REST(英文:Representational State Transfer,简称REST,意思:表 ...
Python中的input你真会吗？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:一米阳光里的晴天娃娃 python中的input()方法是在控制台可 ...
JavaScript中的"奇奇怪怪"
filter等方法的隐式转化 var list = [1,,2,,0,5,9];console.log(list[1]); // console: undefinedconsole.log(list[ ...
haproxy 在centos上cannot bind 端口的问题
setsebool -P haproxy_connect_any=1 要不把selinux干掉也行
《Dotnet9》建站-本站使用的什么主题？
时间如流水,只能流去不流回! 点赞再看,养成习惯,这是您给我创作的动力! 本文 Dotnet9 https://dotnet9.com 已收录,站长乐于分享dotnet相关技术,比如Winform.W ...
shell概述与echo命令
一.Shell概述 1.什么是shell? 由此可见shell是用户与系统进行交互的接口,通过执行各种命令来完成时间处理与调度. 2.shell分类 Shell类别易学性可移植性编辑性快捷性 ...
JS---案例：无缝的轮播图
案例:无缝的轮播图 w <!DOCTYPE html> <html> <head lang="en"> <meta charset=&qu ...
Gradle 自定义插件
使用版本 5.6.2 插件被用来封装构建逻辑和一些通用配置.将可重复使用的构建逻辑和默认约定封装到插件里,以便于其他项目使用. 你可以使用你喜欢的语言开发插件,但是最终是要编译成字节码在 JVM 运行 ...

损失函数———有关L1和L2正则项的理解

损失函数———有关L1和L2正则项的理解的更多相关文章

随机推荐

热门专题