范数

0范数

$L_0$范数表示为向量中非0元素的个数

\[L_0-||x||_0 = x_i, (x_i \not= 0)
\]

1范数

向量中元素绝对值的和,也就是$x$与0之间的曼哈顿距离

\[L_1 = \sum |x_i|
\]

2范数

$x$与0之间的欧式范数, 也就是向量中的每个数的平方之和

\[L_2 = \sqrt \sum x_i^2
\]

p范数

\[L_p = \sqrt[p] \sum x_i^p
\]

正则化的来源

正则化主要是用来控制模型的复杂度, 从而控制过拟合

做法:一般在损失函数中加入惩罚项

\[L(w,x,y)+\alpha \Omega(w)
\]

$w$显然, 是参数, $\alpha$控制正则化的强弱, 是一个常数

从下图讲解:

准确率: 右>左
模型复杂度: 右>左

但是在测试的时候, 会出现过拟合的模型, 泛化效果变差的现象

为什么$L_1$和$L_2$能减小过拟合?

ML的目的是获得做好的参数$w$, 并让模型的泛化能力更好

当模型复杂的时候, 相应的$w$也变多, 于是产生可过拟合现象, 为了降低模型的复杂度, 可以考虑适当的减少参数,代价就是准确率会适当的下降

如何减小参数?: 让$w$中的部分元素为0,也就是限制$w$中非0元素的个数

那么非0个数如何表示--> $L_0$范数, 于是我们有优化问题:

\[\begin{cases}
\min L(w,x,y) \\
||w||_0 \leq C
\end{cases}
\]

最小化损失, 并且约束是非0元素的个数, 小于一定的值, 但是这个约束, 不好优化

于是有了$L_1,L_2$

初衷是限制w元素0的个数, 但可不可以这样?: 让$w$中的某些元素, 尽可能的趋近于0

$||w|| \leq C$ 或者 $||w||_2 \leq C$

那么就可以发现, 刚好, 这是1 2 范数

那么可以得到优化问题

\[\begin{cases}
\min L(w,x,y) \\
||w||_1 \leq C
\end{cases}
\begin{cases}
\min L(w,x,y) \\
||w||_{2}\leq C
\end{cases}
\]

然后开始解优化问题, 一般具有约束的优化问题, 可以用拉格朗日函数

\[L(w,\alpha) = L(w,x,y)+\alpha(||w||_1-C) \\
L(w,\alpha) = L(w,x,y)+\alpha(||w||_2-C) \\
\]

上式也可写成

\[L(w,\alpha) = L(w,x,y)+\alpha ||w||_1 -\alpha C \\
L(w,\alpha) = L(w,x,y)+\alpha ||w||_2- \alpha C
\]

然后按没有正则化时的计算方式一样, 求偏导,令其为0,求$w$就可以了, 这样的化, 和$\alpha C$就没有关系了

树形结合

我们继续看对$w$的约束项

$L_1$ 正则

\[||w||_1 \leq C
\]

从2维平面的角度来看, $L_1$为:

\[|w_1| + |w_2| \leq C
\]

从数学的角度, 相当于时是一个菱形

回到问题上, 损失函数是一个等高线图:

那么. 带惩罚项的损失函数的解, 就是正则项与损失的交点

我们可以看到, 交点位置, $w_1$为0, 所以也得出一个结论

$L_1$正则可以产生稀疏向量,也就是,然某些权重元素为0, 在高维的时候, 交点越多, 也就越稀疏

$L_2$正则

\[||w||_2 = \sqrt{w_1^2+w_2^2} \leq C
\]

本质上,这是半径为$C$的圆的公式

同样最优解在交点处, 且$w_1,w_2$不容易为0

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。

L1不可导如何解决?

1. 为什么不可导?

不可导得条件是:

函数在该点不连续
即使连续,函数的左右导数不等

L1表示: y=|x|, 虽然连续,但是在0的位置, 左导数=-1 右导数等于1,不可导

2. 如何解决?

使用坐标下降法

坐标轴下降法和梯度下降法具有同样的思想，都是沿着某个方向不断迭代，但是梯度下降法是沿着当前点的负梯度方向进行参数更新，而坐标轴下降法是沿着坐标轴的方向。

先初始化参数, 然后每一轮迭代, 选择一个参数经行优化, 其他参数保持固定

https://blog.csdn.net/xiaocong1990/article/details/83039802
Proximal Algorithms 近端梯度下降

L1&L2一起作用也是可以的

L1 L2正则化的更多相关文章

防止过拟合：L1/L2正则化
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在tr ...
ML-线性模型泛化优化之 L1 L2 正则化
认识 L1, L2 从效果上来看, 正则化通过, 对ML的算法的任意修改, 达到减少泛化错误, 但不减少训练误差的方式的统称训练误差这个就损失函数什么的, 很好理解. 泛化错误假设我们知道预 ...
机器学习中L1,L2正则化项
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式.L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要.但是L1的求解过程,实在是太过蛋疼.所以即使L1能产生稀疏特征,不 ...
L0,L1,L2正则化浅析
在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...
L1,L2正则化代码
# L1正则 import numpy as np from sklearn.linear_model import Lasso from sklearn.linear_model import SG ...
L1和L2正则化（转载）
[深度学习]L1正则化和L2正则化在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况 ...
【深度学习】L1正则化和L2正则化
在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况.正则化是机器学习中通过显式的控制模 ...
L1正则化比L2正则化更易获得稀疏解的原因
我们知道L1正则化和L2正则化都可以用于降低过拟合的风险,但是L1正则化还会带来一个额外的好处:它比L2正则化更容易获得稀疏解,也就是说它求得的w权重向量具有更少的非零分量. 为了理解这一点我们看一个 ...
4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
机器学习之正则化【L1 & L2】
前言 L1.L2在机器学习方向有两种含义:一是L1范数.L2范数的损失函数,二是L1.L2正则化 L1范数.L2范数损失函数 L1范数损失函数: L2范数损失函数: L1.L2分别对应损失函数中的绝对 ...

随机推荐

STL-list模拟实现
#pragma once #include"16my_Itetator.h" //测试用 #include<iostream> //测试用 using std::cou ...
gitlab推送代码触发jenkins构建
预期:推送devloop或者master分支的代码, 自动执行jenkins 发布测试环境首先,jenkins中需要安装如下插件打开一个任务配置,构建触发器中勾选"Build when ...
WAF和IPS的区别
简介 Web应用防火墙WAF(Web Application Firewall)和入侵防御系统IPS(Intrusion Prevention System)是网络安全领域中常见的两种安全解决方案,它 ...
关闭 nginx | taskkill /f /t /im nginx.exe
stop.bat taskkill /f /t /im nginx.exe pause
[好文推荐] vue3 源码分析 mini-vue 写的不错
[阮一峰推荐]学习 vue3 源码的利器 git clone https://github.com/cuixiaorui/mini-vue.git
async await $api vue
async getDataNew () { const res = await this.$api('apiPath') if (res && res.status === 20) { ...
解决 Steam for Linux 部分 Valve 游戏中文显示问题/军团要塞2的字体显示问题
解决 Steam for Linux 部分 Valve 游戏中文显示问题发表于 Apr 7th 2019 | 分类于 Keep Digging Steam for Linux 上有许多好玩的免费游戏 ...
1.Arduino ESP32配置环境
ESP32开发板管理器地址 https://dl.espressif.com/dl/package_esp32_index.json // 无效时可以使用下面这个 https://raw.github ...
双声道音频16bit量化16KHz采样率共多少个bit
Hz(赫兹)是频率单位,其含义是每秒钟的次数.kHz中的k是千的意思,所以kHz就是千赫兹,所以16kHz就是16000Hz,意思就是每秒钟采样16000次.bit(比特)称为"位" ...
kali linux安装vmware tools过程详解
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/robacco/article/deta ...

L1 L2正则化

范数

0范数

1范数

2范数

p范数

正则化的来源

为什么\(L_1\)和\(L_2\)能减小过拟合?