L1 L2正则化
范数
0范数
\(L_0\)范数表示为向量中非0元素的个数
\]
1范数
向量中元素绝对值的和,也就是\(x\)与0之间的曼哈顿距离
\]
2范数
\(x\)与0之间的欧式范数, 也就是向量中的每个数的平方之和
\]
p范数
\]
正则化的来源
正则化主要是用来控制模型的复杂度, 从而控制过拟合
做法:一般在损失函数中加入惩罚项
\]
\(w\)显然, 是参数, \(\alpha\)控制正则化的强弱, 是一个常数
从下图讲解:
- 准确率: 右>左
- 模型复杂度: 右>左

但是在测试的时候, 会出现过拟合的模型, 泛化效果变差的现象
为什么\(L_1\)和\(L_2\)能减小过拟合?
ML的目的是获得做好的参数\(w\), 并让模型的泛化能力更好
当模型复杂的时候, 相应的\(w\)也变多, 于是产生可过拟合现象, 为了降低模型的复杂度, 可以考虑适当的减少参数,代价就是准确率会适当的下降
如何减小参数?: 让\(w\)中的部分元素为0,也就是限制\(w\)中非0元素的个数
那么非0个数如何表示--> \(L_0\)范数, 于是我们有优化问题:
\min L(w,x,y) \\
||w||_0 \leq C
\end{cases}
\]
最小化损失, 并且约束是 非0元素的个数, 小于一定的值, 但是这个约束, 不好优化
于是有了\(L_1,L_2\)
初衷是限制w元素0的个数, 但可不可以这样?: 让\(w\)中的某些元素, 尽可能的趋近于0
\(||w|| \leq C\) 或者 \(||w||_2 \leq C\)
那么就可以发现, 刚好, 这是1 2 范数
那么可以得到优化问题
\min L(w,x,y) \\
||w||_1 \leq C
\end{cases}
\begin{cases}
\min L(w,x,y) \\
||w||_{2}\leq C
\end{cases}
\]
然后开始解优化问题, 一般具有约束的优化问题, 可以用拉格朗日函数
L(w,\alpha) = L(w,x,y)+\alpha(||w||_2-C) \\
\]
上式也可写成
L(w,\alpha) = L(w,x,y)+\alpha ||w||_2- \alpha C
\]
然后按没有正则化时的计算方式一样, 求偏导,令其为0,求\(w\)就可以了, 这样的化, 和\(\alpha C\)就没有关系了
树形结合
我们继续看对\(w\)的约束项
\(L_1\) 正则
\]
从2维平面的角度来看, \(L_1\)为:
\]
从数学的角度, 相当于时是一个菱形

回到问题上, 损失函数是一个等高线图:
那么. 带惩罚项的损失函数的解, 就是 正则项与损失的交点

我们可以看到, 交点位置, \(w_1\)为0, 所以也得出一个结论
\(L_1\)正则可以产生稀疏向量,也就是,然某些权重元素为0, 在高维的时候, 交点越多, 也就越稀疏
\(L_2\)正则
\]
本质上,这是半径为\(C\)的圆的公式

同样最优解在交点处, 且\(w_1,w_2\)不容易为0
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。
L1不可导如何解决?
1. 为什么不可导?
不可导得条件是:
- 函数在该点不连续
- 即使连续,函数的左右导数不等
L1表示: y=|x|, 虽然连续,但是在0的位置, 左导数=-1 右导数等于1,不可导
2. 如何解决?
使用坐标下降法
坐标轴下降法和梯度下降法具有同样的思想,都是沿着某个方向不断迭代,但是梯度下降法是沿着当前点的负梯度方向进行参数更新,而坐标轴下降法是沿着坐标轴的方向。
先初始化参数, 然后每一轮迭代, 选择一个参数经行优化, 其他参数保持固定
https://blog.csdn.net/xiaocong1990/article/details/83039802Proximal Algorithms 近端梯度下降

L1&L2一起作用也是可以的

L1 L2正则化的更多相关文章
- 防止过拟合:L1/L2正则化
正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在tr ...
- ML-线性模型 泛化优化 之 L1 L2 正则化
认识 L1, L2 从效果上来看, 正则化通过, 对ML的算法的任意修改, 达到减少泛化错误, 但不减少训练误差的方式的统称 训练误差 这个就损失函数什么的, 很好理解. 泛化错误 假设 我们知道 预 ...
- 机器学习中L1,L2正则化项
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式.L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要.但是L1的求解过程,实在是太过蛋疼.所以即使L1能产生稀疏特征,不 ...
- L0,L1,L2正则化浅析
在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...
- L1,L2正则化代码
# L1正则 import numpy as np from sklearn.linear_model import Lasso from sklearn.linear_model import SG ...
- L1和L2正则化(转载)
[深度学习]L1正则化和L2正则化 在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况 ...
- 【深度学习】L1正则化和L2正则化
在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况.正则化是机器学习中通过显式的控制模 ...
- L1正则化比L2正则化更易获得稀疏解的原因
我们知道L1正则化和L2正则化都可以用于降低过拟合的风险,但是L1正则化还会带来一个额外的好处:它比L2正则化更容易获得稀疏解,也就是说它求得的w权重向量具有更少的非零分量. 为了理解这一点我们看一个 ...
- 4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言 之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
- 机器学习之正则化【L1 & L2】
前言 L1.L2在机器学习方向有两种含义:一是L1范数.L2范数的损失函数,二是L1.L2正则化 L1范数.L2范数损失函数 L1范数损失函数: L2范数损失函数: L1.L2分别对应损失函数中的绝对 ...
随机推荐
- BeanShell Sampler 前置处理器
一概念: 前置处理器主要作用: 用于修改即将发送的http的请求数据 BeanShell预处理器可以在取样器发送请求之前被执行,可以通过它完成发送请求所需的数据 其中的ctx.vars.props.p ...
- 3. JVM运行时数据区
1. 运行时数据区概述 前面的章节中已经将类的加载过程大致过程说清楚了,此时类已经加载到内存中,,后面就是运行时数据区的各个组件的工作了 由上图可以看出来, jvm将class字节码加载完成后,后面运 ...
- 3、dubbo核心用法
https://dubbo.apache.org/zh/docs/v2.7/user/examples/preflight-check/ 1.启动时检查 在启动时检查依赖的服务是否可用 Dubbo 缺 ...
- python 打包 exe文件
操作步骤: 先安装pyinstaller,在终端中输入pip install pyinstaller即可. 打包程序: pyinstaller --console --onefile 7.py 在di ...
- java服务OOM和CPU飙升排查
一.JVM参数 -D 可以是系统默认有的参数,也可以是自己定义的参数 -Dfile.encoding=UTF-8 -Dmaven.test.skip=true -Dspring.profiles.ac ...
- vscode 利用正则 搜索标签 tags (?=.*关键字1)(?=.*关键字2).*
vscode 利用正则 搜索标签 (?=.关键字1)(?=.关键字2).* 这里关键词是可以多个并且不按照顺序搜索的,就是写起来需要 (?=.关键字) 最后. 结尾 我是不是需要制作一个转换的小工具呢 ...
- 定义pod的hosts文件(HostAliases)
通过HostAliases 向 Pod /etc/hosts 文件添加条目 当 DNS 配置以及其它选项不合理的时候,通过向 Pod 的 /etc/hosts 文件中添加条目, 可以在 Pod 级别覆 ...
- [置顶]
tomcat处理请求导致页面出现ERR_CONNECTION_RESET错误解决方案
现象: 浏览器发送请求到servlet,servlet处理时间太久,所以导致chrome浏览器出现ERR_CONNECTION_RESET错误 解决方案: 在相应servlet执行最后添加一句代码: ...
- new vs malloc
https://www.cnblogs.com/qg-whz/p/5140930.html 1.申请内存位置 new操作符从自由存储区(free store)上为对象动态分配内存空间,而malloc函 ...
- Global AI Bootcamp 成都站 圆满结束!
3月10日星期天下午2点「Global AI Bootcamp 2024 - 成都站」,在成都银泰中心蔚来汽车会议区圆满结束了! 本次活动共计吸引了约50名IT行业从业者线下参与,他们分别来自成都各行 ...