L1比L2更稀疏

1. 简单列子：

一个损失函数L与参数x的关系表示为：

则加上L2正则化，新的损失函数L为：（蓝线）

最优点在黄点处，x的绝对值减少了，但依然非零。

如果加上L1正则化，新的损失函数L为：（粉线）

最优点为红点，变为0，L1正则化让参数的最优值变为0，更稀疏。

L1在江湖上人称Lasso，L2人称Ridge。

两种正则化，能不能将最优的参数变为0，取决于最原始的损失函数在0点处的导数，如果原始损失函数在0点处的导数不为0，则加上L2正则化之后（+2Cx），导数依然不为0。而加上L1正则化（导数为-C），如果C大于原先损失函数在0点处的导数的绝对值，x=0就变成了极小值。

2. 概念上理解：

加上正则化约束，要达到最小化损失函数，就是不能随心所欲的取参数的值了，要保证在满足的限制之内。假设有一个参数，L2的限制条件为|w|^2<c,为上图的红线，而L1的限制条件为|w|<c; L1 有角，L2无角

对于L1和L2规则化的代价函数来说，我们可以写成以下形式：

也就是说，我们将模型空间限制在w的一个L1-ball 中。为了便于可视化，我们考虑两维的情况，在(w1, w2)平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解：

可以看到，L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性，例如图中的相交点就有w1=0，而更高维的时候（想象一下三维的L1-ball 是什么样的？）除了角点以外，还有很多边的轮廓也是既有很大的概率成为第一次相交的地方，又会产生稀疏性。

相比之下，L2-ball 就没有这样的性质，因为没有角，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性，而L2-regularization 不行的原因了。

因此，一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。

3. 概率上理解

如果认为数据是来自高斯密度函数，取对数后就剩一个平方项，这就是L2范式（数据来自高斯分布，应该在代价函数中加入数据先验的高斯密度函数---L2范数）

如果数据稀疏，认为来自于laplace分布，

laplace数据分布时稀疏的，laplace概率密度函数

去对数，剩下一个一次项就是L1范式。加入laplace先验作为正则项的代价函数，说明数据是稀疏的。

L2正则化相当于假设我们所求w的分布为高斯分布，L1对应的先验概率函数为拉普拉斯分布。高斯分布对大w的概率低，对于小w的概率高，所以它限制w到一个小数，但不为0. 拉普拉斯分布对小w的概率低，希望逼近为0，对于大w的概率比高斯分布高。

L1 更容易稀疏化。

为什么正则化能防止过拟合：

过拟合表现在训练数据上的误差非常小，而在测试数据上误差反而增大。其原因一般是模型过于复杂，过分得去拟合数据的噪声和outliers. 正则化则是对模型参数添加先验，使得模型复杂度较小，对于噪声以及outliers的输入扰动相对较小。

我们相当于是给模型参数w 添加了一个协方差为1/alpha 的零均值高斯分布先验。对于alpha =0，也就是不添加正则化约束，则相当于参数的高斯先验分布有着无穷大的协方差，那么这个先验约束则会非常弱，模型为了拟合所有的训练数据，w可以变得任意大不稳定。alpha越大，表明先验的高斯协方差越小，模型约稳定，相对的variance也越小。

因此为了解决过度拟合，有以下两个办法。

&lt;img src="https://pic3.zhimg.com/811f033c45950d743426b9e0d2ab9bce_b.png" data-rawwidth="772" data-rawheight="322" class="origin_image zh-lightbox-thumb" width="772" data-original="https://pic3.zhimg.com/811f033c45950d743426b9e0d2ab9bce_r.png"&gt;

方法一：尽量减少选取变量的数量

具体而言，我们可以人工检查每一项变量，并以此来确定哪些变量更为重要，然后，保留那些更为重要的特征变量。至于，哪些变量应该舍弃，我们以后在讨论，这会涉及到模型选择算法，这种算法是可以自动选择采用哪些特征变量，自动舍弃不需要的变量。这类做法非常有效，但是其缺点是当你舍弃一部分特征变量时，你也舍弃了问题中的一些信息。例如，也许所有的特征变量对于预测房价都是有用的，我们实际上并不想舍弃一些信息或者说舍弃这些特征变量。

方法二：正则化

正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)）。

优化目标，也就是说我们需要尽量减少代价函数的均方误差。因为，如果你在原有代价函数的基础上加上 1000 乘以参数这一项，那么这个新的代价函数将变得很大，所以，当我们最小化这个新的代价函数时，我们将使参数的值接近于 0，就像我们忽略了这个值一样。这种思路就是，如果我们的参数值对应一个较小值的话（参数值比较小），那么往往我们会得到一个形式更简单的假设。

L1比L2更稀疏的更多相关文章

L1、L2范式及稀疏性约束
L1.L2范式及稀疏性约束假设需要求解的目标函数为: E(x) = f(x) + r(x) 其中f(x)为损失函数,用来评价模型训练损失,必须是任意的可微凸函数,r(x)为规范化约束因子,用来对模型 ...
paper 126：[转载] 机器学习中的范数规则化之（一）L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化之（一）L0、L1与L2范数（转）
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
L0、L1与L2范数、核范数（转）
L0.L1与L2范数.核范数今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大 ...
机器学习中的范数规则化之（一）L0、L1与L2范数非常好，必看
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化-L0,L1和L2范式（转载）
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
大白话5分钟带你走进人工智能-第十五节L1和L2正则几何解释和Ridge，Lasso，Elastic Net回归
第十五节L1和L2正则几何解释和Ridge,Lasso,Elastic Net回归上一节中我们讲解了L1和L2正则的概念,知道了L1和L2都会使不重要的维度权重下降得多,重要的维度权重下降得少,引入 ...
大白话5分钟带你走进人工智能-第十四节过拟合解决手段L1和L2正则
第十四节过拟合解决手段L1和L2正则第十三节中, ...
4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...

随机推荐

LODOP弹出对话框获取保存文件的路径
通常一般不会让用户自己在文本框里填上路径,因为路径要输入字母字符等比较麻烦,而且用户硬盘里文件很多,也不知道要保存在哪里,LODOP可以弹出一个选择保存路径的弹窗,然后把返回选择的路径值.这样用户就可 ...
asp.net 性能提升
原文链接:http://www.oschina.net/translate/8-ways-improve-asp-net-web-api-performance ASP.NET Web API 是非常 ...
Zabbix3.0学习笔记
第1章 zabbix监控 1.1 为什么要监控在需要的时刻,提前提醒我们服务器出问题了当出问题之后,可以找到问题的根源网站/服务器的可用性 1.1.1 网站可用性在软件系统的高可靠性(也 ...
Codeforces Round #420 (Div. 2) A,B,C
A. Okabe and Future Gadget Laboratory time limit per test 2 seconds memory limit per test 256 megaby ...
MT【210】四点共圆+角平分线
(2018全国联赛解答最后一题)在平面直角坐标系$xOy$中,设$AB$是抛物线$y^2=4x$的过点$F(1,0)$的弦,$\Delta{AOB}$的外接圆交抛物线于点$P$(不同于点$A,O,B$ ...
ARC062 - F. Painting Graphs with AtCoDeer (Polya+点双联通分量)
似乎好久都没写博客了....赶快来补一篇题意给你一个 $n$ 个点 , 没有重边和自环的图 . 有 $m$ 条边 , 每条边可以染 $1 \to k$ 中的一种颜色 . 对于任意一个简 ...
Hdoj 1008.Elevator 题解
Problem Description The highest building in our city has only one elevator. A request list is made u ...
Centos7安装Zabbix4.0步骤
点击返回:自学Zabbix之路点击返回:自学Zabbix4.0之路点击返回:自学zabbix集锦 Centos7安装Zabbix4.0步骤官方搭建zabbix4.0的环境要求: 1. 环境搭建L ...
19 Zabbix web监控实例
点击返回:自学Zabbix之路点击返回:自学Zabbix4.0之路点击返回:自学zabbix集锦 9 Zabbix web监控实例通过前面的介绍你已经了解Web scenario的配置,下面我们 ...
Android 屏幕手势滑动中onFling()函数的技巧分析
关于如何处理手势操作以及那四个基本固定的顺序我就不讲解了,这里直接跳到我们获得瞬间滑动后回调onFling()这个抽象函数时,应该如何根据参数比较准确的判断滑动方向.如果你没有前面的基础知识,你可以去 ...

L1比L2更稀疏

L1比L2更稀疏的更多相关文章

随机推荐

热门专题