正则化：L0 vs L1 vs L2

原文地址：https://www.jianshu.com/p/e5c9a9fc84d4

为什么正则化可以缓解过拟合？
过拟合时，拟合函数的系数往往非常大。过大的权重会导致模型过多地学习到某些数据的个性特征，从而导致过拟合。更少的参数（实际是更多的参数取值为0或取值趋于0），模型倾向于变得简单。
规则化函数$\Omega$可以有多种选择，不同的选择产生的效果也不同。不过其一般是模型复杂度的单调递增函数，即模型越复杂，规则化的值越大。通常，我们将其定为模型中参数向量的范数。
L0范数
向量中非0元素的个数。希望$W$中大部分元素是0，实现稀疏。
L1范数
向量中各元素的绝对值之和。也叫Lasso Regularization。也可以实现稀疏化，通过将无用特征对应的参数$W$置为0实现。
- L0 vs L1
  L0和L1都可以实现稀疏化。稀疏化的好处，一是进行特征选择，二是可解释性强。不过一般使用L1而不使用L0的原因在于，一是L0很难优化求解，是NP难问题；二是因为L1是L0的最优凸近似，比L0更容易优化求解。
L2范数
向量中各元素平方和然后开方。用在回归中也称为岭回归(Ridge Regression)。
L2缓解过拟合的原理是，其使得$W$中每个元素都很小，趋近于0，但不会等于0。这样子得到的模型的抗干扰能力强。因为当参数值很小时，即使样本数据$X$发生很大的变化，模型预测值$y$的变化也会很有限。
- L1 vs L2
  参数更新时，L1通过将$W$减去一个值使得$W$慢慢变为0，其会趋于产生较少的特征，在特征选择的时候很有用；L2通过将$W$乘上一个小于1的值使得$W$趋近于0但不会等于0，其会趋于选择更多的特征，但特征对应的权重值接近于0。

正则化：L0 vs L1 vs L2的更多相关文章

L0、L1、L2范数正则化
一.范数的概念向量范数是定义了向量的类似于长度的性质,满足正定,齐次,三角不等式的关系就称作范数. 一般分为L0.L1.L2与L_infinity范数. 二.范数正则化背景 1. 监督机器学习问题无 ...
paper 126：[转载] 机器学习中的范数规则化之（一）L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化之（一）L0、L1与L2范数（转）
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
L0、L1与L2范数、核范数（转）
L0.L1与L2范数.核范数今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大 ...
机器学习中的范数规则化之（一）L0、L1与L2范数非常好，必看
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归（稀疏与特征工程）
机器学习中的范数规则化之(一)L0.L1与L2范数博客的学习笔记,对一些要点进行摘录.规则化也有其他名称,比如统计学术中比较多的叫做增加惩罚项:还有现在比较多的正则化. -------------- ...
机器学习中的范数规则化 L0、L1与L2范数核范数与规则项参数选择
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
『科学计算』L0、L1与L2范数_理解
『教程』L0.L1与L2范数一.L0范数.L1范数.参数稀疏 L0范数是指向量中非0的元素的个数.如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0,换句话说,让参数W是稀 ...
机器学习中的范数规则化之L0、L1与L2范数
今天看到一篇讲机器学习范数规则化的文章,讲得特别好,记录学习一下.原博客地址(http://blog.csdn.net/zouxy09). 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
Machine Learning系列--L0、L1、L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个 ...

随机推荐

7-4 IP思考
内网ip和公网Ip 什么是内网IP: 一些小型企业或者学校,通常都是申请一个固定的IP地址,然后通过IP共享(IP Sharing),使用整个公司或学校的机器都能够访问互联网.而这些企业或学校的机器 ...
58、salesforce学习笔记（五）
Set集合 Set<String> set1 = new Set<String>(); set1.add('1'); set1.add('2'); Set<String& ...
引入iframe，头部跳转并点亮效果
<script> /** * @Author: zhangcs * @Date: 2018-09-20 * @cnblogs: https://www.cnblogs.com/zhangc ...
POJ 3641 Pseudoprime numbers (数论+快速幂)
题目链接:POJ 3641 Description Fermat's theorem states that for any prime number p and for any integer a ...
shell只读变量
$@、$*和环境变量IFS
mysql的事务四个特性以及事务的四个隔离级别
一.事务四大属性分别是原子性.一致性.隔离性.持久性. 1,原子性(Atomicity) 原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库, ...
loj2472[九省联考2018]IIIDX
题意:要求构造一个d的排列使得满足d[i/k]<=d[u]且字典序最大. 标程(bzoj上并不能过): #include<bits/stdc++.h> #define mid ((l ...
【leetcode】953. Verifying an Alien Dictionary
题目如下: In an alien language, surprisingly they also use english lowercase letters, but possibly in a ...
@staticmethod和@classmethod区别
转载自: https://www.cnblogs.com/wyongbo/p/python_static_method.html https://www.cnblogs.com/champaign/p ...

正则化：L0 vs L1 vs L2

正则化：L0 vs L1 vs L2的更多相关文章

随机推荐

热门专题