监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差.最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据.多么简约的哲学啊!因为参数太多,会导致我们的模型复杂度上升,容易过拟合,也就是我们的训练误差会很小.但训练误差小并不是我们的最终目标,我们的目标是希望模型的测试误差小,也就是能准确的预测新的样本.所以,我们需要保证模型“简单”的…
本文翻译自文章:Differences between L1 and L2 as Loss Function and Regularization,如有翻译不当之处,欢迎拍砖,谢谢~ 在机器学习实践中,你也许需要在神秘的L1和L2中做出选择.通常的两个决策为:1) L1范数 vs L2范数 的损失函数: 2) L1正则化 vs L2正则化. 作为损失函数 L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE).总的说来,它是把目标值(\(Y_{i}\))与估计值(\…
在前面的文章中,已经介绍了从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化,本次我们从最大后验概率点估计(MAP,maximum a posteriori point estimate)的角度来理解神经网络中十分重要的weight decay正则化方法. 前面的文章中讲到了梯度下降法可以从最大似然概率估计(ML)的角度来理解,最大似然是一种典型的频率统计方法,还有一种非常不同的贝叶斯统计方法(具体的区别请参考花书).由于贝叶斯统计方法很多时候是复杂不易于处理的,因此我们更想要一种类似…
ps:转的.当时主要是看到一个问题是L1 L2之间有何区别,当时对l1与l2的概念有些忘了,就百度了一下.看完这篇文章,看到那个对W减小,网络结构变得不那么复杂的解释之后,满脑子的6666-------->把网络权重W看做为对上一层神经元的一个WX+B的线性函数模拟一个曲线就好.知乎大神真的多. 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 本文是<Neural networks and deep learning>概览 中第三章的一部分,讲机器学习/深…