Bias/variance tradeoff

线性回归中有欠拟合与过拟合，例如下图：则会形成欠拟合，则会形成过拟合。

尽管五次多项式会精确的预测训练集中的样本点，但在预测训练集中没有的数据，则不能很好的预测，也就是说有较大的泛化误差，上面的右边与左边的图都有很大的泛化误差，他们的情况各不相同，如果数据是非线性的，我们无法使用线性模型来精确的预测，即它的偏差很大，引起欠拟合。而如果像上面右图那样形成一个五次多项式的模型，很可能是我们的训练集数据很小的情况下建立的，它就不能反映出x与y更广泛的关系，这种模型有很大的偏差，引起过拟合。所以归根结底，学习算法其实就是找偏差方差的一个平衡点达到上面中图的效果。

在证明偏差方差权衡前先来介绍两个在推导时要用到的两个定理。

1.假设是k个不同的事件,P(A)代表事件发生的概率，那么，这对于学过概率论的同学肯定容易推到出来。

2.Hoeffding不等式是关于一组随机变量均值的概率不等式. 设为一组随机变量, , 定义一组随机变量的均值为

Hoeffding不等式可以表示为

如果为一组独立同分布的参数为p的伯努利分布随机变量上述不等式可以表示为

假设有一个训练集，样本服从独立同分布D，对于一个假设类h，定义训练误差为

定义泛化误差：

泛化误差即有一个新的样本点(x,y)服从分布D，类h判错这个样本的概率。使，通过选取θ来最小化训练误差的过程叫做经验风险最小化（empirical risk minimization (ERM)），

我们定义Η为假设类的集合

现在经验风险最小化可以改写为

对于有限的假设类集合，通过上面的描述泛化误差就是独立同分布随机变量的期望值，代入到Hoeffding不等式

这个式子表明了对于给定一个假设，假设样本数量m很大，泛化误差与训练误差很接近，应用到k个假设中

两边同时被1减去得到

对于给定一个γ和 ,至少多大的m能够保证 ,通过推导得到

定义, 是在集合H里面具有最小训练误差的假设，即，又根据，与最多相差一个，所以可以得出下列的推导步骤：

从而得到

这个不等式验证了本文一开始得出的结论，假设类的集合k增大时，minε(h)肯定是越来越小的，而第二项的对数式则随着k的增大而减小，k很小时就是前面所说的欠拟合的情况，相反k很大时即过拟合，两种情况都会导致泛化误差增大，我们要做的就是选择一个合适的k，来最小化泛化误差。

Bias/variance tradeoff的更多相关文章

机器学习总结-bias–variance tradeoff
bias–variance tradeoff 通过机器学习,我们可以从历史数据学到一个$f$,使得对新的数据$x$,可以利用学到的$f$得到输出值$f(x)$.设我们不知道的真实的\( ...
2.9 Model Selection and the Bias–Variance Tradeoff
结论模型复杂度↑Bias↓Variance↓ 例子 $y_i=f(x_i)+\epsilon_i,E(\epsilon_i)=0,Var(\epsilon_i)=\sigma^2$ 使用knn做预测 ...
[转]理解 Bias 与 Variance 之间的权衡----------bias variance tradeoff
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于 ...
On the Bias/Variance tradeoff in Machine Learning
参考:https://codesachin.wordpress.com/2015/08/05/on-the-biasvariance-tradeoff-in-machine-learning/ 之前一 ...
Error=Bias+Variance
首先 Error = Bias + Variance Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输 ...
【笔记】偏差方差权衡 Bias Variance Trade off
偏差方差权衡 Bias Variance Trade off 什么叫偏差,什么叫方差根据下图来说偏差可以看作为左下角的图片,意思就是目标为红点,但是没有一个命中,所有的点都偏离了方差可以看作为右 ...
Bias, Variance and the Trade-off
偏差,方差以及两者权衡偏差是由模型简化的假设,使目标函数更容易学习. 一般来说,参数化算法有很高的偏差,使它们学习起来更快,更容易理解,但通常不那么灵活.反过来,它们在复杂问题上的预测性能更低,无法 ...
训练/验证/测试集设置;偏差/方差;high bias/variance;正则化;为什么正则化可以减小过拟合
1. 训练.验证.测试集对于一个需要解决的问题的样本数据,在建立模型的过程中,我们会将问题的data划分为以下几个部分: 训练集(train set):用训练集对算法或模型进行训练过程: 验证集(d ...
机器学习：偏差方差权衡（Bias Variance Trade off）
一.什么是偏差和方差偏差(Bias):结果偏离目标位置: 方差(Variance):数据的分布状态,数据分布越集中方差越低,越分散方差越高: 在机器学习中,实际要训练模型用来解决一个问题,问题本身可 ...

随机推荐

C# 时间函数
DateTime dt = DateTime.Now; string str = dt.ToString("yyyy-MM-dd");//2013-09-07 str = dt.T ...
76. Minimum Window Substring
题目: Given a string S and a string T, find the minimum window in S which will contain all the charact ...
kali 安装中文输入法
(1)apt-get install fcitx-googlepinyin (2)你希望继续执行吗?Y (3)连续执行数次 (4)init 6(命令行重启)
7、单向一对多的关联关系（1的一方有n的一方的集合属性，n的一方却没有1的一方的引用）
单向一对多的关联关系具体体现:1的一方有n的一方的集合的引用,n的一方却没有1的一方的引用举个例子:顾客Customer对订单Order是一个单向一对多的关联关系.Customer一方有对Orde ...
转：在MyEclipse+Hibernate
源地址http://blog.renren.com/share/270733118/5528463779 1.实验环境准备 MyEclipse8.6 Tomcat6.0.20 MySQL5.1 ...
apache prefork和worker模式的比较
http://www.t086.com/article/4443 http://www.cnblogs.com/fnng/archive/2012/11/20/2779977.html
计算机视觉和人工智能的状态：我们已经走得很远了 The state of Computer Vision and AI: we are really, really far away.
The picture above is funny. But for me it is also one of those examples that make me sad about the o ...
Altium Designer哪里下载和导入元件库_图文教程
http://jingyan.baidu.com/article/46650658064621f549e5f88f.html
服务--web服务
.面向对象和面向组件 .什么是Web服务 Web Service "Stack" .Web服务的应用分类 Web服务都是对象/组件技术在Internet中的延伸面向对象和面向组件 ...
使用Quartz创建定时任务
项目开发中经常需要定时循环执行某些任务比如定时发送报表,定时发送邮件,亦或者定时清理缓存,定时更新数据等等有些时候可以简单地利用Windows Server的计划任务执行程序 Linux也有相应的 ...

Bias/variance tradeoff

Bias/variance tradeoff的更多相关文章

随机推荐

热门专题