Bias/variance tradeoff

线性回归中有欠拟合与过拟合，例如下图：则会形成欠拟合，则会形成过拟合。

尽管五次多项式会精确的预测训练集中的样本点，但在预测训练集中没有的数据，则不能很好的预测，也就是说有较大的泛化误差，上面的右边与左边的图都有很大的泛化误差，他们的情况各不相同，如果数据是非线性的，我们无法使用线性模型来精确的预测，即它的偏差很大，引起欠拟合。而如果像上面右图那样形成一个五次多项式的模型，很可能是我们的训练集数据很小的情况下建立的，它就不能反映出x与y更广泛的关系，这种模型有很大的偏差，引起过拟合。所以归根结底，学习算法其实就是找偏差方差的一个平衡点达到上面中图的效果。

在证明偏差方差权衡前先来介绍两个在推导时要用到的两个定理。

1.假设是k个不同的事件,P(A)代表事件发生的概率，那么，这对于学过概率论的同学肯定容易推到出来。

2.Hoeffding不等式是关于一组随机变量均值的概率不等式. 设为一组随机变量, , 定义一组随机变量的均值为

Hoeffding不等式可以表示为

如果为一组独立同分布的参数为p的伯努利分布随机变量上述不等式可以表示为

假设有一个训练集，样本服从独立同分布D，对于一个假设类h，定义训练误差为

定义泛化误差：

泛化误差即有一个新的样本点(x,y)服从分布D，类h判错这个样本的概率。使，通过选取θ来最小化训练误差的过程叫做经验风险最小化（empirical risk minimization (ERM)），

我们定义Η为假设类的集合

现在经验风险最小化可以改写为

对于有限的假设类集合，通过上面的描述泛化误差就是独立同分布随机变量的期望值，代入到Hoeffding不等式

这个式子表明了对于给定一个假设，假设样本数量m很大，泛化误差与训练误差很接近，应用到k个假设中

两边同时被1减去得到

对于给定一个γ和 ,至少多大的m能够保证 ,通过推导得到

定义, 是在集合H里面具有最小训练误差的假设，即，又根据，与最多相差一个，所以可以得出下列的推导步骤：

从而得到

这个不等式验证了本文一开始得出的结论，假设类的集合k增大时，minε(h)肯定是越来越小的，而第二项的对数式则随着k的增大而减小，k很小时就是前面所说的欠拟合的情况，相反k很大时即过拟合，两种情况都会导致泛化误差增大，我们要做的就是选择一个合适的k，来最小化泛化误差。

Bias/variance tradeoff的更多相关文章

机器学习总结-bias–variance tradeoff
bias–variance tradeoff 通过机器学习,我们可以从历史数据学到一个$f$,使得对新的数据$x$,可以利用学到的$f$得到输出值$f(x)$.设我们不知道的真实的\( ...
2.9 Model Selection and the Bias–Variance Tradeoff
结论模型复杂度↑Bias↓Variance↓ 例子 $y_i=f(x_i)+\epsilon_i,E(\epsilon_i)=0,Var(\epsilon_i)=\sigma^2$ 使用knn做预测 ...
[转]理解 Bias 与 Variance 之间的权衡----------bias variance tradeoff
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于 ...
On the Bias/Variance tradeoff in Machine Learning
参考:https://codesachin.wordpress.com/2015/08/05/on-the-biasvariance-tradeoff-in-machine-learning/ 之前一 ...
Error=Bias+Variance
首先 Error = Bias + Variance Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输 ...
【笔记】偏差方差权衡 Bias Variance Trade off
偏差方差权衡 Bias Variance Trade off 什么叫偏差,什么叫方差根据下图来说偏差可以看作为左下角的图片,意思就是目标为红点,但是没有一个命中,所有的点都偏离了方差可以看作为右 ...
Bias, Variance and the Trade-off
偏差,方差以及两者权衡偏差是由模型简化的假设,使目标函数更容易学习. 一般来说,参数化算法有很高的偏差,使它们学习起来更快,更容易理解,但通常不那么灵活.反过来,它们在复杂问题上的预测性能更低,无法 ...
训练/验证/测试集设置;偏差/方差;high bias/variance;正则化;为什么正则化可以减小过拟合
1. 训练.验证.测试集对于一个需要解决的问题的样本数据,在建立模型的过程中,我们会将问题的data划分为以下几个部分: 训练集(train set):用训练集对算法或模型进行训练过程: 验证集(d ...
机器学习：偏差方差权衡（Bias Variance Trade off）
一.什么是偏差和方差偏差(Bias):结果偏离目标位置: 方差(Variance):数据的分布状态,数据分布越集中方差越低,越分散方差越高: 在机器学习中,实际要训练模型用来解决一个问题,问题本身可 ...

随机推荐

linux jdk bin安装
1.jdk-1_5_0_06-linux-i586.bin下载到/usr/soft,赋予可执行权限:chmod 755jdk-1_5_0_06-linux-i586.bin 2.执行:./jdk-1_ ...
AutoResetEvent
private static readonly AutoResetEvent autoResetEvent = new AutoResetEvent(false); private static vo ...
SQLiteParameter不能将TableName作为参数
http://stackoverflow.com/questions/1274432/sqlite-parameters-not-allowing-tablename-as-parameter Gen ...
面试题_89_to_92_单元测试 JUnit 面试题
89)如何测试静态方法?(答案)可以使用 PowerMock 库来测试静态方法. 90)怎么利用 JUnit 来测试一个方法的异常?(答案) 91)你使用过哪个单元测试库来测试你的 Java 程序?( ...
ViewPager介绍和使用说明
1 ViewPager实现的功能和实际运行的效果图示意 ViewPager类提供了多界面切换的新效果.新效果有如下特征: [1] 当前显示一组界面中的其中一个界面. [2] 当用户通过左右滑动界 ...
C#将HTML导出Excel
首先这个不能用ajax 操作,不过我现在讲的这个方法和ajax 的效果一样. 你在你需要导出的页面写个方法 function DaoChu () { location.href = " ...
SharePoint CMAL方式处理的增，删，查，改
SPContext.Current.Web.Lists["UserInfo"]:获取网站的List,名称是:UserInfo userlist.AddItem():添加数据到Lis ...
onkeypress与onkeydown及 oncopy和onpaste 事件区别详细说明
onkeypress与onkeydown 具体区别: 1. 一个放开一个没有放开,onkeydown 先于 onkeypress 发生. 2.onkeypress 无法系统按钮. 2.onkeydow ...
Html5大文件断点续传
大文件分块一般常用的web服务器都有对向服务器端提交数据有大小限制.超过一定大小文件服务器端将返回拒绝信息.当然,web服务器都提供了配置文件可能修改限制的大小.针对iis实现大文件的上传网上也 ...
LeetCode: Reverse Words in a String && Rotate Array
Title: Given an input string, reverse the string word by word. For example,Given s = "the sky i ...

Bias/variance tradeoff

Bias/variance tradeoff的更多相关文章

随机推荐

热门专题