过度拟合（overfitting）

我们之前解决过一个理论问题：机器学习能不能起作用？现在来解决另一个理论问题：过度拟合。

正如之前我们看到的，很多时候我们必须进行nonlinear transform。但是我们又无法确定Q的值。Q过小，那么E_in会很大；Q过大，就会出现过度拟合问题。如下图所示：

那么overfitting具体受什么因素影响呢？

现在我们又两个例子：

第一个例子的数据来源是：一个10-th的目标函数+noise；第二个例子的数据来源是：一个50-th的目标函数。现在我们用2-th函数（H₂）和10-th函数（H₁₀）分别对两个例子进行拟合。我们来预测一下结果。

我认为：对于这两个例子来说，H₁₀效果会更好。因为无论是对于第一个例子还是第二个例子，从阶数上来说，H₁₀都不存在overfitting问题。

下面是真正的结果：

我们可以看出，对于两个例子，都是H₂效果最好。

通过这个违反直觉的例子，我们可以一窥overfitting的端倪。

通过这个学习曲线，我们可以看出，H₁₀可以结果很好，但是是建立在N足够大的基础上；如果N很小的话，还是H₂的结果好！

补充一点：对于第二个例子，明明没有noise，为什么H₁₀表现的不如H₂呢？

因为50-th的复杂度太高，H₁₀和H₂都无法准确地拟合。此时目标函数的复杂度对于H₂和H₁₀来说，就相当于noise。

我们现在认为数据点数N、noise、还有目标函数的complexity level（阶数）Q都会影响overfitting。

下面进行详细说明。

从这个目标函数中，产生数据，然后用H2和H10去拟合。什么时候我们说会发生过度拟合呢？当使用H₁₀得到的E_out大于使用H₂得到的E_out，则必然发生了过度拟合，也即：overfit measure：E_out（g₁₀）-E_out（g₂）。

对于第一幅图，Q=20。我们可以很容易看到：1）N越小，noise越大，越容易发生过度拟合。2）当N很小的时候（此处为N<80），必然会发生过度拟合；3）当N很大，noise越大，越容易发生过度拟合。 N起到决定性作用。

对于第二幅图，noise固定。我们可以很容易看到：1）N约小，Q越大，越容易发生过度拟合；2）当N很小的时候，几乎必然会发生过度拟合；

第一幅图和第二幅图有所不同：1）对于左下方那一块红色区域，因为目标函数阶数足够小的时候，肯定会发生过度拟合。然而为什么随着N增加，反而不会有过度拟合了呢？2）当阶数够大，N很小的时候，就会发生过度拟合，但是一旦N足够大（此处N>100），就不会发生过度拟合了；

我们把noise成为stochastic noise，把Q成为deterministic noise。

overfitting的几个影响因素，N（最重要），noise，Q。

如何解决overfitting问题呢？

我们把overfitting比作出了一起车祸，出车祸的原因可能是：开的太快了、路上有很多坑、路上的标识太少。与此对应的overfitting原因是：d_vc太大（Q太大）、noise太多、数据量太少。

怎么避免“这起车祸”呢？可以开得慢一点，避开路面上的坑坑洼洼、或者是多获取一些路面标识。亦或者踩刹车、多看看仪表盘。

开的慢一点：从simple model开始；

避开路面坑坑洼洼：data cleaning：修正有noise的数据；data pruning：删除有noise的数据。

多获取路面标识：获取更多的数据（有可能无法实现）；或者采用Data Hinting技术；

踩刹车：regularization；

看仪表盘：validation。

后两个之后会详细讲述。

过度拟合（overfitting）的更多相关文章

overfitting(过度拟合)的概念
来自:http://blog.csdn.net/fengzhe0411/article/details/7165549 最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终 ...
过拟合(Overfitting)和正规化(Regularization)
过拟合: Overfitting就是指Ein(在训练集上的错误率)变小,Eout(在整个数据集上的错误率)变大的过程 Underfitting是指Ein和Eout都变大的过程从上边这个图中,虚线的左 ...
过度拟合（overfilting）
过拟合概念:是指分类器能够百分之百的正确分类样本数据(训练集中的样本数据),对训练集以外的数据却不能够正确分类. 原因:1:模型(算法)太过复杂,比如神经网络,算法太过精细复杂,规则太过严格,以至于任 ...
tensorflow学习4-过拟合-over-fitting
过拟合: 真实的应用中,并不是让模型尽量模拟训练数据的行为,而是希望训练数据对未知做出判断. 模型过于复杂后,模型会积极每一个噪声的部分,而不是学习数据中的通用趋势.当一个模型的参数比训练数据还要多 ...
使用 AdaBoost 元算法提高分类器性能
前言有人认为 AdaBoost 是最好的监督学习的方式. 某种程度上因为它是元算法,也就是说它会是几种分类器的组合.这就好比对于一个问题能够咨询多个 "专家" 的意见了. 组合的 ...
【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD
上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...
Machine Learning - 第3周（Logistic Regression、Regularization）
Logistic regression is a method for classifying data into discrete outcomes. For example, we might u ...
Python中Gradient Boosting Machine(GBM）调参方法详解
原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻译与校对 ...
吴恩达-coursera-机器学习-week3
六.逻辑回归(Logistic Regression) 6.1 分类问题 6.2 假说表示 6.3 判定边界 6.4 代价函数 6.5 简化的成本函数和梯度下降 6.6 高级优化 6.7 多类别分类: ...

随机推荐

VC程序查错之内存访问异常
作者:langouster 先来看下面这张图,相信很多程序员都见过类似. ---------------------------test1.exe - 应用程序错误------------------ ...
java：装饰者模式，节点流和处理流
接口: interface Worker { public void dowork(); } 清洁工:被装饰者,节点流 class Clean implements Worker { public v ...
sql中exists,not exists的用法
exists : 强调的是是否返回结果集,不要求知道返回什么, 比如: select name from student where sex = 'm' and mark exists(select ...
（转）Struts 拦截器
一.拦截器是怎么实现: 实际上它是用Java中的动态代理来实现的二.拦截器在Struts2中的应用对于Struts2框架而言,正是大量的内置拦截器完成了大部分操作.像params拦截器将http请 ...
修改linux命令行提示符路径显示
命令显示行太长,影响观感,这样需要修改,具体方法: 1. 修改 ~/.bashrc,在最后一行添加: export PS1='[\u@\h\W]$' 其中\u是当前用户名,\h是当前主机名,\w显示当 ...
OpenGL图形管线和坐标变换[转]
1. OpenGL 渲染管线 OpenGL渲染管线分为两大部分,模型观测变换(ModelView Transformation)和投影变换(Projection Transformation).做个比 ...
JVM学习笔记（一）------基本结构
从Java平台的逻辑结构上来看,我们可以从下图来了解JVM: 从上图能清晰看到Java平台包含的各个逻辑模块,也能了解到JDK与JRE的区别对于JVM自身的物理结构,我们可以从下图鸟瞰一下: 对于J ...
Log4j具体使用实例
首先,下载log4j.jar架包(网上很多,随便下载一个就可以了), 第一步:新建java项目,Testlog4j,再在src中建立com.Testlog4j包,再建一个testlog4j.java文 ...
uva111346Probability
求导. 大水题... 写这个题的目的就是要强调一些细节. printf输出%时要用2个%. 如果S>a*b的话,直接输出0,如果太小,直接输出100. 求导就不说了// 最关键的地方一笔带过?我 ...
BZOJ2594: [Wc2006]水管局长数据加强版
题解: 裸LCT+离线+二分+MST... 代码:(几乎摘抄自hzwer) #include<cstdio> #include<cstdlib> #include<cma ...

过度拟合（overfitting）

过度拟合（overfitting）的更多相关文章

随机推荐

热门专题