【Hazard of Overfitting】林轩田机器学习基石

首先明确了什么是Overfitting

随后，用开车的例子给出了Overfitting的出现原因

出现原因有三个：

（1）dvc太高，模型过于复杂（开车开太快）

（2）data中噪声太大（路面太颠簸）

（3）数据量N太小（知道的路线太少）

这里（1）是前提，模型太复杂：

（1）模型越复杂，就会捕获train data中越多的点（这当中当然包括更多的噪声点）

（2）数据量N太小，根据VC Dimension理论，Eout会增大

这里的noise包括两类：

1. stochoastic noise：

　　比如train data就是“10次多项式+正态分布的误差”产生的；如果样本量N不是很大的话，noise带来的影响很可能不能被互相抵消（抵消的意思是+noise, -noise在算error的时候有抵消的作用），这样每个noise就会非常影响曲线的形状；结果就是带来overfitting

2. deterministic noise:

　　比如train data是“50次多项式”产生的；即使没有stochastic noise，无论怎么用10次多项式去拟合也无法拟合出50次多项式；

　　但是这个时候，由于10次多项式的power比较强，它回去够到尽量多的点，这些点当中难免有些就等于noise了；

　　反之，如果用2次多项式去拟合，由于它的power比较弱，在它正常范围内能够到的点比较少，因此train data中的数据点起到stochastic noise的机会就大大减少了

最终的造成的结果，就是如下的两张图了。

如上图，总结了overfitting的四种reasons。

最后，引出了对抗overfitting的几种途径：

最关键的是：一开始尽量从simple model开始尝试

其次再是对train data的各种清洗过滤。

另外，regularization和validation是两种比较重要的防止overfitting的途径。后面有可能重点介绍。

【Hazard of Overfitting】林轩田机器学习基石的更多相关文章

（转载）林轩田机器学习基石课程学习笔记1 — The Learning Problem
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can M ...
【The VC Dimension】林轩田机器学习基石
首先回顾上节课末尾引出来的VC Bound概念,对于机器学习来说,VC dimension理论到底有啥用. 三点: 1. 如果有Break Point证明是一个好的假设集合 2. 如果N足够大,那么E ...
【Validation】林轩田机器学习基石
这一节主要讲如何通过数据来合理的验证模型好不好. 首先,否定了Ein来选模型和Etest来选模型. (1)模型越复杂,Ein肯定越好:但是Eout就不一定了(见上一节的overfitting等) (2 ...
【Regularization】林轩田机器学习基石
正则化的提出,是因为要解决overfitting的问题. 以Linear Regression为例:低次多项式拟合的效果可能会好于高次多项式拟合的效果. 这里回顾上上节nonlinear transf ...
【 Logistic Regression 】林轩田机器学习基石
这里提出Logistic Regression的角度是Soft Binary Classification.输出限定在0~1之间,用于表示可能发生positive的概率. 具体的做法是在Linear ...
【Linear Regression】林轩田机器学习基石
这一节开始讲基础的Linear Regression算法. (1)Linear Regression的假设空间变成了实数域 (2)Linear Regression的目标是找到使得残差更小的分割线(超 ...
【Theory of Generalization】林轩田机器学习基石
紧接上一讲的Break Point of H.有一个非常intuition的结论,如果break point在k取到了,那么k+1, k+2,... 都是break point. 那么除此之外,我们还 ...
【Training versus Testing】林轩田机器学习基石
接着上一讲留下的关子,机器学习是否可行与假设集合H的数量M的关系. 机器学习是否可行的两个关键点: 1. Ein(g)是否足够小(在训练集上的表现是否出色) 2. Eout(g)是否与Ein(g)足够 ...
【Feasibility of Learning】林轩田机器学习基石
这一节的核心内容在于如何由hoeffding不等式关联到机器学习的可行性. 这个PAC很形象又准确,描述了“当前的可能性大概是正确的”,即某个概率的上届. hoeffding在机器学习上的关联就是: ...

随机推荐

oracle 11g expdp impdp详细使用方法
11G中有个新特性,当表无数据时,不分配segment,以节省空间解决方法如下图: 二.oracle10g以后提供了expdp/impdp工具,同样可以解决此问题 1.导出expdp工具使用方法: ...
spring-mabatis整合的配置文件
1.spring.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns=" ...
DOM笔记（十一）：JavaScript对象的基本认识和创建
一.什么是对象? 面向对象(Object-Oriented,OO)的语言有一个标志,那就是都有类的概念,例如C++.Java等:但是ECMAScript没有类的概念.ECMAScript-262把 ...
mmap内存映射
http://blog.csdn.net/kongdefei5000/article/details/70183119 内存映射是个很有用,也很有意思的思想.我们都知道操作系统分为用户态和内核态,用户 ...
使用cmd命令创建maven(web)项目+项目转换成IDEA项目+项目打包+Jetty运行Web项目
3条件:配置好环境配置环境教程:https://www.cnblogs.com/weibanggang/p/9623705.html 第一步:查看版本信息,在cmd输入mvn –version,如果 ...
C#面向对象的编程语言具三个特性
C#面向对象的编程语言具三个特性:有封装性.继承性.多态性 .
Python，针对指定文件类型，过滤空行和注释，统计行数
参考网络上代码编辑而成,无技术含量,可自行定制: 目前亲测有效,若有待完善之处,还望指出! 强调:将此统计py脚本放置项目的根目录下执行即可. 1.遍历文件,递归遍历文件夹中的所有 def getFi ...
ios xmppFramework框架的导入步骤和介绍
一个将要开发xmpp的项目,建议在项目刚创建就导入框架,这样可以避免一些自己操作失误造成不必要的损失. xmpp中最常用的框架就是 xmppFrameWork 第一种方法直接拖 1> 拖入文件夹 ...
C-net总结
SMB服务器信息块 DHCP动态主机配置协议 STMP简单邮件传输协议 POP(邮件协议) Gnutella 网络分析数据 nslookup DNS(域名系统) 请求注释(RFC)文件 ...
C编程经验总结
Turbo c Return (z);=return z; 图形界面的有scanf(“%d ~%d\n”,&~,&~);注意:中间不能有乱的东西 Printf(“~~~ %d~~%d\ ...

【Hazard of Overfitting】林轩田机器学习基石

【Hazard of Overfitting】林轩田机器学习基石的更多相关文章

随机推荐

热门专题