1 泛化能力

用VC维来衡量一个模型的表达能力，比如２维线性模型的VC维为３。

在图1-2中，随便给啥训练数据该model都能learn起来。

从理论上来看，当２个model在训练数据上表现一样时，为了更好的泛化能力，应该选择表达能力更小的model。

这个结论是一定的吗？

神经网络自带regularization吗？

从图1-8可以看出，2到12层得到的线都是很平滑的。

如果让网络去拟合虚线，网络也是能够做到的，说明该网络有很大的模型表达能力，但是2到12层对应的线却没有形成虚线状。

可见神经网络没有我们想象的那么容易过拟合。

关于这点背后的原因，现在无最佳解答。一种说法是因为初始化在原点附近，梯度下降后得到的参数与原点也很近，所以使用基于梯度的优化方法得到的神经网络能够自带正规化。

总之，深度模型的表达能力是很强的，但是，它并没有我们想象中的那么容易过拟合，其中的原因尚不清楚。

2 泛化指标

一个神经网络有哪些特性可以使其不易过拟合？知道答案的话就可以在训练的时候将这些特性塞进去。

2.1 暴力记忆

神经网络的学习过程并不是暴力记忆。

虽然给定任意输入，神经网络都能learn起来，但是learn出的并不是同一个model。

2.2 Sensitivity

如何定义Sensitivity？

如图2.2-2和图2.2-3所示，训练数据出现处的Sensitivity通常较小，即自信度较高；训练数据未出现处的Sensitivity通常较大，即自信度较低。

2.3 Sharpness

如何定义Sharpness？

有很多种定义方式，不限于下图。

常small batch训练得到的minima泛化能力较好，关于背后原因，有一种说法是其较易找到较flat的minima。

*泛化能力的好坏与Sensitivity的大小有关；

泛化能力的好坏与Sharpness的大小有关(这一点的不同意见参见

Laurent Dinh, Razvan Pascanu, Samy Bengio, Yoshua Bengio, Sharp Minima Can Generalize For Deep Nets, PMLR, 2017

)*

MLDS笔记：Generalization的更多相关文章

MLDS笔记：浅层结构 vs 深层结构
深度学习出现之前,机器学习方面的开发者通常需要仔细地设计特征.设计算法,且他们在理论上常能够得知这样设计的实际表现如何: 深度学习出现后,开发者常先尝试实验,有时候实验结果常与直觉相矛盾,实验后再找出 ...
MLDS笔记：Optimization
当函数空间覆盖到目标函数时,如何通过优化调整神经网络的参数找到这个目标函数呢? 深度学习中的损失函数是非凸的,非凸优化是个NP-hard问题,如何通过梯度下降来解决这个问题呢? 注意,不同于learn ...
ML&MLDS笔记：偏差 vs 方差
原文地址:https://www.jianshu.com/p/a02c6bd5d5e9 error来自哪?来自于偏差Bias和方差Variance. 就如打靶时瞄准一个点\(\overline{f}\ ...
学习笔记(三）： Generalization/Overfitting/Validation
目录 Generalization: Peril of Overfitting Low loss, but still a bad model? How Do We Know If Our Mod ...
Coursera台大机器学习课程笔记5 -- Theory of Generalization
本章思路: 根据之前的总结,如果M很大,那么无论假设泛化能力差的概率多小,都无法忽略,所以问题转化为证明M不大,然后上章将其转化为证明成长函数:mh(N)为多项式级别.直接证明似乎很困难,本章继续利用 ...
机器学习基石笔记：06 Theory of Generalization
若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大 ...
【Todo】【读书笔记】机器学习-周志华
书籍位置: /Users/baidu/Documents/Data/Interview/机器学习-数据挖掘/<机器学习_周志华.pdf> 一共442页.能不能这个周末先囫囵吞枣看完呢.哈哈 ...
设计模式学习起点 UML类图笔记
UML类图笔记大学开设的软件设计课程一般都会学习UML类图,大部分关于设计模式的描述都是使用的UML类图,可以说类图的表示是学习设计模式的起点.UML定义类之间的关系主要有六种:泛化关系.实现关系. ...
机器学习&数据挖掘笔记（常见面试之机器学习算法思想简单梳理）
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 前言: 找工作时( ...

随机推荐

浅谈java异常
一．异常的定义在<java编程思想>中这样定义异常:阻止当前方法或作用域继续执行的问题.虽然java中有异常处理机制,但是要明确一点,决不应该用"正常"的态度来看 ...
Eclpse 标准版，在联想一体机上报 eclipse failed to create the java virtual machine
环境:联想一体机 IdearCentre B320I, XP系统 32位操作系统下载了最新的JDK和Eclipse标准版,安装之后,启动eclipse报错这个错误,以前还真没有遇到过,网上搜了下 ...
Cocos2D:塔防游戏制作之旅(十三)
让我们看一下Waves.plist文件,你将注意到它包含了3个数组.每一个数组表示一波攻击,也就是一组敌人一起到达闹事.第一个数组包含6个字典.每一个字典定义1个敌人. 在本次教程中,字典只存储敌人应 ...
XML解析之JAXP案例详解
根据一个CRUD的案例,对JAXP解析xml技术,进行详细的解释: 首先,已知一个xml文件中的数据如下: <?xml version="1.0" encoding=&quo ...
Chipmunk僵尸物理对象的出现和解决(六)
既然出现了这个问题下面就是如何找到原因. 因为该问题不是每次都出现,偶尔反弹棒碰到五角星时才会多出一个僵尸棒,现象比较随机,较难悉知具体原因. 有时多次触碰又没有出现问题,有时短时间内每次触碰都出现问 ...
Linux Android 多点触摸协议原文出自【比特网】，转载请保留原文链接：http://soft.chinabyte.com/os/71/12306571.shtml
为了使用功能强大的多点触控设备,就需要一种方案去上报用户层所需的详细的手指触摸数据.这个文档所描述的多点触控协议可以让内核驱动程序向用户层上报任意多指的数据信息. 使用说明单点触摸信息是以ABS承载 ...
Android开发艺术探索——新的征程，程序人生路漫漫！
Android开发艺术探索--新的征程,程序人生路漫漫! 偶尔写点东西分享,但是我还是比较喜欢写笔记,看书,群英传看完了,是学到了点东西,开始看这本更加深入Android的书籍了,不知道适不适合自己, ...
mpi中的广播
MPI可以实现一对多的集合通信,最常用的是广播:某个进程将数据广播到所有其他进程,最终的结果就是每个进程都有一份广播的数据.MPICH中的广播函数是MPI_Bcast(void* buffer,int ...
AngularJS进阶(二十三)ANGULAR三宗罪之版本陷阱
ANGULAR三宗罪之版本陷阱坑!碰到个大坑,前面由于绑定日期时将angular版本换为angular-1.3.0-beta.1时,后来午睡后,登录系统,发现无论如何都登陆不进去了,经过调试,发现数 ...
Leetcode_49_Anagrams
本文是在学习中的总结,欢迎转载但请注明出处:http://blog.csdn.net/pistolove/article/details/42744709 Given an array of stri ...

MLDS笔记：Generalization