机器学习基石：05 Training versus Testing

train：A根据给定训练集D在H中选出g，使得E_in(g)约等于0；

test：g在整个输入空间X上的表现要约等于在训练集D上的表现，使得E_out(g)约等于E_in(g)。

如果|H|小，更易保证test（不等式右式小），难保证train（选择少）；

如果|H|大，更易保证train（选择多），难保证test（不等式右式大）。

如果|H|无限呢？2Mexp(...)可能大于1了，对于概率值上限来说失去意义。那能否用个有限值代替|H|呢？

看一下2Mexp(...)这个上限的来源。

本质是求并集，但是得出2Mexp(...)这个式子是默认无交集的情况下求的并集，

实际上，A确定后，H形式也确定，

给定D，在H里存在相似的h，这些h在D上的表现一致，即存在交集，所以2Mexp(...)这个式子作为上限来说过大了。

给定D，可通过将H里相似h分到同类里（同类里h的数目可能是无限的），将|H|变为类数，就可能将无限的|H|变为有限的类数。

定义给定D下，将|H|分得的类为dichotomies，每一个dichotomy在D上表现相同。

假设D里有2个样本点，将D分为OO、OX、XO、XX的h分别归为一类，共有4类。

可以发现dichotomies的数量是依赖于具体D和H的，但是dichotomies的数量的最大值只依赖与D里样本点的个数N和H，

例如感知器算法里，N=2时，最大值不超过2的N次方，这里是4。

定义dichotomies的数量的最大值为N的成长函数，记为m_H(N)。------只和H、N有关。

即给定样本数N，H里假设类数是小于等于m_H(N)的。

对于2维感知机，m_H(1)=2，m_H(2)=4，m_H(3)=8，m_H(4)=14。

可以看出，成长函数可能是多项式型的（好的，能保证只要N足够大，2m_H(N)exp(...)小），也可能是指数型的（坏的）。

对于2维及以上维数的感知机，成长函数是多项式型的吗？

shatter：如果H里的假设能够保证k个输入能够输出任意标签的组合，称H能shatter这k个输入。

break point k：H不能shatter这k个输入，称k为断点。

猜想，只要存在断点，就能保证成长函数是多项式型，进而保证了test。

机器学习基石：05 Training versus Testing的更多相关文章

机器学习基石 5 Training versus Testing
机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f ...
机器学习基石笔记：05 Training versus Testing
train:A根据给定训练集D在H中选出g,使得Ein(g)约等于0: test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得Eout(g)约等于Ein(g). 如果|H|小,更易保证t ...
05 Training versus Testing
train:A根据给定训练集D在H中选出g,使得Ein(g)约等于0: test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得Eout(g)约等于Ein(g). 如果|H|小,更易保证t ...
Coursera台大机器学习课程笔记4 -- Training versus Testing
这节的主题感觉和training,testing关系不是很大,其根本线索在于铺垫并求解一个问题: 为什么算法PLA可以正确的work?因为前面的知识告诉我们,只有当假设的个数有限的时候,我们才 ...
【Training versus Testing】林轩田机器学习基石
接着上一讲留下的关子,机器学习是否可行与假设集合H的数量M的关系. 机器学习是否可行的两个关键点: 1. Ein(g)是否足够小(在训练集上的表现是否出色) 2. Eout(g)是否与Ein(g)足够 ...
林轩田机器学习基石课程学习笔记5 — Training versus Testing
上节课,我们主要介绍了机器学习的可行性.首先,由NFL定理可知,机器学习貌似是不可行的.但是,随后引入了统计学知识,如果样本数据足够大,且hypothesis个数有限,那么机器学习一般就是可行的.本节 ...
理解机器为什么可以学习（二）---Training versus Testing
前边由Hoeffding出发讨论了为什么机器可以学习,主要就是在N很大的时候Ein PAC Eout,选择较小的Ein,这样的Eout也较小,但是当时还有一个问题没有解决,就是当时的假设的h的集合是个 ...
机器学习基石的泛化理论及VC维部分整理（第五讲）
第五讲 Training versus Testing 一.问题的提出 \(P_{\mathcal{D}}\left [ BAD \mathcal{D} \right ] \leq 2M \cd ...
台大《机器学习基石》课程感受和总结---Part 2 （转）
转自:http://blog.sina.com.cn/s/blog_641289eb0101e2ld.html Part 2总结一下一个粗略的建模过程: 首先,弄清楚问题是什么,能不能用机器学习的思路 ...

随机推荐

Sublime Text3下使用Python，REPL的安装与快捷键设置方法
前提条件:连接外网 1.安装管理插件(CTRL+SHIFT+P),找到Package Control:install package一项,回车后继续选择SublimeREPL插件,进行安装: ...
『练手』通过注册表获取 VS 和 SQLServer 文件路径
获取任意 VS 和 SQLServer 的磁盘安装目录. 背景需求:如果磁盘电脑安装了 VS 或者 SQLServer 则认定这台计算机的使用者是一名软件研发人员,则让程序以最高权限运行. ...
vim的配置
修改根目录下.vimrc文件: 1.设定解码,支持中文 set fileencodings=utf-8,ucs-born,gb18030,gbk,gb2312,cp936 set termencodi ...
20145237《Java程序设计》第一周学习总结
教材学习内容总结 java可分为Java SE.Java EE.Java ME三大平台. java SE分为JVM.JRE.JDK.与java语言四个部分. JRE包括java SE API和JVM. ...
NetFPGA-1G-CML从零开始环境配置
NetFPGA-1G-CML从零开始环境配置前言偶得一块NetFPGA-1G-CML,跟着github对NetFPGA-1G-CML的入门指南,一步步把配置环境终于搭建起来,下面重新复现一下此过程 ...
Python 3.* print 出现SyntaxError: invalid syntax
很简单,不知道为啥,据说是3.0以后的print都改为了print(); 例如 a=1 print a 上边出错输入 a=1 print(a) 就正确了
WPF自学入门（十）WPF MVVM简单介绍
前面文章中,我们已经知道,WPF技术的主要特点是数据驱动UI,所以在使用WPF技术开发的过程中是以数据为核心的,WPF提供了数据绑定机制,当数据发生变化时,WPF会自动发出通知去更新UI. 我们不管 ...
北亚关于HP EVA4400/6400/8400/P6000的数据恢复解决方案
[引言]本文档建立在针对HP EVA的大量测试性研究基础上,所有的细节几乎均为对EVA的破译型研究,目前全球范围内尚未发现类似资料,故可能表述方式和结论并不精确,仅为参考之用.我们公司为研究HP EV ...
SpringMVC之HandlerMapping的使用
上篇博客在了解SpringMVC的工作流程时留了一些疑问,今天先学习下HandlerMapping,在HandlerMapping中可以通过HandlerExecutionChain getHandl ...
《javascript设计模式与开发实践》阅读笔记（15）—— 装饰者模式
装饰者模式可以动态地给某个对象添加一些额外的职责,而不会影响从这个类中派生的其他对象.在程序开发中,许多时候都并不希望某个类天生就非常庞大,一次性包含许多职责.那么我们就可以使用装饰者模式. 代码例 ...

机器学习基石：05 Training versus Testing

机器学习基石：05 Training versus Testing的更多相关文章

随机推荐

热门专题