05 Training versus Testing

train：A根据给定训练集D在H中选出g，使得Ein(g)约等于0；

test：g在整个输入空间X上的表现要约等于在训练集D上的表现，使得Eout(g)约等于Ein(g)。

如果|H|小，更易保证test（不等式右式小），难保证train（选择少）；

如果|H|大，更易保证train（选择多），难保证test（不等式右式大）。

如果|H|无限呢？2Mexp(...)可能大于1了，对于概率值上限来说失去意义。那能否用个有限值代替|H|呢？

看一下2Mexp(...)这个上限的来源。

本质是求并集，但是得出2Mexp(...)这个式子是默认无交集的情况下求的并集，

实际上，A确定后，H形式也确定，

给定D，在H里存在相似的h，这些h在D上的表现一致，即存在交集，所以2Mexp(...)这个式子作为上限来说过大了。

给定D，可通过将H里相似h分到同类里（同类里h的数目可能是无限的），将|H|变为类数，就可能将无限的|H|变为有限的类数。

定义给定D下，将|H|分得的类为dichotomies，每一个dichotomy在D上表现相同。

假设D里有2个样本点，将D分为OO、OX、XO、XX的h分别归为一类，共有4类。

可以发现dichotomies的数量是依赖于具体D和H的，但是dichotomies的数量的最大值只依赖与D里样本点的个数N和H，

例如感知器算法里，N=2时，最大值不超过2的N次方，这里是4。

定义dichotomies的数量的最大值为N的成长函数，记为mH(N)。------只和H、N有关

即给定样本数N，H里假设类数是小于等于mH(N)的。

对于2维感知机，mH(1)=2，mH(2)=4，mH(3)=8，mH(4)=14。

可以看出，成长函数可能是多项式型的（好的，能保证只要N足够大，2mH(N)exp(...)小），也可能是指数型的（坏的）。

对于2维及以上维数的感知机，成长函数是多项式型的吗？

shatter：如果H里的假设能够保证k个输入能够输出任意标签的组合，称H能shatter这k个输入。

break point k：H不能shatter这k个输入，称k为断点。

猜想，只要存在断点，就能保证成长函数是多项式型，进而保证了test。

05 Training versus Testing的更多相关文章

机器学习基石：05 Training versus Testing
train:A根据给定训练集D在H中选出g,使得Ein(g)约等于0: test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得Eout(g)约等于Ein(g). 如果|H|小,更易保证t ...
机器学习基石笔记：05 Training versus Testing
train:A根据给定训练集D在H中选出g,使得Ein(g)约等于0: test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得Eout(g)约等于Ein(g). 如果|H|小,更易保证t ...
机器学习基石 5 Training versus Testing
机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f ...
Coursera台大机器学习课程笔记4 -- Training versus Testing
这节的主题感觉和training,testing关系不是很大,其根本线索在于铺垫并求解一个问题: 为什么算法PLA可以正确的work?因为前面的知识告诉我们,只有当假设的个数有限的时候,我们才 ...
【Training versus Testing】林轩田机器学习基石
接着上一讲留下的关子,机器学习是否可行与假设集合H的数量M的关系. 机器学习是否可行的两个关键点: 1. Ein(g)是否足够小(在训练集上的表现是否出色) 2. Eout(g)是否与Ein(g)足够 ...
理解机器为什么可以学习（二）---Training versus Testing
前边由Hoeffding出发讨论了为什么机器可以学习,主要就是在N很大的时候Ein PAC Eout,选择较小的Ein,这样的Eout也较小,但是当时还有一个问题没有解决,就是当时的假设的h的集合是个 ...
林轩田机器学习基石课程学习笔记5 — Training versus Testing
上节课,我们主要介绍了机器学习的可行性.首先,由NFL定理可知,机器学习貌似是不可行的.但是,随后引入了统计学知识,如果样本数据足够大,且hypothesis个数有限,那么机器学习一般就是可行的.本节 ...
Note for video Machine Learning and Data Mining——training vs Testing
Here is the note for lecture five. There will be several points 1. Training and Testing Both of th ...
机器学习基石的泛化理论及VC维部分整理（第五讲）
第五讲 Training versus Testing 一.问题的提出 \(P_{\mathcal{D}}\left [ BAD \mathcal{D} \right ] \leq 2M \cd ...

随机推荐

mysql 安装及卸载主从配置
1.查询rpm -qa | grep mysql* 组件出现类似安装包 mysql-server-5.1.71-1.el6.x86_64 mysql-libs-5.1.71-1.el6.x86_64 ...
200行自定义异步非阻塞Web框架
Python的Web框架中Tornado以异步非阻塞而闻名.本篇将使用200行代码完成一个微型异步非阻塞Web框架:Snow. 一.源码本文基于非阻塞的Socket以及IO多路复用从而实现异步非阻塞 ...
软件测试之fault、error和failure的理解
(1) Identify the fault : The first element of the array is not looped. "for(int i=x.length-1;i ...
iOS下的界面布局利器-MyLayout布局框架
Swift:TangramKit: https://github.com/youngsoft/TangramKit OC:MyLayout: https://github.com/youngsof ...
ionic的安装
一.学习一样新的框架的步骤: 1.先找到人家的网站, 一个个点过来看看 2.我们前端的框架,分css与js 3.先学css 再学js 4.要学会复制黏贴代码, 实际演练代码的效果二.ionic环境安 ...
sublime text笔记
sublime text确实是一个很不错的编辑器,而且还是跨平台的,这个很不错.---Linux V2.0.2 有些时候可以比VIM要好有些 1.安装: apt-get install sublime ...
hdoj1242(dfs 剪枝解法)
题意:拯救行动,天使r有多个朋友a(friends,在这里被坑了几次,没看清题意),天使被关在牢房里,等着朋友来拯救,求拯救天使的最短距离. 解法:如果不剪枝,200*200的地图会超时,可以以天使为 ...
jump堡垒机配置使用
一.用户管理 1)添加用户点击用户管理 —> 查看用户 —> 添加用户输入要添加的用户名,姓名,权限,Mail,并且发送邮件 —> 保存查看添加的用户查看用户邮件邮件中包含 ...
搭建ftp服务器实现文件共享
FTP服务器(File Transfer Protocol Server)是在互联网上提供文件存储和访问服务的计算机,它们依照FTP协议提供服务. FTP(File Transfer Protocol ...
springmvc.xml或spring.xml 能运行配置文件总是出现错误
1:在java开发时总遇到配置文件配置正确,可以运行但有时显示错误.例如下图上面配置文件正确但有时显错就不能运行.原因是配置文件的约束项错了. 原因是自己的jar包和配置文件版本不同.如果电脑联网它 ...

05 Training versus Testing

05 Training versus Testing的更多相关文章

随机推荐

热门专题