05 Training versus Testing

train：A根据给定训练集D在H中选出g，使得Ein(g)约等于0；

test：g在整个输入空间X上的表现要约等于在训练集D上的表现，使得Eout(g)约等于Ein(g)。

如果|H|小，更易保证test（不等式右式小），难保证train（选择少）；

如果|H|大，更易保证train（选择多），难保证test（不等式右式大）。

如果|H|无限呢？2Mexp(...)可能大于1了，对于概率值上限来说失去意义。那能否用个有限值代替|H|呢？

看一下2Mexp(...)这个上限的来源。

本质是求并集，但是得出2Mexp(...)这个式子是默认无交集的情况下求的并集，

实际上，A确定后，H形式也确定，

给定D，在H里存在相似的h，这些h在D上的表现一致，即存在交集，所以2Mexp(...)这个式子作为上限来说过大了。

给定D，可通过将H里相似h分到同类里（同类里h的数目可能是无限的），将|H|变为类数，就可能将无限的|H|变为有限的类数。

定义给定D下，将|H|分得的类为dichotomies，每一个dichotomy在D上表现相同。

假设D里有2个样本点，将D分为OO、OX、XO、XX的h分别归为一类，共有4类。

可以发现dichotomies的数量是依赖于具体D和H的，但是dichotomies的数量的最大值只依赖与D里样本点的个数N和H，

例如感知器算法里，N=2时，最大值不超过2的N次方，这里是4。

定义dichotomies的数量的最大值为N的成长函数，记为mH(N)。------只和H、N有关

即给定样本数N，H里假设类数是小于等于mH(N)的。

对于2维感知机，mH(1)=2，mH(2)=4，mH(3)=8，mH(4)=14。

可以看出，成长函数可能是多项式型的（好的，能保证只要N足够大，2mH(N)exp(...)小），也可能是指数型的（坏的）。

对于2维及以上维数的感知机，成长函数是多项式型的吗？

shatter：如果H里的假设能够保证k个输入能够输出任意标签的组合，称H能shatter这k个输入。

break point k：H不能shatter这k个输入，称k为断点。

猜想，只要存在断点，就能保证成长函数是多项式型，进而保证了test。

05 Training versus Testing的更多相关文章

机器学习基石：05 Training versus Testing
train:A根据给定训练集D在H中选出g,使得Ein(g)约等于0: test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得Eout(g)约等于Ein(g). 如果|H|小,更易保证t ...
机器学习基石笔记：05 Training versus Testing
train:A根据给定训练集D在H中选出g,使得Ein(g)约等于0: test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得Eout(g)约等于Ein(g). 如果|H|小,更易保证t ...
机器学习基石 5 Training versus Testing
机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f ...
Coursera台大机器学习课程笔记4 -- Training versus Testing
这节的主题感觉和training,testing关系不是很大,其根本线索在于铺垫并求解一个问题: 为什么算法PLA可以正确的work?因为前面的知识告诉我们,只有当假设的个数有限的时候,我们才 ...
【Training versus Testing】林轩田机器学习基石
接着上一讲留下的关子,机器学习是否可行与假设集合H的数量M的关系. 机器学习是否可行的两个关键点: 1. Ein(g)是否足够小(在训练集上的表现是否出色) 2. Eout(g)是否与Ein(g)足够 ...
理解机器为什么可以学习（二）---Training versus Testing
前边由Hoeffding出发讨论了为什么机器可以学习,主要就是在N很大的时候Ein PAC Eout,选择较小的Ein,这样的Eout也较小,但是当时还有一个问题没有解决,就是当时的假设的h的集合是个 ...
林轩田机器学习基石课程学习笔记5 — Training versus Testing
上节课,我们主要介绍了机器学习的可行性.首先,由NFL定理可知,机器学习貌似是不可行的.但是,随后引入了统计学知识,如果样本数据足够大,且hypothesis个数有限,那么机器学习一般就是可行的.本节 ...
Note for video Machine Learning and Data Mining——training vs Testing
Here is the note for lecture five. There will be several points 1. Training and Testing Both of th ...
机器学习基石的泛化理论及VC维部分整理（第五讲）
第五讲 Training versus Testing 一.问题的提出 \(P_{\mathcal{D}}\left [ BAD \mathcal{D} \right ] \leq 2M \cd ...

随机推荐

HTML5 File接口(在web页面上使用文件)
File接口提供了与文件相关的信息,并且运行JavaScript在web页面上去访问文件中的内容. File对象来自于用户使用input标签选择文件返回的FileList对象,来自于拖放操作的Data ...
storm 1.0版本滑动窗口的实现及原理
滑动窗口在监控和统计应用的场景比较广泛,比如每隔一段时间(10s)统计最近30s的请求量或者异常次数,根据请求或者异常次数采取相应措施.在storm1.0版本之前,没有提供关于滑动窗口的实现,需要开发 ...
ViewPager基础入门
效果图: 实现了三个view间的相互滑动第一个VIEW向第二个VIEW滑动第二个VIEW向第三个VIEW滑动 ...
Vue开源项目库汇总
最近做了一个Vue开源项目库汇总,里面集合了OpenDigg 上的优质的Vue开源项目库,方便移动开发人员便捷的找到自己需要的项目工具等,感兴趣的可以到GitHub上给个star. UI组件 elem ...
Debian安装Oracle Java步骤
在Debian下安装OpenJDK使用apt命令非常方便的安装,但安装Oracle就需要手动了,这里需了解ln和update-alternatvies命令. ln链接首先我们来说说linux的链接, ...
九度OJ题目1443：Tr A (JAVA)
题目描述: A为一个方阵,则Tr A表示A的迹(就是主对角线上各项的和),现要求Tr(A^k)%9973. 输入: 数据的第一行是一个T,表示有T组数据. 每组数据的第一行有n(2 <= n & ...
升级后 VTE 类虚拟终端不工作
故障现象运行 vte 终端,如 gnome terminal.sakura 等光标不出来.xterm 可以运行. 在 xterm 终端中运行 gnome terminal 出现一下错误: grant ...
Jmeter正则提取list中相同key的value和出现的次数
list中如何计算某个key出现的次数以及通过正则关联参数化呢? 首先要通过正则提取出现key的value 举例:
http的几种请求的方式（Get、Post、Put、Head、Delete、Options、Trace和Connect）
http的这几种请求方式各有各的特点,适用于各自的环境.下面我就说说这些方式的各自特点: 1.Get:它的原理就是通过发送一个请求来取得服务器上的某一资源.获取到的资源是通过一组HTTP头和呈现数据来 ...
机器学习基石 1 The Learning Problem
机器学习基石 1 The Learning Problem Introduction 什么是机器学习机器学习是计算机通过数据和计算获得一定技巧的过程. 为什么需要机器学习 1 人无法获取数据或者数据 ...

05 Training versus Testing

05 Training versus Testing的更多相关文章

随机推荐

热门专题