VC dimension and Model complexity

可以把growth function m_H(N)的upper bound用N^(k-1)来限制, for N large, k>=3
Thus,

定义: VC Dimension: maximum non-break point
如果break point = k, then VC dimension = k-1
在VC Dimension上，这个Hset可以shatter某N个点，不一定是所有的N个点，但是如果N超过了VC dimension，则出现了Hset不能shatter掉的情况。
d_vc = minimun k -1

如果有另外一个N的input，可以被shatter，则d_vc>N。如果其他任何的N input都不能被shatter的话,则d_vc

1. if linear separable dataset, PLA can converge. After T(large) correction, Ein(g)=0
2. with x_n ~ P and y_n=f(x_n), the prob of (Ein(g)-Eout(g)>epislon)

Multiple feature
d-D perceptrons: d_vc = d+1
证明：
先证d_vc >= d+1 (There are some d+1 inputs that can shatter)
输入d+1个点，每个点的维度为d再加上x_0=1，也就是那个threshold，一共是d+1维。把这d+1个维度为d+1的点写成矩阵形式：

第1个点全0，第2个点在第一个维度有1的分量，其他维度为0，第3个点在第二个维度有1的分量，其他维度为0，其他以此类推。然后最左边灰色的column就是那个threshold，就是x_0。这个矩阵是(d+1)*(d+1)维的，是可逆的，invertible。
对于任何一个dichotomy, 用y=[y_1, y_2,…,y_d+1]表示的话，可以有一个w，这个w也就是一个h在每个feature上的权重，通过这个h对d+1个点的Data进行划分，得到的其中一种dichotomy。那么现在对于任何一种dichotomy，都可以找到对应的w，即

所以对于这种特定的X，发现它可以被shatter，满足条件 (There are some d+1 inputs that can shatter)，因此d_vc>=d+1
现在证d_vcd+1，姑且就用d+2个点作为例子，都不能被shatter）
对于2D perceptron情况，对于输入是3个点而言，存在可以被shatter的3点input。在此基础上，加上一个点，变成了4点input。现在可否被shatter呢？假设原来三个点分别是+1,+1,-1，如果是这样的话，第4个点就无法是-1，原因是第四个点与前3个点有linear dependence，这restrict了dichotomy的种类。

因此对于2D情况，当输入的点的个数大于d+1，这里是d+2，都不可以被shatter。
对于一般的d维perceptron，每个点的维度是d+1维，现在输入d+2个点，把这些点用矩阵形式表示，

可以看到，第d+2个点x_d+2 可以由前d+1个点用线性表示，这是线代里面知识。
现在有个h，它的w满足

就是它满足对每个点x的划分的符号都与前面的a相同，那么这样产生出来的结果是正的，因此第d+2个点就不能被h划分为－1，此时说明如果有d+2个点作为input，这种情况是不可以被shatter的。因此d_vc

VC bound: 不等式右边，定义为delta，Bad发生的概率delta很小

相反，Good发生的概率，即P(|Ein(g)-Eout(g)|= 1-delta

这个不等式，Ein和Eout有很大的概率，会被限制在根号那一项内，定义为Omega，就是model(Hset) complexity。

可以看到，随着VC dimension的上升，Hset就越来越powerful，Ein就会下降，但是这伴随着Model Complexity的penalty。某个时刻，Model Complexity 德penalty上升的量超过Ein下降的量，这样会导致Eout不降反升。
Sample Complexity:N
还是对于Hoeffding中的VC Bound delta

在外面有一个N，在exp中有一个N，外面的N和里面的N对delta的贡献分别是正和负的。
E.g:

一开始N=100or1000的时候，外面的N dominant，再增大以后,exp里的N开始dominant。从理论上来说，N需要的个数是d_vcd的10000倍，但是实际上只需要10倍。
这样的差距，说明我们计算的这个VC bound还是很宽松的，来源是

1. 不需要知道P和f
2. 没有用真正的dichotomy set的大小，而是用了成长函数(max dichotomy set)，确保可以使用任何的Data，而不是某一特定的Data
3. 用成长函数的上限，也就是Dichotomy set上限的上限
4. 最差情况

VC dimension and Model complexity的更多相关文章

Coursera台大机器学习课程笔记6 -- The VC Dimension
本章的思路在于揭示VC Dimension的意义,简单来说就是假设的自由度,或者假设包含的feature vector的个数(一般情况下),同时进一步说明了Dvc和,Eout,Ein以及Model C ...
机器学习基石7-The VC Dimension
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头微信公众号:AI有道前几节课着重介绍了机器能够学习的条件并做了详细的推导和解释.机器能够学习必须满 ...
【机器学习基石笔记】七、vc Dimension
vc demension定义: breakPoint - 1 N > vc dimension, 任意的N个,就不能任意划分 N <= vc dimension,存在N个,可以任意划分只 ...
The Model Complexity Myth
The Model Complexity Myth (or, Yes You Can Fit Models With More Parameters Than Data Points) An oft- ...
VC Dimension -衡量模型与样本的复杂度
(1)定义VC Dimension: dichotomies数量的上限是成长函数,成长函数的上限是边界函数: 所以VC Bound可以改写成: 下面我们定义VC Dimension: 对于某个备选函数 ...
【The VC Dimension】林轩田机器学习基石
首先回顾上节课末尾引出来的VC Bound概念,对于机器学习来说,VC dimension理论到底有啥用. 三点: 1. 如果有Break Point证明是一个好的假设集合 2. 如果N足够大,那么E ...
理解机器为什么可以学习（四）---VC Dimension
前面一节我们通过引入增长函数的上限的上限,一个多项式,来把Ein 和 Eout 的差Bound住,这一节引入VC Bound进一步说明这个问题. 前边我们得到,如果一个hypethesis集是有bre ...
07 The VC Dimension
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入 ...
机器学习基石：07 The VC Dimension
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入 ...

随机推荐

如何将JS里变量的值赋给文本框
举个栗子: <html><HEAD><script type="text/javascript" language="Javascript1 ...
[BZOJ3244][NOI2013]树的计数
这题大家为什么都写O(NlogN)的算法呢?…… 让本蒟蒻来写一个O(N)的吧…… 首先还是对BFS序和DFS序重编号,记标好的DFS序为d[1..n].令pos[x]为x在d[]中出现的位置,即po ...
jQuery实际案例②——三层轮播图
1.如图,这种轮播图需要实现的是,当鼠标移到2上时,第二张图片从右侧过来 2.需要注意的:①很明显这是通过改变z-index与left值来实现的: ②整体布局需注意,图与数值(1,2,3,4,5)两 ...
raid write back / write throught
RAID write back指的是raid控制器能够将写入的数据写入自己的缓存中,并把它们安排到后续再执行,这样做的好处就是不需要等实际写入磁盘再返回,因此写入更快.对于数据库而言,这一点更为重要, ...
[洛谷U62364]三次函数极值
U62364 三次函数极值题面给定一个三次函数\(f(x)=a_3x^3+a_2x^2+a_1x+a_0\) 求其极值. 格式输入包括一行四个整数\(a_3,a_2,a_1,a_0\) 输出包括 ...
fwrite的文件缓冲同步到磁盘
这是个小细节. 用fwrite写文件的时候,我发现刷新文件夹,对应文件大小一直是0. 网上有一篇博客写得比较完善http://blog.csdn.net/sctq8888/article/detail ...
hdu4678 Mine 规律或者博弈。（博弈的sg函数不懂我是找的规律）
链接:题意就是告诉你一个扫雷图里面每个雷的位置,有两个人,每个人都知道雷的确切位置,每个人一次可以点一部,问你谁能赢. 链接:http://acm.hdu.edu.cn/showproblem.php ...
Ubuntu下压缩解压文件
一般来说ubuntu 下带有tar 命令,可以用来解压和压缩之用.但是我们经常要与win下用户打交道,所以要安装一些解压工具如:rar zip 等命令. 如果要需要用到zip工具那么可以: sudo ...
day6-面向对象基础篇
一.面向对象引子及概念结合编程的一些理论知识和实践,可以总结出目前存在以下编程模式: 1. 面向过程按照业务逻辑和实现过程步骤来逐步垒代码,代码编写的逻辑即对应于实际实现的步骤过程,核心是过程两个 ...
oracle数据库简单的导入导出操作
一.数据库导出 1.导出用户名/密码,,导出用户名为test_expdp.导出路径默认为oracle中的dpdump文件中 expdp test_expdp/test_expdp@orcl direc ...

VC dimension and Model complexity

VC dimension and Model complexity的更多相关文章

随机推荐

热门专题