Infinite size of Hypothesis set and growth function
We want:
根据Hoeffding:

但是M是无穷大的,是否可以找到一个有穷大的m_H去替代无穷大的M?
思考:M从何而来。
Hset里有M个h,对于每个Data,只要存在一个h会造成Bad,即Ein和Eout差很远,则称该Data是一个Bad sample,因此是用or的关系。这里的upper bound之所以是可以加起来的,是因为假设了Bad sample发生在不同的h上,即h1(D1)是Bad的,h2(D1)就不会Bad。但是这种假设是不对的。例如:对于两个很接近的h,他们对于同一个Data,会产生几乎接近的Ein。
所以不能通过直接把概率相加起来的办法作为Bad产生的概率上限。
考虑:可否将线,也就是h分组。结论是可以的。
方法:对于N个x,从x_1到x_N,即使h是无限个的,但是通过这些h,把这N个x分出来的结果是有限个的,例如对于N等于2,x1和x2被分的所有可能就只有4种。00,01,10,11。


定义:一个Hset是由很多个用来区分x的h组成的,表达如下:

现在定义二分(dichotomy):
Hset和dichotomy set的区别

定义dichotomy set的大小

这是依赖于输入的N。为了去除这种依赖,定义成长函数growth function:

怎样计算m_H(N)呢?
1D情况1:positive ray在threshold左边为-1右边+1

m_H(N) = N+1。因为有N+1个地方可以放分割线。
情况2:在interval内为+1,其他为-1


右边的1那一项表示没有点在interval内,即全部是-1
2D情况:在convex set内为+1,外面为-1。假设输入的N个x在一个大圆上,那么H里的所有h都可以实现不同的dichotomy。

shattered:特别的N个点,可以做出2^N个dichotomy。
总结:

定义:break point
第一个做不出2^k个dichotomy的点的个数(e.g:2d:k=4) convex set没有break point

以下的情况是h没有办法产生的dichotomy

Infinite size of Hypothesis set and growth function的更多相关文章
- [Vue warn]: You may have an infinite update loop in a component render function
[Vue warn]: You may have an infinite update loop in a component render function 这个问题很奇怪,之前从来没有遇到过.如果 ...
- [under the hood]Reduce EXE and DLL Size with LIBCTINY.LIB
Matt Pietrek Download the code for this article: Hood0101.exe (45KB) W ay back in my October 1996 co ...
- First-class function
https://en.wikipedia.org/wiki/First-class_function In computer science, a programming language is sa ...
- OpenCV Error: Assertion failed (src.size == dst.size && src.channels() == dst.channels()) in cvConvertScale
发现问题:在做kinect采集的深度图去噪的时候遇到了cvConvertScale格式转换的问题. OpenCV Error: Assertion failed (src.size == dst.si ...
- 机器学习基石 5 Training versus Testing
机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f ...
- Microsoft SQL Server Trace Flags
Complete list of Microsoft SQL Server trace flags (585 trace flags) REMEMBER: Be extremely careful w ...
- Foundations of Machine Learning: The PAC Learning Framework(1)
写在最前:本系列主要是在阅读 Mehryar Mohri 等的最新书籍<Foundations of Machine Learning>以及 Schapire 和 Freund 的 < ...
- Exercises for IN1900
Exercises for IN1900October 14, 2019PrefaceThis document contains a number of programming exercises ...
- TCP拥塞控制算法 优缺点 适用环境 性能分析
[摘要]对多种TCP拥塞控制算法进行简要说明,指出它们的优缺点.以及它们的适用环境. [关键字]TCP拥塞控制算法 优点 缺点 适用环境公平性 公平性 公平性是在发生拥塞时各源端(或同一源端 ...
随机推荐
- 商品详情页,banner滚动点击加载效果,js,jquary
<script language="javascript"> $(document).ready(function () { //purchase ...
- SQL优化的若干原则
SQL语句:是对数据库(数据)进行操作的惟一途径:消耗了70%~90%的数据库资源:独立于程序设计逻辑,相对于对程序源代码的优化,对SQL语句的优化在时间成本和风险上的代价都很低:可以有不同的写法:易 ...
- 【线性判别】Fisher线性判别(转)
今天读paper遇到了Fisher线性判别的变体, 所以来学习一下, 所以到时候一定要把PRMl刷一遍呀 以下两篇论文一起阅读比较好: 论文1: https://blog.csdn.net/Rainb ...
- 解题报告:poj1083 Moving tables
2017-09-02 19:49:59 writer:pprp 题意说明: 比较简单的题,一开始被吓到了,后来才发现,其实可以用很简单的方法就可以解决: 就是在这样的房间中如果在i 和 j 中之后的1 ...
- zabbix自动化运维学习笔记(服务器安装)
最近博主开始接触自动化运维.首先就是zabbix这个开源的监控系统 一开始博主只是在自己的虚拟机上尝试安装.最后终于开始在公司的服务器上正式安装,教程博主也是通过度娘找的 这是原文:链接 安装环境:C ...
- String写时拷贝实现
头文件部分 1 /* 版权信息:狼 文件名称:String.h 文件标识: 摘 要:对于上版本简易的String进行优化跟进. 改进 1.(将小块内存问题与大块分别对待)小内存块每个对象都有,当内存需 ...
- HDU-4714-贪心
Tree2cycle Time Limit: 15000/8000 MS (Java/Others) Memory Limit: 102400/102400 K (Java/Others)Tot ...
- oom_killer
Limited Memory 今天在虚拟机里面用Word处理文档的时候,突然硬盘灯一阵狂闪,然后虚拟机就一起消失了. 这种事情屡见不鲜,很明显是Linux内核把占用最多内存的程序(这次是Virtual ...
- linux---进程,(rpm,yum)软件包
3) 为新加的硬盘分区,一个主分区大小为5G,剩余空间给扩展分区,在扩展分区上划分1个逻辑分区,大小为5G fdisk -l fdisk /dev/sdb p 查看 n 新建 p 主分区 ...
- 发送垃圾邮件的僵尸网络——药物(多)、赌博、股票债券等广告+钓鱼邮件、恶意下载链接、勒索软件+推广加密货币、垃圾股票、色情网站(带宏的office文件、pdf等附件)
卡巴斯基实验室<2017年Q2垃圾邮件与网络钓鱼分析报告> 米雪儿 2017-09-07 from:http://www.freebuf.com/articles/network/1465 ...