机器学习基石笔记：06 Theory of Generalization

若H的断点为k，即k个数据点不能被H给shatter，那么k+1个数据点也不能被H给shatter，即k+1也是H的断点。

如果给定的样本数N是大于等于k的，易得m_H(N)<2^N，且随着N的增大，小得越来越多。

当断点为k时，记最大可能的成长函数m_H(N)为bound函数，记为B(N,k)。------只和N、k有关。

注意比较，发现bound函数比起成长函数消除了H。

如果无断点，自然没有B(N,k)什么事；

如果断点为k，

那么m_H(N)是给定H下，可能的最大假设类数；

B(N,k)是不限H下，可能的最大假设类数。

B(N,k)=max_H m_H(N)，只和样本数N和断点k有关。

注意：这里的H要求有相同的k。

通过数学归纳法可证得：B(N,k)实际被N^k-1所框住，既然成长函数的上限被N的多项式给框住，易得，如果断点存在的话，成长函数也是多项式型的。

------证明了上一节的猜想。

再看保证E_in和E_out的不等式，

证明，

1.用和训练集同样大小的测试集上的表现替代整体输入空间上的表现，认为使得训练集内和整体表现差异过大的坏数据也会使得训练集和测试集上的表现差异过大；

这里做了2件事：

一是用有限的训练集+有限的测试集替代了无限的输入空间，将无限的X变为数量为2N的有限数据集；

二是用完美划分该有限数据集的模式f'代替了完美划分整个输入空间的模式f。------进行了松弛，因为f'的数量多于f。

2.用有限类数m_H(2N)替代无限|H|；

3.使用不放回的霍夫丁不等式。

对应于在取小球实验里不放回地抽取，取出的橘色小球频率和罐子里剩余的橘色小球概率依旧概率近似相等。------因为 the inequalities also hold when the Xi have been obtained using sampling without replacement; in this case the random variables are not independent anymore.（来自维基百科）

得到VC bound。

所以，

2维感知器算法在训练集D上学习到的g泛化到整个输入空间X上是概率近似可行的。

那3维及以上感知器算法呢？

机器学习基石笔记：06 Theory of Generalization的更多相关文章

机器学习基石：06 Theory of Generalization
若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大 ...
Coursera台大机器学习课程笔记5 -- Theory of Generalization
本章思路: 根据之前的总结,如果M很大,那么无论假设泛化能力差的概率多小,都无法忽略,所以问题转化为证明M不大,然后上章将其转化为证明成长函数:mh(N)为多项式级别.直接证明似乎很困难,本章继续利用 ...
机器学习基石笔记：01 The Learning Problem
原文地址:https://www.jianshu.com/p/bd7cb6c78e5e 什么时候适合用机器学习算法? 存在某种规则/模式,能够使性能提升,比如准确率: 这种规则难以程序化定义,人难以给 ...
机器学习基石笔记：04 Feasibility of Learning
原文地址:https://www.jianshu.com/p/f2f4d509060e 机器学习是设计算法\(A\),在假设集合\(H\)里,根据给定数据集\(D\),选出与实际模式\(f\)最为相近 ...
林轩田机器学习基石笔记4—Feasibility of Learning
上节课介绍了机器学习可以分为不同的类型.其中,监督式学习中的二元分类和回归分析是最常见的也是最重要的机器学习问题.本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决. 一.Lear ...
林轩田机器学习基石笔记3—Types of Learning
上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA.PLA能够在平面中选择一条直线将样本数据完全正确分类.而对于线性不可分的情况,可以使用Pocket Algorithm来处理.本节课将主要 ...
林轩田机器学习基石笔记2—Learning to Answer Yes/No
机器学习的整个过程:根据模型H,使用演算法A,在训练样本D上进行训练,得到最好的h,其对应的g就是我们最后需要的机器学习的模型函数,一般g接近于目标函数f.本节课将继续深入探讨机器学习问题,介绍感知机 ...
林轩田机器学习基石笔记1—The Learning Problem
机器学习分为四步: When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Lear ...
06 Theory of Generalization
若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大 ...

随机推荐

最新WordConut
一.代码地址:https://gitee.com/cainiaoY/WordCount 二.项目分析:代码根据实现的功能不同分为两个模块,一个wcFuctiong类,一个wcTest类,其中wcFuc ...
利用CCS3渐变实现条纹背景
本文摘自<CSS揭秘>中国工信出版集团难题: 不论是在网页设计中,还是在其他传统媒介中(比如杂志和墙纸等),各种尺寸.颜色.角度的条纹图案在视觉设计中无处不在.要想在网页中实现条纹图案, ...
Java虚拟机内存区域划分
(图片来自https://www.cnblogs.com/whgk/p/6138522.html) 先从线程私有区开始介绍虚拟机栈 Java虚拟机栈是由一个个栈帧组成的,当一个方法被调用时,代表这个 ...
mybatis的基础Dao
话不多说,直接贴代码吧,因为很多博客都需要用到这个基础dao,怕大家不好查询. 这个基类主要是使用了泛型,这样我就不必为每一个实体都写一个dao,大大节省了时间.其中sqlSessionTemplat ...
Redhat学习（此为草稿，正式笔记之后存放）
系统组成版本XX.XX.XX XX主版本,XX副版本(奇数为测试版,偶数为稳定版),修订版本号 , 表示修改的次数(debug) linux主流分支硬盘分区 /dev/ 硬件设备所在分区 hd 表 ...
Python中使用RabbitMQ
一 RabbitMQ简介 RabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统.他遵循Mozilla Public License开源协议. MQ全称为Message Queue, 消息 ...
Android R文件介绍
R.java 文件中默认有attr.drawable.layout.string等色哥静态内部类,每个静态内部类分别对应着一种资源,如layout静态内部类对应着layout中的接界面文件,其中每个静 ...
多进程和mongo的配合使用
这篇文章主要是讲在多线程下使用mongo数据库的一个报错,算是一个警告,如下: /usr/lib64/python2.6/site-packages/pymongo/topology.py:75: U ...
设计模式学习心得<工厂方法 Factory Method>
概述意图业务代码中常常有构造对象的过程,它拥有大量的参数.并且有很多地方需要这对象. 简化对象构造过程. 主要解决一个类在不同场景的频繁地创建,让不同对象的创建更有语义化,提高代码复用性. 何时 ...
small_trick_on_IT/PC
1.浏览器下ctrl+F可实现文本查找其余还有 2.将软件目录放到环境变量Path下,Ctrl+R输入.exe软件名即可调用. (tips:可把常用软件建立快捷方式,统一放在某一目录下噢!)

机器学习基石笔记：06 Theory of Generalization

机器学习基石笔记：06 Theory of Generalization的更多相关文章

随机推荐

热门专题