机器学习基石：06 Theory of Generalization

若H的断点为k，即k个数据点不能被H给shatter，那么k+1个数据点也不能被H给shatter，即k+1也是H的断点。

如果给定的样本数N是大于等于k的，易得m_H(N)<2^N，且随着N的增大，小得越来越多。

当断点为k时，记最大可能的成长函数m_H(N)为bound函数，记为B(N,k)。------只和N、k有关。

注意比较，发现bound函数比起成长函数消除了H。

如果无断点，自然没有B(N,k)什么事；

如果断点为k，

那么m_H(N)是给定H下，可能的最大假设类数；

B(N,k)是不限H下，可能的最大假设类数。

B(N,k)=max_H m_H(N)，只和样本数N和断点k有关。

注意：这里的H要求有相同的k。

通过数学归纳法可证得：B(N,k)实际被N^k-1所框住，既然成长函数的上限被N的多项式给框住，易得，如果断点存在的话，成长函数也是多项式型的。

------证明了上一节的猜想。

再看保证E_in和E_out的不等式，

证明，

1.用和训练集同样大小的测试集上的表现替代整体输入空间上的表现，认为使得训练集内和整体表现差异过大的坏数据也会使得训练集和测试集上的表现差异过大；

这里做了2件事：

一是用有限的训练集+有限的测试集替代了无限的输入空间，将无限的X变为数量为2N的有限数据集；

二是用完美划分该有限数据集的模式f'代替了完美划分整个输入空间的模式f。------进行了松弛，因为f'的数量多于f。

2.用有限类数m_H(2N)替代无限|H|；

3.使用不放回的霍夫丁不等式。

对应于在取小球实验里不放回地抽取，取出的橘色小球频率和罐子里剩余的橘色小球概率依旧概率近似相等。------因为 the inequalities also hold when the Xi have been obtained using sampling without replacement; in this case the random variables are not independent anymore.（来自维基百科）

得到VC bound。

所以，

2维感知器算法在训练集D上学习到的g泛化到整个输入空间X上是概率近似可行的。

那3维及以上感知器算法呢？

机器学习基石：06 Theory of Generalization的更多相关文章

机器学习基石笔记：06 Theory of Generalization
若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大 ...
06 Theory of Generalization
若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大 ...
机器学习基石 5 Training versus Testing
机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f ...
机器学习基石 4 Feasibility of Learning
机器学习基石 4 Feasibility of Learning Learning is Impossible? 机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接 ...
机器学习基石 3 Types of Learning
机器学习基石 3 Types of Learning Learning with Different Output Space Learning with Different Data Label L ...
机器学习基石 2 Learning to Answer Yes/No
机器学习基石 2 Learning to Answer Yes/No Perceptron Hypothesis Set 对于一个线性可分的二分类问题,我们可以采用感知器 (Perceptron)这种 ...
机器学习基石 1 The Learning Problem
机器学习基石 1 The Learning Problem Introduction 什么是机器学习机器学习是计算机通过数据和计算获得一定技巧的过程. 为什么需要机器学习 1 人无法获取数据或者数据 ...
機器學習基石(Machine Learning Foundations) 机器学习基石课后习题链接汇总
大家好,我是Mac Jiang,非常高兴您能在百忙之中阅读我的博客!这个专题我主要讲的是Coursera-台湾大学-機器學習基石(Machine Learning Foundations)的课后习题解 ...
ML笔记_机器学习基石01
1 定义机器学习 (Machine Learning):improving some performance measure with experience computed from data ...

随机推荐

JavaScript(第二十天)【DOM操作表格及样式】
DOM在操作生成HTML上,还是比较简明的.不过,由于浏览器总是存在兼容和陷阱,导致最终的操作就不是那么简单方便了.本章主要了解一下DOM操作表格和样式的一些知识. 一．操作表格 <table& ...
201621123060《JAVA程序设计》第一周学习总结
1.本周学习总结 1.讲述了JAVA的发展史,关于JDK.JRE.JVM的联系和区别 2.JDK是用JAVA开发工具.做项目的关键.JRE是JAVA的运行环境(JAVA也是JAVA语言开发的).JVM ...
vue-router 组件实例被复用问题
最近在开发过程中遇到如下问题: 当前路由是这样的 http://127.0.0.1:3010/order?keywords=22 只改变keywords的值,路由不跳转 http://127.0.0. ...
JAVA_SE基础——69.Date类
package cn.itcast.other; import java.text.ParseException; import java.text.SimpleDateFormat; import ...
python实现维吉尼亚解密
# -*-coding:UTF-8-*- from sys import stdout miwen = "KCCPKBGUFDPHQTYAVINRRTMVGRKDNBVFDETDGILTXR ...
babel基本用法
babel-cli babel-cli是本地使用编译js文件 1.安装: cnpm i babel-cli babel-preset-env -D 2.配置packjson: "script ...
vmware 12 安装 mac os 10.12正式版
1.首先下载安装vmware 12 pro ,将VT打开(虚拟功能,以前安装过虚拟机点的同学可忽略). 2.下载mac ox 10.12正式版镜像文件(cdr后缀). 3.下载Unlocker208( ...
开源软件：NoSql数据库 - 图数据库 Cassandra
转载原文:http://www.cnblogs.com/loveis715/p/5299495.html Cassandra简介在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了 ...
linux下安装配置 redis数据库
通过终端命令安装(推荐): 1 确保更新源服务器能正常使用如果没有更换更新源服务器,那么可能一直都下不了软件.欢迎参考我之前的博文来更换成国内的镜像服务器http://www.cnblogs.com ...
如何设置eclipse 右键new的菜单
如何设置eclipse 右键new的菜单在使用eclipse进行开发的时候,开发人员一般使用File-new来创建项目或文件,但常常发现,默认右键new选项里很多选项极少会用到,而一些常用的选项又没 ...

机器学习基石：06 Theory of Generalization

机器学习基石：06 Theory of Generalization的更多相关文章

随机推荐

热门专题