理解机器为什么可以学习（二）---Training versus Testing

futurehau 2024-09-07 18:27:16 原文

前边由Hoeffding出发讨论了为什么机器可以学习，主要就是在N很大的时候Ein PAC Eout，选择较小的Ein，这样的Eout也较小，但是当时还有一个问题没有解决，就是当时的假设的h的集合是个数是有限的，那么本文继续讨论h个数为无限的情况。http://www.cnblogs.com/futurehau/p/6235348.html

其实之前的问题可以分类两个方面：

一方面：Ein 是否约等于 Eout

另一方面：Ein时候足够小。

所以，选择合适的M是很重要的，现在加入M为无限大的情况呢？

1. Effective number of hypethesis

我们接下来的工作，就是想办法使用某个有限的mh来代替那个无限的M

之前我们让h可以自由选择的时候是让概率直接相加找上界，这样当M个数为无穷的时候，上界就比1还大了，这个对Ein和Eout的差距的控制就没有意义了。其实，这是由于扩充得太猛了，接下来一步步分析不要进行那么猛的扩充。

不同的h对于的坏数据可能是有许多重复的。

所以我们接下来考虑不同的分类场景下有多少种不同种类的分界线（超平面）

假设用一条线来分类二维平面上的数据集，那么点的数目和线的种类关系如下：

这样，如果effective(N)可以代替M，并且effective（N）<< 2^N,那么似乎就是可以学习的了

假设不是一条线分开，而是超平面的话：

2. Growth Function

那么，怎么计算增长函数呢？

集合可自由选择的Hoeffding不等式和上述增长函数，我们得到

3. Break Point

断点和mh的数量级之间的关系：

接下来从成长函数和break poing的角度转换m为一个关于break point的多项式，并转化带入不等式。http://www.cnblogs.com/futurehau/p/6254029.html

理解机器为什么可以学习（二）---Training versus Testing的更多相关文章

理解机器为什么可以学习（四）---VC Dimension
前面一节我们通过引入增长函数的上限的上限,一个多项式,来把Ein 和 Eout 的差Bound住,这一节引入VC Bound进一步说明这个问题. 前边我们得到,如果一个hypethesis集是有bre ...
Coursera台大机器学习课程笔记4 -- Training versus Testing
这节的主题感觉和training,testing关系不是很大,其根本线索在于铺垫并求解一个问题: 为什么算法PLA可以正确的work?因为前面的知识告诉我们,只有当假设的个数有限的时候,我们才 ...
机器学习基石 5 Training versus Testing
机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f ...
理解机器为什么可以学习（三）---Theory of Generalization
前边讨论了我们介绍了成长函数和break point,现在继续讨论m是否成长很慢,是否能够取代M. 成长函数就是二分类的排列组合的数量.break point是第一个不能shatter(覆盖所有情形) ...
林轩田机器学习基石课程学习笔记5 — Training versus Testing
上节课,我们主要介绍了机器学习的可行性.首先,由NFL定理可知,机器学习貌似是不可行的.但是,随后引入了统计学知识,如果样本数据足够大,且hypothesis个数有限,那么机器学习一般就是可行的.本节 ...
理解机器为什么可以学习（一）---Feasibility of learning
主要讲解内容来自机器学习基石课程.主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性. PAC : probably approximately corr ...
理解机器为什么可以学习（五）---Noise and Error
之前我们讨论了VC Dimension,最终得到结论,如果我们的hypetheset的VC Dimension是有限的,并且有足够的资料,演算法能够找到一个hypethesis,它的Ein很低的话,那 ...
【Training versus Testing】林轩田机器学习基石
接着上一讲留下的关子,机器学习是否可行与假设集合H的数量M的关系. 机器学习是否可行的两个关键点: 1. Ein(g)是否足够小(在训练集上的表现是否出色) 2. Eout(g)是否与Ein(g)足够 ...
05 Training versus Testing
train:A根据给定训练集D在H中选出g,使得Ein(g)约等于0: test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得Eout(g)约等于Ein(g). 如果|H|小,更易保证t ...

随机推荐

ASP.NET Dev ASPxGridView控件使用 ASP.NET水晶报表打印
1.ASPxGridView控件使用 2.ASP.NET水晶报表客户端打印 3.javascript打印 4.ASPxGridView根据Textbox查询 5. ASPxGridView 列宽 1. ...
iOS开发资料
https://github.com/XCGit/awesome-objc-frameworks https://github.com/KevinHM/ios-good-practices-the-l ...
pat乙级1052
输出“\”字符: cout << "\\"; 因为‘\’是转义字符,例如“\n”代表换行. 同理,printf输出“%”: printf("%%") ...
无效的 JSON 基元解决办法
在AJAX中进行如下修改: 加入: dataType: "json", 移除: contentType: 'application/json', 然后检查参数名称,类型是否符合后台 ...
httpd2.4.6三种工作模式(如何配置)，防止占用内存暴增的策略
之前偷懒默认用yum安装了httpd.后来发现服务器内存暴增,一度达到75% 打开一看,好嘛后台休眠进程全是httpd. 重启之后再度访问发现内存还是稳步增长. [root@iz2ze3ayxs2yp ...
hdu-1532 Drainage Ditches---最大流模板题
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1532 题目大意: 给出有向图以及边的最大容量,求从1到n的最大流思路: 传送门:最大流的增广路算法 ...
Eureka 微服务注册中心搭建
本机IP为 192.168.1.102 1. 新建Maven项目 eureka 2. pom.xml <project xmlns="http://maven.apach ...
java基础编程——重建二叉树
题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树.假设输入的前序遍历和中序遍历的结果中都不含重复的数字.例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7, ...
c#树形结构
http://download.csdn.net/detail/rememberme001/6997235 http://bbs.csdn.net/topics/310094150 http://ww ...
微信小程序的开发——01小程序的执行流程是怎样的？
作者:叶小钗转载至:https://www.cnblogs.com/yexiaochai/p/9346043.html 我们这边最近一直在做基础服务,这一切都是为了完善技术体系,这里对于前端来说便是 ...