机器学习基石的泛化理论及VC维部分整理
第四讲 机器学习的可行性
一、Hoeffding's Inequality
\(P[\left | \nu -\mu \right |>\epsilon ] \leq 2exp(-2\epsilon^{2}N)\) (1)
in-sample error, 也就是在样本里出现的error,\(E_{in}\) is probably close to out-of-sample error \(E_{out}\) (within \(\epsilon\))
推出一个类似的公式: \(P[\left | E_{in} - E_{out} \right |>\epsilon ] \leq 2exp(-2\epsilon^{2}N)\) (2)
也就是说,公式(2)说明了问题可以学习的两个条件:
(1)\( E_{in} \approx E_{out}\) :这个代表 \( E_{out}\) 要和 \( E_{in}\)差不多大
(2)\( E_{in}(h) \approx 0\) :这个代表\( E_{in}\)要差不多是0
这就推出,\( h \approx f\) with respect to \(P\)
我们的学习思路就是,从一些hypothesis set 中找到最好的 \(h\),使得\( h \approx f\)
二、真实的学习
面对多个\( h \) 时,容易出现问题。
BAD Sample:\( E_{in} and E_{out} \) far away
那么,Bad Sample的概率有多大呢?我们认为,在众多的hypothesis set上的每一个\(h_{i}\),只要有一个是坏的,则都是坏的
\(P_{\mathfrak{D}}\left [ BAD \mathfrak{D} \right ] \)
\( = P_{\mathfrak{D}}\left [ BAD \mathfrak{D} for h_{1} or BAD \mathfrak{D} for h_{2} or ... or BAD \mathfrak{D} for h_{M} \right ] \)
\( \leq P_{D} \left [ BAD D for h_{1} \right ] + P_{D} \left [ BAD D for h_{2} \right] + ... + P_{D} \left [ BAD D for h_{M} \right] \)
(\( Union Bound \))
\( \leq 2exp(-2\epsilon^2N) + 2exp(-2\epsilon^2N) + ... + 2exp(-2\epsilon^2N) \)
\( = 2M\cdot exp(-2\epsilon^2N)\)
当hypothesis set为有限时,(\( M\) 固定),当\(N\)足够大时,因为后面的\(exp(-2\epsilon^2N)\) 随着\(N\)增大会变得特别小,故总体值是很小的。
此时学习是有效的。
当hypothesis set 为无穷大时,\( M = \infty \) 则有问题了,具体问题下一部分讨论。
机器学习基石的泛化理论及VC维部分整理的更多相关文章
- 机器学习基石的泛化理论及VC维部分整理(第六讲)
第六讲 第五讲主要讲了机器学习可能性,两个问题,(1)\(E_{in} 要和 E_{out}\) 有很接近,(2)\(E_{in}\)要足够小. 对于第一个假设,根据Hoefding's Inequa ...
- 机器学习基石的泛化理论及VC维部分整理(第五讲)
第五讲 Training versus Testing 一.问题的提出 \(P_{\mathcal{D}}\left [ BAD \mathcal{D} \right ] \leq 2M \cd ...
- 机器学习基石笔记:07 The VC Dimension
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入 ...
- 【机器学习基石笔记】七、vc Dimension
vc demension定义: breakPoint - 1 N > vc dimension, 任意的N个,就不能任意划分 N <= vc dimension,存在N个,可以任意划分 只 ...
- 《机器学习基石》---VC维
1 VC维的定义 VC维其实就是第一个break point的之前的样本容量.标准定义是:对一个假设空间,如果存在N个样本能够被假设空间中的h按所有可能的2的N次方种形式分开,则称该假设空间能够把N个 ...
- 机器学习基石7-The VC Dimension
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 前几节课着重介绍了机器能够学习的条件并做了详细的推导和解释.机器能够学习必须满 ...
- 机器学习基石:07 The VC Dimension
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入 ...
- 【转载】VC维的来龙去脉
本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number o ...
- 机器学习基石12-Nonlinear Transformation
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课介绍了分类问题的三种线性模型,可以用来解决binary classif ...
随机推荐
- 使用Mat分析大堆信息
在定位一线问题时经常碰测试中出现Out Of Memory的问题, 通过jmap查看,发现JVM heap全用满了.有很多工具可以查看JVM堆的信息, 收费的比如JProfiler, YourKit, ...
- webkit,HTML5头部标签
大家都知道在移动前端开发中添加一些webkit专属的HTML5头部标签,帮助浏览器更好解析html代码,更好地将移动web前端页面表现出来.本文整理一些HTML5头部<meta>标签常用的 ...
- OSI七层模型:TCP/IP && HTTP && WebSocket && MQTT
OSI七层模型分为 物理层: 建立.维护.断开物理连接 处理bit流 数据链路层,将比特组合成字节进而组合成帧,用MAC地址访问介质,错误发现但不能纠正 处理数据帧 Frame 网络层,进行逻辑地址 ...
- white-space:nowrap 的妙用
对于多个元素同在同一行的布局,如比较常见的是轮播.下面我将探讨这这一布局的做法: 首先约定html结果如下: div.row div.col div.col div.col ... 做法一: 设定di ...
- http协议的总结说明
关于http协议已经有很多大牛们的讨论,从他们的文章中获益匪浅,作为一个通信专业的学生,还是想从计算机网络的角度谈一下自己的认识.http协议全称超文本传输协议,是一种允许将超文本标记语言(HTML) ...
- TSQL基础(三)
字符处理函数 sql中常见的字符类型有: char(n) --长度固定 不可变 非Unicode 字符数据 n 必须是一个介于 1 和 8,000 之间的数值 nchar(n) --长度固定 不可变 ...
- javascript的排序算法
已经准备秋招一段时间了,因为这个关系也在各种巩固知识,顺便整理一下一些东西.这篇文章就是自己整理了一下各种JS的排序算法,以便自己以后回顾. 冒泡排序 function bubbleSort(arr) ...
- OCI的结果输出
绑定变量,把结果以列的方式输出到每一字段输出到一个数组里
- C++对象的JSON序列化与反序列化探索
一:背景 作为一名C++开发人员,我一直很期待能够像C#与JAVA那样,可以轻松的进行对象的序列化与反序列化,但到目前为止,尚未找到相对完美的解决方案. 本文旨在抛砖引玉,期待有更好的解决方案:同时向 ...
- linux gcc 和 g++ 编译
gcc编译 gcc -o test.out test.c g++ 编译 g++ -o test.out test.cpp