Hoeffding inequality
Hoeffding公式为
\epsilon]\leq{2e^{-2\epsilon^2N}}">
如果把Training error和Test error分别看成和
的话,Hoeffding告诉我们,取样出来的v和总的u大部分是比较接近的,很小的概率是差很远的,即Ein和Eout差很远,这种情况称为Bad sample.
本来只有一个coin,丢5次,5次head的概率就是1/32。现在有150个coin,可以选择出现5次的那个coin,这时概率会大大增加,变成了1-(31/32)^150 = 99%。
现在的问题是,Algorithm要从H set中选择一个h,而不是force to pick this h。要做到给不同的data,通过A可以得到不同的h,即不同的分界线。但是现在如果只有一个h,则不是learning的过程。但是可以去verify这个h好不好,就看这个h的Ein(h)小不小了。
如果现在有multiple h,对应前面多个coin,其中有一个h在sample上全对,即这个coin5次都是head,说明这个h就很好吗?NO!!其实对于150个硬币,都是一样的,不存在好与坏。出现5次head也只是概率问题。假设我们选择了这块出现5次head的硬币,如果继续往下投,搞不好就不会出现这么多次head了。对应到h上,如果选择一个在sample上表现很好的h,即Ein(h)很小,但是把这个h放到out-of-sample里去,可能表现就会很差了(overfitting)。
我们可能有很多组的training set,这些training set在一个特定的h上表现不一,有的很好,有的则一般,但是这个h在out-of-sample上的表现,有可能和它在in-sample上的表现接近,也可能差很远。如果Ein和Eout差很多的话,可能是Ein很小,但是Eout很大,则这组产生这样的Ein的training set是一个Bad sample. Hoeffding保证的是这种情况的概率很小。
现在假设Hset里有M个h。各种数据集在h上的表现如下

D1在h1上产生很小的Ein,但是h1的Eout很大,则D1对于h1来所就是Bad data. 然而D1126就不是一个Bad data,对于Hset里面的任意一个h,Ein(h)都接近Eout(h)。
对于一个Bad data,它使得Ein far away from Eout的概率是:

但是我们还是可以在不知道Eout(h),同时也不知道f以及D的分布P的情况下,找到概率的upper bound,这个概率比较小,即Ein(g)=Eout(g) is PAC。(g就是由Algorithm选择产生Ein最小的那个h)。
结论

Hoeffding inequality的更多相关文章
- 机器学习(4)Hoeffding Inequality--界定概率边界
问题 假设空间的样本复杂度(sample complexity):随着问题规模的增长导致所需训练样本的增长称为sample complexity. 实际情况中,最有可能限制学习器成功的因素是训练数据的 ...
- Andrew Ng机器学习公开课笔记 -- 学习理论
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/va ...
- Machine Learning——吴恩达机器学习笔记(酷
[1] ML Introduction a. supervised learning & unsupervised learning 监督学习:从给定的训练数据集中学习出一个函数(模型参数), ...
- 【集成模型】Bootstrap Aggregating(Bagging)
0 - 思想 如下图所示,Bagging(Bootstrap Aggregating)的基本思想是,从训练数据集中有返回的抽象m次形成m个子数据集(bootstrapping),对于每一个子数据集训练 ...
- Stanford CS229 Machine Learning by Andrew Ng
CS229 Machine Learning Stanford Course by Andrew Ng Course material, problem set Matlab code written ...
- Chernoff-Hoeffding inequality -- Chernoff bounds, and some applications
https://www.cs.utah.edu/~jeffp/teaching/cs5955/L3-Chern-Hoeff.pdf [大数据-通过随机过程降维 ] When dealing with ...
- Hoeffding连接到机器学习
统计学场景: 一个罐子中有红球和绿球,红球比例$v$未知,数量未知,如何得到红球比例?方法---随机抽样N个球,在其中红球占比为$u$ 由hoeffding可以知道:$P(|u-v|>\epsi ...
- MM bound 与 Jensen's inequality
MM bound 与 Jensen's inequality 简森不等式 在使用最大似然估计方法求解模型最优解的时候,如果使用梯度下降(GD or SGD)或者梯度上升(GA or SGA),可能收敛 ...
- Rearrangement inequality
摘抄自: https://en.wikipedia.org/wiki/Rearrangement_inequality#Proof In mathematics, the rearrangement ...
随机推荐
- HDU - 1151 Air Raid (最小路径覆盖)
题意:给定一个有向无环图,求最少划分几条路径,使之能够覆盖所有点. 分析:这可以转化为DAG上的最小路径覆盖问题. 路径覆盖的定义:有向图中,路径覆盖就是在图中找一些路径,使之覆盖了图中的所有顶点,且 ...
- clipbrd剪切板查看器
本文,我们来学习一下简单的概念,即,如何查看系统剪贴版里面有什么内容? 如果要想看.或者验证系统剪贴版里面都有什么内容,最为简单的方法就是通过"粘贴"的操作来验证! 但是, ...
- React Native常用组件之ListView组件
学习iOS开发的同学应该都知道UITableView,几乎每个APP中都有它的存在,而且衍生出各种形态:那么同样,ListView就是在React Native中的tableView,而且更加简单和灵 ...
- 记一次网卡报错ERROR,some other host already uses address
提示IP地址冲突,但是此IP确实没有被其他Server占用 解决如下: 编辑此文件 搜索arping 将下面几行注释掉 保存退出 激活网卡 此时IP地址已生效 下面是我的系统版本 (一般应该不会出现这 ...
- CentOS6、7优化脚本完美版
#!/bin/bash SysVer=`cat /etc/redhat-release | awk -F'release' '{print $2}' | awk -F'[ .]+' '{print $ ...
- postman(谷歌) httprequester(火狐)
http://www.cnblogs.com/s380774061/p/4624326.html @an http://www.tuicool.com/articles/67Rnaej 测试文档券栈 ...
- Java socket - 使用代理服务器
为什么使用代理服务器不需要多说了. 使用Proxy Java提供了Proxy类实现使用代理进行通信. Proxy类的构造器Proxy(Proxy.Type type, SocketAddress sa ...
- flask学习(二):认识web
url详解: URL是Uniform Resource Locator 的简写,统一资源定位符 一个URL由以下及几部分组成: scheme://host:port/path/?query-strin ...
- Ceph Monitor的数据管理
转自:https://www.ustack.com/blog/ceph-monitor-2/ Monitor管理了Ceph的状态信息,维护着Ceph中各个成员的关系,这些信息都是存放在leveldb中 ...
- 转载 IOS开发之---static变量
Objective-C 支持全局变量 主要有两种实现方式: (1)第一种和C/C++中的一样, 使用"extern"关键词: (2)另外一种就是使用单例实现. (比如我们经常会把一 ...