04 Feasibility of Learning
机器学习是设计算法A,在假设集合H里,根据给定数据集D,选出与实际模式f最为相近的假设g(g可能与f相同,也可能不同)。
那什么情况下学习是可行的?即保证g和f是相似的。
1.数据集内的表现g约等于f;
2.g在数据集外的表现约等于g在数据集内的表现。
结合1,2可保证,由算法在给定数据集上学习到的g(即数据集内的表现g约等于f)在数据集外的表现也约等于f。即g与f相似。
如何保证2?
数据集内表现相同的多个假设在数据集外的部分数据上表现相差极大,即学习效果极差。

霍夫丁不等式,
有一个装有绿色小球和橘色小球的罐子(假设球数无限),从中进行N次有放回的取球实验,在这N次实验中取出橘色小球的频率为v,
只要N足够大,就可以用v来估计mu即罐子中橘色小球的实际概率。


与学习相联系,
当h选定时,只要D里样本数N足够大且样本点独立同分布,
就能保证h在整个输入空间里的表现(异常点的概率)与数据集内的表现(D里异常点的频率)在一定的概率范围内近似相等。

注意,Eout(h)实际是面向整个输入空间的,即数据集D内+数据集D外。


如何保证1?
A根据D在H中选出使得Ein(h)小的h。

注意,2的保证是在给定h的情况下,即h的选择只有1个。
但是,1的保证需要在H中进行选择,如果H的size>1,即h有很多个,可能有限,可能无限,那么2的保证是否受到影响?
坏数据:对于一个h,使得h在该数据内外表现差异很大的数据为坏数据。
可以理解为霍夫丁不等式的左式中概率衡量的事件:Ein(h)和Eout(h)的差异大于容忍度epsilon,
即对于一个h,存在坏数据的概率小于等于霍夫丁的右式。对于一个输入空间X,能够产生的用于训练的数据D有很多个,若对于一个h,给定的数据刚好就是坏数据的概率是小于等于霍夫丁的右式的。
若有M个h,给定的数据是其中某个h的坏数据的概率是小于等于数据为h1的坏数据+数据为h2的坏数据+数据为h3的坏数据+。。。+数据为hM的坏数据。
本质是求并集(小于等于的原因是有可能存在交集)。
这里的M实际是|H|。


只要M是有限值,只要N足够大,不等式的右式就能足够小。
所以,只要假设集大小有限、N足够大------保证Ein和Eout的差异在容忍度内,
A根据D在H中挑选出g------保证Ein小,
就能说学习是PAC可能的。

但是,
如果输入空间X是无限的,那理论上对应的H的数量也是无限的,
那|H|无限时,怎么办?
04 Feasibility of Learning的更多相关文章
- 机器学习基石笔记:04 Feasibility of Learning
原文地址:https://www.jianshu.com/p/f2f4d509060e 机器学习是设计算法\(A\),在假设集合\(H\)里,根据给定数据集\(D\),选出与实际模式\(f\)最为相近 ...
- 机器学习基石 4 Feasibility of Learning
机器学习基石 4 Feasibility of Learning Learning is Impossible? 机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接 ...
- 理解机器为什么可以学习(一)---Feasibility of learning
主要讲解内容来自机器学习基石课程.主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性. PAC : probably approximately corr ...
- 林轩田机器学习基石笔记4—Feasibility of Learning
上节课介绍了机器学习可以分为不同的类型.其中,监督式学习中的二元分类和回归分析是最常见的也是最重要的机器学习问题.本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决. 一.Lear ...
- 【Feasibility of Learning】林轩田机器学习基石
这一节的核心内容在于如何由hoeffding不等式 关联到机器学习的可行性. 这个PAC很形象又准确,描述了“当前的可能性大概是正确的”,即某个概率的上届. hoeffding在机器学习上的关联就是: ...
- (转)深度学习主机环境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0
深度学习主机环境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0 发表于2016年07月15号由52nlp 接上文<深度学习主机攒机小记>,这台GTX10 ...
- Displaying 1-16 of 86 results for: deep learning
Displaying 1-16 of 86 results for: deep learning Deep Learning By Adam Gibson, Josh Patterson Publis ...
- How do I learn machine learning?
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644 How Can I Learn X? ...
- Ubuntu16.04 + cuda8.0 + GTX1080安装教程
1. 安装Ubuntu16.04 不考虑双系统,直接安装 Ubuntu16.04,从 ubuntu官方 下载64位版本: ubuntu-16.04-desktop-amd64.iso . 在MAC下制 ...
随机推荐
- Socket的应用案例
java提供网络功能的四大类1.InetAddress :用于标识网络上的硬件资源.2.URL:统一资源定位符,通过URL可以直接读取和写入网络上的数据.3.Socket:使用TCP协议实现网络通信的 ...
- 转:Apache 与 Nginx 比较
Nginx 轻量级,采用 C 进行编写,同样的 web 服务,会占用更少的内存及资源 抗并发,nginx 以 epoll and kqueue 作为开发模型,处理请求是异步非阻塞的,负载能力比 apa ...
- 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S ...
- cocoapods 删除已导入项目的第三方库和移除项目中的cocoapods
第一部分将介绍如何删除项目中已经由cocoapods配置好的第三方 1.打开项目中的Podfile文件 2.删除选中的pod Snapkit的命令行3.打开终端cd到当前项目的根目录下重新执行pod ...
- 巧用*_his表记录操作历史
文章转载自「开发者圆桌」一个关于开发者入门.进阶.踩坑的微信公众号 许多OLTP应用的开发者都知道,一些重要的操作要记录操作历史,把操作前的数据备份到历史表,然后再执行相应的修改操作.这样可以获取某个 ...
- Strtus2 S2-045漏洞
S2-045漏洞已经爆发几天了,但还很多网址都存在此漏洞,很多金融类网站也收到了保护费通知...唉,收保护费少,报警无效!只能酌情处理了!做黑产的,还是少做为秒,常在河边站哪有不湿鞋,劝各位早日金盆洗 ...
- AR入门系列-07-Vuforia柱形体识别
今天为大家带来Vuforia柱形体识别的使用教程 首先我们要进入Vuforia官网在TargetManager中添加Target,这次我们添加的类型为Cylinder圆柱 Bottom Diamete ...
- html、css、js实现手风琴图片滑动
手风琴图片滑动是我最近学的一个图片的效果,感觉不错,分享给大家. 最终效果见 :http://gjhnstxu.me/squeezebox/demo.html 详细代码如下: html代码: < ...
- 多种语言开发Spark-以WordCount为例
Spark是目前最火爆的大数据计算框架,有赶超Hadoop MapReduce的趋势.因此,趁着现在还有大多数人不懂得Spark开发的,赶紧好好学习吧,为了使不同的开发人员能够很好的利用Spark,S ...
- 【转】Django Middleware
Django 处理一个 Request 的过程是首先通过中间件,然后再通过默认的 URL 方式进行的.我们可以在 Middleware 这个地方把所有Request 拦截住,用我们自己的方式完成处理以 ...