机器学习基石 4 Feasibility of Learning
机器学习基石 4 Feasibility of Learning
Learning is Impossible?
机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接近于目标函数 \(f(x)\)。
问题:这种预测是可能的么?其泛化性的本质是什么?是什么保证了 \(h(x) \approx f(x)\) ?
Probability to the Rescue
情景:有一个装有很多很多珠子的罐子,珠子的颜色是橙色和绿色,那么我们可以通过抽样的方法来估计橙色珠子的比例。

Hoeffding's inequality:
采样次数 \(N\) 足够大时,\(v\) 和 \(\mu\) 有如下关系:

于是可以说 \(v\) 和 \(\mu\) 大概近似相等(probably approximately correct,PAC)。
因此,选择合适的 \(N\) 以及 \(\epsilon\),就可以通过 \(v\) 预测 \(\mu\)。
Connection to Learning
可以将以上的情景与机器学习问题对应起来,如下图所示:

- 橙色:\(h(x) \neq f(x)\)
- 绿色:\(h(x) = f(x)\)
- 橙色珠子概率 \(\mu\):\(h(x) \neq f(x)\) 的概率
- 抽到橙色珠子:在某个样本点 \(x_n\) 上,\(h(x_n) \neq f(x_n) = y_n\)
- 抽到绿色珠子:在某个样本点 \(x_n\) 上,\(h(x_n) = f(x_n) = y_n\)
- 抽样动作:判断 \(h(x_n)\) 与 \(f(x_n)=y_n\) 是否相等
于是在一定条件下,我们可以通过测试 \(h(x_n) \neq y_n\) 的比例来推断 \(h(x) \neq f(x)\) 的概率。
这里需要注意的是,\(x_n\) 需要是独立同分布的,但是我们并不需要知道具体的分布函数。
完善学习流程图:


公式如下:

上面的公式保证了在一定条件下,\(E_{in}(h)\) 与 \(E_{out}(h)\) 不会相差太远,那么只要我们能选择合适的 \(h\) 使得 \(E_{in}(h)\) 比较小,那么 \(E_{out}(h)\) 也会比较小,我们就完成了学习。
算法的目的:在假设集 \(H\) 中选择合适的 \(h\),并且通过验证,判断 \(E_{in}(h)\) 是否真的合适。
验证的过程:

同理,需要保证测试样本与训练样本是独立同分布的,但是不需要知道具体的分布函数。
Connection to Real Learning
以上的分析是对于一个 \(h\) 来说的,下面考虑多个 \(h\) 的情况。
引入一个 BAD Data 的概念,对于一个 \(h\) 这种情况,BAD Data 指的是在这个数据集下,\(E_{in}(h)\) 与 \(E_{out}(h)\) 相差很大;对于一个 \(h\) 这种情况,BAD Data 指的是在这个数据集下,存在某个 \(h\),\(E_{in}(h)\) 与 \(E_{out}(h)\) 相差很大。
如果数据集是 BAD Data,那么即使我们通过机器学习,得到一个 \(h(x)\),并且 \(E_{in}(h)\) 很小,我们也无法保证说(PAC) \(E_{out}(h)\) 很小,于是学习失败了,因此我们希望 BAD data 出现的概率越小越好。
对于一个 \(h\) 这种情况,BAD data 出现的概率(前面已经说过了):

对于多个 \(h\) 这种情况,BAD data 出现的概率(Union Bound):

其中 \(M\) 表示的是假设集中 \(h\) 的个数。
如果 \(M\) 的值是有限的,那么 \(N\) 足够大的情况下,BAD data 出现的概率很小,即无论哪个 \(h\),都有 \(E_{in}(h) \approx E_{out}(h)\) (PAC),那么我们通过合适的算法选择一个 \(E_{in}\) 小的 \(h\),就能保证 \(E_{out}\) 小(PAC),于是学习成功了。
完善学习流程图:

机器学习基石 4 Feasibility of Learning的更多相关文章
- 机器学习基石 3 Types of Learning
机器学习基石 3 Types of Learning Learning with Different Output Space Learning with Different Data Label L ...
- 机器学习基石:01 The Learning Problem
什么时候适合用机器学习算法? 1.存在某种规则/模式,能够使性能提升,比如准确率: 2.这种规则难以程序化定义,人难以给出准确定义: 3.存在能够反映这种规则的资料. 所以,机器学习就是设计算法A,从 ...
- 林轩田机器学习基石笔记1—The Learning Problem
机器学习分为四步: When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Lear ...
- 机器学习基石笔记:02 Learning to Answer Yes/No、PLA、PA
原文地址:https://www.jianshu.com/p/ed0aee74523f 一.Perceptron Learning Algorithm (一)算法原理 PLA本质是二元线性分类算法,即 ...
- 机器学习基石:16 Three Learning Principles
三个理论上界: 三个线性模型: 三个关键工具: 三条学习规则: 1.奥卡姆剃刀定律 先从简单模型开始, 训练后出现欠拟合, 再尝试复杂点模型. 2.采样误差 训练.验证.测试数据尽量同分布. 3.数据 ...
- 机器学习基石 2 Learning to Answer Yes/No
机器学习基石 2 Learning to Answer Yes/No Perceptron Hypothesis Set 对于一个线性可分的二分类问题,我们可以采用感知器 (Perceptron)这种 ...
- 机器学习基石 1 The Learning Problem
机器学习基石 1 The Learning Problem Introduction 什么是机器学习 机器学习是计算机通过数据和计算获得一定技巧的过程. 为什么需要机器学习 1 人无法获取数据或者数据 ...
- 機器學習基石(Machine Learning Foundations) 机器学习基石 课后习题链接汇总
大家好,我是Mac Jiang,非常高兴您能在百忙之中阅读我的博客!这个专题我主要讲的是Coursera-台湾大学-機器學習基石(Machine Learning Foundations)的课后习题解 ...
- 机器学习基石(台湾大学 林轩田),Lecture 1: The Learning Problem
课程的讲授从logo出发,logo由四个图案拼接而成,两个大的和两个小的.比较小的两个下一次课程就可能会解释到它们的意思,两个大的可能到课程后期才会解释到它们的意思(提示:红色代表使用机器学习危险,蓝 ...
随机推荐
- mac命令行对复杂ipa包重新签名
最近在做ios的自动化平台,需要通过命令行安装卸载ipa包 好了问题来,别人上传的ipa包,很可能是开发签名了只能在特定手机上安装的测试ipa包,那我们如何将其安装在我们的自动化的iphone上呢? ...
- Swift资料大全
简单看了一下swift的语法,个人感觉相对于object-c很是简单明了.Swift的出现并不能说明iOS开发简单了很多,有可能会变得复杂,你需要学习两门编程语言,因为在程序员的世界里,务实并不是最重 ...
- Windows Azure Virtual Machine (34) 保护Azure虚拟机
<Windows Azure Platform 系列文章目录> 请注意:我们在Azure上创建的虚拟机,都是可以通过公网IP地址来访问的.(直接通过虚拟机的IP地址:PIP,或者通过负载均 ...
- linux 标准目录
转自 http://www.weixuehao.com/archives/492 装完Linux,首先需要弄清Linux 标准目录结构 / root -?启动Linux时使用的一些核心文件.如操作系统 ...
- Activity启动过程分析
Android的四大组件中除了BroadCastReceiver以外,其他三种组件都必须在AndroidManifest中注册,对于BroadCastReceiver来说,它既可以在AndroidMa ...
- 全球分布式数据库:Google Spanner(论文翻译)
本文由厦门大学计算机系教师林子雨翻译,翻译质量很高,本人只对极少数翻译得不太恰当的地方进行了修改. [摘要]:Spanner 是谷歌公司研发的.可扩展的.多版本.全球分布式.同步复制数据库.它是第一个 ...
- HTML5 技术在风电、光伏等新能源领域的应用
随着新一轮工业革命兴起,应对气候变化日益成为全球共识,能源技术正在成为引领能源产业变革.实现创新驱动发展的源动力.从全球到中国,以风能.光伏发电为代表的新能源产业发展迅速,可再生能源发电与现代电网的融 ...
- block之---应用场景:做参数和返回值
1.做参数 什么时候使用Block充当参数? 封装一个功能,这个功能做什么事情由外界决定,但是什么时候调用由内部决定,这时候就需要把Block充当参数去使用. 模拟需求: 封装一个计算器,怎么计算由外 ...
- matlab 嵌套循环的学习
循环嵌套带嵌套的循环一般为两重,举例1: disp('一个简单的二重for循环'); : : result = ii *jj ; fprintf(' %d * %d = %d \n',ii,jj,re ...
- 走进javascript——DOM事件
DOM事件模型 在0级DOM事件模型中,它只是简单的执行你为它绑定的事件,比如你为某个元素添加了一个onclick事件,当事件触发时,它只是去调用我们绑定的那个方法,不再做其他的操作. 在2级DOM事 ...