原文地址：https://www.jianshu.com/p/f2f4d509060e

机器学习是设计算法$A$，在假设集合$H$里，根据给定数据集$D$，选出与实际模式$f$最为相近的假设$g$（$g$可能与$f$相同，也可能不同）。
那什么情况下学习是可行的？即保证$g$和$f$是相似的。

数据集内的表现$g$约等于$f$;
$g$在数据集外的表现约等于$g$在数据集内的表现。

结合1、2可保证，由算法在给定数据集上学习到的$g$（即数据集内的表现$g$约等于$f$）在数据集外的表现也约等于$f$，即$g$与$f$相似。

一、如何保证2？

数据集内表现相同的多个假设在数据集外的部分数据上表现相差极大，即学习效果极差。

霍夫丁不等式：有一个装有绿色小球和橘色小球的罐子（假设球数无限），从中进行$N$次有放回的取球实验，在这$N$次实验中取出橘色小球的频率为$\nu$，只要$N$足够大，就可以用$\nu$来估计$\mu$即罐子中橘色小球的实际概率。

将霍夫丁不等式与学习相联系。当$h$选定时，只要$D$里样本数$N$足够大且样本点独立同分布，就能保证$h$在整个输入空间里的表现（异常点的概率）与数据集内的表现（$D$里异常点的频率）在一定的概率范围内近似相等。

注意，$E_{out}(h)$实际是面向整个输入空间的，即数据集$D$内和数据集$D$外。

二、如何保证1？

$A$根据$D$在$H$中选出使得$E_{in}(h)$小的$h$。

注意，2的保证是在给定$h$的情况下，即$h$的选择只有1个。
但是，1的保证需要在$H$中进行选择，如果$H$的$size>1$，即$h$有很多个，可能有限也可能无限，那么2的保证是否会受到影响呢？
坏数据：对于一个$h$，使得$h$在该数据内外表现差异很大的数据认为是坏数据。
可以理解为霍夫丁不等式的左式中概率衡量的事件：$E_{in}(h)$和$E_{out}(h)$的差异大于容忍度$\epsilon$，即对于一个$h$，存在坏数据的概率小于等于霍夫丁的右式。
对于一个输入空间$X$，能够产生的用于训练的数据$D$有很多个，若对于一个$h$，给定的数据刚好就是坏数据的概率是小于等于霍夫丁的右式的；若有$M$个$h$，给定的数据是其中某个$h$的坏数据的概率是小于等于数据为$h_1$的坏数据的概率+数据为$h_2$的坏数据的概率+数据为$h_3$的坏数据的概率+......+数据为$h_M$的坏数据的概率。本质是求并集（小于等于的原因是有可能存在交集）。这里的$M$实际是$|H|$，即$H$的$size$。

只要$M$是有限值、$N$足够大，不等式的右式就能足够小。
所以，
只要假设集大小有限、$N$足够大------保证$E_{in}$和$E_{out}$的差异在容忍度内，
$A$根据$D$在$H$中挑选出$g$------保证$E_{in}$小，
就能说学习是PAC可能的。

但是，如果输入空间$X$是无限的，那理论上对应的$H$的数量也是无限的，即当$|H|$无限大时，该怎么办呢？

机器学习基石笔记：04 Feasibility of Learning的更多相关文章

林轩田机器学习基石笔记4—Feasibility of Learning
上节课介绍了机器学习可以分为不同的类型.其中,监督式学习中的二元分类和回归分析是最常见的也是最重要的机器学习问题.本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决. 一.Lear ...
机器学习基石笔记：01 The Learning Problem
原文地址:https://www.jianshu.com/p/bd7cb6c78e5e 什么时候适合用机器学习算法? 存在某种规则/模式,能够使性能提升,比如准确率: 这种规则难以程序化定义,人难以给 ...
林轩田机器学习基石笔记3—Types of Learning
上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA.PLA能够在平面中选择一条直线将样本数据完全正确分类.而对于线性不可分的情况,可以使用Pocket Algorithm来处理.本节课将主要 ...
机器学习基石笔记：16 Three Learning Principles
三个理论上界: 三个线性模型: 三个关键工具: 三条学习规则: 1.奥卡姆剃刀定律先从简单模型开始, 训练后出现欠拟合, 再尝试复杂点模型. 2.采样误差训练.验证.测试数据尽量同分布. 3.数据 ...
机器学习基石第一讲：the learning problem
博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) Andrew Ng的Machine Learning比較简单,已经看完.林田轩的机器 ...
林轩田机器学习基石笔记2—Learning to Answer Yes/No
机器学习的整个过程:根据模型H,使用演算法A,在训练样本D上进行训练,得到最好的h,其对应的g就是我们最后需要的机器学习的模型函数,一般g接近于目标函数f.本节课将继续深入探讨机器学习问题,介绍感知机 ...
林轩田机器学习基石笔记1—The Learning Problem
机器学习分为四步: When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Lear ...
机器学习基石笔记：02 Learning to Answer Yes/No、PLA、PA
原文地址:https://www.jianshu.com/p/ed0aee74523f 一.Perceptron Learning Algorithm (一)算法原理 PLA本质是二元线性分类算法,即 ...
机器学习基石笔记：03 Types of Learning
原文地址:https://www.jianshu.com/p/86b2a9cef742 一.学习的分类根据输出空间$Y$:分类(二分类.多分类).回归.结构化(监督学习+输出空间有结构): 根据 ...

随机推荐

Linux服务器常用工具
一.Ubuntu18版本服务器 1)替换源.将原有的源注释掉 vi /etc/apt/sources.list deb http://mirrors.aliyun.com/ubuntu/ bioni ...
Angular 任务列表页
新建一个任务Module $ ng g m task 功能:项目列表显示,增加,修改,删除项目.邀请其它人员加入项目. 单一性原则:希望搭建多个组件,每个组件负责自己的功能. 一.task相关组件 $ ...
JAVA-MyBaits对应XML的两种使用方式
概述在使用XML写SQL语句的时候,遇到参数传递的两种方式,也就是Mapper里面带@Param注解和不带的情况,容易混淆,对应XML的写法也不相同,使用的时候要注意对照代码比对(备注XML里面的关 ...
UOJ#290. 【ZJOI2017】仙人掌仙人掌,Tarjan,计数,动态规划,树形dp,递推
原文链接https://www.cnblogs.com/zhouzhendong/p/UOJ290.html 题解真是一道好题! 首先,如果不是仙人掌直接输出 0 . 否则,显然先把环上的边删光. ...
蓝桥杯卡片换位(bfs)
卡片换位你玩过华容道的游戏吗?这是个类似的,但更简单的游戏.看下面 3 x 2 的格子在其中放5张牌,其中A代表关羽,B代表张飞,* 代表士兵.还有一个格子是空着的. 你可以把一张牌移动到相邻的空 ...
json劫持payload
<html> <head>jsonp hijacking</head> <body> <script> function jj(json){ ...
codeforces1152 div2
比赛的链接 C gcd(a+k, b+k) == gcd(a+k, b-a) #include <bits/stdc++.h> using namespace std; const int ...
asp.net core1.1的PlatformAbstraction源码
PlatformAbstraction类在现在的asp.net core中已经废弃了,但是此类的设计还是不错的,可以借鉴,源码如下: namespace Microsoft.Extensions.Pl ...
JAVA基础复习与总结<五> String类_File类_Date类
String类 .Java字符串就是Unicode字符序列,例如串“Java”就是4个Unicoe字符组成. .Java没有内置的字符串类型,而是在标准java类库中提供了一个预定义的类String, ...
2019-3-22KeyDown,KeyPress 和 KeyUp 事件
研究了一下KeyDown,KeyPress 和 KeyUp 的学问.让我们带着如下问题来说明: 1.这三个事件的顺序是怎么样的? 2.KeyDown 触发后,KeyUp是不是一定触发? 3.三个事件的 ...

机器学习基石笔记：04 Feasibility of Learning

一、如何保证2？

二、如何保证1？

机器学习基石笔记：04 Feasibility of Learning的更多相关文章

随机推荐

热门专题