理解机器为什么可以学习（五）---Noise and Error

futurehau 2024-09-07 20:37:34 原文

之前我们讨论了VC Dimension，最终得到结论，如果我们的hypetheset的VC Dimension是有限的，并且有足够的资料，演算法能够找到一个hypethesis，它的Ein很低的话，那么我们就大概学到了东西。

看看之前的learning flow：

我们有一个target function，能够产生一堆的sample，x 由某一个分布产生，未来的测试也有同一个分布产生。

演算法想办法从资料和假设集里找到一个好的假设。好的假设集是VC Dimension是有限的，好的假设是Ein是低的。

那么，我们现在讨论假设数据是有噪声的，之前的推导还是有效的吗？

1. Noise and Probabilistic Target

之前的讨论没有考虑噪声，但是无论是X还是Y，都是有可能带来噪声的。

那么之前的目标函数就变为目标分布：

目标部分告诉我们最好的分布是什么，杂讯是多少。

P(x)代表哪些X比较重要.

那么，现在的learning flow变为：

2. Error Measure

之前我们一直在寻找g和f接近，现在我们进行一个量化来表示g和f一不一样。

之前的g有三个特性：

（classification错误也叫做0/1 Error）

两种错误衡量方式：

错误大小和P(y|X)有关，和衡量错误的方法有关：

那么，有了错误衡量的概念之后，我们的学习曲线就需要告诉演算法使用怎样的错误衡量方式。

3. Choice of Error Measure

其实就是说的准确率和召回率。

假设做一个指纹辨识系统，

那么超市打折就希望较少的false reject，所以就可以把false reject的惩罚权重调大一些。

CIA进入许可就希望比较小的false accept，所以就可以把false accept的惩罚权重调大一些。

所以，不同的应用需要不同的错误衡量方式。在设计演算法的时候就需要考虑到错误衡量方式。

但真正的量化错误衡量方式往往不容易，所以需要寻找替代：

那么，有了替代Err的概念之后，演算法可以转变为：

4. Weighted Classification

不同的错误有不同的权重。

改变了Ein之后，之前的PLA和Pocket相应有什么影响呢？

Pocket可以让Ein01尽可能的小，但是新的衡量方式也有保证么？

这样考虑，复制权重次数即可对应。

实际上并不需要真正的去复制，而是下述的虚拟复制。

理解机器为什么可以学习（五）---Noise and Error的更多相关文章

理解机器为什么可以学习（四）---VC Dimension
前面一节我们通过引入增长函数的上限的上限,一个多项式,来把Ein 和 Eout 的差Bound住,这一节引入VC Bound进一步说明这个问题. 前边我们得到,如果一个hypethesis集是有bre ...
理解机器为什么可以学习（三）---Theory of Generalization
前边讨论了我们介绍了成长函数和break point,现在继续讨论m是否成长很慢,是否能够取代M. 成长函数就是二分类的排列组合的数量.break point是第一个不能shatter(覆盖所有情形) ...
理解机器为什么可以学习（二）---Training versus Testing
前边由Hoeffding出发讨论了为什么机器可以学习,主要就是在N很大的时候Ein PAC Eout,选择较小的Ein,这样的Eout也较小,但是当时还有一个问题没有解决,就是当时的假设的h的集合是个 ...
理解机器为什么可以学习（一）---Feasibility of learning
主要讲解内容来自机器学习基石课程.主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性. PAC : probably approximately corr ...
《深入理解计算机系统V2》学习指导
<深入理解计算机系统V2>学习指导目录图书简况学习指导第一章计算机系统漫游第二章信息的表示和处理第三章程序的机器级表示第四章处理器体系结构第五章优化程序性能第六 ...
Java虚拟机内存溢出异常--《深入理解Java虚拟机》学习笔记及个人理解(三)
Java虚拟机内存溢出异常--<深入理解Java虚拟机>学习笔记及个人理解(三) 书上P39 1. 堆内存溢出不断地创建对象, 而且保证创建的这些对象不会被回收即可(让GC Root可达 ...
Deep learning for visual understanding: A review 视觉理解中的深度学习：回顾之一
Deep learning for visual understanding: A review 视觉理解中的深度学习:回顾 ABSTRACT: Deep learning algorithms ar ...
（转）MyBatis框架的学习(五)——一对一关联映射和一对多关联映射
http://blog.csdn.net/yerenyuan_pku/article/details/71894172 在实际开发中我们不可能只是对单表进行操作,必然要操作多表,本文就来讲解多表操作中 ...
《深入理解 Java 虚拟机》学习 -- 类加载机制
<深入理解 Java 虚拟机>学习 -- 类加载机制 1. 概述虚拟机把描述类的数据从 Class 文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的 J ...

随机推荐

spring中用xml配置构造注入的心得
spring中用xml配置构造注入时,如果 <constructor-arg> 属性都是 ref ,则不用理会参数顺序 <constructor-arg ref="kill ...
shell实现mysql数据库备份
#!/bin/bash DB_USER="root" #数据库用户名 DB_PASS="12345678" #数据库密码 BACK_DIR="/bac ...
hihoCoder 挑战赛10 #1144 : 01串
思路:这只是逻辑测试题吧,考虑周全就行了.考虑n=m的情况,n>m的情况,m>n的情况. (1)n>m的情况,0比1多几个都是行的,一共有m个“01”,后面补足够多个零即可. (2) ...
ABAP Netweaver和Cloud Foundry上的环境变量Environment Variable
Netweaver 更准确的说应该是系统变量:结构体sy 设一个断点,调试器里看这些字段的值就能知道每个字段是用来做什么的. sy-dbsys sy-sysid sy-opsys sy-saprl s ...
WCF使用地址去调用服务端的方法
前面的章节已经讲过了WCF的代码和SVC页面的分离,这里是分离后,客户端调用代码如下: try { var myBinding = new BasicHttpBinding(); var myEndp ...
c#基础之循环探索
前言在学习基础的语法中循环控制是程序语句控制中的一种,循环在很多的操作中都有应用,例如在获得数据库中的查询的数据之后可以用循环遍历的方式拿到每一行的数据,从而拿到每一个单元格的数据,在文件的操作中也大 ...
AIDE
安装 yum install aide 修改配置文件 vim /etc/aide.conf (指定对哪些文件进行检测) /test/chameleon R /bin/ps R+a /usr/bin/c ...
Linux NFS服务器的安装与配置详解
一.NFS服务简介 NFS是Network File System(网络文件系统).主要功能是通过网络让不同的服务器之间可以共享文件或者目录.NFS客户端一般是应用服务器(比如web,负载均衡等),可 ...
Shell脚本使用汇总整理——mysql数据库5.7.8以前备份脚本
Shell脚本使用汇总整理——mysql数据库5.7.8以前备份脚本 Shell脚本使用的基本知识点汇总详情见连接: https://www.cnblogs.com/lsy-blogs/p/92234 ...
Redis学习笔记（三）
一.数据备份与恢复数据备份: localhost:> save OK 该命令会在redis的安装目录中创建文件dump.rdb,并把数据保存在该文件中查看redis的安装目录: localh ...