Noise

在x和y都可能有noise

对于没有noise的情况,x~P(x), f(x)=h(x),但是如果现在有noise,x~P(x), y~P(y|x)(y是真正的label,只是一定概率上会变,因为有noise,这个概率是P(y|x))

联合起来,就有(x,y)~P(x,y) i.i.d.

P(y|x): target distribution

如果P(+1|x)=0.7,P(-1|x)=0.3,那么有

理想的mini-target f(x)=+1,noise level=0.3

对于deterministic target f: a special case of target distribution where P(y|x)=1 for y=f(x) and P(y|x)=0 for y not = f(x)

衡量Error的方法:

Pointwise Error Measure(对于每一个x去求err)

用ỹ表达g(x)。pointwise error measure有两种方法

ideal mini-target f(x)是通过target distribution P(y|x)和err共同决定的。

e.g:

对于target distribution如上给定,如果error measure用0/1来表示,mini-target就是选择target distribution最大的那个,如果是squared error,mini-target就是target distribution的加权平均值。
一种Error Measure

e.g.

以指纹识别为例子,当你有权限操作一台计算机的时候,系统却把你的指纹错误的认为没有权限,这种情况是false reject,当其他没有权限的人去操作电脑的时候,系统却错误的认为该人有权限,这种情况是false accept.这两种都属于error,如果是0/1 error的话,这两种情况是等价的。

但是往往现实不是这样,有的时候希望系统对false reject的惩罚会更大,比如超市错误的拒绝了一个拥有权限的客户,此时超市可能会失去这个客户。这个时候false reject 应该更大。又或者,如果此时有人要入侵电脑,他的指纹被判断成可以接受了,这种情况可能会造成资料的泄漏,此时希望系统对false accept惩罚的更大。

因此可以看出,和之前的0/1 error,把错误全部等价啊看待。

但是,往往,我们并不知道应该怎样设计error,比如超市并不知道怎样惩罚系统误判了正确的客户。因此,这里引入algorithmic Error Measures: err “hat"
既然err有权重了,那么计算Ein和Eout也要考虑权重了,

对于y=-1而h错误的predict成了+1的情况,就是false accept的时候,要变成1000.

通过PLA,可以对Ein最小化,因为加上了权重,所以这里的Ein加上了一个w表示。
另外也可以通过pocket algorithm去minimize Ein^w,但是在pocket algorithm过程中每次的循环都要检测当前的Ein和新产生的h带来的Ein哪个大,这里用的Ein应该是用Ein^w。

现在的问题是怎样将原来的Ein,也就是用0/1 error计算的Ein,与新的带权重的Ein^w联系在一起呢?

解决方法:把y=-1,但是错误的认为成+1的点,复制1000倍。这样用原来的不带权重的Ein就可以产生带权重的Ein对original data一样的效果了。

但是如果真的去复制1000倍的话,耗时耗资源,此时使用virtual copying的办法。既然在false accept的点上需要有1000倍的重视程度,那么干脆在pocket algorithm随机选择点做correction的时候,把选到这些点的概率提高1000倍就好了。

Error measure的更多相关文章

  1. Noise,Error,wighted pocket Algorithm

    错误衡量(Error Measure) 有两种错误计算方法: 第一种叫0/1错误,只要[预测≠目标]则认为犯错,通常用于分类:通常选择,错误比较大的值作为y˜的值 第二种叫平方错误,它衡量[预测与目标 ...

  2. 机器学习基石8-Noise and Error

    注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们主要介绍了VC Dimension的概念.如果Hypothese ...

  3. 理解机器为什么可以学习(五)---Noise and Error

    之前我们讨论了VC Dimension,最终得到结论,如果我们的hypetheset的VC Dimension是有限的,并且有足够的资料,演算法能够找到一个hypethesis,它的Ein很低的话,那 ...

  4. 【转载】VC维的来龙去脉

    本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number o ...

  5. Spark随机深林扩展—OOB错误评估和变量权重

    本文目的 当前spark(1.3版)随机森林实现,没有包括OOB错误评估和变量权重计算.而这两个功能在实际工作中比较常用.OOB错误评估可以代替交叉检验,评估模型整体结果,避免交叉检验带来的计算开销. ...

  6. 台大《机器学习基石》课程感受和总结---Part 2 (转)

    转自:http://blog.sina.com.cn/s/blog_641289eb0101e2ld.html Part 2总结一下一个粗略的建模过程: 首先,弄清楚问题是什么,能不能用机器学习的思路 ...

  7. spark Using MLLib in Scala/Java/Python

    Using MLLib in ScalaFollowing code snippets can be executed in spark-shell. Binary ClassificationThe ...

  8. 踩刹车——regularization

    从一个问题说起: 当我们使用H10去拟合曲线的时候,其实我们只想要H2的结果.如果从H10变回到H2呢? 所以我们只需要添加上限制条件:w3=...=w10=0即可.现在呢,我们可以放宽一点条件:任意 ...

  9. 加州理工大学公开课:机器学习与数据挖掘_线性模型 II(第IX类)

    课程简要: 主要内容包括线性分类和回归分析简单的回忆.除了Logistic回归分析,具体解说误差测量和算法三方面,同时归纳法的非线性变换的分析. 课程大纲: 1.Review 2.Nonlinear ...

随机推荐

  1. UVa 11149 矩阵的幂(矩阵倍增法模板题)

    https://vjudge.net/problem/UVA-11149 题意: 输入一个n×n矩阵A,计算A+A^2+A^3+...A^k的值. 思路: 矩阵倍增法. 处理方法如下,一直化简下去直到 ...

  2. RabbitMQ 之 订阅模式 Publish/Subscribe

    模型图 我们之前学习的都是一个消息只能被一个消费者消费,那么如果我想发一个消息 能被多个消费者消费,这时候怎么办? 这时候我们就得用到了消息中的发布订阅模型 在前面的教程中,我们创建了一个工作队列,都 ...

  3. (局部刷新)jquery.ajax提交并实现单个div刷新

    web开发中我们经常会遇到局部刷新页面的需求,以前我经常使用ajax和iframe实现局部刷新,后来做政府的项目,对页面的样式要求比较多,发现使用iframe控制样式什么的很麻烦,所以就采用了新的办法 ...

  4. Memcached gets 命令

    Memcached gets 命令获取带有 CAS 令牌存 的 value(数据值) ,如果 key 不存在,则返回空. 语法: gets 命令的基本语法格式如下: gets key 多个 key 使 ...

  5. 基于usb4java实现的java下的usb通信

    项目地址:点击打开 使用java开发的好处就是跨平台,基本上java的开发的程序在linux.mac.MS上都可以运行,对应这java的那句经典名言:一次编写,到处运行.这个项目里面有两种包选择,一个 ...

  6. 如何停止你的Streaming Application

    Spark 1.3及其前的版本 你的一个 spark streaming application 已经好好运行了一段时间了,这个时候你因为某种原因要停止它.你应该怎么做?直接暴力 kill 该 app ...

  7. 【BZOJ1061】【NOI2008】志愿者招募

    [BZOJ1061][NOI2008]志愿者招募 题面 BZOJ 题解 我们设每类志愿者分别招募了\(B[i]\)个 那么,我们可以得到一系列的方程 \[\sum_{S[i]\leq x\leq T[ ...

  8. Emacs Helm: 使用关键字搜索、获取、执行任何东西

    Helm 是一个emacs的软件包,定义了一个通用框架,交互式地.动态缩减式地使用关键字选择.获取.执行任何东西.比如: 执行emacs 命令 打开文件 查看man文档 执行grep操作 执行apt命 ...

  9. 转载:【Oracle 集群】RAC知识图文详细教程(四)--缓存融合技术和主要后台进程

    文章导航 集群概念介绍(一) ORACLE集群概念和原理(二) RAC 工作原理和相关组件(三) 缓存融合技术(四) RAC 特殊问题和实战经验(五) ORACLE 11 G版本2 RAC在LINUX ...

  10. Oracle recovery manager failed to restore

    解决办法: 1:清理过期失效的备份, 2:增加recovery_file_dest_size参数值即可: SQL> show parameter db_recover NAME          ...