Noise

在x和y都可能有noise

对于没有noise的情况,x~P(x), f(x)=h(x),但是如果现在有noise,x~P(x), y~P(y|x)(y是真正的label,只是一定概率上会变,因为有noise,这个概率是P(y|x))

联合起来,就有(x,y)~P(x,y) i.i.d.

P(y|x): target distribution

如果P(+1|x)=0.7,P(-1|x)=0.3,那么有

理想的mini-target f(x)=+1,noise level=0.3

对于deterministic target f: a special case of target distribution where P(y|x)=1 for y=f(x) and P(y|x)=0 for y not = f(x)

衡量Error的方法:

Pointwise Error Measure(对于每一个x去求err)

用ỹ表达g(x)。pointwise error measure有两种方法

ideal mini-target f(x)是通过target distribution P(y|x)和err共同决定的。

e.g:

对于target distribution如上给定,如果error measure用0/1来表示,mini-target就是选择target distribution最大的那个,如果是squared error,mini-target就是target distribution的加权平均值。
一种Error Measure

e.g.

以指纹识别为例子,当你有权限操作一台计算机的时候,系统却把你的指纹错误的认为没有权限,这种情况是false reject,当其他没有权限的人去操作电脑的时候,系统却错误的认为该人有权限,这种情况是false accept.这两种都属于error,如果是0/1 error的话,这两种情况是等价的。

但是往往现实不是这样,有的时候希望系统对false reject的惩罚会更大,比如超市错误的拒绝了一个拥有权限的客户,此时超市可能会失去这个客户。这个时候false reject 应该更大。又或者,如果此时有人要入侵电脑,他的指纹被判断成可以接受了,这种情况可能会造成资料的泄漏,此时希望系统对false accept惩罚的更大。

因此可以看出,和之前的0/1 error,把错误全部等价啊看待。

但是,往往,我们并不知道应该怎样设计error,比如超市并不知道怎样惩罚系统误判了正确的客户。因此,这里引入algorithmic Error Measures: err “hat"
既然err有权重了,那么计算Ein和Eout也要考虑权重了,

对于y=-1而h错误的predict成了+1的情况,就是false accept的时候,要变成1000.

通过PLA,可以对Ein最小化,因为加上了权重,所以这里的Ein加上了一个w表示。
另外也可以通过pocket algorithm去minimize Ein^w,但是在pocket algorithm过程中每次的循环都要检测当前的Ein和新产生的h带来的Ein哪个大,这里用的Ein应该是用Ein^w。

现在的问题是怎样将原来的Ein,也就是用0/1 error计算的Ein,与新的带权重的Ein^w联系在一起呢?

解决方法:把y=-1,但是错误的认为成+1的点,复制1000倍。这样用原来的不带权重的Ein就可以产生带权重的Ein对original data一样的效果了。

但是如果真的去复制1000倍的话,耗时耗资源,此时使用virtual copying的办法。既然在false accept的点上需要有1000倍的重视程度,那么干脆在pocket algorithm随机选择点做correction的时候,把选到这些点的概率提高1000倍就好了。

Error measure的更多相关文章

  1. Noise,Error,wighted pocket Algorithm

    错误衡量(Error Measure) 有两种错误计算方法: 第一种叫0/1错误,只要[预测≠目标]则认为犯错,通常用于分类:通常选择,错误比较大的值作为y˜的值 第二种叫平方错误,它衡量[预测与目标 ...

  2. 机器学习基石8-Noise and Error

    注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们主要介绍了VC Dimension的概念.如果Hypothese ...

  3. 理解机器为什么可以学习(五)---Noise and Error

    之前我们讨论了VC Dimension,最终得到结论,如果我们的hypetheset的VC Dimension是有限的,并且有足够的资料,演算法能够找到一个hypethesis,它的Ein很低的话,那 ...

  4. 【转载】VC维的来龙去脉

    本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number o ...

  5. Spark随机深林扩展—OOB错误评估和变量权重

    本文目的 当前spark(1.3版)随机森林实现,没有包括OOB错误评估和变量权重计算.而这两个功能在实际工作中比较常用.OOB错误评估可以代替交叉检验,评估模型整体结果,避免交叉检验带来的计算开销. ...

  6. 台大《机器学习基石》课程感受和总结---Part 2 (转)

    转自:http://blog.sina.com.cn/s/blog_641289eb0101e2ld.html Part 2总结一下一个粗略的建模过程: 首先,弄清楚问题是什么,能不能用机器学习的思路 ...

  7. spark Using MLLib in Scala/Java/Python

    Using MLLib in ScalaFollowing code snippets can be executed in spark-shell. Binary ClassificationThe ...

  8. 踩刹车——regularization

    从一个问题说起: 当我们使用H10去拟合曲线的时候,其实我们只想要H2的结果.如果从H10变回到H2呢? 所以我们只需要添加上限制条件:w3=...=w10=0即可.现在呢,我们可以放宽一点条件:任意 ...

  9. 加州理工大学公开课:机器学习与数据挖掘_线性模型 II(第IX类)

    课程简要: 主要内容包括线性分类和回归分析简单的回忆.除了Logistic回归分析,具体解说误差测量和算法三方面,同时归纳法的非线性变换的分析. 课程大纲: 1.Review 2.Nonlinear ...

随机推荐

  1. spark(三)从hbase取数据

    前言 通过spark获取hbase数据的过程中,遇到了InputFormat.文章主要围绕InputFormat介绍.会牵扯到spark,mapreduce,hbase相关内容 InputFormat ...

  2. LIS学习笔记(两种算法)O(n^2) 和 O(nlogn)

    2017-09-02 10:34:21 writer:pprp 最长上升子序列,具体分析看代码:O(n^2)的做法,dp的思想 分析:每次读一个进行扫描,如果当前读入的这个要比之前的大, 说明有可能加 ...

  3. java 连接 redis集群时报错:Could not get a resource from the pool

    由于弄这个的时候浪费了太多的时间,所以才记录下这个错,给大伙参考下 检查了一下,配置啥的都没问题的,但在redis集群机器上就可以,错误如下: Exception in thread "ma ...

  4. .net 获取浏览器Cookie(包括HttpOnly)

    网上好不容易找到的,分享+收藏 一.接口文件 using System; using System.ComponentModel; using System.Net; using System.Run ...

  5. keepalived与nginx安装

    目的: 当用户请求访问时,会通过nginx来访问web服务应用,因此我们必须要保证nginx的高可用,要保证nginx的高可用,我们需要通过keepalived来监控nginx,并对外提供1个虚拟的v ...

  6. 简单UML

    http://www.cnblogs.com/pluviophile/p/7542017.html,看了这篇博文感觉这个例子有用遂搬运过来方便查阅 上面的类图就体现了所需要了解的类的6个基本关系 该类 ...

  7. vue削笔机

    // 1.vue 是异步更新dom // 2.vue修改多次状态,vue 只会渲染一次 // 3.vue变化侦查机制,每次状态的变化都会发出一个渲染信号. // 检查队列中是否存在,不存在将渲染操作添 ...

  8. CSS之按钮过滤

    <!doctype html> <html> <head> <meta charset="utf-8"> <title> ...

  9. html5本地存储之localstorage 、本地数据库、sessionStorage简单使用示例

    这篇文章主要介绍了html5本地存储的localstorage .本地数据库.sessionStorage简单使用示例,需要的朋友可以参考下 html5的一个非常cool的功能,就是web stora ...

  10. js事件在不同浏览器之间的差异

    目录: 1. 介绍 2. 不同浏览器之间的差异 2.1 添加事件的方法 2.2 事件对象event 2.3 event中的属性/方法 3. 总结 1. 介绍 javascript与HTML之间的交互是 ...