Handling skewed data---Error metrics for skewed(偏斜的) classes(precision&recall)

skewed classes

skewed classes: 一种类里面的数量远远高于（或低于）另一个类，即两个极端的情况。

预测cancer的分类模型，如果在test set上只有1%的分类误差的话，乍一看是一个很好的结果，实际上如果我们将所有的y都预测为0的话（即都不为cancer）,分类误差为0.5%(因为cancer的比率为0.5%)。error降低了，那这是对算法的一种改进吗？显然不是的。因为后面一种方法实际上什么也没有做(将所有的y=0)，不是一种好的机器学习算法。所以这种error metrics对于skewed classes是不行的，那么我们要寻求一种适用于skewed classes上面的error metrics。

precision(查准率) & recall(召回率)

用测试集来评估一个分类模型：如上图所示，在实际值与预测值上进行一个2*2的分类(假设这是一个2分类问题)，将它们分为真阳性(实际是postive,预测也是postive),假阳性(预测是postive,实际是negative),真阴性(实际是negative,预测也是negative),假阴性(预测也是negative,实际是positive)。

precision(查准率):真阳性(True positive)/预测为positive(阳性的)数量（predicted y=1）= 真阳性/(真阳性+假阳性)

recall(召回率): 真阳性(True positive)/实际为positive(阳性的)的数量 (actually have cancer) = 真阳性/(真阳性+假阴性)

这样当我们用precision与recall来评估上一个例子的算法时（将所有的y都预测为0）,这样它的true positive 就为0，这样它的precision与recall就都为0，即能知道这不是一个好的算法，所以我们可以通过precision和recall来评估一个算法是否好。也给了我们一个更直接的方法来评估模型的好坏。

我们经常使用y=1(不是y=0)来做为很少(rare)出现的那个类（如为cancer的类），即做为要检测出来的类。

总结

我们使用precision和recall来衡量算法的好坏，这样当我们遇到skewed classes时，即使我们将所有的预测值都设为0或者1时，它不会有高的precison和recall
当我们算法的precision和recall很好时，我们可以确信地说我们的算法表现很好（即使我们遇到了skewed classes）
当我们遇到skewed classes问题时，我们使用precision和recall比用的误差率或者准确率能更好地来衡量算法的好坏

Handling skewed data---Error metrics for skewed(偏斜的) classes(precision&recall)的更多相关文章

斯坦福大学公开课机器学习：machine learning system design | error metrics for skewed classes（偏斜类问题的定义以及针对偏斜类问题的评估度量值：查准率（precision）和召回率（recall））
上篇文章提到了误差分析以及设定误差度量值的重要性.那就是设定某个实数来评估学习算法并衡量它的表现.有了算法的评估和误差度量值,有一件重要的事情要注意,就是使用一个合适的误差度量值,有时会对学习算法造成 ...
吴恩达机器学习笔记39-误差分析与类偏斜的误差度量（Error Analysis and Error Metrics for Skewed Classes）
如果你准备研究机器学习的东西,或者构造机器学习应用程序,最好的实践方法不是建立一个非常复杂的系统,拥有多么复杂的变量:而是构建一个简单的算法,这样你可以很快地实现它. 构建一个学习算法的推荐方法为:1 ...
Keras 处理不平衡的数据的分类问题 imbalance data 或者 highly skewed data
处理不平衡的数据集的时候,可以使用对数据加权来提高数量较小类的被选中的概率,具体方式如下 fit(self, x, y, batch_size=32, nb_epoch=10, verbose=1, ...
三维网格精简算法（Quadric Error Metrics）附源码
在计算机图形应用中,为了尽可能真实呈现虚拟物体,往往需要高精度的三维模型.然而,模型的复杂性直接关系到它的计算成本,因此高精度的模型在几何运算时并不是必须的,取而代之的是一个相对简化的三维模型,那么如 ...
composer 报 zlib_decode(): data error
使用composer 时报 zlib_decode(): data error 错误. 解决办法:执行 composer self-update 即可
composer 报错：Failed to decode response: zlib_decode(): data error 解决办法
执行命令 composer require particle/validator 报错 Failed to decode response: zlib_decode(): data error 网上推 ...
Failed to decode response: zlib_decode(): data error
/********************************************************************** * Failed to decode response: ...
O/S-Error: (OS 23) Data error (cyclic redundancy check)问题处理
RMAN-03002: backup plus archivelog 命令 (在 08/24/2015 03:31:00 上) 失败ORA-19501: 文件 "XXXXXX.DBF&quo ...
composer爆错：zlib_decode():data error
昨晚用nginx运行Yii的一个开源小项目,结果composer安装依赖一直报错,如下 Failed to decode response: zlib_decode(): data error 如果遇 ...

随机推荐

TIBCO Jaspersoft Studio 报表软件使用教程
Detail 1里面放置动态内容框可以循环遍历数据版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn ...
K8S+GitLab+.net core-自动化分布式部署-2
K8S+GitLab-自动化分布式部署ASP.NET Core(二) ASP.NET Core DevOps K8S+GitLab-自动化分布式部署ASP.NET Core(二) ASP.NET Co ...
Appium元素定位难点：tap坐标定位不准确
tap用法 1.tap是模拟手指点击页面上元素语法有两个参数,第一个是positions,是list类型最多五个点,duration是持续时间,单位毫秒 tap(self, positions, du ...
[转帖]Introduction to Linux monitoring and alerting
Introduction to Linux monitoring and alerting https://www.redhat.com/sysadmin/linux-monitoring-and-a ...
WordPress实现中英文数字之间自动加空格排版
通常来说中文与英文.中文和数字之间加上空格的排版会更加好看,但是如果让我们在编辑文章的时候人工添加,感觉非常繁琐和让人厌烦,所以今天龙笑天下就来跟大家介绍一下WordPress如何实现中英文数字之间自 ...
python技巧 — 整合 User-Agent 大全汇总
一.IE 浏览器而IE各个版本典型的userAgent如下:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)Mozilla/4.0 (compat ...
vue+element树组件实现树懒加载
本文连接https://www.cnblogs.com/aknife/p/11709255.html 一.页面样式二.数据库三.前端页面代码 <template> <el-tre ...
JavaScript中的原型prototype和__proto__的区别及原型链概念
问题初学js的同学,总是搞不清楚js中的原型是什么东西,看着控制台打印出来的一串串__proto__,迷惑不已. 例如我定义一个Person,创建一个实例p,并打印实例. function Pers ...
作业调度框架Quartz.NET-现学现用-02-任务监听
原文:作业调度框架Quartz.NET-现学现用-02-任务监听前言任务调度系统并不是完美的,它会出现任务执行失败的情况.如果你需要处理任务失败后的逻辑,希望这篇笔记可以为你提供些帮助. Quar ...
记录Quarter的基本使用
原文:记录Quarter的基本使用 using Quartz; using Quartz.Impl; using Quartz.Impl.Matchers; using Quartz.Logging; ...

Handling skewed data---Error metrics for skewed(偏斜的) classes(precision&recall)

Handling skewed data---Error metrics for skewed(偏斜的) classes(precision&recall)的更多相关文章

随机推荐

热门专题