ROC曲线及AUC评价指标

很多时候，我们希望对一个二值分类器的性能进行评价，AUC正是这样一种用来度量分类模型好坏的一个标准。现实中样本在不同类别上的不均衡分布(class distribution imbalance problem)，使得accuracy这样的传统的度量标准不能恰当的反应分类器的性能。举个例子：测试样本中有A类样本90个，B 类样本10个。若某个分类器简单的将所有样本都划分成A类，那么在这个测试样本中，它的准确率仍为90%，这显示是不合理的。为了解决上述问题，人们从医疗分析领域引入了一种新的分类模型performance评判方法——ROC分析。在介绍ROC之前，首先讨论一下混淆矩阵（Confusion matrix）。

混淆矩阵是监督学习中的一种可视化工具，主要用于比较分类结果和实例的真实信息（outcom vs. ground truth）。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。在混淆矩阵中，每一个实例可以划分为四种类型之一，True Positive\False Positive\False Negative\True Negetive（TP\FP\FN\TN），如图1所示。其中，Positive代表预测实例来自正类，Negetive代表预测实例来自负类；True代表预测正确，False代表预测错误。

图1：Confusion Matrix

由混淆矩阵可以计算一系列的评价指标，如accurancy、precision、recall等等。

回到ROC上来，ROC的全名叫做Receiver Operating Characteristic。ROC关注两个指标true positive rate(TPR= TP / [TP + FN] ) 和 false positive rate (FPR= FP / [FP + TN] )，直观上，TPR代表能将正例分对的概率，FPR代表将负例错分为正例的概率。在ROC 空间中，每个点的横坐标是FPR，纵坐标是TPR，这也就描绘了分类器在TP（真正的正例）和FP（错误的正例）间的trade-off。ROC的主要分析工具是一个画在ROC空间的曲线——ROC curve。我们知道，对于二值分类问题，实例的值往往是连续值，我们通过设定一个阈值，将实例分类到正类或者负类（比如大于阈值划分为正类）。因此我们可以变化阈值，根据不同的阈值进行分类，根据分类结果计算得到ROC空间中相应的点，连接这些点就形成ROC curve。ROC curve经过（0,0）（1,1），实际上(0, 0)和(1, 1)连线形成的ROC curve实际上代表的是一个随机分类器。一般情况下，这个曲线都应该处于(0, 0)和(1, 1)连线的上方。如图2所示。

图2 ROC Curve

用ROC curve来表示分类器的performance很直观好用。可是，人们总是希望能有一个数值来标志分类器的好坏。于是Area Under roc Curve(AUC)就出现了。顾名思义，AUC的值就是处于ROC curve下方的那部分面积的大小。通常，AUC的值介于0.5到1.0之间，较大的AUC代表了较好的performance。

计算ROC curve的AUC值的代码可以在这找到。

参考资料：

ROC曲线及AUC评价指标的更多相关文章

ROC曲线的AUC（以及其他评价指标的简介）知识整理
相关评价指标在这片文章里有很好介绍信息检索(IR)的评价指标介绍 - 准确率.召回率.F1.mAP.ROC.AUC:http://blog.csdn.net/marising/article/det ...
机器学习常见的几种评价指标：精确率（Precision）、召回率（Recall）、F值（F-measure）、ROC曲线、AUC、准确率（Accuracy）
原文链接:https://blog.csdn.net/weixin_42518879/article/details/83959319 主要内容:机器学习中常见的几种评价指标,它们各自的含义和计算(注 ...
ROC曲线、AUC、Precision、Recall、F-measure理解及Python实现
本文首先从整体上介绍ROC曲线.AUC.Precision.Recall以及F-measure,然后介绍上述这些评价指标的有趣特性,最后给出ROC曲线的一个Python实现示例. 一.ROC曲线.AU ...
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值
准确率.精确率(查准率).召回率(查全率).F1值.ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前 ...
ROC曲线，AUC面积
AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间.Auc作为数值可以直观的评价分类器的好坏,值越大越好. 首先AUC值是一个概率值,当你随机挑选一个正样本以及负样本, ...
机器学习之分类器性能指标之ROC曲线、AUC值
分类器性能指标之ROC曲线.AUC值一 roc曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性 ...
ROC曲线和AUC值（转）
http://www.cnblogs.com/dlml/p/4403482.html 分类器性能指标之ROC曲线.AUC值一 roc曲线 1.roc曲线:接收者操作特征(receiveroperat ...
混淆矩阵、准确率、召回率、ROC曲线、AUC
混淆矩阵.准确率.召回率.ROC曲线.AUC 假设有一个用来对猫(cats).狗(dogs).兔子(rabbits)进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结.假设总共 ...
【分类模型评判指标二】ROC曲线与AUC面积
转自:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80499031 略有改动,仅供个人学习使用简介 ROC曲线与AUC面积均是用来 ...

随机推荐

NSDate 获取明天、后天的日期
NSDate * senddate=[NSDate date]; NSCalendar *gregorian = [[NSCalendar alloc] initWithCalendarIde ...
图片放大插件——elevatezoom
GitHub地址:https://github.com/elevateweb/elevatezoom elevatezoom官网:http://www.elevateweb.co.uk/image-z ...
HTML: Css引入的四種方式
哪四種?這裏簡單進行下總結 ①寫在 style 標籤中 <style type="text/css"> 這裏是css代碼... </style> ②外部引入 ...
20145317彭垚《Java程序设计》第6周学习总结
20145317彭垚 <Java程序设计>第6周学习总结第十章输入/输出 10.1 InputStream与OutputStream 1.串流设计的概念 Java将输入/输出抽象化为串 ...
ArrayList调用remove方法需要注意的地方
ArrayList中有remove 方法和 removeAll方法, ArrayList中不仅继承了接口Collection中的remove方法,而且还扩展了remove方法. Collection中 ...
在Delphi中如何动态创建dbf数据库（二）？
unit Form_ToChangCSVforDBFU; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics ...
php + ajax + html 简单跨域问题
XMLHttpRequest cannot load http://localhost:8080/abc/index.php. No 'Access-Control-Allow-Origin' hea ...
SQL查询一周内过生日的用户
SELECT birthday, )) + '-' + )) + '-' + )) AS datetime) AS Nbirthday FROM CRM_Customer WHERE birthday ...
C/C++获取系统时间
C/C++获取系统时间需要使用Windows API,包含头文件"windows.h". 系统时间的数据类型为SYSTEMTIME,可以在winbase.h中查询到如下定义: ty ...
从高版本JDK换成低版本JDK报错Unsupported major.minor version 52.0
ava.lang.UnsupportedClassVersionError: PR/Sort : Unsupported major.minor version 52.0这个错误是由于高版本的java ...

ROC曲线及AUC评价指标

ROC曲线及AUC评价指标的更多相关文章

随机推荐

热门专题