ROC曲线与AUC

傻傻de 2024-10-11 23:04:09 原文

一、ROC曲线

1、简介

ROC曲线全称是“受试者工作特征曲线 ”(Receiver Operating Characteristic curve)，又称为感受性曲线(Sensitivity curve)。
它源于二战中用于敌机检测的雷达信号分析技术，二十世纪六七十年代开始被用于一些心理学、医学检测中，此后被引入机器学习领域。
得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一信号刺激的反应，只不过是在两种不同的判定标准下所得的结果而已。

ROC曲线示意图如下图所示。

ROC曲线的横轴是“假正例率”（False Positive Rate，简称FPR），纵轴是“真正例率”（True Positive Rate，简称TPR），两者定义如下，公式中符号含义参见 混淆矩阵 。
\begin{align}\notag
TPR=\frac{TP}{TP+FN}
\end{align}
\begin{align}\notag
FPR=\frac{FP}{TN+FP}
\end{align}

现实任务中通常是利用有限个样本来绘制ROC曲线，此时仅能获得有限个（真正例率、假正例率）坐标，无法产生上图光滑的ROC曲线，只能绘制出下图所示的近似的ROC曲线。

2、绘制方法

很多机器学习是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值（threshold）进行比较，若大于阈值则分为正类，小于阈值则为反类。

假设有m个正例和n个反例，根据预测结果对样例进行排序；
把分类阈值设为最大，即把所有样例均预测为反例，此时真正例率和假正例率均为0，即在坐标（0，0）处；
然后，将分类阈值依次设为每个样例的预测值，即依次将每个样例划分为正例，求出真正例率和假正例率，绘制出坐标。

3.优点

在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。
但当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。

二、AUC

AUC（Area Under Curve），即ROC曲线下的面积。
AUC越大，分类器效果越好。
假设按序连接成ROC曲线上点的坐标为

\begin{align}\notag
(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})
\end{align}

则AUC可估算为

\begin{align}\notag
AUC=\frac{1}{2} \sum_{i=1}^{m-1}(x_{i+1}-x_{i})\cdot (y_{i}+y_{i+1})
\end{align}

梦不会逃走，逃走的一直都是自己。——《蜡笔小新》

ROC曲线与AUC的更多相关文章

机器学习之分类器性能指标之ROC曲线、AUC值
分类器性能指标之ROC曲线.AUC值一 roc曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性 ...
ROC曲线、AUC、Precision、Recall、F-measure理解及Python实现
本文首先从整体上介绍ROC曲线.AUC.Precision.Recall以及F-measure,然后介绍上述这些评价指标的有趣特性,最后给出ROC曲线的一个Python实现示例. 一.ROC曲线.AU ...
ROC曲线的AUC（以及其他评价指标的简介）知识整理
相关评价指标在这片文章里有很好介绍信息检索(IR)的评价指标介绍 - 准确率.召回率.F1.mAP.ROC.AUC:http://blog.csdn.net/marising/article/det ...
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值
准确率.精确率(查准率).召回率(查全率).F1值.ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前 ...
ROC曲线，AUC面积
AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间.Auc作为数值可以直观的评价分类器的好坏,值越大越好. 首先AUC值是一个概率值,当你随机挑选一个正样本以及负样本, ...
ROC曲线和AUC值（转）
http://www.cnblogs.com/dlml/p/4403482.html 分类器性能指标之ROC曲线.AUC值一 roc曲线 1.roc曲线:接收者操作特征(receiveroperat ...
混淆矩阵、准确率、召回率、ROC曲线、AUC
混淆矩阵.准确率.召回率.ROC曲线.AUC 假设有一个用来对猫(cats).狗(dogs).兔子(rabbits)进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结.假设总共 ...
机器学习常见的几种评价指标：精确率（Precision）、召回率（Recall）、F值（F-measure）、ROC曲线、AUC、准确率（Accuracy）
原文链接:https://blog.csdn.net/weixin_42518879/article/details/83959319 主要内容:机器学习中常见的几种评价指标,它们各自的含义和计算(注 ...
【分类模型评判指标二】ROC曲线与AUC面积
转自:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80499031 略有改动,仅供个人学习使用简介 ROC曲线与AUC面积均是用来 ...
模型监控指标- 混淆矩阵、ROC曲线，AUC值，KS曲线以及KS值、PSI值，Lift图，Gain图，KT值，迁移矩阵
1. 混淆矩阵确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 TP(实际为正预测为正 ...

随机推荐

November 8th 2016 Week 46th Tuesday
When he can't, he tries a new way to share a new pair. 当他做不到时,他尝试一种新的方式:分享. To share, your failing e ...
fun()()() ---- 函数的嵌套
结果--"嘿嘿"
团队作业—预则立&&他山之石（改）
首先特别感谢刘乾学长腾出他宝贵的时间接受我的采访,为我们提出宝贵的建议,深表感谢. 1.他山之石,可以攻玉.借鉴前人的经验可以使我们减少很多走弯路的地方,这也是本次采访的目的,参考历届学长的经验,让我 ...
自定义shell命令--闪烁的字母(PIL实现)
之前看到shell命令行,有人写过漫天下字母的cmatrix,想自己动手用python写一个类似,但是比较有自己风格的shell屏保大致效果如下: 制作这个的大体思路比较简单: 1.利用python ...
Java 输入输出流总结
1. 运用BufferedInputStream 读取文件流和BufferedOutputStream写文件流: protected static void writeFile2(String inp ...
利用xlst导出多表头的简便方法
大家都知道在ASP.NET中进行表格导出有很多种办法,aspose,npoi,cvs等等,今天就来介绍xlst,导出多表头.与以往不一样的是我们利用模板,只需要在模板中定义好表格样式,然后绑定数据就可 ...
51nod 1589 移数博弈【桶排序+链表】
1589 移数博弈基准时间限制:1 秒空间限制:262144 KB 分值: 80 难度:5级算法题小A和小B在玩一个游戏. 他们拥有一个数列. 小A在该数列中选择出最大的那个数,然后移出该数 ...
virtualbox+vagrant学习-4-Vagrantfile-6-SSH Settings
SSH Settings 配置命名空间:config.ssh config.ssh的设置涉及到将如何配置vagrant使其通过ssh访问你的计算机.与大多数vagrant设置一样,默认设置通常都很好, ...
基于swoole的聊天室模型
client.html: <!doctype html><html><head> <meta charset="utf-8"> &l ...
JPA条件查询时间区间用LocalDateTime的问题
@Override public Page<Order> findAll(String outTradeNo, String tradeNo, String mchAppid, Strin ...