小白也能看懂的 AUC 曲线详解
小白也能看懂的 AUC 曲线详解
简介
上篇文章 小白也能看懂的 ROC 曲线详解 介绍了 ROC 曲线。本文介绍 AUC。AUC 的全名为Area Under the ROC Curve,即 ROC 曲线下的面积,最大为 1。

根据 ROC 和 AUC 的关系,我们可以得到如下结论
- ROC 曲线接近左上角 ---> AUC 接近 1:模型预测准确率很高
- ROC 曲线略高于基准线 ---> AUC 略大于 0.5:模型预测准确率一般
- ROC 低于基准线 ---> AUC 小于 0.5:模型未达到最低标准,无法使用
二分类 AUC
由 AUC 名称可知,可以先计算 ROC 曲线,得到 TPR 和 FPR 的坐标后再分段计算面积即可得到 AUC

下面是对应的 Python 代码
def auc_from_roc(fpr, tpr):
"""
计算ROC面积
fpr: 从小到大排序的fpr坐标
tpr: 从小到大排序的tpr坐标
"""
area = 0
for i in range(len(fpr) - 1):
area += trapezoid_area(fpr[i], fpr[i + 1], tpr[i], tpr[i + 1])
return area
def trapezoid_area(x1, x2, y1, y2):
"""
计算梯形面积
x1, x2: 横坐标 (x1 <= x2)
y1, y2: 纵坐标 (y1 <= y2)
"""
base = x2 - x1
height_avg = (y1 + y2) / 2
return base * height_avg
也可以直接从真实标签和模型预测分数中计算 ROC,算法的时间复杂度为\(O(n\log n)\),参考文献 1 中的算法 2
# import numpy as np
def auc_binary(y_true, y_score, pos_label):
"""
y_true:真实标签
y_score:模型预测分数
pos_label:正样本标签,如“1”
"""
num_positive_examples = (y_true == pos_label).sum()
num_negtive_examples = len(y_true) - num_positive_examples
tp, fp, tp_prev, fp_prev, area = 0, 0, 0, 0, 0
score = -np.inf
for i in np.flip(np.argsort(y_score)):
if y_score[i] != score:
area += trapezoid_area(fp_prev, fp, tp_prev, tp)
score = y_score[i]
fp_prev = fp
tp_prev = tp
if y_true[i] == pos_label:
tp += 1
else:
fp += 1
area += trapezoid_area(fp_prev, fp, tp_prev, tp)
area /= num_positive_examples * num_negtive_examples
return area
多分类 AUC
现在考虑多分类的情况,假设类别数为\(C\)。
一种想法是将某一类别设为正样本类别,其余类别设为负样本类别,然后计算二分类下的 AUC。这种方法叫做一对多,即 One-Vs-Rest (OVR)。可以得到\(C\)个二分类的 AUC,然后计算平均数得到多分类的 AUC。
另一种想法是将某一类别设为正样本类别,另外一个类别(非自身)设为负样本类别计算二分类的 AUC。这种方法叫做一对一,即 One-Vs-One (OVO)。可以得到\(C(C-1)\)个二分类的 AUC,然后计算平均数。

当计算平均数时,可以考虑算数平均数(称为 macro),或者加权平均数(称为 weighted)。其中,加权为各类别的样本所占比例。因此,两两组合可以的得到四种计算多分类 AUC 的方法。值得一提的是,知名机器学习库 scikit-learn 的 roc_auc_score 函数 包含了上述四种方法。
- 一对多 + 算数平均数(OVR + macro)
- 一对多 + 加权平均数(OVR + weighted)
- 一对一 + 算数平均数(OVO + macro)
- 一对一 + 加权平均数(OVO + weighted)
一对多 + 算数平均数
多分类 AUC 的计算公式为
\]
其中\(\text{AUC}(c_i)\)是将类别\(c_i\)作为正样本类别(剩余作为负样本类别),计算的二分类 AUC。
# sklearn.metrics.roc_auc_score(y_true, y_score, average='macro', multi_class='ovr')
def auc_ovr_macro(y_true, y_score):
auc = 0
C = max(y_true) + 1
for i in range(C):
auc += auc_binary(y_true, y_score[:, i], pos_label=i)
return auc / C
一对多 + 加权平均数
多分类 AUC 的计算公式为
\]
其中,权重\(p(c_i)=\frac{\sum\mathbb{I}\{y=c_i\}}{n}\),即标签为\(c_i\)的样本所占比例,权重之和为 1。
# sklearn.metrics.roc_auc_score(y_true, y_score, average='weighted', multi_class='ovr')
def auc_ovr_weighted(y_true, y_score):
auc = 0
C = max(y_true) + 1
n = len(y_true)
for i in range(C):
p = sum(y_true == i) / n
auc += auc_binary(y_true, y_score[:, i], pos_label=i) * p
return auc
一对一 + 算数平均数
多分类 AUC 的计算公式为
\]
其中,\(\text{AUC}(c_i,c_j)=\frac{\text{AUC}(c_i|c_j)+\text{AUC}(c_j|c_i
)}{2}\)。即将\(c_i\)作为正样本类别、\(c_j\)作为负样本类别计算二分类\(\text{AUC}(c_i|c_j)\);然后将\(c_j\)作为正样本类别、\(c_i\)作为负样本类别计算二分类\(\text{AUC}(c_j|c_i)\)。\(\text{AUC}(c_i,c_j)\)为其计算的算数平均值。由于将\(c_i\)和\(c_j\)组合计算,共得到\(C(C-1)/2\) 个二分类 AUC。
# sklearn.metrics.roc_auc_score(y_true, y_score, average='macro', multi_class='ovo')
def auc_ovo_macro(y_true, y_score):
auc = 0
C = max(y_true) + 1
for i in range(C - 1):
i_index = np.where(y_true == i)[0]
for j in range(i + 1, C):
j_index = np.where(y_true == j)[0]
index = np.concatenate((i_index, j_index))
auc_i_j = auc_binary(y_true[index], y_score[index, i], pos_label=i)
auc_j_i = auc_binary(y_true[index], y_score[index, j], pos_label=j)
auc += (auc_i_j + auc_j_i) / 2
return auc * 2 / (C * (C - 1))
一对一 + 加权平均数
多分类 AUC 的计算公式为
\]
其中,权重\(p(c_i,c_j)=\frac{\sum\mathbb{I}\{y=c_i\}+\sum\mathbb{I}\{y=c_j\}}{(C-1)n}\),即标签为\(c_i\)和\(c_j\)的样本所占比例,分母中的系数\(C-1\)使得权重之和为 1。
# sklearn.metrics.roc_auc_score(y_true, y_score, average='weighted', multi_class='ovo')
def auc_ovo_weighted(y_true, y_score):
auc = 0
C = max(y_true) + 1
n = len(y_true)
for i in range(C - 1):
i_index = np.where(y_true == i)[0]
for j in range(i + 1, C):
j_index = np.where(y_true == j)[0]
index = np.concatenate((i_index, j_index))
p = len(index) / n / (C - 1)
auc_i_j = auc_binary(y_true[index], y_score[index, i], pos_label=i)
auc_j_i = auc_binary(y_true[index], y_score[index, j], pos_label=j)
auc += (auc_i_j + auc_j_i) / 2 * p
return auc
参考文献
- Fawcett, Tom. "An introduction to ROC analysis." Pattern recognition letters 27, no. 8 (2006): 861-874. https://www.researchgate.net/profile/Tom-Fawcett/publication/222511520_Introduction_to_ROC_analysis/links/5ac7844ca6fdcc8bfc7fa47e/Introduction-to-ROC-analysis.pdf
- Hand, David J., and Robert J. Till. "A simple generalisation of the area under the ROC curve for multiple class classification problems." Machine learning 45 (2001): 171-186. https://link.springer.com/content/pdf/10.1023/A:1010920819831.pdf
作者:PrimiHub-Kevin
小白也能看懂的 AUC 曲线详解的更多相关文章
- 小白也能看懂的插件化DroidPlugin原理(二)-- 反射机制和Hook入门
前言:在上一篇博文<小白也能看懂的插件化DroidPlugin原理(一)-- 动态代理>中详细介绍了 DroidPlugin 原理中涉及到的动态代理模式,看完上篇博文后你就会发现原来动态代 ...
- 小白也能看懂的插件化DroidPlugin原理(三)-- 如何拦截startActivity方法
前言:在前两篇文章中分别介绍了动态代理.反射机制和Hook机制,如果对这些还不太了解的童鞋建议先去参考一下前两篇文章.经过了前面两篇文章的铺垫,终于可以玩点真刀实弹的了,本篇将会通过 Hook 掉 s ...
- 小白也能看懂的Redis教学基础篇——朋友面试被Skiplist跳跃表拦住了
各位看官大大们,双节快乐 !!! 这是本系列博客的第二篇,主要讲的是Redis基础数据结构中ZSet(有序集合)底层实现之一的Skiplist跳跃表. 不知道那些是Redis基础数据结构的看官们,可以 ...
- 【vscode高级玩家】Visual Studio Code❤️安装教程(最新版🎉教程小白也能看懂!)
目录 如果您在浏览过程中发现文章内容有误,请点此链接查看该文章的完整纯净版 下载 Linux Mac OS 安装 运行安装程序 同意使用协议 选择附加任务 准备安装 开始安装 安装完成 如果您在浏览过 ...
- 小白也能看懂的Redis教学基础篇——做一个时间窗限流就是这么简单
不知道ZSet(有序集合)的看官们,可以翻阅我的上一篇文章: 小白也能看懂的REDIS教学基础篇--朋友面试被SKIPLIST跳跃表拦住了 书接上回,话说我朋友小A童鞋,终于面世通过加入了一家公司.这 ...
- 搭建分布式事务组件 seata 的Server 端和Client 端详解(小白都能看懂)
一,server 端的存储模式为:Server 端 存 储 模 式 (store-mode) 支 持 三 种 : file: ( 默 认 ) 单 机 模 式 , 全 局 事 务 会 话 信 息 内 存 ...
- 小白进阶之Scrapy第六篇Scrapy-Redis详解(转)
Scrapy-Redis 详解 通常我们在一个站站点进行采集的时候,如果是小站的话 我们使用scrapy本身就可以满足. 但是如果在面对一些比较大型的站点的时候,单个scrapy就显得力不从心了. 要 ...
- 小白也能看懂插件化DroidPlugin原理(一)-- 动态代理
前言:插件化在Android开发中的优点不言而喻,也有很多文章介绍插件化的优势,所以在此不再赘述.前一阵子在项目中用到 DroidPlugin 插件框架 ,近期准备投入生产环境时出现了一些小问题,所以 ...
- 小白也能看懂的插件化DroidPlugin原理(一)-- 动态代理
前言:插件化在Android开发中的优点不言而喻,也有很多文章介绍插件化的优势,所以在此不再赘述.前一阵子在项目中用到 DroidPlugin 插件框架 ,近期准备投入生产环境时出现了一些小问题,所以 ...
- 小白都能看懂的tcp三次握手
众所周知,TCP在建立连接时需要经过三次握手.许多初学者经常对这个过程感到混乱:SYN是干什么的,怎么一会儿是1一会儿是0?怎么既有大写的ACK又有小写的ack?为什么ACK在第二次握手才开始出现?初 ...
随机推荐
- Hexo博客使用valine评论系统无效果及终极解决方案
注意事项 有一些博主valine评论系统无效果,有一些原因: 1.很大程度是因为next的版本升级导致某些参数设置不同 2.valine评论是基于LeanCloud,还有一个文章阅读次数功能也是用Le ...
- 跟运维学 Linux - 02
文件操作和用户 复制移动和删除 在Windows中我们可以通过快捷键 ctrl + c 复制,ctrl + v 粘贴,在 linux 中需要使用命令. 复制移动 cp 就是 copy 的意思.请看示例 ...
- webshell工具流量特征
常见的webshell管理工具及流量特征 菜刀 作为老牌 Webshell 管理神器,中国菜刀的攻击流量特征明显,容易被各类安全设备检测,实际场景中越来越少使用,加密 Webshell 正变得日趋流行 ...
- 在Java项目中使用redisson实现分布式锁
Redisson自定义注解实现分布式锁 在Java项目中使用Redission自定义注解实现分布式锁: 添加Redission依赖项:在项目的pom.xml中添加Redission依赖项: <d ...
- DolphinScheduler3.1.7集成SAP HANA
源码地址:GitHub - apache/dolphinscheduler at 3.1.7-release 个人fork gitee地址:DolphinScheduler:Gitee) 后端代码更改 ...
- 避坑 | OI排雷新生态
可持久化线段树 query 的时候两结点的 sz 相减的时候一定是左儿子相减. 可持久化线段树建新点要将原来的不更改的节点连接上. 动态规划也可以倒着考虑. P3957的单调队列是先加入后删除,否则加 ...
- 创建本地yum仓库
创建本地yum仓库 1,将镜像挂载到/mnt 如果失败打开虚拟机把设备状态的两个选项打勾 2,切换到客户端的指定目录 3,创建文件夹bak存放网络yum创库配置文件 4,将网络源移动到bak减少干扰 ...
- [python]爬取手机号码前缀和地区信息
概述 使用python爬取手机号码前缀7位.区号和地区. 小网站不容易,对爬虫也挺友好,就不放链接了. 代码 import requests from lxml import etree from f ...
- 部署安装kafka集群
准备 zookeeper节点: 172.50.13.103 172.50.13.104 172.50.13.105 kafka版本: 2.13-2.7.0 安装步骤 部署安装zookeeper集群.参 ...
- Stable Diffusion基础:ControlNet之人体姿势控制
在AI绘画中精确控制图片是一件比较困难的事情,不过随着 ControlNet 的诞生,这一问题得到了很大的缓解. 今天我就给大家分享一个使用Stable Diffusion WebUI + OpenP ...