ROC(全称为Receiver operating characteristic,意为受试者特征曲线)是一个二维平面空间中一条曲线,而AUC则是曲线下方面积(Area Under Curve)的计算结果,是一个具体的值

x轴是FPR,y轴是TPR,曲线上的每个点就对应着一组(FPR,TPR)坐标,所以我们的任务就是计算出所有的(FPR,TPR)坐标然后用线把他们连接起来就形成了ROC曲线,而AUC可以通过曲线下面积计算而来。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import RocCurveDisplay

首先手动创建一组预测值和对应的真实值,0一般为负类,1为正类,而且正类多设置为研究中较为关心的标签,比如把1设置为肿瘤,或者疾病。

np.random.seed(1314)
geneA = np.random.uniform(size=10)
label = [0]*5 + [1]*5
df = pd.DataFrame({'geneA':geneA,'label':label})
df = df.sort_values('geneA',ascending=False)
df.reset_index(drop=True,inplace=True) # 恢复行索引从0开始递增
df
  geneA  label
0 0.928483 1
1 0.864400 0
2 0.828642 1
3 0.749421 0
4 0.464414 1
5 0.407268 1
6 0.210935 0
7 0.140796 0
8 0.082719 0
9 0.012973 1

从1开始降低阈值,当geneA小于阈值时被预测为0类,当geneA大于阈值时被预测为1类;

当阈值为1时,所有样本被预测为0类,则可以算得FPR=FP/AN;TPR= TP/AP

  • FP:(假阳性)真实为0类,但是却被预测为1类的样本个数;
  • AN:(真阴性)真实为0类的样本个数;
  • TP:(真阳性)真实为1类,被预测为1类的样本个数;
  • AP:(真阳性)真实为1类的样本个数;

此时FPR=0/5=0; FPR=0/5=0。因此,可以得到第一个坐标(0,0)

降低阈值,当阈值=0.9时, 第0条数据被预测为1类,而且其真实标签也为1;此时FPR=0/5=0; TPR=1/5=0。因此,可以得到第一个坐标(0,0.2)

降低阈值,当阈值=0.8时,第0、2条数据真实标签为0,但是却被预测为1;第2、3、5条数据真实标签为1,也被预测为1,因此,此时FPR=1/5=0.2; TPR=2/5=0.4。因此,可以得到下一个坐标(0.2,0.4)

# 定义ROC曲线绘制函数
def plot_ROC(y_true, y_pred, threds, title='ROC_curve'):
   """
   ROC绘制曲线函数:
   :param y_true: 样本真实类别
   :param y_pred: 模型输出的类别概率判别结果
   :param threds: 阈值1Darray
   :param title: 折线图的图例
   :return: no return
   """
   TPR_l = []
   FPR_l = []
   for i in threds:
       y_cla = np.array(y_pred>i,dtype=int)  # True 转变成1, False = 0
       Positive = y_cla[y_true > 0.5]
       TPR_l.append(Positive.mean())
       Negtive = y_cla[y_true < 0.5]
       FPR_l.append(Negtive.mean())
   plt.plot(FPR_l, TPR_l, label=title)
   plt.plot([0,1], [0,1], '--')
   plt.xlabel('FPR')
   plt.ylabel('TPR')
   # p = plt.gcf()
   # p.set_size_inches(4, 4)

为了模仿sklearn中的ROC图,这里的阈值列表设置为[0,1]之间随机取1000个数,可以看到图形和sklearn的一模一样。

plot_ROC(y_true=np.array(label),y_pred=geneA,
 threds=np.linspace(0,1,1000,endpoint=True))

# sklearn 绘图
RocCurveDisplay.from_predictions(label,geneA)
plt.plot([0,1], [0,1], '--');

计算AUC,AUC的定义是曲线下面积,按道理可以计算面积就行,但是如果样本较多,则会变成一条近似的曲线,计算了太大,因此有更好的方法计算AUC,比如

  • P:正样本个数,1类;
  • N:负样本个数,0类;
  • ri: 正样本的排序号,下边dataframe中rank那一列
df = df.sort_values('geneA',ascending=True)
df.reset_index(drop=True,inplace=True) # 恢复行索引从0开始递增
df['Rank'] = df.index + 1 # 新增加一列是geneA排序大小
df
geneA  label  Rank
0 0.012973 1 1
1 0.082719 0 2
2 0.140796 0 3
3 0.210935 0 4
4 0.407268 1 5
5 0.464414 1 6
6 0.749421 0 7
7 0.828642 1 8
8 0.864400 0 9
9 0.928483 1 10

按照公式分别计算,得到AUC为0.6,下边我们把auc计算写成一个函数

P = 5; N =5; PP = P*(P+1)/2
((1+5+6+8+10) - PP) / (P * N)
def auc(y_true, y_pred):
df = pd.DataFrame({'y_true':y_true,'y_pred':y_pred})
df = df.sort_values('y_pred',ascending=True)
df.reset_index(drop=True,inplace=True) # 恢复行索引从0开始递增
df['Rank'] = df.index + 1 # 新增加一列是geneA排序大小
P = np.nansum(df.y_true > 0.5)
N = df.shape[0] - P
PP = P*(P+1)/2
r = map(lambda x: np.mean(df.Rank[df.y_pred == df.y_pred[x]]), df.index[df.y_true == 1])
AUC = (np.nansum(list(r))-PP)/(P*N)
return AUC

map这样写是因为,如果有一个1类的y_pred数值(本例中geneA)和另一个0类的geneA数值相同的话,需要计算他们两个的Rank数值的均值

map(lambda x: np.mean(df.Rank[df.y_pred == df.y_pred[x]]), df.index[df.y_true == 1])

手动计算ROC-AUC的更多相关文章

  1. 一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC

    参考资料:https://zhuanlan.zhihu.com/p/46714763 ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到).其实,理解它并不是非常难 ...

  2. CRC校验码原理、实例、手动计算

    目录一.CRC16实现代码二.CRC32编码字符表三.CRC校验码的手动计算示例四.CRC校验原理五.CRC的生成多项式参考 一.CRC16实现代码 思路:取一个字符(8bit),逐位检查该字符,如果 ...

  3. ROC AUC

    1.什么是性能度量? 我们都知道机器学习要建模,但是对于模型性能的好坏(即模型的泛化能力),我们并不知道是怎样的,很可能这个模型就是一个差的模型,泛化能力弱,对测试集不能很好的预测或分类.那么如何知道 ...

  4. Python C3 算法 手动计算顺序

    Python C3 算法 手动计算顺序   手动计算类继承C3算法原则: 以所求类的直接子类的数目分成相应部分 按照从左往右的顺序依次写出继承关系 继承关系第一个第一位,在所有后面关系都是第一个出现的 ...

  5. 模型评测之IoU,mAP,ROC,AUC

    IOU 在目标检测算法中,交并比Intersection-over-Union,IoU是一个流行的评测方式,是指产生的候选框candidate bound与原标记框ground truth bound ...

  6. ROC & AUC笔记

    易懂:http://alexkong.net/2013/06/introduction-to-auc-and-roc/ 分析全面但难懂:http://mlwiki.org/index.php/ROC_ ...

  7. 分类器的评价指标-ROC&AUC

    ROC 曲线:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc 曲线上每个点反映着对同一信号刺激的感 ...

  8. keras 上添加 roc auc指标

    https://stackoverflow.com/questions/41032551/how-to-compute-receiving-operating-characteristic-roc-a ...

  9. Precision/Recall、ROC/AUC、AP/MAP等概念区分

    1. Precision和Recall Precision,准确率/查准率.Recall,召回率/查全率.这两个指标分别以两个角度衡量分类系统的准确率. 例如,有一个池塘,里面共有1000条鱼,含10 ...

  10. 准确率,召回率,F值,ROC,AUC

    度量表 1.准确率 (presion) p=TPTP+FP 理解为你预测对的正例数占你预测正例总量的比率,假设实际有90个正例,10个负例,你预测80(75+,5-)个正例,20(15+,5-)个负例 ...

随机推荐

  1. [ PHP 内核与扩展开发系列] 内存管理 —— 引用计数

    对于 PHP 这种需要同时处理多个请求的程序来说,申请和释放内存的时候应该慎之又慎,一不小心便会酿成大错.另一方面,除了要安全申请和释放内存外,还应该做到内存的最小化使用,因为它可能要处理每秒钟数以千 ...

  2. hashcat 命令

    hashcat --force --stdout -a 6 tmp.txt ?d?d?d?d?d?d?d > result.txt tips:将tmp.txt字典中的内容与7位随机掩码字符组合, ...

  3. 学习ASP.NET Core Blazor编程系列十三——路由(完)

    学习ASP.NET Core Blazor编程系列一--综述 学习ASP.NET Core Blazor编程系列二--第一个Blazor应用程序(上) 学习ASP.NET Core Blazor编程系 ...

  4. 关于python统计一个列表中每个元素出现的频率

    第一种写法: a = ['h','h','e','a','a'] result = {} for i in a: if i not in result: result[i] = 1 else: res ...

  5. ArcObjects SDK开发 001 ArcObjects SDK 简介

    1.什么是ArcObjects SDK 在网上搜索什么是ArcObjects,会搜到如下的定义. 这个定义比较准确,也比较容易理解. 2.什么是ArcEngine 在网上搜索ArcEngine,一般会 ...

  6. Java开发学习(四十五)----MyBatisPlus查询语句之映射匹配兼容性

    1.映射匹配兼容性 我们已经能从表中查询出数据,并将数据封装到模型类中,这整个过程涉及到一张表和一个模型类: 之所以数据能够成功的从表中获取并封装到模型对象中,原因是表的字段列名和模型类的属性名一样. ...

  7. Datawhale组队学习_Task01:概览西瓜书+南瓜书第1、2章

    第一章 绪论 1.1引言 打开书,五分钟后,合上书:嗯!学会了!如何判断一个好瓜 1.2基本术语 分类:对离散值进行预测的学习任务,是有监督学习的代表 回归:对连续值进行预测的学习任务,是有监督学习的 ...

  8. 小技巧 EntityFrameworkCore 实现 CodeFirst 通过模型生成数据库表时自动携带模型及字段注释信息

    今天分享自己在项目中用到的一个小技巧,就是使用 EntityFrameworkCore 时我们在通过代码去 Update-Database 生成数据库时如何自动将代码模型上的注释和字段上的注释携带到数 ...

  9. 中国风?古典系?AI中文绘图创作尝鲜!⛵

    作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 本文地址:https://www.showmeai.tech/artic ...

  10. pytest.ini配置文件格式

    [pytest] # 命令行参数,用空格分隔 addopts = -v -n=2 # 配置测试用例所在文件夹 testpaths = ./pytest_1 # 配置需要执行的模块文件名称 python ...