手动计算ROC-AUC

ROC（全称为Receiver operating characteristic，意为受试者特征曲线）是一个二维平面空间中一条曲线，而AUC则是曲线下方面积（Area Under Curve）的计算结果，是一个具体的值

x轴是FPR，y轴是TPR，曲线上的每个点就对应着一组（FPR，TPR）坐标，所以我们的任务就是计算出所有的（FPR，TPR）坐标然后用线把他们连接起来就形成了ROC曲线，而AUC可以通过曲线下面积计算而来。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from sklearn.metrics import RocCurveDisplay

首先手动创建一组预测值和对应的真实值，0一般为负类，1为正类，而且正类多设置为研究中较为关心的标签，比如把1设置为肿瘤，或者疾病。

np.random.seed(1314)

geneA = np.random.uniform(size=10)

label = [0]*5 + [1]*5

df = pd.DataFrame({'geneA':geneA,'label':label})

df = df.sort_values('geneA',ascending=False)

df.reset_index(drop=True,inplace=True) # 恢复行索引从0开始递增

df

  geneA  label

0  0.928483  1

1  0.864400  0

2  0.828642  1

3  0.749421  0

4  0.464414  1

5  0.407268  1

6  0.210935  0

7  0.140796  0

8  0.082719  0

9  0.012973  1

从1开始降低阈值，当geneA小于阈值时被预测为0类，当geneA大于阈值时被预测为1类；

当阈值为1时，所有样本被预测为0类，则可以算得FPR=FP/AN；TPR= TP/AP

FP：（假阳性）真实为0类，但是却被预测为1类的样本个数；
AN：（真阴性）真实为0类的样本个数；
TP：（真阳性）真实为1类，被预测为1类的样本个数；
AP：（真阳性）真实为1类的样本个数；

此时FPR=0/5=0; FPR=0/5=0。因此，可以得到第一个坐标(0,0)

降低阈值，当阈值=0.9时, 第0条数据被预测为1类，而且其真实标签也为1；此时FPR=0/5=0; TPR=1/5=0。因此，可以得到第一个坐标(0,0.2)

降低阈值，当阈值=0.8时,第0、2条数据真实标签为0，但是却被预测为1；第2、3、5条数据真实标签为1，也被预测为1，因此，此时FPR=1/5=0.2; TPR=2/5=0.4。因此，可以得到下一个坐标(0.2,0.4)

# 定义ROC曲线绘制函数

def plot_ROC(y_true, y_pred, threds, title='ROC_curve'):

    """

    ROC绘制曲线函数:

    :param y_true: 样本真实类别

    :param y_pred: 模型输出的类别概率判别结果

    :param threds: 阈值1Darray

    :param title: 折线图的图例

    :return: no return

    """

    TPR_l = []

    FPR_l = []

    for i in threds:

        y_cla = np.array(y_pred>i,dtype=int)  # True 转变成1， False = 0

        Positive = y_cla[y_true > 0.5]

        TPR_l.append(Positive.mean())

        Negtive = y_cla[y_true < 0.5]

        FPR_l.append(Negtive.mean())

    plt.plot(FPR_l, TPR_l, label=title)

    plt.plot([0,1], [0,1], '--')

    plt.xlabel('FPR')

    plt.ylabel('TPR')

    # p = plt.gcf()

    # p.set_size_inches(4, 4)

为了模仿sklearn中的ROC图，这里的阈值列表设置为[0，1]之间随机取1000个数，可以看到图形和sklearn的一模一样。

plot_ROC(y_true=np.array(label),y_pred=geneA,

  threds=np.linspace(0,1,1000,endpoint=True))

# sklearn 绘图

RocCurveDisplay.from_predictions(label,geneA)

plt.plot([0,1], [0,1], '--');

计算AUC，AUC的定义是曲线下面积，按道理可以计算面积就行，但是如果样本较多，则会变成一条近似的曲线，计算了太大，因此有更好的方法计算AUC，比如

P：正样本个数，1类；
N：负样本个数，0类；
ri: 正样本的排序号，下边dataframe中rank那一列

df = df.sort_values('geneA',ascending=True)

df.reset_index(drop=True,inplace=True) # 恢复行索引从0开始递增

df['Rank'] = df.index + 1 # 新增加一列是geneA排序大小

df

geneA  label  Rank

0  0.012973  1  1

1  0.082719  0  2

2  0.140796  0  3

3  0.210935  0  4

4  0.407268  1  5

5  0.464414  1  6

6  0.749421  0  7

7  0.828642  1  8

8  0.864400  0  9

9  0.928483  1  10

按照公式分别计算，得到AUC为0.6，下边我们把auc计算写成一个函数

P = 5; N =5; PP = P*(P+1)/2

((1+5+6+8+10) - PP) / (P * N)

def auc(y_true, y_pred):

    df = pd.DataFrame({'y_true':y_true,'y_pred':y_pred})

    df = df.sort_values('y_pred',ascending=True)

    df.reset_index(drop=True,inplace=True) # 恢复行索引从0开始递增

    df['Rank'] = df.index + 1 # 新增加一列是geneA排序大小

    P = np.nansum(df.y_true > 0.5)

    N = df.shape[0] - P

    PP = P*(P+1)/2

    r = map(lambda x: np.mean(df.Rank[df.y_pred == df.y_pred[x]]), df.index[df.y_true == 1])

    AUC = (np.nansum(list(r))-PP)/(P*N)

    return AUC

map这样写是因为，如果有一个1类的y_pred数值（本例中geneA）和另一个0类的geneA数值相同的话，需要计算他们两个的Rank数值的均值

map(lambda x: np.mean(df.Rank[df.y_pred == df.y_pred[x]]), df.index[df.y_true == 1])

手动计算ROC-AUC的更多相关文章

一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC
参考资料:https://zhuanlan.zhihu.com/p/46714763 ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到).其实,理解它并不是非常难 ...
CRC校验码原理、实例、手动计算
目录一.CRC16实现代码二.CRC32编码字符表三.CRC校验码的手动计算示例四.CRC校验原理五.CRC的生成多项式参考一.CRC16实现代码思路:取一个字符(8bit),逐位检查该字符,如果 ...
ROC AUC
1.什么是性能度量? 我们都知道机器学习要建模,但是对于模型性能的好坏(即模型的泛化能力),我们并不知道是怎样的,很可能这个模型就是一个差的模型,泛化能力弱,对测试集不能很好的预测或分类.那么如何知道 ...
Python C3 算法手动计算顺序
Python C3 算法手动计算顺序手动计算类继承C3算法原则: 以所求类的直接子类的数目分成相应部分按照从左往右的顺序依次写出继承关系继承关系第一个第一位,在所有后面关系都是第一个出现的 ...
模型评测之IoU,mAP,ROC,AUC
IOU 在目标检测算法中,交并比Intersection-over-Union,IoU是一个流行的评测方式,是指产生的候选框candidate bound与原标记框ground truth bound ...
ROC & AUC笔记
易懂:http://alexkong.net/2013/06/introduction-to-auc-and-roc/ 分析全面但难懂:http://mlwiki.org/index.php/ROC_ ...
分类器的评价指标-ROC&AUC
ROC 曲线:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc 曲线上每个点反映着对同一信号刺激的感 ...
keras 上添加 roc auc指标
https://stackoverflow.com/questions/41032551/how-to-compute-receiving-operating-characteristic-roc-a ...
Precision/Recall、ROC/AUC、AP/MAP等概念区分
1. Precision和Recall Precision,准确率/查准率.Recall,召回率/查全率.这两个指标分别以两个角度衡量分类系统的准确率. 例如,有一个池塘,里面共有1000条鱼,含10 ...
准确率,召回率,F值,ROC,AUC
度量表 1.准确率 (presion) p=TPTP+FP 理解为你预测对的正例数占你预测正例总量的比率,假设实际有90个正例,10个负例,你预测80(75+,5-)个正例,20(15+,5-)个负例 ...

随机推荐

从ObjectPool到CAS指令
相信最近看过我的文章的朋友对于Microsoft.Extensions.ObjectPool不陌生:复用.池化是在很多高性能场景的优化技巧,它能减少内存占用率.降低GC频率.提升系统TPS和降低请求时 ...
Day2.1
HelloWorld 随便新建一个文件夹,存放代码新建一个java文件文件后缀名为.java Hello.java 注意:系统可能没有显示文件名后缀,我们需要手动打开编写代码 public cl ...
webpack 配置echarts 按需加载
引入babel-plugin-equire插件,方便使用.yarn add babel-plugin-equire -D 在.babelrc文件中的配置 { "presets": ...
【Docker】容器使用规范--安全挂载建议
容器挂载过程和安全挂载建议绑定挂载本文所提到的挂载主要指绑定挂载(bind mount),即通过-v /xx/xx:/xx/xx 和 --mount type=bind,xxx,xxx两种方式设置 ...
关于C++ find
#include <bits/stdc++.h> using namespace std; int a[1005]; int main() { for(int i = 0;i < 1 ...
Zabbix技术分享——docker组件编译使用教程
docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源,它可以让开发者打包他们的应用以及依赖包到一个轻量级.可移植的容器中,然后发布到任何流行的Linux机器上,还可以实现 ...
Python3.7.3安装TensorFlow和OpenCV3
根据python的版本进行下载相应的文件一.安装TensorFlow 进入网址https://pypi.org/project/tensorflow/#files下载TensorFlow文件进入下 ...
干电池升压5V，功耗比较低
干电池升压5V,功耗10uA PW5100干电池升压5V芯片输出电容: 所以为了减小输出的纹波,需要比较大的输出电容值.但是输出电容过大,就会使得系统的反应时间过慢,成本也会增加.所以建议使用一个 ...
python中的数学函数
JavaScript：对象：如何判断对象是否有某个属性？操作符in
使用in运算符来判断,有返回true,没有返回false:

手动计算ROC-AUC

手动计算ROC-AUC的更多相关文章

随机推荐

热门专题