ROC曲线的计算

1、ROC曲线简介

在评价分类模型时，会用到ROC（receiver operating characteristic）曲线。ROC曲线可用来评价二元分类器（ binary classifier）的优劣，如下图：

假设我们的样本分为正（positive）、负（negative）两类，

x轴false positive rate（FPR）表示：将负样本错误预测为正样本的比例。计算公式：负样本预测为正样本的数量除以负样本的总数。
y轴true positive rate（TPR）表示：预测正确的正样本，在所有正样本中所占的比例，也就是正样本的召唤率。计算公式：预测正确的正样本数量除以正样本的总数。

考虑图中(0,0) (1,1) (0,1) (1,0) 四个点：

(0,0)表示：FPR=0，TPR=0。没有负样本预测错误（也就是负样本全部预测正确），正样本全部预测错误。这说明把全部样本都预测为了负样本。
(1,1)表示：FPR=1，TPR=1。负样本全部预测错误，正样本全部预测正确。这说明把全部样本都预测为了正样本。
(0,1)表示：FPR=0，TPR=1。负样本全部预测正确，正样本全部预测正确。这个模型很完美。
(1,0) 表示：FPR=1，TPR=0。负样本全部预测错误，正样本全部预测错误。这个模型太烂了。

也就是说，曲线越偏向于左上角，说明模型越好。但是上图中的三条曲线（对应三个模型）相互交叉，并不容易区分哪个模型更优，于是就引出了一个新的指标：

我们将曲线与x轴、直线x=1围成的面积，称作AUC（Area under the curve）。AUC位于0到1之间，取值越大说明模型越好。

2、ROC的计算

2.1、求解示例

首先看一个sklearn.metrics.roc_curve求解ROC的示例：

>>> import numpy as np

>>> from sklearn import metrics

>>> y = np.array([1, 1, 2, 2])

>>> scores = np.array([0.1, 0.4, 0.35, 0.8])

>>> fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)

>>> fpr

array([ 0. ,  0.5,  0.5,  1. ])

>>> tpr

array([ 0.5,  0.5,  1. ,  1. ])

>>> thresholds

array([ 0.8 ,  0.4 ,  0.35,  0.1 ])

该示例有4个样本，参数说明如下：

y：样本的真值
pos_label=2：表明取值为2的样本是正样本。
scores：预测出的某样本是正样本的概率。
fpr、tpr：每个(fpr[i], tpr[i])都表示ROC曲线上的一个点，一共求解出了4个点。
thresholds：求解(fpr[i], tpr[i])时使用的阈值。

2.2、求解步骤

可以看出，阈值thresholds就是对概率scores进行了排序（倒序）。不断改变阈值，得到ROC曲线上不同的点。步骤如下：

threshold取0.8：也就是说预测概率大于等于0.8时，我们将样本预测为正样本。那么4个样本的预测结果为[1, 1, 1, 2]。负样本全部预测正确，正样本全部找到了。从而得到ROC曲线上一个点(0, 0.5)
threshold取0.4：预测概率大于等于0.4时，认为是正样本。预测结果为[1, 2, 1, 2]。结果比上次糟糕，负样本一个预测错误，正样本一个没有找到，从而得到ROC上面的(0.5, 0.5)点。
threshold取0.35：预测概率大于等于0.35时，认为是正样本。得到预测结果[1, 2, 2, 2]。负样本一个预测错误，正样本全部找出来了，从而得到(0.5, 1)
threshold取0.1：预测大于等于0.1时，就认为是正样本。尽管召回率很高，但预测结果再次变差，把所有样本都预测为了正样本，从而得到(1, 1)点。

ROC曲线的计算的更多相关文章

scikit-learn机器学习(二)逻辑回归进行二分类(垃圾邮件分类),二分类性能指标，画ROC曲线，计算acc,recall,presicion,f1
数据来自UCI机器学习仓库中的垃圾信息数据集数据可从http://archive.ics.uci.edu/ml/datasets/sms+spam+collection下载转成csv载入数据 im ...
PR曲线 ROC曲线的计算及绘制
在linear model中,我们对各个特征线性组合,得到linear score,然后确定一个threshold,linear score < threshold 判为负类,linear sc ...
【数据挖掘】朴素贝叶斯算法计算ROC曲线的面积
题记: 近来关于数据挖掘学习过程中,学习到朴素贝叶斯运算ROC曲线.也是本节实验课题,roc曲线的计算原理以及如果统计TP.FP.TN.FN.TPR.FPR.ROC面积等等.往往运用 ...
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值
准确率.精确率(查准率).召回率(查全率).F1值.ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前 ...
评价指标的局限性、ROC曲线、余弦距离、A/B测试、模型评估的方法、超参数调优、过拟合与欠拟合
1.评价指标的局限性问题1 准确性的局限性准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷.比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率.所以,当 ...
机器学习常见的几种评价指标：精确率（Precision）、召回率（Recall）、F值（F-measure）、ROC曲线、AUC、准确率（Accuracy）
原文链接:https://blog.csdn.net/weixin_42518879/article/details/83959319 主要内容:机器学习中常见的几种评价指标,它们各自的含义和计算(注 ...
【分类模型评判指标二】ROC曲线与AUC面积
转自:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80499031 略有改动,仅供个人学习使用简介 ROC曲线与AUC面积均是用来 ...
[机器学习]-分类问题常用评价指标、混淆矩阵及ROC曲线绘制方法
分类问题分类问题是人工智能领域中最常见的一类问题之一,掌握合适的评价指标,对模型进行恰当的评价,是至关重要的. 同样地,分割问题是像素级别的分类,除了mAcc.mIoU之外,也可以采用分类问题的一些 ...
MATLAB画ROC曲线，及计算AUC值
根据决策值和真实标签画ROC曲线,同时计算AUC的值步骤: 根据决策值和真实标签画ROC曲线,同时计算AUC的值: 计算算法的决策函数值deci 根据决策函数值deci对真实标签y进行降序排序,得到 ...

随机推荐

GROUP BY,WHERE,HAVING间的区别和用法
having子句与where都是过滤语句. where 子句的作用是在对查询结果进行分组前,将不符合where条件的行去掉,即在分组之前过滤数据,条件中不能包含聚组函数,使用where条件显示特定的行 ...
安卓笔记-可以滚动的TextView
本来是想做一个显示文字信息的,当文字很多时View的高度不能超过一个固定的值,当文字很少时View的高度小于那个固定值时,按View的高度显示.因为ScrollView没有maxHeight,无法满足 ...
Paxos 算法
1 概述 Paxos算法是莱斯利·兰伯特(Leslie Lamport,就是 LaTeX 中的"La",此人现在在微软研究院)于1990年提出的一种基于消息传递的一致性算法.[1] ...
Digogo ugdx文件的制作
The openplatform source code is in old IT FTP server at "vte/KCD/20150814/openplatform_wallace. ...
"AWT-EventQueue-0" java.lang.UnsatisfiedLinkError: no freetype in java.library.path
Exception in thread "AWT-EventQueue-0" java.lang.UnsatisfiedLinkError: no freetype in java ...
Xcode9无线调试教程
Xcode9最让人眼前一亮的莫过于同一局域网下支持无线部署调试. 从Xcode9支持无线部署调试来看,千呼万唤的iPhone8支持无线充电几乎是必然.下面简单梳理下无线调试的步骤: 1. 第一次部署调 ...
ajax调用servlet
1.利用myecilpse建立一个web项目 2.导入需要的包: commons-beanutils.jar commons-collections-3.1.jar commons-lan ...
JavaScript中对象数组,如何给对象添加一个新属性
var a =[{name: 'Tom',age:20},{name: 'Tom2',age:22}] 现在给a数组中的第一个对象添加性别属性 a[0]['gender']='women' a[0][ ...
关于.h .lib .dll的总结
对VC工程中的调用过程有些迷糊,所以就理清一下: 1.#include "...h"为头文件预编译命令,如果这些代码被修改,则需要重新编译生成预编译头文件. 预编译头的概念(转载) ...
菜鸟级Git GitHub创建仓库
菜鸟标准:知道pwd ,rm 命令是什么. 一.Git 是什么. git 是目前世界上最先进的分布式版本控制系统二.SVN与Git 1.版本控制系统 SVN 是集中式版本控制系统,版本库是集中放在中 ...