一. ROC曲线概念

二分类问题在机器学习中是一个很常见的问题，经常会用到。ROC (Receiver Operating Characteristic) 曲线和 AUC (Area Under the Curve) 值常被用来评价一个二值分类器 (binary classifier) 的优劣，Sklearn中对这一函数给出了使用方法：

sklearn.metrics.roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=True)

输入：其中y_true为真实标签，y_score为预测概率，或称为置信度。pos_label为正类样本标签，一般为1。

输出：fpr（假正率、1-特效性）、tpr（真正率、灵敏度）、thresholds（阈值）

假正率 = 预测为正类的负样本/所有负类样本，越小越好。

真正率 = 预测为正类的正样本/所有正类样本，越大越好。

通过sklearn的一个实例来分析计算方法：

>>> import numpy as np

>>> from sklearn import metrics

>>> y = np.array([1, 1, 2, 2])

>>> scores = np.array([0.1, 0.4, 0.35, 0.8])

>>> fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)

>>> fpr

array([ 0. ,  0.5,  0.5,  1. ])

>>> tpr

array([ 0.5,  0.5,  1. ,  1. ])

>>> thresholds

array([ 0.8 ,  0.4 ,  0.35,  0.1 ])

首先负类为1，正类标签为2。thresholds为将预测结果scores从大到小排列的结果。这里的thresholds指的是大于等于这个阈值为正类，负责为负类。所以通过改变不同的阈值，预测结果也将发生变化，所以根据4组thresholds得到4组fpr、tpr数据，然后以fpr为横坐标，以tpr为纵坐标，即得到ROC曲线，ROC曲线下的面积是AUC。

那么首先当阈值为0.8，此时预测结果即为【1,1,1,2】，真实结果为【1,1,2,2】，所以：

fpr = 0/2 = 0

tpr = 1/2 = 0.5

同理可以得到其余3组结果，那么根据这4组坐标可以在图上画出ROC曲线。那么如何计算AUC呢？

sklearn.metrics.roc_auc_score(y_true, y_score, average=’macro’, sample_weight=None)[source]
利用该函数，输入真实label和预测结果可以得到AUC值。

二. ROC曲线的意义

ROC观察模型正确地识别正例的比例与模型错误地把负例数据识别成正例的比例之间的权衡。TPR的增加以FPR的增加为代价。ROC曲线下的面积是模型准确率的度量。

既然已经这么多评价标准，为什么还要使用 ROC 和 AUC 呢？因为 ROC 曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC 曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象，即负样本比正样本多很多(或者相反)，而且测试数据中的正负样本的分布也可能随着时间变化。下图是 ROC 曲线和Precision-Recall曲线的对比：

在上图中，(a)和(c)为 ROC 曲线，(b)和(d)为 Precision-Recall 曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果，(c)和(d)是将测试集中负样本的数量增加到原来的 10 倍后，分类器的结果。可以明显的看出，ROC 曲线基本保持原貌，而 Precision-Recall 曲线则变化较大。

参考：

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

ROC和AUC理解的更多相关文章

机器学习性能指标之ROC和AUC理解与曲线绘制
一. ROC曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性. 横轴:负正类率(false po ...
ROC和AUC介绍以及如何计算AUC ---好！！！！
from:https://www.douban.com/note/284051363/?type=like 原帖发表在我的博客:http://alexkong.net/2013/06/introduc ...
【转】ROC和AUC介绍以及如何计算AUC
转自:https://www.douban.com/note/284051363/ ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器( ...
评估分类器性能的度量，像混淆矩阵、ROC、AUC等
评估分类器性能的度量,像混淆矩阵.ROC.AUC等内容概要¶ 模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵(confusion matrix)是如何表示一个分类器的性能混淆矩阵 ...
ROC与AUC学习
全文转自:https://www.cnblogs.com/gatherstars/p/6084696.html#commentform 这篇真的讲的清楚明白!要多复习!加深记忆! 1.概述 AUC(A ...
机器学习-Confusion Matrix混淆矩阵、ROC、AUC
本文整理了关于机器学习分类问题的评价指标——Confusion Matrix.ROC.AUC的概念以及理解. 混淆矩阵在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型 ...
五分钟秒懂机器学习混淆矩阵、ROC和AUC
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第18篇文章,我们来看看机器学习领域当中,非常重要的其他几个指标. 混淆矩阵在上一篇文章当中,我们在介绍召回率.准确率 ...
ROC and AUC
目录概 TPR, FPR ROC and AUC 代码 ROC-wiki 概 AUC常常在文章中作为评价一个分类器优劣的指标, 却总是忘记其原由, 索性记上一笔. TPR, FPR 首先理解TP, ...
Area Under roc Curve(AUC)
AUC是一种用来度量分类模型好坏的一个标准. ROC分析是从医疗分析领域引入了一种新的分类模型performance评判方法. ROC的全名叫做Receiver Operating Character ...

随机推荐

springmvc拦截器说明
一般我们在spring mvc的配置文件中这样配置拦截器  <mvc:interceptors>  & ...
BZOJ3531 树剖 + 动态开点线段树
https://www.lydsy.com/JudgeOnline/problem.php?id=3531 首先这题意要求树链上的最大值以及求和,其树链剖分的做法已经昭然若揭问题在于这次的信息有宗教 ...
mssql的 for xml path 与 mysql中的group_concat类似MSSQL For xml Path
/****** Script for SelectTopNRows command from SSMS ******/ SELECT D_ID,[D_Name] as Name FROM [LFBMP ...
IIS 为应用程序池提供服务的进程在与 Windows Process Activation Service 通信时出现严重错误的解决方法
系统环境:Windows Server 2008 R2 64位, IIS 7.0 错误信息: 为应用程序池提供服务的进程在与 Windows Process Activation Service 通信 ...
vue项目中引用jquery
1.使用npm安装 npm i jquery --S //jquery要小写 2.在package.json文件dependencies里面加入jq 3.在build文件夹的webpack.base. ...
window跟vue变量互相绑定
js实现变量监听 //定义一个对象,挂载到window下,后续在任何模块中,给这个对象的show属性赋值,都将触发set对应的代码,我这么写主要是为了解决vue子组件向父组件传值的问题 window. ...
ASP.NET Web API 2 使用 AuthorizationFilter（授权过滤器）实现 Basic 认证
Ø 前言在 Web 项目中授权认证方式有很多种,本文主要讲述基于 Basic 的认证方式.这是一种比较简单.常见的认证方式,主要是将请求的用户名和密码进行加密后返回给调用方,比较适合采用用户名.密 ...
MVC下 Area和Web同名的Controller问题
错误如下图: 解决方案: 1:Area下的XXXAreaRegistration 添加:new string[] { "xxx.Areas.xxx.Controllers" } 2 ...
Docker build Dockerfile 构建镜像 - 二
Dockerfile 制作镜像 https://hub.docker.com/ 搜索需要镜像: https://hub.docker.com/_/centos/ 官方示例: centos:6 1.这里 ...
python前后端加密方式
后端加密方法: python后端加密方式: # 双重工加密 #bytes((7788).encode('utf-8')):为后端加密二把手,多加的锁,该参数可为空,必须加bytes才能实现 md5pa ...

ROC和AUC理解

一. ROC曲线概念

二. ROC曲线的意义

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

ROC和AUC理解的更多相关文章

随机推荐

热门专题