sklearn.metrics.roc


官方网址：http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics

首先认识单词：metrics:  ['mɛtrɪks] ： 度量‘指标     curve : [kɝv]  :  曲线

这个方法主要用来计算ROC曲线面积的;

sklearn.metrics.roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=True)

Parameters :

y_true : 数组，shape = [样本数]

在范围{0,1}或{-1,1}中真正的二进制标签。如果标签不是二进制的，则应该显式地给出pos_label

y_score : 数组, shape = [样本数]

目标得分，可以是积极类的概率估计，信心值，或者是决定的非阈值度量(在某些分类器上由“decision_function”返回)。

pos_label：int or str, 标签被认为是积极的，其他的被认为是消极的。

sample_weight: 顾名思义，样本的权重，可选择的

drop_intermediate:  boolean, optional (default=True)

 是否放弃一些不出现在绘制的ROC曲线上的次优阈值。这有助于创建更轻的ROC曲线

Returns :

fpr : array, shape = [>2]                增加假阳性率，例如，i是预测的假阳性率，得分>=临界值[i]

tpr : array, shape = [>2]                增加真阳性率，例如，i是预测的真阳性率，得分>=临界值[i]。

thresholds : array, shape = [n_thresholds]

减少了用于计算fpr和tpr的决策函数的阈值。阈值[0]表示没有被预测的实例，并且被任意设置为max(y_score) + 1

要弄明白ROC的概念可以参考 ：https://www.deeplearn.me/1522.html

介绍ROC曲线的两个重要指标：

真阳性率 = true positive rate = TPR = TP/ (TP + FN)

可以这样理解：真阳性率就是在标准的阳性（标准的阳性就等于真阳性加假阴性=TP + FN）中，同时被检测为阳性的概率，有点绕，自行理解。

假阳性率 = false positive rate = FPR = FP / (FP+TN)

可以这样理解：假阳性就是在标准的阴性（标准的阴性就等于假阳性加真阴性=FP + TN）中，被检测为阳性的概率。很好理解的，本来是阴性，检测成了阳性的概率就是假阳性率呗。

ROC曲线就由这两个值绘制而成。接下来进入sklearn.metrics.roc_curve实战，找遍了网络也没找到像我一样解释这么清楚的。

import numpy as np
from sklearn import metrics
y = np.array([1, 1, 2, 2])
scores = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)
y 就是标准值，scores 是每个预测值对应的阳性概率，比如0.1就是指第一个数预测为阳性的概率为0.1，很显然，y 和 socres应该有相同多的元素，都等于样本数。pos_label=2 是指在y中标签为2的是标准阳性标签，其余值是阴性。
所以在标准值y中，阳性有2个，后两个；阴性有2个，前两个。

接下来选取一个阈值计算TPR/FPR,阈值的选取规则是在scores值中从大到小的以此选取，于是第一个选取的阈值是0.8

scores中大于阈值的就是预测为阳性，小于的预测为阴性。所以预测的值设为y_=(0,0,0,1),0代表预测为阴性，1代表预测为阳性。可以看出，真阴性都被预测为阴性，真阳性有一个预测为假阴性了。

FPR = FP / (FP+TN) = 0 / 0 + 2 = 0

TPR = TP/ (TP + FN) = 1 / 1 + 1 = 0.5

thresholds = 0.8

我们验证一下结果

print(fpr[0],tpr[0],thresholds[0])

同代码结果一致，其余的就不演示了，剩下的阈值一次等于 0.4  0.35  0.1  自行验证。

最后结果等于

print(fpr,'\n',tpr,'\n',thresholds)

全部代码

import numpy as np
from sklearn import metrics
y = np.array([1, 1, 2, 2])
scores = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)
print(fpr,'\n',tpr,'\n',thresholds)


---------------------
作者：z智慧
来源：CSDN
原文：https://blog.csdn.net/u014264373/article/details/80487766
版权声明：本文为博主原创文章，转载请附上博文链接！

sklearn.metrics.roc_curve的更多相关文章

sklearn.metrics.roc_curve使用说明
roc曲线是机器学习中十分重要的一种学习器评估准则,在sklearn中有完整的实现,api函数为sklearn.metrics.roc_curve(params)函数. 官方接口说明:http://s ...
sklearn.metrics中的评估方法
https://www.cnblogs.com/mindy-snail/p/12445973.html 1.confusion_matrix 利用混淆矩阵进行评估混淆矩阵说白了就是一张表格- 所有正 ...
sklearn.metrics中的评估方法介绍（accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix）
1 accuracy_score:分类准确率分数是指所有分类正确的百分比.分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型.常常误导初学 ...
Python Sklearn.metrics 简介及应用示例
Python Sklearn.metrics 简介及应用示例利用Python进行各种机器学习算法的实现时,经常会用到sklearn(scikit-learn)这个模块/库. 无论利用机器学习算法进行 ...
[sklearn]性能度量之AUC值（from sklearn.metrics import roc_auc_curve）
原创博文,转载请注明出处! 1.AUC AUC(Area Under ROC Curve),即ROC曲线下面积. 2.AUC意义若学习器A的ROC曲线被学习器B的ROC曲线包围,则学习器B的性能优于 ...
sklearn.metrics.mean_absolute_error
注意多维数组 MAE 的计算方法 * >>> from sklearn.metrics import mean_absolute_error >>> y_true ...
量化预测质量之分类报告 sklearn.metrics.classification_report
classification_report的调用为:classification_report(y_true, y_pred, labels=None, target_names=None, samp ...
sklearn 下距离的度量 —— sklearn.metrics
1. pairwise from sklearm.metrics.pairwise import pairwise_distance 计算一个样本集内部样本之间的距离: D = np.array([n ...
sklearn.metrics import precision_recall_fscore_support
二分类/多分类/多标签对于二分类来说,必须定义一些matrics(f1_score,roc_auc_score).在这些case中,缺省只评估正例的label,缺省的正例label被标为1(可以通过 ...

随机推荐

kafka-net
基于kafka-net实现的可以长链接的消息生产者今天有点时间,我就来说两句.最近接触的Kafka相关的东西要多一些,其实以前也接触过,但是在项目使用中的经验不是很多.最近公司的项目里面使用了Kaf ...
BZOJ_2286_[Sdoi2011]消耗战_虚树+树形DP+树剖lca
BZOJ_2286_[Sdoi2011]消耗战_虚树+树形DP Description 在一场战争中,战场由n个岛屿和n-1个桥梁组成,保证每两个岛屿间有且仅有一条路径可达.现在,我军已经侦查到敌军的 ...
request的Content-Type小结
一.Content-Type定义 Content-Type MediaType,即是Internet Media Type,互联网媒体类型:也叫做MIME类型,在Http协议消息头中,使用Conten ...
linux内存管理之uboot第一步
在进入讲解linux内存管理的kernel阶段以前,了解一下uboot阶段是如何准备好内存物理设备的,这是非常有意义的.通常进入到linux内核阶段之后,对内存芯片的物理特性寄存器访问是比较少的,强调 ...
进程、轻量级进程（LWP）、线程
进程.轻量级进程(LWP).线程进程:程序执行体,有生命期,用来分配资源的实体线程:分配CPU的实体. 用户空间实现,一个线程阻塞,所有都阻塞. 内核实现,不会所用相关线程都阻塞.用LWP实现,用 ...
基于COCHONUT做和弦识别
论文为:COCHONUT: Recognizing Complex Chords From MIDI Guitar Sequences 出处:international symposium/confe ...
UI：UITextView
#import "MainViewController.h" @interface MainViewController () <UITextViewDelegate> ...
（转）Repeater中增加序号自增列
<%# Convert.ToString(Container.ItemIndex+)%> 当Repeater空为时,提示没有数据... <FooterTemplate> < ...
【转载】SQL面试题
[本文转自]http://blog.csdn.net/u012467492/article/details/46790205 1.用一条SQL 语句查询出每门课都大于80 分的学生姓名 name ...
C# a标签请求下载文件
服务器文件后台处理方式: a标签: <a href="/FileUpload/DownloadFile?file=/UploadFiles/File/bfcd676b-13a8-419 ...

sklearn.metrics.roc_curve

sklearn.metrics.roc_curve的更多相关文章

随机推荐

热门专题