终于搞懂了PR曲线
PR(Precision Recall)曲线
问题
最近项目中遇到一个比较有意思的问题, 如下所示为:

图中的PR曲线很奇怪, 左边从1突然变到0.
PR源码分析
为了搞清楚这个问题, 对源码进行了分析. 如下所示为上图对应的代码:
from sklearn.metrics import precision_recall_curve
import matplotlib.pyplot as plt
score = np.array([0.9, 0.8, 0.7, 0.6, 0.3, 0.2, 0.1])
label = np.array([0, 1, 1, 1, 0, 0, 0])
precision, recall, thres = precision_recall_curve(label, score)
plt.plot(recall, precision)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.show()
代码中得到precision和recall使用的是sklearn.metrics.precision_recall_curve, 下面为从其对应的源码中抽取出来的关键代码:
# 按预测概率(score)降序排列
desc_score_indices = np.argsort(y_score, kind="mergesort")[::-1]
y_score = y_score[desc_score_indices]
y_true = y_true[desc_score_indices]
# 概率(score)阈值, 取所有概率中不相同的
distinct_value_indices = np.where(np.diff(y_score))[0]
threshold_idxs = np.r_[distinct_value_indices, y_true.size-1]
thresholds = y_score[threshold_idxs]
# 累计求和, 得到不同阈值下的 tps, fps
tps = np.cumsum(y_true)[threshold_idxs]
fps = 1 + threshold_idxs - tps
# PR
precision = tps / (tps + fps)
precision[np.isnan(precision)] = 0 # 将nan替换为0
recall = tps / tps[-1]
last_ind = tps.searchsorted(tps[-1]) # 最后一个tps的index
sl = slice(last_ind, None, -1) # 倒序
precision = np.r_[precision[sl], 1] # 添加 precision=1, recall=0, 可以让数据从0开始
recall = np.r_[recall[sl], 0]
从代码中总结了计算PR的几个关键步骤:
- 对于预测概率(score)排序, 从高到低
- 以预测概率(score)作为阈值统计
tps和fps - 计算
precision和recall, 并倒序
这里补充说明几个特点:
- 以测试数据的预测概率(score)作为阈值, 因而阈值只能在测试数据预测概率(score)集合中, 不是连续变化的;
- 统计
tps和fps时, 统计的是大于等于阈值的数据的个数, 因而理想情况下,tps>=1和fps>=1, 这里说的是理想情况下, 不理想情况后面说明; - 测试数据预测概率(score)可能不会出现为1的情况, 此种情况下,
recall=0, 为了使得PR曲线从0开始, 添加了recall=0, precision=1; - 使用倒序, 让阈值从小到大, 因而
PR曲线是从左向右画的, 如下图所示:

问题原因分析
弄清楚了PR原理及计算方法, 就好分析上述问题产生的原因了.
1的来历
从上述原理及计算过程分析可以看到, 最后添加了recall=0, precision=1, 对应图中最左边的1, 这里就知道了1是怎么来的;
0的来历
precision的计算公式是precision=TP/(TP+FP), 理想情况下(score值越大, Positive的可能性就越大), 随着阈值的增加, TP越来越小, FP越来越小, precision是越来越大的, 是不可能出现为0情况的; 只有当TP=0时, precision才会出现为0的情况, 这种情况属于非理想情况(score值越大, Positive的可能性不一定越大).
来看看tps的计算方法, 统计的是大于等于阈值thres的数据中为Positive的个数, 只有Positive个数为0的情况下, tps才能为0, 那么thres对应的数据就不是Positive的, 而是Negative的.
我们来看看上面例子中的数据:
| score | 0.9 | 0.8 | 0.7 | 0.6 | 0.3 | 0.2 | 0.1 |
|---|---|---|---|---|---|---|---|
| label | 0 | 1 | 1 | 1 | 0 | 0 | 0 |
从上表中可以看到, 最大score=0.9的标签为0, 这里对应图中precision=0的情况, 这里就知道了0是怎么来的: 数据中有存在最高概率为Negative的数据.
这里可以做个扩展, 理想情况下, PR曲线从右向左, precision应该是越来越大的, 如果出现了减小或者变为0的情况, 可看看对应阈值下的数据是否存在标签有误, 或者是困难样本.
解决方法
最好的方法, 是通过PR曲线分析是否存在标签有错误的样本或者困难样本, 然后对测试样本进行调整.
这里有2个折中的解决方法, 可以去除这种突变:
一是限制显示范围:
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
一是把最后一个数据去除:
precision = precision[:-1]
recall = recall[:-1]
PR 与 ROC(Receiver Operating Characteristics)曲线
相互关系
有文章已经证明, PR 和 ROC 可以相互转换:
Theorem 3.1. For a given dataset of positive and negative examples, there exists a one-to-one correspon- dence between a curve in ROCspace and a curve in PR space, such that the curves contain exactly the same confusion matrices, if Recall != 0
详见: The Relationship Between Precision-Recall and ROC Curves, 网上也有很多资料有详细的说明, 下图为二者的变化趋势:

优劣
PR 和 ROC 的区别主要在于不平衡数据的表现: PR对数据不平衡是敏感的, 正负样本比例变化会引起PR发生很大的变化; 而ROC曲线是不敏感的, 正负样本比例变化时ROC曲线变化很小. 如下图所示为不同比例正负样本情况下PR和ROC的变化:

ROC曲线变化很小的原因分析: tpr=TP/P, fpr=FP/N, 可以看到其计算都是在类别内部进行计算的, 只要数据内部的比例不发生变化, ROC也不会发生变化.
参考:
终于搞懂了PR曲线的更多相关文章
- 终于搞懂了vue 的 render 函数(一) -_-|||
终于搞懂了vue 的 render 函数(一) -_-|||:https://blog.csdn.net/sansan_7957/article/details/83014838 render: h ...
- [转]我花了一个五一终于搞懂了OpenLDAP
轻型目录访问协议(英文:Lightweight Directory Access Protocol,缩写:LDAP)是一个开放的,中立的,工业标准的应用协议,通过IP协议提供访问控制和维护分布式信息的 ...
- 探索JAVA并发 - 终于搞懂了sleep/wait/notify/notifyAll
> sleep/wait/notify/notifyAll分别有什么作用?它们的区别是什么?wait时为什么要放在循环里而不能直接用if? ## 简介 首先对几个相关的方法做个简单解释,Obje ...
- hdu1711(终于搞懂了KMP算法了。。)
题意:给你两个长度分别为n(1 <= N <= 1000000)和m(1 <= M <= 10000)的序列a[]和b[],求b[]序列在a[]序列中出现的首位置.如果没有请输 ...
- Lua的闭包详解(终于搞懂了)
词法定界:当一个函数内嵌套另一个函数的时候,内函数可以访问外部函数的局部变量,这种特征叫做词法定界 table.sort(names,functin (n1,n2) return grades[n1] ...
- 终于搞懂了shell bash cmd...
问题一:DOS与windows中cmd区别 在windows系统中,“开始-运行-cmd”可以打开“cmd.exe”,进行命令行操作. 操作系统可以分成核心(kernel)和Shell(外壳)两部分, ...
- IntelliJ IDEA 部署 Web 项目,终于搞懂了!
这篇牛逼: IDEA 中最重要的各种设置项,就是这个 Project Structre 了,关乎你的项目运行,缺胳膊少腿都不行. 最近公司正好也是用之前自己比较熟悉的IDEA而不是Eclipse,为了 ...
- 终于搞懂Spring中Scope为Request和Session的Bean了
之前只是很模糊的知道其意思,在request scope中,每个request创建一个新的bean,在session scope中,同一session中的bean都是一样的 但是不知道怎么用代码去验证 ...
- (鸡汤文)这一次我终于搞懂了 JavaScript 定时器的 this 指向!
开篇语 忽然有一种感觉,每次学习一个知识点就像是谈一场恋爱:从初次邂逅,到彼此了解,一切都那么的符合恋爱的过程! 如果这个知识点再有点"调皮"的话,那简直是让人欲仙欲死而又不可自拔 ...
随机推荐
- 前端开发入门到进阶第四集【使用sublime安装jshint和cssLint】
参考:https://blog.csdn.net/qq_27965129/article/details/52786224 使用sublime安装JSHint插件: 1,解决不能使用package c ...
- 微信小程序云开发-列表下拉刷新
一.json文件开启页面刷新 开启页面刷新.在页面的json文件里配置两处: "enablePullDownRefresh": true, //true代表开启页面下拉刷新 &qu ...
- 用activiti实现类似钉钉审批流程-附整个系统源码
前言 目前市场上有很多开源平台没有整合工作流,即使有,也是价格不菲的商业版,来看这篇文章的估计也了解了行情,肯定不便宜.我这个快速开发平台在系统基础功能(用户管理,部门管理-)上整合了工作流,你可以直 ...
- 构建前端第6篇之---内嵌css样式 <el-button style="width:100%"> 登录 </el-button>
张艳涛写于2021-1-20日 What: 如何让button的长度和input长度一致呢 最先想到的是给这个button加一个class ="buttonclass",然后在vu ...
- linux系统下操作mysql数据库常见命令
一. 备份数据库(如: test): ①可直接进入后台即可.(MySQL的默认目录:/var/lib/mysql ) ②输入命令: [root@obj mysql]# mysqldump -u roo ...
- 用 JavaScript 刷 LeetCode 的正确姿势【进阶】
之前写了篇文章 用JavaScript刷LeetCode的正确姿势,简单总结一些用 JavaScript 刷力扣的基本调试技巧.最近又刷了点题,总结了些数据结构和算法,希望能对各为 JSer 刷题提供 ...
- vulnhub-DC:5靶机渗透记录
准备工作 在vulnhub官网下载DC:5靶机DC: 5 ~ VulnHub 导入到vmware,设置成NAT模式 打开kali准备进行渗透(ip:192.168.200.6) 信息收集 利用nmap ...
- Django JSONField/HStoreField SQL注入漏洞(CVE-2019-14234)
复现 访问http://192.168.49.2:8000/admin 输入用户名admin ,密码a123123123 然后构造URL进行查询,payload: http://192.168.49. ...
- 数据结构和算法学习笔记十五:多路查找树(B树)
一.概念 1.多路查找树(multi-way search tree):所谓多路,即是指每个节点中存储的数据可以是多个,每个节点的子节点数也可以多于两个.使用多路查找树的意义在于有效降低树的深度,从而 ...
- SQL语句(一)基础查询与过滤数据
目录 一.数据库测试表 二.基础查询 1. 获得需要的记录的特定字段 2. 查询常量值 3. 查询表达式 4. 查询函数 5. 起别名 6. 去重 7. CONCAT函数的简单使用 三.过滤数据 大纲 ...