随机分类器的ROC和Precision-recall曲线

随机分类器，也就是对于一个分类问题，随机猜测答案。理论上，随机分类器的性能是所有分类器的下界。对随机分类器的理解，可以帮助更好的理解分类器的性能指标。随机分类器的性能也可以作为评价分类器的一个基础。所以简单写了几行代码来研究一下随机分类器的性能。用的是scikit-learn包。

这里产生了一个正负样本比例为7：3的样本。由于是随机猜测，所以feature数据就不需要了。随机分类器对每个样本，输出一个[0, 1)之间的数作为正样本的概率。分类以0.5为阈值，评价了几个主要的指标，并画出ROC和Precision-recall曲线。

import numpy as np

import numpy.random as r

import sklearn.metrics as m

import pylab as pl

def main():

    size = 1000000

    y_true = np.array([ 1 if i >= 0.3 else 0 for i in r.random(size) ], dtype=np.float32)

    y_pred = r.random(size)

    y_cls = np.array([ 1 if i >= 0.5 else 0 for i in y_pred ], dtype=np.float32)

    print m.classification_report(y_true, y_cls)

    fpr, tpr, th = m.roc_curve(y_true, y_pred)

    ax = pl.subplot(2, 1, 1)

    ax.plot(fpr, tpr)

    ax.set_title('ROC curve')

    precision, recall, th = m.precision_recall_curve(y_true, y_pred)

    ax = pl.subplot(2, 1, 2)

    ax.plot(recall, precision)

    ax.set_ylim([0.0, 1.0])

    ax.set_title('Precision recall curve')

    pl.show()

if __name__ == '__main__':

    main()

几个主要指标如下。

             precision    recall  f1-score   support

        0.0       0.30      0.50      0.37    299977

        1.0       0.70      0.50      0.58    700023

avg / total       0.58      0.50      0.52   1000000

ROC和Precision-recall曲线见下。

ROC曲线是一条y=x的直线，AUC=0.5。ROC曲线的横轴和纵轴分别是fpr和tpr，可以理解为将负例分为正例的概率，以及将正例分为正例的概率。注意，这里的分母都是实际的正例/负例数目。也就是说，ROC曲线反映了分类器对正例的覆盖能力和对负例的覆盖能力之间的权衡。

而Precision-recall曲线是一条y=0.7的直线，0.7为样本中正例的比例。横轴recall也就是tpr，反映了分类器对正例的覆盖能力。而总轴precision的分母是识别为正例的数目，而不是实际正例数目。precision反映了分类器预测正例的准确程度。那么，Precision-recall曲线反映了分类器对正例的识别准确程度和对正例的覆盖能力之间的权衡。对于随机分类器而言，其precision固定的等于样本中正例的比例，不随recall的变化而变化。

随机分类器的ROC和Precision-recall曲线的更多相关文章

Precision/Recall、ROC/AUC、AP/MAP等概念区分
1. Precision和Recall Precision,准确率/查准率.Recall,召回率/查全率.这两个指标分别以两个角度衡量分类系统的准确率. 例如,有一个池塘,里面共有1000条鱼,含10 ...
机器学习：评价分类结果（Precision - Recall 的平衡、P - R 曲线）
一.Precision - Recall 的平衡 1)基础理论调整阈值的大小,可以调节精准率和召回率的比重: 阈值:threshold,分类边界值,score > threshold 时分类为 ...
Handling skewed data---trading off precision& recall
preision与recall之间的权衡依然是cancer prediction的例子,预测为cancer时,y=1;一般来说做为logistic regression我们是当hθ(x)>=0 ...
TP Rate ,FP Rate, Precision, Recall, F-Measure, ROC Area,
TP Rate ,FP Rate, Precision, Recall, F-Measure, ROC Area, https://www.zhihu.com/question/30643044 T/ ...
评价指标整理：Precision, Recall, F-score, TPR, FPR, TNR, FNR, AUC, Accuracy
针对二分类的结果,对模型进行评估,通常有以下几种方法: Precision.Recall.F-score(F1-measure)TPR.FPR.TNR.FNR.AUCAccuracy 真实结果 1 ...
Classification week6: precision & recall 笔记
华盛顿大学 machine learning :classification 笔记第6周 precision & recall 1.accuracy 局限性我们习惯用 accuracy ...
查准与召回（Precision & Recall）
Precision & Recall 先看下面这张图来理解了,后面再具体分析.下面用P代表Precision,R代表Recall 通俗的讲,Precision 就是检索出来的条目中(比如网页) ...
目标检测的评价标准mAP, Precision, Recall, Accuracy
目录 metrics 评价方法 TP , FP , TN , FN 概念计算流程 Accuracy , Precision ,Recall Average Precision PR曲线 AP计算 A ...
Precision,Recall,F1的计算
Precision又叫查准率,Recall又叫查全率.这两个指标共同衡量才能评价模型输出结果. TP: 预测为1(Positive),实际也为1(Truth-预测对了) TN: 预测为0(Negati ...

随机推荐

无法在web服务器上启动调试。打开的URL的IIS辅助进程当前没有运行。
调试时弹出:无法在web服务器上启动调试.打开的URL的IIS辅助进程当前没有运行.
iOS - Swift String 字符串
前言 public struct String public class NSString : NSObject, NSCopying, NSMutableCopying, NSSecureCodin ...
IO端口、IO内存、IO空间、内存空间的含义和联系
1,IO空间:X86一个特有的空间,与内存空间独立的空间,同样利用IO空间可以操作数据,只不过是利用对应的IO端口操作函数,例如inb(), inbw(), inl(); outb(), outw() ...
Monkey学习（3）如何在Android模拟器中安装apk
1.运行SDK Manager,选择模拟器,并运行模拟器,我这里用的是已经配置好的模拟器“RedMI” 2.已启动好的模拟器“RedMI” 3.记住需要安装apk文件的位置,我这里放在了F盘的根目录下 ...
python仿微软记事本
# -*- coding=utf-8 -*- from tkinter import filedialog import tkinter as tk import tkinter.scrolledte ...
thinkphp3.2+PHPExcel导出查询数据到excel表格的实例
首先下载PHPExcel插件,我们需要把PHPExcel.php和PHPExcel文件夹放到D:\XAMPP\htdocs\fsxb\ThinkPHP\Library\Vendor\PHPExcel目 ...
jackson annotations注解详解 (zhuan)
http://blog.csdn.net/sdyy321/article/details/40298081 ************************************** 官方WIKI: ...
dbca建库时找不到ASM磁盘
现象 dbca创建数据库时,找不到ASM磁盘组:而grid用户使用asmca却又能看到ASM磁盘组. 解决方法 1. 检查设备的权限,正确的权限为grid:asmadmin 2. 检查GRID_HOM ...
neon汇编，C嵌入汇编
1. Neon-intrics.pdf中的 void vst2q_u16(__transfersize(16) uint16_t * ptr, uint16x8x2_t val);// VST2.16 ...
初识Ildasm.exe——IL反编译的实用工具
原文地址:http://www.cnblogs.com/yangmingming/archive/2010/02/03/1662307.html Ildasm.exe 概要: 一.前言: 微软的IL反 ...

随机分类器的ROC和Precision-recall曲线

随机分类器的ROC和Precision-recall曲线的更多相关文章

随机推荐

热门专题