机器学习：评价分类结果（ROC 曲线）

一、基础理解

　1）定义

ROC（Receiver Operation Characteristic Curve）

定义：描述 TPR 和 FPR 之间的关系；

功能：应用于比较两个模型的优劣；

模型不限于是否通过极度偏斜的数据训练所得；
比较方式：ROC 曲线与坐标图形边界围成的面积，越大模型越优；

TPR（True Positive Rate）：真正率；被预测为正的正样本结果数 / 正样本实际数：TPR = TP /（TP + FN）；
TNR（True Negative Rate）：真负率；被预测为负的负样本结果数 / 负样本实际数：TNR = TN /（TN + FP）；
FPR（False Positive Rate）：假正率；被预测为正的负样本结果数 /负样本实际数：FPR = FP /（TN + FP）；
FNR（False Negative Rate）：假负率；被预测为负的正样本结果数 / 正样本实际数：FNR = FN /（TP + FN）；

召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量；

　2）与 P - R 曲线的区别

P - R 曲线：应用于判定由极度有偏数据所训练的模型的优劣；

ROC 曲线：应用于比较两个模型的优劣；

模型：可以是同样算法不同超参数所得的不同模型，也可以是不同算法所得的不同模型；

　3）TPR 和 FPR 的关系

关系：

随着阈值 threshold 的增大，FPR 和 TPR 都逐渐减小；
FPR 和 TPR 称正相关关系，FPR 越高，TPR 相应的也越高；

二、代码实现 FPR 和 TPR，并绘制 ROC 曲线

　1）封装

TPR

def TPR(y_true, y_predict):

    tp = TP(y_true, y_predict)

    fn = FN(y_true, y_predict)

    try:

        return tp / (tp + fn)

    except:

        return 0.

FPR

def FPR(y_true, y_predict):

    fp = FP(y_true, y_predict)

    tn = TN(y_true, y_predict)

    try:

        return fp / (fp + tn)

    except:

        return 0.

　2）例

求 TPR 和 FPR

import numpy as np

from sklearn import datasets

digits = datasets.load_digits()

X = digits.data

y = digits.target.copy()

y[digits.target==9] = 1

y[digits.target!=9] = 0

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

decision_scores = log_reg.decision_function(X_test)

from playML.metrics import FPR, TPR

fprs = []

tprs = []

thresholds = np.arange(np.min(decision_scores), np.max(decision_scores), 0.1)

for threshold in thresholds:

    # dtype='int'：将数据类型从 bool 型转为 int 型；

    y_predict = np.array(decision_scores >= threshold, dtype='int')

    fprs.append(FPR(y_test, y_predict))

    tprs.append(TPR(y_test, y_predict))

绘制 ROC 曲线

import matplotlib.pyplot as plt

plt.plot(fprs, tprs)

plt.show()

分析：

ROC 曲线与图形边界围成的面积，作为衡量模型优劣的标准，面积越大，模型越优；
可以是同样算法不同超参数所得的不同模型，也可以是不同算法所得的不同模型；

三、scikit-learn 中的ROC

模块及使用格式

from sklearn.metrics import roc_curve

fprs, tprs, thresholds = roc_curve(y_test, decision_scores)

计算 ROC 曲线与坐标轴围成的面积：称 ROC 的 auc；
面积越大，模型越优；

from sklearn.metrics import roc_auc_score

roc_auc_score(y_test, decision_scores)

机器学习：评价分类结果（ROC 曲线）的更多相关文章

机器学习性能度量指标:ROC曲线、查准率、查全率、F1
错误率在常见的具体机器学习算法模型中,一般都使用错误率来优化loss function来保证模型达到最优. \[错误率=\frac{分类错误的样本}{样本总数}\] \[error=\frac{1} ...
ROC曲线绘制
ROC 曲线绘制个人的浅显理解:1.ROC曲线必须是针对连续值输入的,通过选定不同的阈值而得到光滑而且连续的ROC曲线,故通常应用于Saliency算法评价中,因为可以选定0~255中任意的值进行阈 ...
scikit-learn机器学习(二)逻辑回归进行二分类(垃圾邮件分类),二分类性能指标，画ROC曲线，计算acc,recall,presicion,f1
数据来自UCI机器学习仓库中的垃圾信息数据集数据可从http://archive.ics.uci.edu/ml/datasets/sms+spam+collection下载转成csv载入数据 im ...
[机器学习]-分类问题常用评价指标、混淆矩阵及ROC曲线绘制方法
分类问题分类问题是人工智能领域中最常见的一类问题之一,掌握合适的评价指标,对模型进行恰当的评价,是至关重要的. 同样地,分割问题是像素级别的分类,除了mAcc.mIoU之外,也可以采用分类问题的一些 ...
机器学习:分类算法性能指标之ROC曲线
在介绍ROC曲线之前,先说说混淆矩阵及两个公式,因为这是ROC曲线计算的基础. 1.混淆矩阵的例子(是否点击广告): 说明: TP:预测的结果跟实际结果一致,都点击了广告. FP:预测结果点击了,但是 ...
机器学习：评价分类结果（Precision - Recall 的平衡、P - R 曲线）
一.Precision - Recall 的平衡 1)基础理论调整阈值的大小,可以调节精准率和召回率的比重: 阈值:threshold,分类边界值,score > threshold 时分类为 ...
ROC曲线-阈值评价标准
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性 ...
机器学习常见的几种评价指标：精确率（Precision）、召回率（Recall）、F值（F-measure）、ROC曲线、AUC、准确率（Accuracy）
原文链接:https://blog.csdn.net/weixin_42518879/article/details/83959319 主要内容:机器学习中常见的几种评价指标,它们各自的含义和计算(注 ...
机器学习之分类器性能指标之ROC曲线、AUC值
分类器性能指标之ROC曲线.AUC值一 roc曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性 ...

随机推荐

Qt+数据库
前言支持内置数据库: 一.sqlite 1.在头文件中声明数据库对象 QSqlDatabase db; 2.在构造函数中定义对象(最好这样定义,因为对于db来说只需要addDatabase一次,否则多 ...
StringTemplateLoader的用法
作为一个模板框架,freemarker的功能还是很强大的.在模板处理方面,freemarker有多种形式,最常见的方式是将模板文件放在一个统一的文件夹下面,如下形式:Configuration cfg ...
【codevs1028】花店橱窗布置（费用流）
这几天刚学了费用流,找到了这道题来练一练手. 题目: 题目描述 Description 假设以最美观的方式布置花店的橱窗,有F束花,V个花瓶,我们用美学值(一个整数)表示每束花放入每个花瓶所产生的美学 ...
java多线程(内附实例：窗口售票问题、人和叉子的问题)
java多线程的开发有两种方法: (1)实现Runnable接口: (2)继承Thread类: 区别: (1)由于java中一个类只能继承一个父类,但是可以实现多个接口,所以实现Runnable接口比 ...
HIVE 2.1.0 安装教程。（数据源mysql）
前期工作安装JDK 安装Hadoop 安装MySQL 安装Hive 下载Hive安装包可以从 Apache 其中一个镜像站点中下载最新稳定版的 Hive, apache-hive-2.1.0-bi ...
QMouseEvent 的坐标__Win
1. QMouseEvent.x() 和 QMouseEvent.y() 是窗口里面的坐标,相当于 Windows API 里面的 ClientX和ClientY . 2. QMouseEvent.G ...
ActiveMq 高级特性的使用
消费者的 destination 可以使用 wildcards 生产者的 destination 可以使用 composite destinations VirtualTopic 真是一大利器,当初读 ...
Announcing the Release of ASP.NET MVC 5.1, ASP.NET Web API 2.1 and ASP.NET Web Pages 3.1 for VS2012
The NuGet packages for ASP.NET MVC 5.1, ASP.NET Web API 2.1 and ASP.NET Web Pages 3.1 are now live o ...
servlet cannot be resolved to a type解决办法
工程里的路径权限高,eclipse并到classpath里寻找jar位置. 项目名-->右键 Property-->选择 Build Path-->选择 Configure Buil ...
WPF/WP/Silverlight/Metro App代码创建动画的思路
在2010年之前,我都是用Blend创建动画,添加触发器实现自动动画,后来写成代码创建的方式.如今Blend已经集成到Visual Studio安装镜像中了,最新的VS2015安装,Blend的操作界 ...

机器学习：评价分类结果（ROC 曲线）

一、基础理解

1）定义

2）与 P - R 曲线的区别

3）TPR 和 FPR 的关系

二、代码实现 FPR 和 TPR，并绘制 ROC 曲线

1）封装

2）例

绘制 ROC 曲线

分析：

三、scikit-learn 中的ROC

模块及使用格式

计算 ROC 曲线与坐标轴围成的面积：称 ROC 的 auc；

面积越大，模型越优；

机器学习：评价分类结果（ROC 曲线）的更多相关文章

随机推荐

热门专题

　1）定义

　2）与 P - R 曲线的区别

　3）TPR 和 FPR 的关系

　1）封装

　2）例