评估指标【交叉验证&ROC曲线】

 # -*- coding: utf-8 -*-

 """

 Created on Mon Sep 10 11:21:27 2018

 @author: zhen

 """

 from sklearn.datasets import fetch_mldata

 import numpy as np

 from sklearn.linear_model import SGDClassifier

 from sklearn.model_selection import cross_val_score

 from sklearn.model_selection import cross_val_predict

 from sklearn.metrics import precision_recall_curve

 import matplotlib

 import matplotlib.pyplot as plt

 from sklearn.metrics import roc_curve

 from sklearn.metrics import roc_auc_score

 from sklearn.ensemble import RandomForestClassifier

 mnist = fetch_mldata('MNIST original', data_home='D:/AnalyseData学习资源库/人工智能开发/分类评估/资料/test_data_home')

 x, y = mnist['data'], mnist['target']

 some_digit = x[36000]  #获取第36000行数据

 some_digit_image = some_digit.reshape(28, 28)

 plt.imshow(some_digit_image, cmap=matplotlib.cm.binary,

            interpolation='nearest', vmin=0, vmax=1)

 plt.axis('off')

 plt.show()

 x_train, x_test, y_train, y_test = x[:60000], x[60000:], y[:60000], y[60000:]

 shuffle_index = np.random.permutation(60000)

 x_train, y_train = x_train[shuffle_index], y_train[shuffle_index]

 y_train_5 = (y_train == 5)

 y_test_5 = (y_test == 5)

 sgd_clf = SGDClassifier(loss='log', random_state=42, max_iter=1000, tol=1e-4)

 sgd_clf.fit(x_train, y_train_5)  

 result = sgd_clf.predict([some_digit])

 print(cross_val_score(sgd_clf, x_train, y_train_5, cv=3, scoring='accuracy'))

 print(cross_val_score(sgd_clf, x_train, y_train_5, cv=3, scoring='precision'))

 print(cross_val_score(sgd_clf, x_train, y_train_5, cv=3, scoring='recall'))

 sgd_clf.fit(x_train, y_train_5)

 y_scores = sgd_clf.decision_function([some_digit])

 threshold = 0

 y_some_digit_pred = (y_scores > threshold)

 threshold = 200000

 y_some_digit_pred = (y_scores > threshold)

 # cv 数据集划分的个数

 y_scores = cross_val_predict(sgd_clf, x_train, y_train_5, cv=3, method='decision_function')

 precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

 def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):

     plt.plot(thresholds, precisions[:-1], 'b--',label='Precision')

     plt.plot(thresholds, recalls[:-1], 'r--', label='Recall')

     plt.xlabel("Threshold")

     plt.legend(loc='upper left')

     plt.ylim([0, 1])

     plt.show()  

 def plot_roc_curve(fpr, tpr, label=None):

     plt.plot(fpr, tpr, linewidth=2, label='roc')

     plt.plot([0, 1], [0, 1], 'k--', label='mid')

     plt.legend(loc='lower right')

     # plt.axes([0, 1, 0, 1]) : 前两个参数表示坐标原点的位置，后两个表示x,y轴的长度

     plt.xlabel('fpr')

     plt.ylabel('tpr')

     plt.show()  

 plot_precision_recall_vs_threshold(precisions, recalls, thresholds)

 fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

 plot_roc_curve(fpr, tpr)

 print(roc_auc_score(y_train_5, y_scores))

 forest_clf = RandomForestClassifier(random_state=42)

 y_probas_forest = cross_val_predict(forest_clf, x_train, y_train_5, cv=3, method='predict_proba')

 y_scores_forest = y_probas_forest[:, 1]

 fpr_forest, tpr_forest, thresholds_forest = roc_curve(y_train_5, y_scores_forest)

 plt.plot(fpr, tpr, 'b:', label='SGD')

 plt.plot(fpr_forest, tpr_forest, label='Random Forest')

 plt.legend(loc='lower right')

 plt.show()

 print(roc_auc_score(y_train_5, y_scores_forest))

总结：正向准确率和召回率在整体上成反比，可知在使用相同数据集，相同验证方式的情况下，随机森林要优于随机梯度下降！

评估指标【交叉验证&ROC曲线】的更多相关文章

【分类模型评判指标二】ROC曲线与AUC面积
转自:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80499031 略有改动,仅供个人学习使用简介 ROC曲线与AUC面积均是用来 ...
【机器学习】--模型评估指标之混淆矩阵，ROC曲线和AUC面积
一.前述怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结. 二.具体 1.混淆矩阵混淆矩阵如图: 第一个参数true,false是指预测的正确性. 第二个参数true,p ...
评价指标的局限性、ROC曲线、余弦距离、A/B测试、模型评估的方法、超参数调优、过拟合与欠拟合
1.评价指标的局限性问题1 准确性的局限性准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷.比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率.所以,当 ...
评估指标：ROC，AUC，Precision、Recall、F1-score
一.ROC,AUC ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣 . ROC曲线一般的 ...
召回率、AUC、ROC模型评估指标精要
混淆矩阵精准率/查准率,presicion 预测为正的样本中实际为正的概率召回率/查全率,recall 实际为正的样本中被预测为正的概率 TPR F1分数,同时考虑查准率和查全率,二者达到平衡,= ...
PR曲线，ROC曲线，AUC指标等，Accuracy vs Precision
作为机器学习重要的评价指标,标题中的三个内容,在下面读书笔记里面都有讲: http://www.cnblogs.com/charlesblc/p/6188562.html 但是讲的不细,不太懂.今天又 ...
从TP、FP、TN、FN到ROC曲线、miss rate、行人检测评估
从TP.FP.TN.FN到ROC曲线.miss rate.行人检测评估想要在行人检测的evaluation阶段要计算miss rate,就要从True Positive Rate讲起:miss ra ...
[机器学习] 性能评估指标（精确率、召回率、ROC、AUC)
混淆矩阵介绍这些概念之前先来介绍一个概念:混淆矩阵(confusion matrix).对于 k 元分类,其实它就是一个k x k的表格,用来记录分类器的预测结果.对于常见的二元分类,它的混淆矩阵是 ...
机器学习 - 案例 - 样本不均衡数据分析 - 信用卡诈骗 ( 标准化处理, 数据不均处理, 交叉验证, 评估, Recall值, 混淆矩阵, 阈值 )
案例背景银行评判用户的信用考量规避信用卡诈骗 ▒ 数据数据共有 31 个特征, 为了安全起见数据已经向了模糊化处理无法读出真实信息目标其中数据中的 class 特征标识为是否正常用户 (0 代表 ...

随机推荐

.Net Project 常规结构
目录:一个.NET网站的成长历程在个人的日常工作和学习中,接触到不少的项目,这些项目结构大同小异,其结构的核心思想无外乎“分层“. 分层?从字面上理解,看似简单,实则不然.这需要从多个维度去看待这个 ...
用系统为centos6的主机，搭建PXE服务器，实现批量安装centos6,7系统
1. iptables -F setenforce 0 临时关掉selinux,清掉防火墙永久生效更改配置文件:vim /etc/sysconfig/selinux chkconfig iptabl ...
【JDBC 笔记】
JDBC 笔记作者:晨钟暮鼓c个人微信公众号:程序猿的月光宝盒对应pdf版:https://download.csdn.net/download/qq_22430159/10754554 没有积分 ...
Snapde一个全新的CSV超大文件编辑软件
今天介绍如果数据量超过104万行Excel无法打开了,用什么软件可以打开呢?Snapde,一个专门为编辑超大型数据量CSV文件而设计的单机版电子表格软件:它在C++语言开发的Snapman多人协作电子 ...
react native中使用echarts
开发平台:mac pro node版本:v8.11.2 npm版本:6.4.1 react-native版本:0.57.8 native-echarts版本:^0.5.0 目标平台:android端收 ...
nginx之location配置详解及案例
语法规则: location [=|~|~*|^~] /uri/ { … } = 开头表示精确匹配 ^~ 开头表示uri以某个常规字符串开头,理解为匹配 url路径即可.nginx不对url做编码, ...
PHP全栈学习笔记7
图形图像处理技术,gd库的强大支持,PHP的图像可以是PHP的强项,PHP图形化类库,jpgraph是一款非常好用的强大的图形处理工具. 在PHP中加载GD库 gd官方网址下载: http://www ...
腾讯云服务器搭建Apache/PHP/MySQL环境
软件环境 Windows Server 2008 R2 企业版 SP1 64位刚刚进入 Windows Server ,你会看到以下界面: 列出了服务器的基础信息和常用配置下载 XAMPP htt ...
webpack打包The 'mode' option has not been set,错误提示
学习到webpack打包这个工具的时候,总是报错.在这里记录一下...... 我是window系统当使用npm安装好webpack后,你去查看如果出现一下问题. 出现以上问题,我的做法是先将web ...
4. VIM 系列 - 认识VIM的缓冲区、窗口、标签页
目录 1. 缓冲区 2. 窗口 3. 标签页 4. 设置一下热键 1. 缓冲区文件和缓冲区的区别 vim 打开一个文件时,其实是从磁盘中读取文件到内存中,vim的一些操作其实是在操作缓冲区, 当使用 ...

评估指标【交叉验证&ROC曲线】

评估指标【交叉验证&ROC曲线】的更多相关文章

随机推荐

热门专题