sklearn不同数量的训练集在测试集上的表现的曲线刻画

def plot_learning_curve(estimator,X,y,cv=5,train_sizes=[0.1,0.3,0.5,0.7,0.8,0.9]):

    """

    描述：对于不同数量的训练样本的估计器的验证和训练评分

    param estimator:object|

    param X:shape=[n_samples,n_feature]

    param y:shape=[n_samples,]

    param cv:int

    param train_size:list of float

    """

    import matplotlib.pyplot as plt
　　 from sklearn.model_selection import learning_curve

    plt.figure()

    plt.title("learning curves")

    plt.xlabel("Training examples")

    plt.ylabel("Score")

    train_sizes, train_scores, test_scores = learning_curve(estimator=estimator,

                                                            X=X,

                                                            y=y,

                                                            cv=cv,

                                                            train_sizes=train_sizes)

    train_scores_mean = np.mean(train_scores,axis=1)

    train_scores_std  = np.std(train_scores,axis=1)

    test_scores_mean  = np.mean(test_scores, axis=1)

    test_scores_std   = np.std(test_scores, axis=1)

    plt.grid()

    plt.fill_between(train_sizes,

                     y1=train_scores_mean-train_scores_std,

                     y2=train_scores_mean+train_scores_std,

                     alpha=0.1,

                     color="r")

    plt.fill_between(train_sizes,

                     y1=test_scores_mean-test_scores_std,

                     y2=test_scores_mean+test_scores_std,

                     alpha=0.1,

                     color="g")

    plt.plot(train_sizes,train_scores_mean,"o-",color="r",label="training score")

    plt.plot(train_sizes, test_scores_mean,'o-',color="g",label="testing score")

    plt.legend(loc="best")

    plt.show()

plot_learning_curve(estimator=SVC(),X=X,y=y,cv=5,train_sizes=[0.1,0.3,0.5,0.7,0.8,0.9])

sklearn不同数量的训练集在测试集上的表现的曲线刻画的更多相关文章

sklearn获得某个参数的不同取值在训练集和测试集上的表现的曲线刻画
from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y ...
Python sklearn拆分训练集、测试集及预测导出评分决策树
机器学习入门 (注:无基础可快速入门,想提高准确率还得多下功夫,文中各名词不做过多解释) Python语言.pandas包.sklearn包建议在Jupyter环境操作操作步骤 1.panda ...
Machine Learning笔记整理 ------ （二）训练集与测试集的划分
在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等 ...
使用sklearn进行数据挖掘-房价预测(2)—划分测试集
使用sklearn进行数据挖掘系列文章: 1.使用sklearn进行数据挖掘-房价预测(1) 2.使用sklearn进行数据挖掘-房价预测(2)-划分测试集 3.使用sklearn进行数据挖掘-房价预 ...
ML基础 : 训练集，验证集，测试集关系及划分 Relation and Devision among training set, validation set and testing set
首先三个概念存在于有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters ...
训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）
对于训练集,验证集,测试集的概念,很多人都搞不清楚.网上的文章也是鱼龙混杂,因此,现在来把这方面的知识梳理一遍.让我们先来看一下模型验证(评估)的几种方式. 在机器学习中,当我们把模型训练出来以后,该 ...
训练集、测试集loss容易出现的问题总结
train loss 不断下降,test loss不断下降:说明网络仍在学习; train loss 不断下降,test loss趋于不变:说明网络过拟合; train loss 趋于不变,test ...
斯坦福大学公开课机器学习：advice for applying machine learning | model selection and training/validation/test sets（模型选择以及训练集、交叉验证集和测试集的概念）
怎样选用正确的特征构造学习算法或者如何选择学习算法中的正则化参数lambda?这些问题我们称之为模型选择问题. 在对于这一问题的讨论中,我们不仅将数据分为:训练集和测试集,而是将数据分为三个数据组:也 ...
[DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习使用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.1 训练/开发/测试集对于一个数据集而言,可以将一个数据集分为三个部分,一部分作为训练集,一部分作为简单交叉验证集(dev)有时候也成为验 ...

随机推荐

Centos7下安装部署oracle数据库方法及问题汇总
目标:在centos7上配置oracle数据库服务器,并在win7上面使用pl/sql成功访问该oracle数据库系统环境: 服务器:centos7 64位客户端:win7 64位注意cneto ...
Java中的继承抽象类和接口
一.总结 1.使用extends关键字继承,eg: class Student extends Persion { ...}; 2.Java编程规范中类的首字母大写,方法的首字母小写单词首字母代谢,e ...
07机器学习实战k-means
K-Means原理初探 K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇.让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大. 如果我们想直接求上式的最 ...
mysql存储程序
什么时候会用到存储过程 1.存储过程只在创造时进行编译,以后每次执行存储过程都不需再重新编译,而一般 SQL 语句每执行一次就编译一次,所以使用存储过程可提高数据库执行速度2.当对数据库进行复杂操作时 ...
pstStream->pstPack[i].pu8Addr详解
/****************************************************************************** * funciton : save H2 ...
C# ASCII与字符串间相互转换（转）
引言: 最近开始学习C#,在写串口助手小工具时遇到十六进制发送与字符发送之间转换的问题, 小弟通过网络各路大神的帮助下,终于实现正确显示收发,小弟菜鸟一枚,不足之处还望各位批评指正O(∩_∩)O! 其 ...
【转】利用Psyco提升Python运行速度
转自:http://www.leeon.me/a/use-Psyco-to-improve-Python-speed Psyco 是严格地在 Python 运行时进行操作的.也就是说,Python 源 ...
关于PHP程序员技术职业生涯规划转自韩天锋
转自 http://rango.swoole.com/ 看到很多PHP程序员职业规划的文章,都是直接上来就提Linux.PHP.MySQL.Nginx.Redis.Memcache.jQuery这些, ...
Mysql binlog日志的介绍
mysql的复制功能是大规模,高性能应用的基础. 分担读负载.水平扩展是通过二进制日志进行复制,是异步的. 只记录成功执行的修改事件,出现错误的和回滚的是不会纪录的. 日志路径查看日志 RO ...
Hadoop 管理工具HUE配置
机器环境 Ubuntu 14.10 64位 || OpenJDK-7 || Scala-2.10.4 机群概况 Hadoop-2.6.0 || HBase-1.0.0 || Spark-1.2.0 | ...

sklearn不同数量的训练集在测试集上的表现的曲线刻画

sklearn不同数量的训练集在测试集上的表现的曲线刻画的更多相关文章

随机推荐

热门专题