模型检验-交叉验证

一般在进行模型的测试时，我们会将数据分为训练集和测试集。在给定的样本空间中，拿出大部分样本作为训练集来训练模型，剩余的小部分样本使用刚建立的模型进行预测。

训练集与测试集

训练集与测试集的分割可以使用cross_validation中的train_test_split方法，大部分的交叉验证迭代器都内建一个划分数据前进行数据索引打散的选项，train_test_split 方法内部使用的就是交叉验证迭代器。默认不会进行打散，包括设置cv=some_integer（直接）k折叠交叉验证的cross_val_score会返回一个随机的划分。如果数据集具有时间性，千万不要打散数据再划分！

sklearn.cross_validation.train_test_split

def train_test_split(*arrays,**options)

  """

  :param arrays:允许的输入是列表，数字阵列

  :param test_size:float，int或None（默认为无）,如果浮点数应在0.0和1.0之间，并且表示要包括在测试拆分中的数据集的比例。如果int，表示测试样本的绝对数

  :param train_size:float，int或None（默认为无）,如果浮点数应在0.0到1.0之间，表示数据集包含在列车拆分中的比例。如果int，表示列车样本的绝对数

  :param random_state:int或RandomState,用于随机抽样的伪随机数发生器状态，参数 random_state 默认设置为 None，这意为着每次打散都是不同的。

  """

from sklearn.cross_validation import train_test_split

from sklearn import datasets

iris = datasets.load_iris()

print iris.data.shape,iris.target.shape

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=42)

print X_train.shape,y_train.shape

print X_test.shape,y_test.shape

上面的方式也有局限。因为只进行一次测试，并不一定能代表模型的真实准确率。因为，模型的准确率和数据的切分有关系，在数据量不大的情况下，影响尤其突出。所以还需要一个比较好的解决方案。

模型评估中，除了训练数据和测试数据，还会涉及到验证数据。使用训练数据与测试数据进行了交叉验证，只有这样训练出的模型才具有更可靠的准确率，也才能期望模型在新的、未知的数据集上，能有更好的表现。这便是模型的推广能力，也即泛化能力的保证。

holdout method

评估模型泛化能力的典型方法是holdout交叉验证(holdout cross validation)。holdout方法很简单，我们只需要将原始数据集分割为训练集和测试集，前者用于训练模型，后者用于评估模型的性能。一般来说，Holdout 验证并非一种交叉验证，因为数据并没有交叉使用。随机从最初的样本中选出部分，形成交叉验证数据，而剩余的就当做训练数据。一般来说，少于原本样本三分之一的数据被选做验证数据。所以这种方法得到的结果其实并不具有说服性

k-折交叉验证

K折交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10折交叉验证是最常用的。

例如5折交叉验证，全部可用数据集分成五个集合，每次迭代都选其中的1个集合数据作为验证集，另外4个集合作为训练集，经过5组的迭代过程。交叉验证的好处在于，可以保证所有数据都有被训练和验证的机会，也尽最大可能让优化的模型性能表现的更加可信。

使用交叉验证的最简单的方法是在估计器和数据集上使用cross_val_score函数。

sklearn.cross_validation.cross_val_score

def cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')

  """

  :param estimator:模型估计器

  :param X:特征变量集合

  :param y:目标变量

  :param cv:int，使用默认的3折交叉验证，整数指定一个（分层）KFold中的折叠数

  :return :预估系数

  """

from sklearn.cross_validation import cross_val_score

diabetes = datasets.load_diabetes()

X = diabetes.data[:150]

y = diabetes.target[:150]

lasso = linear_model.Lasso()

print(cross_val_score(lasso, X, y))

使用交叉验证方法的目的主要有2个：

从有限的学习数据中获取尽可能多的有效信息；
可以在一定程度上避免过拟合问题。

K-邻近算法调优

网格搜索

In [ ]:

from sklearn.datasets import load_wine

from sklearn.preprocessing import StandardScaler

from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import train_test_split

In [ ]:

# 实例化红酒集

wine = load_wine()

In [ ]:

# 数据划分

x_train, x_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.25)

In [ ]:

# 数据标准化

std = StandardScaler().fit(x_train)

x_train = std.transform(x_train)

x_test = std.transform(x_test)

In [ ]:

# 实例化K-邻近

knn = KNeighborsClassifier()

In [ ]:

# 实例化网格搜索

param = {"n_neighbors": [3, 5, 10]}

grid = GridSearchCV(estimator=knn, param_grid=param, cv=10)

grid.fit(x_train, y_train)

Out[ ]:

In [ ]:

# 预测测试集的准确率

score = grid.score(x_test, y_test)

score

Out[ ]:

0.9777777777777777

In [ ]:

# 在交叉验证中最好的结果

grid.best_score_

Out[ ]:

0.9472527472527472

In [ ]:

# 在交叉验证中最好的参数模型参数

grid.best_estimator_.get_params()

Out[ ]:

{'algorithm': 'auto',

 'leaf_size': 30,

 'metric': 'minkowski',

 'metric_params': None,

 'n_jobs': None,

 'n_neighbors': 5,

 'p': 2,

 'weights': 'uniform'}

In [ ]:

# 每个超参数，每次交叉验证的结果

grid.cv_results_

Out[ ]:

{'mean_fit_time': array([0.00060642, 0.00055697, 0.00055516]),

 'std_fit_time': array([0.00049536, 0.00057434, 0.00047108]),

 'mean_score_time': array([0.0013592 , 0.00115194, 0.00121515]),

 'std_score_time': array([0.00044467, 0.00044955, 0.00042784]),

 'param_n_neighbors': masked_array(data=[3, 5, 10],

              mask=[False, False, False],

        fill_value='?',

             dtype=object),

 'params': [{'n_neighbors': 3}, {'n_neighbors': 5}, {'n_neighbors': 10}],

 'split0_test_score': array([1., 1., 1.]),

 'split1_test_score': array([1., 1., 1.]),

 'split2_test_score': array([0.85714286, 0.85714286, 0.92857143]),

 'split3_test_score': array([0.84615385, 1.        , 0.84615385]),

 'split4_test_score': array([0.84615385, 0.84615385, 0.92307692]),

 'split5_test_score': array([1., 1., 1.]),

 'split6_test_score': array([0.92307692, 0.92307692, 0.92307692]),

 'split7_test_score': array([1., 1., 1.]),

 'split8_test_score': array([0.92307692, 0.92307692, 0.92307692]),

 'split9_test_score': array([0.92307692, 0.92307692, 0.92307692]),

 'mean_test_score': array([0.93186813, 0.94725275, 0.9467033 ]),

 'std_test_score': array([0.06251192, 0.05831428, 0.04902442]),

 'rank_test_score': array([3, 1, 2])}

机器学习基础06DAY的更多相关文章

Coursera 机器学习课程机器学习基础：案例研究证书
完成了课程1 机器学习基础:案例研究贴个证书,继续努力完成后续的课程:
Coursera台大机器学习基础课程1
Coursera台大机器学习基础课程学习笔记 -- 1 最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitche ...
机器学习 —— 基础整理（六）线性判别函数：感知器、松弛算法、Ho-Kashyap算法
这篇总结继续复习分类问题.本文简单整理了以下内容: (一)线性判别函数与广义线性判别函数 (二)感知器 (三)松弛算法 (四)Ho-Kashyap算法闲话:本篇是本系列［机器学习基础整理］在time ...
算法工程师<机器学习基础>
<机器学习基础> 逻辑回归,SVM,决策树 1.逻辑回归和SVM的区别是什么?各适用于解决什么问题? https://www.zhihu.com/question/24904422 2.L ...
数据分析之Matplotlib和机器学习基础
一.Matplotlib基础知识 Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形. 通过 Matplotlib,开发者可以仅需 ...
【dlbook】机器学习基础
[机器学习基础] 模型的 vc dimension 如何衡量? 如何根据网络结构衡量模型容量?有效容量和模型容量之间的关系? 统计学习理论中边界不用于深度学习之中,原因? 1.边界通常比较松, 2.深 ...
Python机器学习基础教程-第2章-监督学习之决策树集成
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
Python机器学习基础教程-第2章-监督学习之决策树
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
Python机器学习基础教程-第2章-监督学习之线性模型
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
Python机器学习基础教程-第2章-监督学习之K近邻
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

随机推荐

[IDEA] [SpringBoot] 项目所写的内容不能同步到编译出的文件中
错误原因: 不小心删除了 .yml 导致了,项目所写的内容不能同步到编译出的文件中,之后项目中的任何修改或添加的内容不能同步到编译出的文件中解决方法 : 文件项目下运行mvn idea:module ...
apicloud(沉浸式导航篇) - 手机状态栏有黑边的解决办法
在 index.html 的 apiready 中加上第一种 : 可设置全屏 api.setFullScreen({ fullScreen: true }); 第二种:设置状 ...
[转帖]查询 HTTPS 网站 TLS 版本
参考检查网站的TLS版本 – wentao's blog Linux curl 命令详解 - 腾讯云开发者社区-腾讯云 TLS 版本查询_天泽岁月的博客-CSDN博客_查看tls版本使用 Open ...
[转帖]各个版本Windows系统中自带的.NET Framework版本
① Windows Server : Windows Server版本自带的.NET Framework 版本 Windows Server 2022 .NET Framework 4.8 Wind ...
[转帖]十九、Linux性能优化实战学习笔记- 为什么系统的Swap变高了？
目录一.什么是文件页?什么是脏页?什么是匿名页? 二.linux swap原理换出换入三.内存回收的时机 1.直接内存回收 2.kswapd0内核线程四.NUMA 与 Swap关系五.sw ...
[转帖]ssh_exporter
https://github.com/treydock/ssh_exporter SSH exporter The SSH exporter attempts to make an SSH conne ...
ext4 扩容磁盘的方式方法
ext4 扩容磁盘的方式方法背景前期一直处理xfs,lvm磁盘的扩容很少处理ext4的磁盘扩容今天发现自己竟然对这一块有盲区. 晚上回家自己学习研究了会儿, 发现知识点还挺多所以总结一下. ...
[转帖]Nginx反向代理中使用proxy_redirect重定向url
https://www.cnblogs.com/kevingrace/p/8073646.html 在使用Nginx做反向代理功能时,有时会出现重定向的url不是我们想要的url,这时候就可以使用pr ...
[转帖]armv6、armv7、armv7s、armv8、armv64及其i386、x86_64区别
ARM处理器指令集一. 苹果模拟器指令集: 指令集分析 i386 针对intel通用微处理器32架构的 x86_64 针对x86架构的64位处理器 i386|x86_64 是Mac处理器的指令集, ...
[转帖]PyCharm无法安装第三方模块，一直提示 updating list:time out 解决办法
Pycharm无法安装第三方模块解决办法: 1.打开pycharm的项目的venv文件夹 2.打开文件夹目录中的pyvenv文件 3.将文件中的include-system-site-packages ...

机器学习基础06DAY

模型检验-交叉验证

训练集与测试集

holdout method

k-折交叉验证

K-邻近算法调优

网格搜索

机器学习基础06DAY的更多相关文章

随机推荐

热门专题