机器学习——交叉验证，GridSearchCV，岭回归

0.交叉验证

　　交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

　　交叉验证用在数据不是很充足的时候。比如在我日常项目里面，对于普通适中问题，如果数据样本量小于一万条，我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话，我们一般随机的把数据分成三份，一份为训练集（Training Set），一份为验证集（Validation Set），最后一份为测试集（Test Set）。用训练集来训练模型，用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集，最终决定使用哪个模型以及对应参数。

　　根据切分的方法不同，交叉验证分为下面三种：　　　

　　第一种是简单交叉验证，所谓的简单，是和其他交叉验证方法相对而言的。首先，我们随机的将样本数据分为两部分（比如： 70%的训练集，30%的测试集），然后用训练集来训练模型，在测试集上验证模型及参数。接着，我们再把样本打乱，重新选择训练集和测试集，继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。　

　　第二种是S折交叉验证（S-Folder Cross Validation）。和第一种方法不同，S折交叉验证会把样本数据随机的分成S份，每次随机的选择S-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择S-1份来训练数据。若干轮（小于S）之后，选择损失函数评估最优的模型和参数。

　　第三种是留一交叉验证（Leave-one-out Cross Validation），它是第二种情况的特例，此时S等于样本数N，这样对于N个样本，每次选择N-1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况，比如对于普通适中问题，N小于50时，我一般采用留一交叉验证。

1.模型调参利器GridSearchCV（网格搜索）

　　GridSearchCV能够通过给定的参数列表，自动的帮我们选择一个最优的参数，在数据集不大的情况下非常适合使用。函数的相关参数的含义如下：

　　　　GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score='raise', return_train_score=True)

Parameters：

　　estimator：所使用的分类器，或者pipeline

　　param_grid：值为字典或者列表，即需要最优化的参数的取值

　　scoring：准确度评价标准，默认None,这时需要使用score函数；或者如scoring='roc_auc'，根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。

　　n_jobs：并行数，int：个数,-1：跟CPU核数一致, 1:默认值。

　　pre_dispatch：指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次

　　iid：默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。

　　cv：交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器。

　　refit：默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。

　　verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。

Attributes：
　　best_estimator_：效果最好的分类器

　　best_score_：成员提供优化过程期间观察到的最好的评分

　　best_params_：描述了已取得最佳结果的参数的组合

　　best_index_：对应于最佳候选参数设置的索引(cv_results_数组的索引)。

Methods：

　　decision_function:使用找到的参数最好的分类器调用decision_function。

　　fit(X, y=None, groups=None, **fit_params):训练

　　get_params(deep=True):获取这个估计器的参数。

　　predict(X):用找到的最佳参数调用预估器。(直接预测每个样本属于哪一个类别)

　　predict_log_proda(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分取log情况）

　　predict_proba(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分情况）

　　score(X, y=None)：返回给定数据上的得分，如果预估器已经选出最优的分类器。

　　transform(X):调用最优分类器进行对X的转换。

　　下面我们一岭回归为例，运用GridSearchCV进行调参工作：

 import numpy as np

 import matplotlib.pyplot as plt

 import pandas as pd

 from sklearn.model_selection import train_test_split

 from sklearn.linear_model import Lasso, Ridge

 from sklearn.model_selection import GridSearchCV

 if __name__ == "__main__":

     # pandas读入

     data = pd.read_csv('../data-set/Advertising.csv')

     x = data[['TV', 'Radio', 'Newspaper']]

     y = data['Sales']

     x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)

     #model = Lasso()

     model = Ridge()

     alpha_can = np.logspace(-3, 2, 10)

     lasso_model = GridSearchCV(model, param_grid={'alpha': alpha_can}, cv=5)

     lasso_model.fit(x, y)

     print('验证参数：\n', lasso_model.best_params_)

     y_hat = lasso_model.predict(np.array(x_test))

     mse = np.average((y_hat - np.array(y_test)) ** 2)  # Mean Squared Error

     rmse = np.sqrt(mse)  # Root Mean Squared Error

     print(mse, rmse)

     t = np.arange(len(x_test))

     plt.plot(t, y_test, 'r-', linewidth=2, label='Test')

     plt.plot(t, y_hat, 'g-', linewidth=2, label='Predict')

     plt.legend(loc='upper right')

     plt.grid()

     plt.show()

　　在上述的代码中，np.logspace(-3, 2, 10)为返回10^-3到10^2的长度为默认10的列表，作为参数的可选值，lasso_model = GridSearchCV(model, param_grid={'alpha': alpha_can}, cv=5)中，param_grid自动参数alpha的参数列表，cv表示使用5折交叉验证。

运行结果如下：

欢迎关注我的公众号，不定期更新机器学习原理教程！

机器学习——交叉验证，GridSearchCV，岭回归的更多相关文章

Numpy实现机器学习交叉验证的数据划分
Numpy实现K折交叉验证的数据划分本实例使用Numpy的数组切片语法,实现了K折交叉验证的数据划分背景:K折交叉验证为什么需要这个?在机器学习中,因为如下原因,使用K折交叉验证能更好评估模型效 ...
机器学习 - 案例 - 样本不均衡数据分析 - 信用卡诈骗 ( 标准化处理, 数据不均处理, 交叉验证, 评估, Recall值, 混淆矩阵, 阈值 )
案例背景银行评判用户的信用考量规避信用卡诈骗 ▒ 数据数据共有 31 个特征, 为了安全起见数据已经向了模糊化处理无法读出真实信息目标其中数据中的 class 特征标识为是否正常用户 (0 代表 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...
【机器学习】正则化的线性回归 —— 岭回归与Lasso回归
注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基本原理有一个透彻.直观的理解.直到最近再次接触到这个概念 ...
机器学习基础：(Python)训练集测试集分割与交叉验证
在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常 ...
GridSearchCV交叉验证
代码实现(基于逻辑回归算法): # -*- coding: utf-8 -*- """ Created on Sat Sep 1 11:54:48 2018 @autho ...
python机器学习sklearn 岭回归（Ridge、RidgeCV）
1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...
机器学习之五正则化的线性回归-岭回归与Lasso回归
机器学习之五正则化的线性回归-岭回归与Lasso回归注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基 ...
机器学习中的train valid test以及交叉验证
转自 https://www.cnblogs.com/rainsoul/p/6373385.html 在以前的网络训练中,有关于验证集一直比较疑惑,在一些机器学习的教程中,都会提到,将数据集分为三部分 ...

随机推荐

PHP引用符&的用法举例
php的引用就是在变量或者函数.对象等前面加上&符号.在PHP 中引用的意思是:不同的名字访问同一个变量内容.与C语言中的指针是有差别的,C语言中的指针里面存储的是变量的内容在内存中存放的地址 ...
I/O----复制文本文件
文件 "我的青春谁做主.txt" 位于 D 盘根目录下,要求将此文件的内容复制到 C:/myPrime.txt 中. package io.day03; import java.i ...
【BZOJ 2004】: [Hnoi2010]Bus 公交线路
题目链接: TP 题解: 所以说,超显眼的数据范围啊. 很显然我们对于每个P的区间都是要有k个站被bus停留,然后考虑转移的话应该是把这k个站里的某个bus往前走,那么转移也很显然了,n的范围很大 ...
NOIP 2017 游记?
Day -1 晚上被dg谈了谈人生,没有卵用 Day 0 早上又被老吕教训了一遍,想打板子,打印机还坏了,老吕又奶了一波题,后来发现一个都没中.之后就出发了,中午吃了点肯德基,妈妈来了,给我了个小袋子 ...
bzoj 2829 计算几何
将每张卡四个角的圆心跑graham出正常凸包,再加上一个圆就好了. 要注意先输入的是x,找点时三角函数瞎换就过了.. #include<cstdio> #include<cstrin ...
Django基础三（form和template）
上一篇博文学习了Django的View和urls,接下来是对django form 和 template的学习. 1 django form django form为我们提供了便捷的方式来创建一些HT ...
领域驱动设计学习之路—DDD的原则与实践
本文是我学习Scott Millett & Nick Tune编著的<领域驱动设计模式.原理与实践>一书的学习笔记,一共会分为4个部分如下,此文为第1部分: ① 领域驱动设计的原则 ...
Arthas
Arthas 是Alibaba开源的Java诊断工具,深受开发者喜爱下载&启动 wget https://alibaba.github.io/arthas/arthas-boot.jar 启 ...
java游戏开发杂谈 - 线程
线程,让游戏拥有了动态变化的能力. java的图形界面,在启动的时候,就开始了一个线程. 这个线程负责处理:JFrame.JPanel等的绘制.事件处理. 它是由操作系统调用的,在程序启动时开启,程序 ...
Linux挖矿病毒 khugepageds详细解决步骤
一.背景最近公司一台虚拟机被攻击,其中一种挖矿病毒.会伪CPU数.即如果用top命令只能看到一个cpu.并且负载不高.实际上整个负载300%以上,及时定时任务关掉也不起作用. 二.言归正传开始干掉这 ...

机器学习——交叉验证，GridSearchCV，岭回归

机器学习——交叉验证，GridSearchCV，岭回归的更多相关文章

随机推荐

热门专题