机器学习——交叉验证，GridSearchCV，岭回归

0.交叉验证

　　交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

　　交叉验证用在数据不是很充足的时候。比如在我日常项目里面，对于普通适中问题，如果数据样本量小于一万条，我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话，我们一般随机的把数据分成三份，一份为训练集（Training Set），一份为验证集（Validation Set），最后一份为测试集（Test Set）。用训练集来训练模型，用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集，最终决定使用哪个模型以及对应参数。

　　根据切分的方法不同，交叉验证分为下面三种：　　　

　　第一种是简单交叉验证，所谓的简单，是和其他交叉验证方法相对而言的。首先，我们随机的将样本数据分为两部分（比如： 70%的训练集，30%的测试集），然后用训练集来训练模型，在测试集上验证模型及参数。接着，我们再把样本打乱，重新选择训练集和测试集，继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。　

　　第二种是S折交叉验证（S-Folder Cross Validation）。和第一种方法不同，S折交叉验证会把样本数据随机的分成S份，每次随机的选择S-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择S-1份来训练数据。若干轮（小于S）之后，选择损失函数评估最优的模型和参数。

　　第三种是留一交叉验证（Leave-one-out Cross Validation），它是第二种情况的特例，此时S等于样本数N，这样对于N个样本，每次选择N-1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况，比如对于普通适中问题，N小于50时，我一般采用留一交叉验证。

1.模型调参利器GridSearchCV（网格搜索）

　　GridSearchCV能够通过给定的参数列表，自动的帮我们选择一个最优的参数，在数据集不大的情况下非常适合使用。函数的相关参数的含义如下：

　　　　GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score='raise', return_train_score=True)

Parameters：

　　estimator：所使用的分类器，或者pipeline

　　param_grid：值为字典或者列表，即需要最优化的参数的取值

　　scoring：准确度评价标准，默认None,这时需要使用score函数；或者如scoring='roc_auc'，根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。

　　n_jobs：并行数，int：个数,-1：跟CPU核数一致, 1:默认值。

　　pre_dispatch：指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次

　　iid：默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。

　　cv：交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器。

　　refit：默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。

　　verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。

Attributes：
　　best_estimator_：效果最好的分类器

　　best_score_：成员提供优化过程期间观察到的最好的评分

　　best_params_：描述了已取得最佳结果的参数的组合

　　best_index_：对应于最佳候选参数设置的索引(cv_results_数组的索引)。

Methods：

　　decision_function:使用找到的参数最好的分类器调用decision_function。

　　fit(X, y=None, groups=None, **fit_params):训练

　　get_params(deep=True):获取这个估计器的参数。

　　predict(X):用找到的最佳参数调用预估器。(直接预测每个样本属于哪一个类别)

　　predict_log_proda(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分取log情况）

　　predict_proba(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分情况）

　　score(X, y=None)：返回给定数据上的得分，如果预估器已经选出最优的分类器。

　　transform(X):调用最优分类器进行对X的转换。

　　下面我们一岭回归为例，运用GridSearchCV进行调参工作：

 import numpy as np

 import matplotlib.pyplot as plt

 import pandas as pd

 from sklearn.model_selection import train_test_split

 from sklearn.linear_model import Lasso, Ridge

 from sklearn.model_selection import GridSearchCV

 if __name__ == "__main__":

     # pandas读入

     data = pd.read_csv('../data-set/Advertising.csv')

     x = data[['TV', 'Radio', 'Newspaper']]

     y = data['Sales']

     x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)

     #model = Lasso()

     model = Ridge()

     alpha_can = np.logspace(-3, 2, 10)

     lasso_model = GridSearchCV(model, param_grid={'alpha': alpha_can}, cv=5)

     lasso_model.fit(x, y)

     print('验证参数：\n', lasso_model.best_params_)

     y_hat = lasso_model.predict(np.array(x_test))

     mse = np.average((y_hat - np.array(y_test)) ** 2)  # Mean Squared Error

     rmse = np.sqrt(mse)  # Root Mean Squared Error

     print(mse, rmse)

     t = np.arange(len(x_test))

     plt.plot(t, y_test, 'r-', linewidth=2, label='Test')

     plt.plot(t, y_hat, 'g-', linewidth=2, label='Predict')

     plt.legend(loc='upper right')

     plt.grid()

     plt.show()

　　在上述的代码中，np.logspace(-3, 2, 10)为返回10^-3到10^2的长度为默认10的列表，作为参数的可选值，lasso_model = GridSearchCV(model, param_grid={'alpha': alpha_can}, cv=5)中，param_grid自动参数alpha的参数列表，cv表示使用5折交叉验证。

运行结果如下：

欢迎关注我的公众号，不定期更新机器学习原理教程！

机器学习——交叉验证，GridSearchCV，岭回归的更多相关文章

Numpy实现机器学习交叉验证的数据划分
Numpy实现K折交叉验证的数据划分本实例使用Numpy的数组切片语法,实现了K折交叉验证的数据划分背景:K折交叉验证为什么需要这个?在机器学习中,因为如下原因,使用K折交叉验证能更好评估模型效 ...
机器学习 - 案例 - 样本不均衡数据分析 - 信用卡诈骗 ( 标准化处理, 数据不均处理, 交叉验证, 评估, Recall值, 混淆矩阵, 阈值 )
案例背景银行评判用户的信用考量规避信用卡诈骗 ▒ 数据数据共有 31 个特征, 为了安全起见数据已经向了模糊化处理无法读出真实信息目标其中数据中的 class 特征标识为是否正常用户 (0 代表 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...
【机器学习】正则化的线性回归 —— 岭回归与Lasso回归
注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基本原理有一个透彻.直观的理解.直到最近再次接触到这个概念 ...
机器学习基础：(Python)训练集测试集分割与交叉验证
在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常 ...
GridSearchCV交叉验证
代码实现(基于逻辑回归算法): # -*- coding: utf-8 -*- """ Created on Sat Sep 1 11:54:48 2018 @autho ...
python机器学习sklearn 岭回归（Ridge、RidgeCV）
1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...
机器学习之五正则化的线性回归-岭回归与Lasso回归
机器学习之五正则化的线性回归-岭回归与Lasso回归注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基 ...
机器学习中的train valid test以及交叉验证
转自 https://www.cnblogs.com/rainsoul/p/6373385.html 在以前的网络训练中,有关于验证集一直比较疑惑,在一些机器学习的教程中,都会提到,将数据集分为三部分 ...

随机推荐

php一些需要注意的点
1,类的自动加载: spl_autoload_register(function ($class_name) { require_once $class_name . '.php';}); autol ...
Elasticsearch笔记六之中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文"北京大学"来查询结果es将其分拆为"北","京","大" ...
BZOJ_2238_Mst_树剖+线段树
BZOJ_2238_Mst_树剖+线段树 Description 给出一个N个点M条边的无向带权图,以及Q个询问,每次询问在图中删掉一条边后图的最小生成树.(各询问间独立,每次询问不对之后的询问产生影 ...
CentOS 7下单机部署RabbltMQ环境的操作记录
一. RabbitMQ简单介绍在日常工作环境中,你是否遇到过两个(多个)系统间需要通过定时任务来同步某些数据?你是否在为异构系统的不同进程间相互调用.通讯的问题而苦恼.挣扎?如果是,那么恭喜你,消息 ...
AngularJs 服务广播
1, angularJs的服务有provider,Service, Factory. Factory是对Service的封装,Service是对Provider的封装. Provide的源码如下: f ...
一文学会Scala
整体介绍 Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性. 联邦理工学院洛桑(EPFL)的Martin Odersky于2001 ...
k8s日志收集方案
k8s日志收集方案三种收集方案的优缺点: 下面我们就实践第二种日志收集方案: 一.安装ELK 下面直接采用yum的方式安装ELK(源码包安装参考:https://www.cnblogs.com/De ...
token:NLP之词形还原
已迁移到我新博客,阅读体验更佳token:NLP之词形还原完整代码实现放在我的github上:click me 一.任务描述形态还原算法: 输入一个单词如果词典里有该词,输出该词及其属性,转4, ...
Android Gradle defaultConfig详解及实用技巧
实际项目中,都会应用Android Gradle Plugin,根据实际中的项目模块的职责,可以具体应用如下四种插件类型. 1,apply plugin: 'com.android.applicati ...
windows代码,传入文件名,遍历此目录下所有文件.
#include <windows.h> #include <vector> using namespace std; BOOL IterAtorFileSaveFile(IN ...

机器学习——交叉验证，GridSearchCV，岭回归

机器学习——交叉验证，GridSearchCV，岭回归的更多相关文章

随机推荐

热门专题