什么是Grid Search 网格搜索？

Grid Search：一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。（为什么叫网格搜索？以有两个参数的模型为例，参数a有3种可能，参数b有4种可能，把所有可能性列出来，可以表示成一个3*4的表格，其中每个cell就是一个网格，循环过程就像是在每个网格里遍历、搜索，所以叫grid search）

Simple Grid Search：简单的网格搜索

以2个参数的调优过程为例：

from sklearn.datasets import load_iris

from sklearn.svm import SVC

from sklearn.model_selection import train_test_split

iris = load_iris()

X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=0)

print("Size of training set:{} size of testing set:{}".format(X_train.shape[0],X_test.shape[0]))

####   grid search start

best_score = 0

for gamma in [0.001,0.01,0.1,1,10,100]:

    for C in [0.001,0.01,0.1,1,10,100]:

        svm = SVC(gamma=gamma,C=C)#对于每种参数可能的组合，进行一次训练；

        svm.fit(X_train,y_train)

        score = svm.score(X_test,y_test)

        if score > best_score:#找到表现最好的参数

            best_score = score

            best_parameters = {'gamma':gamma,'C':C}

####   grid search end

print("Best score:{:.2f}".format(best_score))

print("Best parameters:{}".format(best_parameters))

输出：

Size of training set:112 size of testing set:38

Best score:0.973684

Best parameters:{'gamma': 0.001, 'C': 100}

存在的问题：

原始数据集划分成训练集和测试集以后，其中测试集除了用作调整参数，也用来测量模型的好坏；这样做导致最终的评分结果比实际效果要好。（因为测试集在调参过程中，送到了模型里，而我们的目的是将训练模型应用在unseen data上）；

解决方法：

对训练集再进行一次划分，分成训练集和验证集，这样划分的结果就是：原始数据划分为3份，分别为：训练集、验证集和测试集；其中训练集用来模型训练，验证集用来调整参数，而测试集用来衡量模型表现好坏。

X_trainval,X_test,y_trainval,y_test = train_test_split(iris.data,iris.target,random_state=0)

X_train,X_val,y_train,y_val = train_test_split(X_trainval,y_trainval,random_state=1)

print("Size of training set:{} size of validation set:{} size of teseting set:{}".format(X_train.shape[0],X_val.shape[0],X_test.shape[0]))

best_score = 0.0

for gamma in [0.001,0.01,0.1,1,10,100]:

    for C in [0.001,0.01,0.1,1,10,100]:

        svm = SVC(gamma=gamma,C=C)

        svm.fit(X_train,y_train)

        score = svm.score(X_val,y_val)

        if score > best_score:

            best_score = score

            best_parameters = {'gamma':gamma,'C':C}

svm = SVC(**best_parameters) #使用最佳参数，构建新的模型

svm.fit(X_trainval,y_trainval) #使用训练集和验证集进行训练，more data always results in good performance.

test_score = svm.score(X_test,y_test) # evaluation模型评估

print("Best score on validation set:{:.2f}".format(best_score))

print("Best parameters:{}".format(best_parameters))

print("Best score on test set:{:.2f}".format(test_score))

输出：

Size of training set:84 size of validation set:28 size of teseting set:38

Best score on validation set:0.96

Best parameters:{'gamma': 0.001, 'C': 10}

Best score on test set:0.92

然而，这种间的的grid search方法，其最终的表现好坏与初始数据的划分结果有很大的关系，为了处理这种情况，我们采用交叉验证的方式来减少偶然性。

Grid Search with Cross Validation

from sklearn.model_selection import cross_val_score

best_score = 0.0

for gamma in [0.001,0.01,0.1,1,10,100]:

    for C in [0.001,0.01,0.1,1,10,100]:

        svm = SVC(gamma=gamma,C=C)

        scores = cross_val_score(svm,X_trainval,y_trainval,cv=5) #5折交叉验证

        score = scores.mean() #取平均数

        if score > best_score:

            best_score = score

            best_parameters = {"gamma":gamma,"C":C}

svm = SVC(**best_parameters)

svm.fit(X_trainval,y_trainval)

test_score = svm.score(X_test,y_test)

print("Best score on validation set:{:.2f}".format(best_score))

print("Best parameters:{}".format(best_parameters))

print("Score on testing set:{:.2f}".format(test_score))

输出：

Best score on validation set:0.97

Best parameters:{'gamma': 0.01, 'C': 100}

Score on testing set:0.97

交叉验证经常与网格搜索进行结合，作为参数评价的一种方法，这种方法叫做grid search with cross validation。sklearn因此设计了一个这样的类GridSearchCV，这个类实现了fit，predict，score等方法，被当做了一个estimator，使用fit方法，该过程中：（1）搜索到最佳参数；（2）实例化了一个最佳参数的estimator；

from sklearn.model_selection import GridSearchCV

#把要调整的参数以及其候选值 列出来；

param_grid = {"gamma":[0.001,0.01,0.1,1,10,100],

             "C":[0.001,0.01,0.1,1,10,100]}

print("Parameters:{}".format(param_grid))

grid_search = GridSearchCV(SVC(),param_grid,cv=5) #实例化一个GridSearchCV类

X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=10)

grid_search.fit(X_train,y_train) #训练，找到最优的参数，同时使用最优的参数实例化一个新的SVC estimator。

print("Test set score:{:.2f}".format(grid_search.score(X_test,y_test)))

print("Best parameters:{}".format(grid_search.best_params_))

print("Best score on train set:{:.2f}".format(grid_search.best_score_))

输出：

Parameters:{'gamma': [0.001, 0.01, 0.1, 1, 10, 100], 'C': [0.001, 0.01, 0.1, 1, 10, 100]}

Test set score:0.97

Best parameters:{'C': 10, 'gamma': 0.1}

Best score on train set:0.98

Grid Search 调参方法存在的共性弊端就是：耗时；参数越多，候选值越多，耗费时间越长！所以，一般情况下，先定一个大范围，然后再细化。

总而言之，言而总之

Grid Search：一种调优方法，在参数列表中进行穷举搜索，对每种情况进行训练，找到最优的参数；由此可知，这种方法的主要缺点是比较耗时！

===================================

欢迎关注我的公众号，一起学习成长！

调参必备---GridSearch网格搜索的更多相关文章

【DL基础】GridSearch网格搜索
前言参考 1. 调参必备---GridSearch网格搜索: 完
python 机器学习中模型评估和调参
在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题先展示先通常的做法 import pandas as pd f ...
【sklearn】网格搜索 from sklearn.model_selection import GridSearchCV
GridSearchCV用于系统地遍历模型的多种参数组合,通过交叉验证确定最佳参数. 1.GridSearchCV参数 # 不常用的参数 pre_dispatch 没看懂 refit 默认为Tr ...
Python机器学习笔记 Grid SearchCV（网格搜索）
在机器学习模型中,需要人工选择的参数称为超参数.比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定.超参数选择不恰当,就会出现欠拟合或者 ...
100天搞定机器学习|Day56 随机森林工作原理及调参实战（信用卡欺诈预测）
本文是对100天搞定机器学习|Day33-34 随机森林的补充前文对随机森林的概念.工作原理.使用方法做了简单介绍,并提供了分类和回归的实例. 本期我们重点讲一下: 1.集成学习.Bagging和随 ...
python的随机森林模型调参
一.一般的模型调参原则 1.调参前提:模型调参其实是没有定论,需要根据不同的数据集和不同的模型去调.但是有一些调参的思想是有规律可循的,首先我们可以知道,模型不准确只有两种情况:一是过拟合,而是欠拟合 ...
机器学习：使用scikit-learn库中的网格搜索调参
一.scikit-learn库中的网格搜索调参 1)网格搜索的目的: 找到最佳分类器及其参数: 2)网格搜索的步骤: 得到原始数据切分原始数据创建/调用机器学习算法对象调用并实例化scikit- ...
机器学习笔记——模型调参利器 GridSearchCV（网格搜索）参数的说明
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大 ...
机器学习算法中的网格搜索GridSearch实现（以k-近邻算法参数寻最优为例）
机器学习算法参数的网格搜索实现: //2019.08.031.scikitlearn库中调用网格搜索的方法为:Grid search,它的搜索方式比较统一简单,其对于算法批判的标准比较复杂,是一种复合 ...

随机推荐

开发函数计算的正确姿势 —— 使用 Fun Local 本地运行与调试
前言首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算 ...
kubernetes进阶之五：Replication Controller&Replica Sets&Deployments
一:Replication Controller RC是kubernetes的核心概念之一.它定义了一个期望的场景即声明某种Pod的副本数量在任意时候都要符合某个预期值. 它由以下几个部分组成: 1. ...
理解 docker 容器中的 uid 和 gid
默认情况下,容器中的进程以 root 用户权限运行,并且这个 root 用户和宿主机中的 root 是同一个用户.听起来是不是很可怕,因为这就意味着一旦容器中的进程有了适当的机会,它就可以控制宿主机上 ...
spring原理案例-基本项目搭建 01 spring framework 下载官网下载spring jar包
下载spring http://spring.io/ 最重要是在特征下面的这段话,需要注意: All avaible features and modules are described in the ...
痞子衡嵌入式：语音处理工具Jays-PySPEECH诞生记（6）- 文语合成实现(pyttsx3, eSpeak1.48.04)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是语音处理工具Jays-PySPEECH诞生之文语合成实现. 文语合成是Jays-PySPEECH的核心功能,Jays-PySPEECH借 ...
java web 项目打包（war 包）并部署
1.在eclipse中右键单击项目,然后Export选择WAR file,生成项目的WAR文件.具体步骤请看图片详细操作步骤: 2.把生成的WAR文件放到tomcat解压之后的webapps文件夹下. ...
第11章使用OpenID Connect添加用户身份验证 - Identity Server 4 中文文档(v1.0.0)
在本快速入门中,我们希望通过OpenID Connect协议向我们的IdentityServer添加对交互式用户身份验证的支持. 一旦到位,我们将创建一个将使用IdentityServer进行身份验证 ...
linuix没有网络
今天在虚拟机安装玩Centos7以后,update报了一个错有两个方法可以解决方法一. 1.打开 vi /etc/sysconfig/network-scripts/ifcfg-ens33(每个机 ...
WPF TabControl Unload俩次的解决方案
WPF中,有些控件会多次触发Unload,有点莫名其妙~ Unload的多次触发 TabControl的内容,我是这么设置的: 在TabItem的CacheSettingView中,监听Loaded/ ...
phpmock测试
随着互联网发展,前后端分离的开发模式兴起,Mock也从以住的幕后走上了台面,让更多的人而得知, 以前传统的开发方式Mock大多局限在后端人员接触较多一些,那么什么是Mock? Mock其实就是真实数据 ...

调参必备---GridSearch网格搜索