scikit-learn网格搜索来进行高效的参数调优

内容概要¶

如何使用K折交叉验证来搜索最优调节参数
如何让搜索参数的流程更加高效
如何一次性的搜索多个调节参数
在进行真正的预测之前，如何对调节参数进行处理
如何削减该过程的计算代价

1. K折交叉验证回顾¶

交叉验证的过程

选择K的值（一般是10），将数据集分成K等份
使用其中的K-1份数据作为训练数据，另外一份数据作为测试数据，进行模型的训练
使用一种度量测度来衡量模型的预测性能

交叉验证的优点

交叉验证通过降低模型在一次数据分割中性能表现上的方差来保证模型性能的稳定性
交叉验证可以用于选择调节参数、比较模型性能差别、选择特征

交叉验证的缺点

交叉验证带来一定的计算代价，尤其是当数据集很大的时候，导致计算过程会变得很慢

2. 使用GridSearchCV进行高效调参¶

GridSearchCV根据你给定的模型自动进行交叉验证，通过调节每一个参数来跟踪评分结果，实际上，该过程代替了进行参数搜索时的for循环过程。

from sklearn.datasets import load_iris

from sklearn.neighbors import KNeighborsClassifier

import matplotlib.pyplot as plt

from sklearn.model_selection import GridSearchCV

iris = load_iris()

# create X (features) and y (response)

X = iris.data

y = iris.target

# define the parameter values that should be searched

k_range =[i for i in range(1, 31)]

# create a parameter grid: map the parameter names to the values that should be searched

# 下面是构建parameter grid，其结构是key为参数名称，value是待搜索的数值列表的一个字典结构

param_grid = dict(n_neighbors=k_range)

knn = KNeighborsClassifier(n_neighbors=5)

# instantiate the grid

# 这里GridSearchCV的参数形式和cross_val_score的形式差不多，其中param_grid是parameter grid所对应的参数

# GridSearchCV中的n_jobs设置为-1时，可以实现并行计算（如果你的电脑支持的情况下）

grid = GridSearchCV(knn, param_grid, cv=10, scoring='accuracy')

# 我们可以知道，这里的grid search针对每个参数进行了10次交叉验证，并且一共对30个参数进行相同过程的交叉验证

grid.fit(X, y)

# create a list of the mean scores only

print(grid.best_estimator_)

3. 同时对多个参数进行搜索¶

这里我们使用knn的两个参数，分别是n_neighbors和weights，其中weights参数默认是uniform，该参数将所有数据看成等同的，而另一值是distance，它将近邻的数据赋予更高的权重，而较远的数据赋予较低权重。

from sklearn.datasets import load_iris

from sklearn.neighbors import KNeighborsClassifier

import matplotlib.pyplot as plt

from sklearn.model_selection import GridSearchCV

iris = load_iris()

# create X (features) and y (response)

X = iris.data

y = iris.target

# define the parameter values that should be searched

k_range =[i for i in range(1, 31)]

weight_options=['uniform','distance']

# create a parameter grid: map the parameter names to the values that should be searched

# 下面是构建parameter grid，其结构是key为参数名称，value是待搜索的数值列表的一个字典结构

param_grid = dict(n_neighbors=k_range,weights=weight_options)

knn = KNeighborsClassifier(n_neighbors=5)

# instantiate the grid

# 这里GridSearchCV的参数形式和cross_val_score的形式差不多，其中param_grid是parameter grid所对应的参数

# GridSearchCV中的n_jobs设置为-1时，可以实现并行计算（如果你的电脑支持的情况下）

grid = GridSearchCV(knn, param_grid, cv=10, scoring='accuracy')

# 我们可以知道，这里的grid search针对每个参数进行了10次交叉验证，并且一共对30个参数进行相同过程的交叉验证

grid.fit(X, y)

# create a list of the mean scores only

print(grid.best_estimator_)

4. 使用最佳参数做出预测¶

knn = KNeighborsClassifier(n_neighbors=13, weights='uniform')

knn.fit(X, y)

# make a prediction on out-of-sample data

knn.predict([3, 5, 4, 2])

5. 使用RandomizeSearchCV来降低计算代价¶

RandomizeSearchCV用于解决多个参数的搜索过程中计算代价过高的问题
RandomizeSearchCV搜索参数中的一个子集，这样你可以控制计算代价

当你的调节参数是连续的，比如回归问题的正则化参数，有必要指定一个连续分布而不是可能值的列表，这样RandomizeSearchCV就可以执行更好的grid search。

scikit-learn网格搜索来进行高效的参数调优的更多相关文章

支持向量机(SVM)利用网格搜索和交叉验证进行参数选择
上一回有个读者问我:回归模型与分类模型的区别在哪?有什么不同,我在这里给他回答一下 : : : : 回归问题通常是用来预测一个值,如预测房价.未来的天气情况等等,例如一个产品的实际价格为500元,通过 ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优（转）
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...
[Elasticsearch2.x] 多字段搜索 (二) - 最佳字段查询及其调优 <译>
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/ { "title": "Q ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
调参必备---GridSearch网格搜索
什么是Grid Search 网格搜索? Grid Search:一种调参手段:穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果.其原理就像是在数组里找最 ...
Sklearn-GridSearchCV网格搜索
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大 ...
Python机器学习笔记 Grid SearchCV（网格搜索）
在机器学习模型中,需要人工选择的参数称为超参数.比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定.超参数选择不恰当,就会出现欠拟合或者 ...
Python之网格搜索与检查验证-5.2
一.网格搜索,在我们不确定超参数的时候,需要通过不断验证超参数,来确定最优的参数值.这个过程就是在不断,搜索最优的参数值,这个过程也就称为网格搜索. 二.检查验证,将准备好的训练数据进行平均拆分,分为 ...

随机推荐

vue 请求图片方法
node的每一个文件,都是一个域,那么里面所有的变量都不允许被外界引用,除非导出.要使用外界的变量,也必须使用导入的方式来导入.import 文件路径. css可以直接使用import +文件路径导入 ...
MySQL批量插入的分析以及注意事项
目录 1.背景 2.两种方式对比 2.1.一次插入一条数据 2.2.一次插入多条数据 3.拓展一下 4.Other 1.背景我们在工作中基本都会碰到批量插入数据到DB的情况,这个时候我们就需要根据不 ...
Appium的加载过程
appium运行流程 Appium的加载过程如上图. 1)调用Android adb完成基本的系统操作: 2)向Android上部署bootstrap.jar: 3)Bootstrap.jar For ...
CSPS_107
和教练谈话.jpg T1 枚举不动位置,枚举字母,可以$O(n^2)$ T2 暴筛 70 但是考虑枚举$m^{\frac{1}{3}}$之内的质数(怎么想到啊) 把它们消去以后,设剩下数x 若x含有平 ...
【ObjectC—浅copy和深copy】
一.OC设计copy的目的为了能够从源对象copy一个新的对象副本,改变新对象(副本)的时候,不会影响到原来的对象. 二.实现copy协议 OC提供了两种copy方法:copy和mutableCop ...
关于js中函数的一点总结
1函数中this作用域 this根据当前环境来决定作用域,可以使用call和apply的方法来改变当前的this指向 <script> var name = "global&qu ...
java.io.StreamCorruptedException: invalid stream header: 00000000
Caused by: java.io.StreamCorruptedException: invalid stream header: 00000000 at java.io.ObjectInputS ...
JAVA Rest High Level Client如何取聚合后得数据
对于刚刚学习es的童鞋来说,很容易不清楚怎么获取客户端对es文档的聚合结果,下面就演示一下模仿DSL写聚合,然后获取到聚合对结果. 一, 对于下面这个简单的聚合,目的是对于文档全文匹配,聚合颜色字段. ...
腾讯开源进入爆发期，Plato助推十亿级节点图计算进入分钟级时代
腾讯开源再次迎来重磅项目,14日,腾讯正式宣布开源高性能图计算框架Plato,这是在短短一周之内,开源的第五个重大项目. 相对于目前全球范围内其它的图计算框架,Plato可满足十亿级节点的超大规模图计 ...
python习题——随机整数生成类
随机整数生成类可以先设定一批生成数字的个数,可设定指定生成的数值的范围 1.普通类实现 import random import random class RandomGen: def __init ...