GridSearchCV和RandomizedSearchCV调参

1 GridSearchCV实际上可以看做是for循环输入一组参数后再比较哪种情况下最优.

使用GirdSearchCV模板

# Use scikit-learn to grid search the batch size and epochs

import numpy

from sklearn.model_selection import GridSearchCV

from keras.models import Sequential

from keras.layers import Dense

from keras.wrappers.scikit_learn import KerasClassifier

import pandas as pd

import os

os.environ["CUDA_VISIBLE_DEVICES"] = ""

# Function to create model, required for KerasClassifier

def create_model(optimizer='adam'):

    # create model

    model = Sequential()

    model.add(Dense(12, input_dim=8, activation='relu'))

    model.add(Dense(1, activation='sigmoid'))

    # Compile model

    model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy'])

    return model

# fix random seed for reproducibility

seed = 7

numpy.random.seed(seed)

# load dataset

dataset = pd.read_csv('diabetes.csv', )

# split into input (X) and output (Y) variables

X = dataset[['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness',

             'Insulin','BMI', 'DiabetesPedigreeFunction', 'Age']]

Y = dataset['Outcome']

# create model

model = KerasClassifier(build_fn=create_model, epochs=100, batch_size=10, verbose=0)

# define the grid search parameters

optimizer = ['SGD', 'RMSprop', 'Adagrad', 'Adadelta', 'Adam', 'Adamax', 'Nadam']

param_grid = dict(optimizer=optimizer)

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1)

grid_result = grid.fit(X, Y)

# summarize results

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))

print(grid_result)

print('kkkk')

print(grid_result.cv_results_)

means = grid_result.cv_results_['mean_test_score']

stds = grid_result.cv_results_['std_test_score']

params = grid_result.cv_results_['params']

for mean, stdev, param in zip(means, stds, params):

    print("%f (%f) with: %r" % (mean, stdev, param))

参考：https://machinelearningmastery.com/grid-search-hyperparameters-deep-learning-models-python-keras/

https://blog.csdn.net/weixin_41988628/article/details/83098130

利用随机搜索实现鸢尾花调参,

from sklearn.datasets import load_iris  # 自带的样本数据集

from sklearn.neighbors import KNeighborsClassifier  # 要估计的是knn里面的参数，包括k的取值和样本权重分布方式

import matplotlib.pyplot as plt  # 可视化绘图

from sklearn.model_selection import GridSearchCV,RandomizedSearchCV  # 网格搜索和随机搜索

import pandas as pd

iris = pd.read_csv('../data/iris.csv', )

print(iris.head())

print(iris.columns)

X = iris[['Sepal.Length', 'Sepal.Width', 'Petal.Length','Petal.Width']]  # 150个样本，4个属性

y = iris['Species'] # 150个类标号

k_range = range(1, 31)  # 优化参数k的取值范围

weight_options = ['uniform', 'distance']  # 代估参数权重的取值范围。uniform为统一取权值，distance表示距离倒数取权值

# 下面是构建parameter grid，其结构是key为参数名称，value是待搜索的数值列表的一个字典结构

param_grid = {'n_neighbors':k_range,'weights':weight_options}  # 定义优化参数字典，字典中的key值必须是分类算法的函数的参数名

print(param_grid)

knn = KNeighborsClassifier(n_neighbors=5)  # 定义分类算法。n_neighbors和weights的参数名称和param_grid字典中的key名对应

# ================================网格搜索=======================================

# 这里GridSearchCV的参数形式和cross_val_score的形式差不多，其中param_grid是parameter grid所对应的参数

# GridSearchCV中的n_jobs设置为-1时，可以实现并行计算（如果你的电脑支持的情况下）

grid = GridSearchCV(estimator = knn, param_grid = param_grid, cv=10, scoring='accuracy') #针对每个参数对进行了10次交叉验证。scoring='accuracy'使用准确率为结果的度量指标。可以添加多个度量指标

grid.fit(X, y)

print('网格搜索-度量记录：',grid.cv_results_)  # 包含每次训练的相关信息

print('网格搜索-最佳度量值:',grid.best_score_)  # 获取最佳度量值

print('网格搜索-最佳参数：',grid.best_params_)  # 获取最佳度量值时的代定参数的值。是一个字典

print('网格搜索-最佳模型：',grid.best_estimator_)  # 获取最佳度量时的分类器模型

# 使用获取的最佳参数生成模型，预测数据

knn = KNeighborsClassifier(n_neighbors=grid.best_params_['n_neighbors'], weights=grid.best_params_['weights'])  # 取出最佳参数进行建模

knn.fit(X, y)  # 训练模型

print(knn.predict([[3, 5, 4, 2]]))  # 预测新对象

# =====================================随机搜索===========================================

rand = RandomizedSearchCV(knn, param_grid, cv=10, scoring='accuracy', n_iter=10, random_state=5)  #

rand.fit(X, y)

print('随机搜索-度量记录：',grid.cv_results_)  # 包含每次训练的相关信息

print('随机搜索-最佳度量值:',grid.best_score_)  # 获取最佳度量值

print('随机搜索-最佳参数：',grid.best_params_)  # 获取最佳度量值时的代定参数的值。是一个字典

print('随机搜索-最佳模型：',grid.best_estimator_)  # 获取最佳度量时的分类器模型

# 使用获取的最佳参数生成模型，预测数据

knn = KNeighborsClassifier(n_neighbors=grid.best_params_['n_neighbors'], weights=grid.best_params_['weights'])  # 取出最佳参数进行建模

knn.fit(X, y)  # 训练模型

print(knn.predict([[3, 5, 4, 2]]))  # 预测新对象

# =====================================自定义度量===========================================

from sklearn import metrics

# 自定义度量函数

def scorerfun(estimator, X, y):

    y_pred = estimator.predict(X)

    return metrics.accuracy_score(y, y_pred)

rand = RandomizedSearchCV(knn, param_grid, cv=10, scoring='accuracy', n_iter=10, random_state=5)  #

rand.fit(X, y)

print('随机搜索-最佳度量值:',grid.best_score_)  # 获取最佳度量值

参考：https://blog.csdn.net/luanpeng825485697/article/details/79831703

GridSearchCV和RandomizedSearchCV调参的更多相关文章

GridSearchCV 与 RandomizedSearchCV 调参
GridSearchCV GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证. 这两个概念都比较好理解,网格搜索,搜索的是参数,即在指定的参数范 ...
GridsearchCV调参
在利用gridseachcv进行调参时,其中关于scoring可以填的参数在SKlearn中没有写清楚,就自己找了下,具体如下: parameters = {'eps':[0.3,0.4,0.5,0. ...
机器学习笔记——模型调参利器 GridSearchCV（网格搜索）参数的说明
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大 ...
python 机器学习中模型评估和调参
在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题先展示先通常的做法 import pandas as pd f ...
scikit-learn随机森林调参小结
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注 ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
调参必备---GridSearch网格搜索
什么是Grid Search 网格搜索? Grid Search:一种调参手段:穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果.其原理就像是在数组里找最 ...
LightGBM 调参方法（具体操作）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

随机推荐

C++实现简单的日志记录
C++实现简单的日志记录 //dlogger.h #ifndef DLOGGER_H #define DLOGGER_H #include <iostream> #include < ...
luogu P1224 [NOI2013]向量内积
传送门挺有意思的一道题暴力60就是枚举每个向量暴力check,随机选向量就能多骗一些分然后两个向量内积要模$k$为$0$,那么如果全部不为$0$就不合法.先考虑$k=2$,对于向 ...
ubuntu install xsltproc docbook-xsl docbook-xml
问题一: $ makexsltproc --output phtml/ param.xsl ./pxml/mainbook.xmlmake: xsltproc: Command not foundma ...
mktemp - 产生唯一的临时文件名
总览 (SYNOPSIS) mktemp [-q ] [-u ] template 描述 (DESCRIPTION) mktemp 根据给定的文件名模板, 改变其中的一部分, 从而生成临时 ...
<mvc:argument-resolvers> 自定义注解处理参数
直接看引自: http://blog.csdn.net/u013160932/article/details/50609092
计蒜客蓝桥模拟 A. 结果填空：矩阵求和
给你一个从 n×nn \times nn×n 的矩阵,里面填充 111 到 n×nn \times nn×n .例如当 nnn 等于 333 的时候,填充的矩阵如下. 1 1 2 3 2 4 5 ...
什么原因？全球许多网络提供商推迟部署IPv6
全球许多网络提供商推迟部署IPv6,指出升级路由器和交换机的成本以及NAT为扩展IPv4地址所取得的令人印象深刻的成就. 这并没有阻止像澳门CTM这样的互联网服务供应商不要冒险,以此为榜样,并且满足终 ...
Mongodb的几条命令
最近.... #设置用户名密码db.createUser({user: 'root', pwd: '123456', roles: ['root']}) #开启认证nohup mongod --aut ...
【leetcode】523. Continuous Subarray Sum
题目如下: 解题思路:本题需要用到这么一个数学定理.对于任意三个整数a,b,k(k !=0),如果 a%k = b%k,那么(a-b)%k = 0.利用这个定理,我们可以对数组从头开始进行求和,同时利 ...
部署至Oracle数据库的注意事项
部署至Oracle数据库的注意事项安装数据库之前1)检查计算机名,如果是乱码,改一下名字 2)有杀毒软件,能关则关但是最好征求用户的同意 3)装两个一起解压databa ...

GridSearchCV和RandomizedSearchCV调参

GridSearchCV和RandomizedSearchCV调参的更多相关文章

随机推荐

热门专题