机器学习之路：python 网格搜索并行搜索 GridSearchCV 模型检验方法

git：https://github.com/linyi0604/MachineLearning

如何确定一个模型应该使用哪种参数？

k折交叉验证：
   将样本分成k份
   每次取其中一份做测试数据 其他做训练数据 
   一共进行k次训练和测试
   用这种方式 充分利用样本数据，评估模型在样本上的表现情况

网格搜索：
    一种暴力枚举搜索方法
    对模型参数列举出集中可能，
    对所有列举出的可能组合进行模型评估
    从而找到最好的模型参数

并行搜索：
    由于每一种参数组合互相是独立不影响的
    所有可以开启多线程进行网格搜索
    这种方式为并行搜索


python实现的代码：

 from sklearn.datasets import fetch_20newsgroups

 from sklearn.cross_validation import train_test_split

 import numpy as np

 from sklearn.svm import SVC

 from sklearn.feature_extraction.text import TfidfVectorizer

 from sklearn.pipeline import Pipeline

 from sklearn.grid_search import GridSearchCV

 # 博文： http://www.cnblogs.com/Lin-Yi/p/9000989.html

 '''

 如何确定一个模型应该使用哪种参数？

 k折交叉验证：

    将样本分成k份

    每次取其中一份做测试数据 其他做训练数据

    一共进行k次训练和测试

    用这种方式 充分利用样本数据，评估模型在样本上的表现情况

 网格搜索：

     一种暴力枚举搜索方法

     对模型参数列举出集中可能，

     对所有列举出的可能组合进行模型评估

     从而找到最好的模型参数

 并行搜索：

     由于每一种参数组合互相是独立不影响的

     所有可以开启多线程进行网格搜索

     这种方式为并行搜索

 '''

 # 联网获取所有想你问数据

 news = fetch_20newsgroups(subset="all")

 # 分割训练数据和测试数据

 x_train, x_test, y_train, y_test = train_test_split(news.data[:3000],

                                                     news.target[:3000],

                                                     test_size=0.25,

                                                     random_state=33)

 # 使用pipeline简化系统搭建流程

 clf = Pipeline([("vect", TfidfVectorizer(stop_words="english", analyzer="word")), ("svc", SVC())])

 # 这里要实验的超参数有两个  4个svg__gama 和 3个svg__C 一共12种组合

 # np.logspace(start, end, num) 从10^start 到 10^end 创建num个数的等比数列

 parameters = {"svc__gamma": np.logspace(-2, 1, 4), "svc__C": np.logspace(-1, 1, 3)}

 # 网格搜索

 # 创建一个网格搜索: 12组参数组合， 3折交叉验证

 gs = GridSearchCV(clf, parameters, verbose=2, refit=True, cv=3)

 # 设置n_jobs=-1 表示占用所有cpu开线程   5表示开启5个同步任务

 # windows下不支持fork开启线程 所有 linux unix mac 可以用该api

 # gs = GridSearchCV(clf, parameters, verbose=2, refit=True, cv=3, n_jobs=-1)

 # 执行单线程网格搜索

 time_ = gs.fit(x_train, y_train)

 print(time_)

 print(gs.best_params_, gs.best_score_)

 # 输出最佳模型在测试机和上的准确性

 print(gs.score(x_test, y_test))

 '''

 Fitting 3 folds for each of 12 candidates, totalling 36 fits

 [CV] svc__C=0.1, svc__gamma=0.01 .....................................

 [CV] ............................ svc__C=0.1, svc__gamma=0.01 -   8.3s

 [Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    8.3s remaining:    0.0s

 [CV] svc__C=0.1, svc__gamma=0.01 .....................................

 [CV] ............................ svc__C=0.1, svc__gamma=0.01 -   8.5s

 [CV] svc__C=0.1, svc__gamma=0.01 .....................................

 [CV] ............................ svc__C=0.1, svc__gamma=0.01 -   8.5s

 [CV] svc__C=0.1, svc__gamma=0.1 ......................................

 [CV] ............................. svc__C=0.1, svc__gamma=0.1 -   8.4s

 [CV] svc__C=0.1, svc__gamma=0.1 ......................................

 [CV] ............................. svc__C=0.1, svc__gamma=0.1 -   8.5s

 [CV] svc__C=0.1, svc__gamma=0.1 ......................................

 [CV] ............................. svc__C=0.1, svc__gamma=0.1 -   8.5s

 [CV] svc__C=0.1, svc__gamma=1.0 ......................................

 [CV] ............................. svc__C=0.1, svc__gamma=1.0 -   8.4s

 [CV] svc__C=0.1, svc__gamma=1.0 ......................................

 [CV] ............................. svc__C=0.1, svc__gamma=1.0 -   8.6s

 [CV] svc__C=0.1, svc__gamma=1.0 ......................................

 [CV] ............................. svc__C=0.1, svc__gamma=1.0 -   8.6s

 [CV] svc__C=0.1, svc__gamma=10.0 .....................................

 [CV] ............................ svc__C=0.1, svc__gamma=10.0 -   8.5s

 [CV] svc__C=0.1, svc__gamma=10.0 .....................................

 [CV] ............................ svc__C=0.1, svc__gamma=10.0 -   8.6s

 [CV] svc__C=0.1, svc__gamma=10.0 .....................................

 [CV] ............................ svc__C=0.1, svc__gamma=10.0 -   8.7s

 [CV] svc__C=1.0, svc__gamma=0.01 .....................................

 [CV] ............................ svc__C=1.0, svc__gamma=0.01 -   8.3s

 [CV] svc__C=1.0, svc__gamma=0.01 .....................................

 [CV] ............................ svc__C=1.0, svc__gamma=0.01 -   8.4s

 [CV] svc__C=1.0, svc__gamma=0.01 .....................................

 [CV] ............................ svc__C=1.0, svc__gamma=0.01 -   8.5s

 [CV] svc__C=1.0, svc__gamma=0.1 ......................................

 [CV] ............................. svc__C=1.0, svc__gamma=0.1 -   8.3s

 [CV] svc__C=1.0, svc__gamma=0.1 ......................................

 [CV] ............................. svc__C=1.0, svc__gamma=0.1 -   8.4s

 [CV] svc__C=1.0, svc__gamma=0.1 ......................................

 [CV] ............................. svc__C=1.0, svc__gamma=0.1 -   8.5s

 [CV] svc__C=1.0, svc__gamma=1.0 ......................................

 [CV] ............................. svc__C=1.0, svc__gamma=1.0 -   8.5s

 [CV] svc__C=1.0, svc__gamma=1.0 ......................................

 [CV] ............................. svc__C=1.0, svc__gamma=1.0 -   8.6s

 [CV] svc__C=1.0, svc__gamma=1.0 ......................................

 [CV] ............................. svc__C=1.0, svc__gamma=1.0 -   8.7s

 [CV] svc__C=1.0, svc__gamma=10.0 .....................................

 [CV] ............................ svc__C=1.0, svc__gamma=10.0 -   8.5s

 [CV] svc__C=1.0, svc__gamma=10.0 .....................................

 [CV] ............................ svc__C=1.0, svc__gamma=10.0 -   8.6s

 [CV] svc__C=1.0, svc__gamma=10.0 .....................................

 [CV] ............................ svc__C=1.0, svc__gamma=10.0 -   8.7s

 [CV] svc__C=10.0, svc__gamma=0.01 ....................................

 [CV] ........................... svc__C=10.0, svc__gamma=0.01 -   8.4s

 [CV] svc__C=10.0, svc__gamma=0.01 ....................................

 [CV] ........................... svc__C=10.0, svc__gamma=0.01 -   8.4s

 [CV] svc__C=10.0, svc__gamma=0.01 ....................................

 [CV] ........................... svc__C=10.0, svc__gamma=0.01 -   8.7s

 [CV] svc__C=10.0, svc__gamma=0.1 .....................................

 [CV] ............................ svc__C=10.0, svc__gamma=0.1 -   8.6s

 [CV] svc__C=10.0, svc__gamma=0.1 .....................................

 [CV] ............................ svc__C=10.0, svc__gamma=0.1 -   8.6s

 [CV] svc__C=10.0, svc__gamma=0.1 .....................................

 [CV] ............................ svc__C=10.0, svc__gamma=0.1 -   8.6s

 [CV] svc__C=10.0, svc__gamma=1.0 .....................................

 [CV] ............................ svc__C=10.0, svc__gamma=1.0 -   8.5s

 [CV] svc__C=10.0, svc__gamma=1.0 .....................................

 [CV] ............................ svc__C=10.0, svc__gamma=1.0 -   8.6s

 [CV] svc__C=10.0, svc__gamma=1.0 .....................................

 [CV] ............................ svc__C=10.0, svc__gamma=1.0 -   9.3s

 [CV] svc__C=10.0, svc__gamma=10.0 ....................................

 [CV] ........................... svc__C=10.0, svc__gamma=10.0 -   8.8s

 [CV] svc__C=10.0, svc__gamma=10.0 ....................................

 [CV] ........................... svc__C=10.0, svc__gamma=10.0 -   8.9s

 [CV] svc__C=10.0, svc__gamma=10.0 ....................................

 [CV] ........................... svc__C=10.0, svc__gamma=10.0 -   8.7s

 12组超参数 3折交叉验证 共36个搜索项 花费5.2分钟

 [Parallel(n_jobs=1)]: Done  36 out of  36 | elapsed:  5.2min finished

 最佳参数   最佳训练得分

 {'svc__C': 10.0, 'svc__gamma': 0.1} 0.7906666666666666

 最佳模型的测试得分

 0.8226666666666667

 '''

机器学习之路：python 网格搜索并行搜索 GridSearchCV 模型检验方法的更多相关文章

机器学习算法中的网格搜索GridSearch实现（以k-近邻算法参数寻最优为例）
机器学习算法参数的网格搜索实现: //2019.08.031.scikitlearn库中调用网格搜索的方法为:Grid search,它的搜索方式比较统一简单,其对于算法批判的标准比较复杂,是一种复合 ...
机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
机器学习之路--Python
常用数据结构 1.list 列表有序集合 classmates = ['Michael', 'Bob', 'Tracy'] len(classmates) classmates[0] len(cla ...
机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价
python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import ...
机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价
python3学习使用api 线性回归,和随机参数回归 git: https://github.com/linyi0604/MachineLearning from sklearn.datasets ...
机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存
使用python3 学习了决策树分类器的api 涉及到特征的提取,数据类型保留,分类类型抽取出来新的类型需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https: ...
Python机器学习笔记 Grid SearchCV（网格搜索）
在机器学习模型中,需要人工选择的参数称为超参数.比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定.超参数选择不恰当,就会出现欠拟合或者 ...
Python之网格搜索与检查验证-5.2
一.网格搜索,在我们不确定超参数的时候,需要通过不断验证超参数,来确定最优的参数值.这个过程就是在不断,搜索最优的参数值,这个过程也就称为网格搜索. 二.检查验证,将准备好的训练数据进行平均拆分,分为 ...
机器学习笔记——模型调参利器 GridSearchCV（网格搜索）参数的说明
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大 ...

随机推荐

Multidimensional Queries（二进制枚举+线段树+Educational Codeforces Round 56 (Rated for Div. 2)）
题目链接: https://codeforces.com/contest/1093/problem/G 题目: 题意: 在k维空间中有n个点,每次给你两种操作,一种是将某一个点的坐标改为另一个坐标,一 ...
log4net记录系统错误日志到文本文件用法详解（最新）
此配置文件可以直接拿来用,配置文件上面有详细用法说明,里面也有详细注释说明.此配置文件涵盖按照日期记录和按照文件大小(建议)的实例. 又包括:按照Fatal.Info.Error.Debug.Warn ...
企业日志大数据分析系统ELK+KAFKA实现【转】
背景: 最近线上上了ELK,但是只用了一台Redis在中间作为消息队列,以减轻前端es集群的压力,Redis的集群解决方案暂时没有接触过,并且Redis作为消息队列并不是它的强项:所以最近将Redis ...
ASP.NET中Literal,只增加纯粹的内容，不附加产生html代码
页面代码 <div style="float: right; color: #666; line-height: 30px; margin-right: 12px;" id= ...
POJ 2186 Popular Cows(强联通分量)
题目链接:http://poj.org/problem?id=2186 题目大意: 每一头牛的愿望就是变成一头最受欢迎的牛.现在有N头牛,给你M对整数(A,B),表示牛A认为牛B受欢迎. 这种 ...
R语言学习笔记：choose、factorial、combn排列组合函数
一.总结组合数:choose(n,k) —— 从n个中选出k个阶乘:factorial(k) —— k! 排列数:choose(n,k) * factorial(k) 幂:^ 余数:%% 整数商: ...
Jmeter的接口测试简介
一.安装Jmeter Jmeter官方首页:http://jmeter.apache. ...
Delphi与Socket
一.Delphi与Socket计算机网络是由一系列网络通信协议组成的,其中的核心协议是传输层的TCPIP和UDP协议.TCP是面向连接的,通信双方保持一条通路,好比目前的电话线,使用telnet登陆B ...
HTML5练习2
1.邮箱注册网页主要代码: <!doctype html> <html> <meta charset="utf-8"> <title&g ...
CCF CSP 201412-2 Z字形扫描
CCF计算机职业资格认证考试题解系列文章为meelo原创,请务必以链接形式注明本文地址 CCF CSP 201412-2 Z字形扫描问题描述在图像编码的算法中,需要将一个给定的方形矩阵进行Z字形扫 ...

机器学习之路：python 网格搜索 并行搜索 GridSearchCV 模型检验方法

机器学习之路：python 网格搜索 并行搜索 GridSearchCV 模型检验方法的更多相关文章

随机推荐

热门专题

机器学习之路：python 网格搜索并行搜索 GridSearchCV 模型检验方法

机器学习之路：python 网格搜索并行搜索 GridSearchCV 模型检验方法的更多相关文章