使用GridSearchCV寻找最佳参数组合—

# -*- coding: utf-8 -*-

import numpy as np

from sklearn.feature_extraction import FeatureHasher

from sklearn import datasets

from sklearn.ensemble import GradientBoostingClassifier

from sklearn.neighbors import KNeighborsClassifier

import xgboost as xgb

from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import train_test_split

from sklearn import metrics

from matplotlib import pyplot as plt

from sklearn.ensemble import GradientBoostingClassifier

from sklearn.model_selection import GridSearchCV

def report(test_Y, pred_Y):

    print("accuracy_score:")

    print(metrics.accuracy_score(test_Y, pred_Y))

    print("f1_score:")

    print(metrics.f1_score(test_Y, pred_Y))

    print("recall_score:")

    print(metrics.recall_score(test_Y, pred_Y))

    print("precision_score:")

    print(metrics.precision_score(test_Y, pred_Y))

    print("confusion_matrix:")

    print(metrics.confusion_matrix(test_Y, pred_Y))

    print("AUC:")

    print(metrics.roc_auc_score(test_Y, pred_Y))

    f_pos, t_pos, thresh = metrics.roc_curve(test_Y, pred_Y)

    auc_area = metrics.auc(f_pos, t_pos)

    plt.plot(f_pos, t_pos, 'darkorange', lw=2, label='AUC = %.2f' % auc_area)

    plt.legend(loc='lower right')

    plt.plot([0, 1], [0, 1], color='navy', linestyle='--')

    plt.title('ROC')

    plt.ylabel('True Pos Rate')

    plt.xlabel('False Pos Rate')

    plt.show()

if __name__== '__main__':

    x, y = datasets.make_classification(n_samples=1000, n_features=100,n_redundant=0, random_state = 1)

    train_X, test_X, train_Y, test_Y = train_test_split(x,

                                                        y,

                                                        test_size=0.2,

                                                        random_state=66)

    #clf = GradientBoostingClassifier(n_estimators=100)

    #clf.fit(train_X, train_Y)

    #pred_Y = clf.predict(test_X)

    #report(test_Y, pred_Y)

    scoring= "f1"

    parameters ={'n_estimators': range( 50, 200, 25), 'max_depth': range( 2, 10, 2)}

    gsearch = GridSearchCV(estimator= GradientBoostingClassifier(), param_grid= parameters, scoring='accuracy', iid= False, cv= 5)

    gsearch.fit(x, y)

    print("gsearch.best_params_")

    print(gsearch.best_params_)

    print("gsearch.best_score_")

    print(gsearch.best_score_)

效果：

gsearch.best_params_
{'max_depth': 4, 'n_estimators': 100}
gsearch.best_score_
0.868142228555714

使用GridSearchCV寻找最佳参数组合——机器学习工具箱代码的更多相关文章

[转]Python机器学习工具箱
原文在这里 Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: 比较成熟的(广播 ...
【玩转Golang】通过组合嵌入实现代码复用
应用开发中的一个常见情景,为了避免简单重复,需要在基类中实现共用代码,着同样有助于后期维护. 如果在以往的支持类继承的语言中,比如c++,Java,c#等,这很简单!可是go不支持继承,只能mixin ...
机器学习&恶意代码检测简介
Malware detection 目录可执行文件简介检测方法概述资源及参考文献可执行文件简介 ELF(Executable Linkable Format) linux下的可执行文件格式,按 ...
#华为云·寻找黑马程序员#【代码重构之路】如何“消除”if/else
1. 背景 if/else是高级编程语言中最基础的功能,虽然 if/else 是必须的,但滥用 if/else,特别是各种大量的if/else嵌套,会对代码的可读性.可维护性造成很大伤害,对于阅读代码 ...
#华为云·寻找黑马程序员#【代码重构之路】使用Pattern的正确姿势
1.问题在浏览项目时,发现一段使用正则表达式的代码这段代码,在循环里执行了Pattern.matches()方法进行正则匹配判断. 查看matches方法的源码,可以看到每调用一次matches ...
华为云·寻找黑马程序员#【代码重构之路】如何“消除”if/else【华为云技术分享】
1. 背景 if/else是高级编程语言中最基础的功能,虽然 if/else 是必须的,但滥用 if/else,特别是各种大量的if/else嵌套,会对代码的可读性.可维护性造成很大伤害,对于阅读代码 ...
spark 机器学习 knn 代码实现(二)
通过knn 算法规则,计算出s2表中的员工所属的类别原始数据:某公司工资表 s1(训练数据)格式:员工ID,员工类别,工作年限,月薪(K为单位) 101 a类 8年 ...
寻找猴王小游戏php代码
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
机器学习&恶意代码静态检测
目录分析工具方法概述二进制灰度图字节(熵)直方图字符串信息 ELF结构信息源码分析与OPcode FCG references: 分析工具 readelf elfparser ninja ...

随机推荐

Python— 匿名函数
匿名函数匿名函数:为了解决那些功能很简单的需求而设计的 “一句话函数” #初始代码 def calc(n): return n**n print(calc(10)) #换成匿名函数 calc = ...
spring 编译时抱错纪录class path resource [spring/] cannot be resolved to URL because it does not exist
class path resource [spring/] cannot be resolved to URL because it does not exist; 在 pom.xml 里添加如下代码 ...
SUBMIT RM07DOCS【MB51】获取返回清单，抓取标准报表数据
*&---------------------------------------------------------------------* *& Report YT_SUBMIT ...
类百度DOC编辑区域
.mainarea{ position:absolute; top:151px; width:100%; bottom:0px; } .edit_wrap{ background:#fcfcfc; p ...
搭建backup服务器基本流程
守护进程实现,将daemon配置在backup服务器,因为这样其他服务器就能通过服务推即可. 服务端配置流程: 前提两台服务41为backup服务 31是其他服务器即客户端在41服务器中配置 ...
蓝牙固件升级（OTA升级）原理设计
转:http://blog.csdn.net/yueqian_scut/article/details/50849033 固件空中升级(OTA)与固件二次引导的原理和设计原创 2016年03月10日 ...
Django框架之HTTP本质
1.Http请求本质浏览器(socket客户端): socket.connect(ip,端口) socket.send("http://www.xiaohuar.com/index.htm ...
CSS3动画库animate.css
在线演示本地下载
INSPIRED启示录读书笔记 - 第35章情感接纳曲线
技术接纳曲线涉及了技术创新者.尝鲜者.早期消费大众.后期消费大众和跟随者,很少有产品能越过鸿沟——获得尝鲜者以外消费者的青睐不同类型的用户具有不同的情感需求,除了技术接纳曲线模型描述用户外,还应该 ...
斯坦福机器学习视频笔记 Week9 异常检测和高斯混合模型 Anomaly Detection
异常检测,广泛用于欺诈检测(例如“此信用卡被盗?”). 给定大量的数据点,我们有时可能想要找出哪些与平均值有显着差异. 例如,在制造中,我们可能想要检测缺陷或异常. 我们展示了如何使用高斯分布来建模数 ...

使用GridSearchCV寻找最佳参数组合——机器学习工具箱代码

使用GridSearchCV寻找最佳参数组合——机器学习工具箱代码的更多相关文章

随机推荐

热门专题