scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）

scikit learn 模块 调参 pipeline+girdsearch 数据举例：文档分类数据集 fetch_20newsgroups

#-*- coding: UTF-8 -*-

import numpy as np

from sklearn.pipeline import Pipeline

from sklearn.linear_model import SGDClassifier

from sklearn.grid_search import GridSearchCV

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.datasets import fetch_20newsgroups

from sklearn import metrics

获取待分类的文本数据源

categories = ['comp.graphics', 'comp.os.ms-windows.misc','comp.sys.ibm.pc.hardware','comp.sys.mac.hardware','comp.windows.x'];

newsgroup_data = fetch_20newsgroups(subset = 'train',categories = categories)

X,Y=np.array(newsgroup_data.data),np.array(newsgroup_data.target)

Xtrain,Ytrain,Xtest,Ytest =X[0:2400],Y[0:2400],X[2400:],Y[2400:]

#Pipeline主要用于将三个需要串行的模块串在一起，后一个模型处理前一个的结果'''

#vect主要用于去音调、转小写、去停顿词->tdidf主要用于计词频->clf分类模型'''

pipeline_obj = Pipeline([('vect',CountVectorizer()),('tfidf',TfidfTransformer()),('clf',SGDClassifier()),])

print "pipeline:",'\n', [name for name, _ in pipeline_obj.steps],'\n'

#定义需要遍历的所有候选参数的字典，key_name需要用__分隔模型名和模型内部的参数名'''

parameters = {

    'vect__max_df': (0.5, 0.75),'vect__max_features': (None, 5000, 10000),

    'tfidf__use_idf': (True, False),'tfidf__norm': ('l1', 'l2'),

    'clf__alpha': (0.00001, 0.000001), 'clf__n_iter': (10, 50) }

print "parameters:",'\n',parameters,'\n'

#GridSearchCV用于寻找vectorizer词频统计, tfidftransformer特征变换和SGD classifier分类模型的最优参数

grid_search = GridSearchCV( pipeline_obj, parameters, n_jobs = 1,verbose=1 )

print 'grid_search','\n',grid_search,'\n' #输出所有参数名及参数候选值

grid_search.fit(Xtrain,Ytrain),'\n'#遍历执行候选参数，寻找最优参数

best_parameters = dict(grid_search.best_estimator_.get_params())#get实例中的最优参数

for param_name in sorted(parameters.keys()):

    print("\t%s: %r" % (param_name, best_parameters[param_name])),'\n'#输出最有参数结果

pipeline_obj.set_params(clf__alpha = 1e-05,clf__n_iter = 50,tfidf__use_idf = True,vect__max_df = 0.5,vect__max_features = None)

#将pipeline_obj实例中的参数重写为最优结果'''

print pipeline_obj.named_steps

#用最优参数训练模型'''

pipeline_obj.fit(Xtrain,Ytrain)

pred = pipeline_obj.predict(Xtrain)

print '\n',metrics.classification_report(Ytrain,pred)

pred = pipeline_obj.predict(Xtest)

print '\n',metrics.classification_report(Ytest,pred)

执行结果：总共有96个参数排列组合候选组，每组跑3次模型进行交叉验证，共计跑模型96*3=288次。

调参前VS调参后：

#参考

#http://blog.csdn.net/mmc2015/article/details/46991465
# http://blog.csdn.net/abcjennifer/article/details/23884761
# http://scikit-learn.org/stable/modules/pipeline.html
# http://blog.csdn.net/yuanyu5237/article/details/44278759

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）的更多相关文章

JIRA6.36-7.23数据迁移文档
JIRA6.3.6-JIRA7.2.3数据迁移文档安装JIRA7.2.3 安装包位于服务器/opt/SOFTWARE_PACKAGE目录下建立JIRA安装的目录数据目录 cd /opt mkdir ...
CTO也糊涂的常用术语：功能模块、业务架构、用户需求、文档……
功能模块.业务架构.需求分析.用户需求.系统分析.功能设计.详细设计.文档.业务.技术--很多被随口使用的名词,其实是含糊甚至错误的. 到底含糊在哪里,错误在哪里,不仅仅是新手软件开发人员糊涂,许多入 ...
百度地图点集文档使用python的re模块处理成json的相关写法
这个实在不好起名字.写这个还不是因为被渣度坑的不要不要的.为什么说他坑呢.参考一下这两个截图的txt文档: 文档资源下载地址: http://lbsyun.baidu.com/index.php?t ...
configparser模块——用于生成和修改常见配置文档
配置文档格式 [DEFAULT] ServerAliveInterval = 45 Compression = yes CompressionLevel = 9 ForwardX11 = yes [b ...
PHP生成文档，并把数据加入文档的小案例
PHP生成文档,可以利用file_put_contents($filename, $data),其中$filename表示文档名,$data表示需要放入的数据, 若存放的是数组,这还需要使用seria ...
linux 系统中将数据写入文档不能立即保存问题的解决方法
应用场景: 设备跑的是Linux系统,与PC上位机进行通信,上位机可以给Linux发送设备配置信息,Linux将配置信息写入文件中以备设备断电重启时使用. bug现象: 设备正常运行,设备配置信息为A ...
Dom4j解析语音数据XML文档（注意ArrayList多次添加对象，会导致覆盖之前的对象）
今天做的一个用dom4j解析声音文本的xml文档时,我用ArrayList来存储每一个Item的信息,要注意ArrayList多次添加对象,会导致覆盖之前的对象:解决方案是在最后将对象添加入Array ...
大数据相关文档&Api下载
IT相关文档&Api下载(不断更新中) 下载地址:https://download.csdn.net/user/qq_42797237/uploads 如有没有你需要的API,可和我留言,留下 ...
sklearn-GBDT 调参
1. scikit-learn GBDT类库概述在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegre ...

随机推荐

字符串查找 strstr
strstr函数分类: LINUX 函数名: strstr 功能: 在串中查找指定字符串的第一次出现用法: char *strstr(char *str1, char *str2); st ...
N - Tram - poj1847（简单最短路）
题意:火车从一点开到另一点,轨道上有很多岔路口,每个路口都有好几个方向(火车能够选任意一个方向开),但是默认的是第一个指向的方向,所以如果要选择别的方向的话得进行一次切换操作 ,给定一个起点一个 ...
使用atomic一定是线程安全的吗
这个问题很少遇到,但是答案当然不是.atomic在set方法里加了锁,防止了多线程一直去写这个property,造成难以预计的数值.但这也只是读写的锁定.跟线程安全其实还是差一些.看下面. @inte ...
解决python “No module named pip”
python 升级后导致不能使用原来的pip命令 windows平台 cmd中敲命令:python -m ensurepip 得到pip的setuptools 然后就可以用:easy_install ...
IOS web网页图片上传问题
用html5编写图片裁切上传,在iphone手机上可能会遇到图片方向错误问题,在此把解决方法和大家分享一下,用到了html5的 FileReader和Canvas,如果还没有接触的同学,先了解一下其方 ...
解决"the currently displayed page contains invalid values"
原因是你的工程的根目录少了default.properties(有点项目工程这个文件名称是project.properties)这个文件,导致不能选择target: 解决办法: 在工程根目录下建立 ...
HDU1700：Points on Cycle
Problem Description There is a cycle with its center on the origin. Now give you a point on the cycl ...
python中的TCP编程学习
今天看了一下关于python的TCP编程. 发现思路和其他语言(比如java)思路基本上差点儿相同. 先看client.基本过程例如以下: 第一步:创建一个socket 第二步:建立连接第三步:发送 ...
几句话实现导航栏透明渐变 – iOS
首先我们来看下效果一开始当我们什么只设置了一张图片作为它的头部视图的时候,它是这样的首当其冲的,我们先得把导航栏弄透明那么我们首先得知道,设置navigationBar的BackgroundCo ...
Android 环境下编译FFmpeg
Android 环境下编译FFmpeg 开发环境:Ubuntu 12.04.2 LTS , android-sdk-linux, android-ndk-r8e 一 .X264 编译 1. X2 ...

scikit learn 模块 调参 pipeline+girdsearch 数据举例：文档分类 （python代码）

scikit learn 模块 调参 pipeline+girdsearch 数据举例：文档分类 （python代码）的更多相关文章

随机推荐

热门专题

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）的更多相关文章