sklearn中的Pipeline

　　在将sklearn中的模型持久化时，使用sklearn.pipeline.Pipeline(steps, memory=None)将各个步骤串联起来可以很方便地保存模型。

　　例如，首先对数据进行了PCA降维，然后使用logistic regression进行分类，如果不使用pipeline，那么我们将分别保存两部分内容，一部分是PCA模型，一部分是logistic regression模型，稍微有点不方便。（当然，这么做也完全可以，使用Pipeline只是提供个方便罢了）

1.Pipeline中的steps

　　Pipeline的最后一步是一个“estimator”（sklearn中实现的各种机器学习算法实例，或者实现了estimator必须包含的方法的自定义类实例），之前的每一步都是“transformer”（必须实现fit和transform方法，比如MinMaxScaler、PCA、one-hot）。在Pipeline调用fit方法时，Pipeline中的每一步依次进行fit操作。

 import numpy as np

 from sklearn import linear_model, decomposition, datasets

 from sklearn.pipeline import Pipeline

 from sklearn.model_selection import GridSearchCV

 from sklearn.metrics import accuracy_score

 from sklearn.externals import joblib

 logistic = linear_model.LogisticRegression()

 pca = decomposition.PCA()

 pipe = Pipeline(steps=[('pca', pca), ('logistic', logistic)])

 digits = datasets.load_digits()

 X_digits = digits.data

 y_digits = digits.target

 # Parameters of pipelines can be set using ‘__’ separated parameter names:

 params = {

     'pca__n_components': [20, 40, 64],

     'logistic__C': np.logspace(-4, 4, 3),

 }

 estimator = GridSearchCV(pipe, params)

 estimator.fit(X_digits, y_digits)

 # When "estimator" predicts, actually "estimator.best_estimator_" is predicting.

 print(type(estimator.best_estimator_))

 y_pred = estimator.predict(X_digits)

 print(accuracy_score(y_true=y_digits, y_pred=y_pred))

 # Save model

 joblib.dump(estimator, 'models/pca_LR.pkl')

2.Pipeline中的memory参数

　　默认为None，当需要保存Pipeline中间的“transformer”时，才需要用到memory参数。

3.参考文献

　　Pipelining: chaining a PCA and a logistic regression

sklearn中的Pipeline的更多相关文章

sklearn中的pipeline实际应用
前面提到,应用sklearn中的pipeline机制的高效性:本文重点讨论pipeline与网格搜索在机器学习实践中的结合运用: 结合管道和网格搜索以调整预处理步骤以及模型参数一般地,sklearn ...
sklearn 中的 Pipeline 机制和FeatureUnion
一.pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator,这么做的原因是考虑了数据处理过程中一系列前后相继的固定流程,比如feature selec ...
sklearn 中的 Pipeline 机制
转载自:https://blog.csdn.net/lanchunhui/article/details/50521648 from sklearn.pipeline import Pipeline ...
sklearn中的pipeline的创建与访问
前期博文提到管道(pipeline)在机器学习实践中的重要性以及必要性,本文则递进一步,探讨实际操作中管道的创建与访问. 已经了解到,管道本质上是一定数量的估计器连接而成的数据处理流,所以成功创建管道 ...
【笔记】多项式回归的思想以及在sklearn中使用多项式回归和pipeline
多项式回归以及在sklearn中使用多项式回归和pipeline 多项式回归线性回归法有一个很大的局限性,就是假设数据背后是存在线性关系的,但是实际上,具有线性关系的数据集是相对来说比较少的,更多时 ...
sklearn中的交叉验证（Cross-Validation）
这个repo 用来记录一些python技巧.书籍.学习链接等,欢迎stargithub地址sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好.今天主要记录一下sk ...
sklearn中的投票法
投票法(voting)是集成学习里面针对分类问题的一种结合策略.基本思想是选择所有机器学习算法当中输出最多的那个类. 分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用 ...
（数据科学学习手札25）sklearn中的特征选择相关功能
一.简介在现实的机器学习任务中,自变量往往数量众多,且类型可能由连续型(continuou)和离散型(discrete)混杂组成,因此出于节约计算成本.精简模型.增强模型的泛化性能等角度考虑,我们常 ...
sklearn中的多项式回归算法
sklearn中的多项式回归算法 1.多项式回归法多项式回归的思路和线性回归的思路以及优化算法是一致的,它是在线性回归的基础上在原来的数据集维度特征上增加一些另外的多项式特征,使得原始数据集的维度增加 ...

随机推荐

css3 绘制图形
星形: .star-six { width:; height:; border-left: 50px solid transparent; border-right: 50px solid trans ...
input 去掉点击后出现的边框
添加属性 :focus{outline:none} 就可以去掉默认点击时,边框会出现的蓝色边框. :focus 选择器用于选取获得焦点的元素.提示:接收键盘事件或其他用户输入的元素都允许 :focus ...
11. 将博客部署到tomcat上
springboot项目既可以以jar运行,也可以做成war包放到服务器上,因为我的博客项目涉及到文件上传,所以按照jar的方式就不可行,需要部署到tomcat上,具体做法如下:1. 修改pom.xm ...
JAVA经典算法40题（原题+分析）之分析
JAVA经典算法40题(下) [程序1] 有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第四个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少? 1.程序分析: ...
Go 1.9 sync.Map揭秘
Go 1.9 sync.Map揭秘目录 [−] 有并发问题的map Go 1.9之前的解决方案 sync.Map Load Store Delete Range sync.Map的性能其它在Go ...
数字类型——python3
今天我为各位小伙伴准备了python3中数字类型,希望能够帮助到你们! Python 数字数据类型用于存储数值. 数据类型是不允许改变的,这就意味着如果改变数字数据类型的值,将重新分配内存空间. 以下 ...
HrbustOJ 1564 螺旋矩阵
Description 对于给定的一个数n,要你打印n*n的螺旋矩阵. 比如n=3时,输出: 1 2 3 8 9 4 7 6 5 Input 多组测试数据,每个测试数据包含一个整数n(1<=n& ...
一起来学Spring Cloud | 第二章：服务注册和发现组件 (Eureka)
本篇文章,很浅显的一步步讲解如何搭建一个能运行的springcloud项目(带所有操作截图).相信!看完本篇之后,你会觉得springcloud搭建如此简单~~~~ 一. Eureka简介: 1.1 ...
一份完整的阿里云 Redis 开发规范，值得收藏！
来源:yq.aliyun.com/articles/531067 作者:付磊-起扬本文主要介绍在使用阿里云Redis的开发规范,从下面几个方面进行说明. 键值设计命令使用客户端使用相关工具通 ...
Java相关面试题总结
本文分为十九个模块,分别是: Java 基础.容器.多线程.反射.对象拷贝.Java Web .异常.网络.设计模式.Spring/Spring MVC.Spring Boot/Spring Clou ...