Python机器学习库SKLearn：数据集转换之管道和特征

转载自：https://blog.csdn.net/cheng9981/article/details/61918129

4.1 管道和特征：组合估计量

4.1.1 管道：链接估计

管道可以用于将多个估计器链接成一个。这是有用的，因为在处理数据中经常有固定的步骤序列，例如特征选择，归一化和分类。管道在这里有两个目的：
方便：您只需调用fit和预测一次您的数据，以适应一个完整的估计量序列。
联合参数选择：可以一次性在管线中的所有估计量的参数上进行网格搜索。
流水线中的所有估计器，除了最后一个，必须是变换器（即必须具有变换方法）。最后一个估计器可以是任何类型（变换器，分类器等）。pipeline对象实例拥有最后一个estimator的所有方法。也就是说，如果最后一个是分类器，那么整个pipeline可以作为分类器使用。

4.1.1.1 用法

流水线是使用(key, value)对的列表构建的，其中key是包含要给予此步骤的名称的字符串，value是估计量对象：

from sklearn.pipeline import Pipeline

from sklearn.svm import SVC

from sklearn.decomposition import PCA

estimators = [('reduce_dim', PCA()), ('clf', SVC())]

pipe = Pipeline(estimators)

pipe

输出：Pipeline(steps=[('reduce_dim', PCA(copy=True, iterated_power='auto',

n_components=None, random_state=None, svd_solver='auto', tol=0.0,

whiten=False)), ('clf', SVC(C=1.0, cache_size=200, class_weight=None,

coef0=0.0, decision_function_shape=None, degree=3, gamma='auto',

kernel='rbf', max_iter=-1, probability=False, random_state=None,

shrinking=True, tol=0.001, verbose=False))])

效用函数make_pipeline是构造管道的简写; 它需要一个可变数量的估计器并返回一个管道，自动填充名称：

from sklearn.pipeline import make_pipeline

from sklearn.naive_bayes import MultinomialNB

from sklearn.preprocessing import Binarizer

make_pipeline(Binarizer(), MultinomialNB())

输出：Pipeline(steps=[('binarizer', Binarizer(copy=True, threshold=0.0)),

                ('multinomialnb', MultinomialNB(alpha=1.0,

                                                class_prior=None,

                                                fit_prior=True))])

管道的估计器作为列表存储在steps属性中：

pipe.steps[0]

输出：('reduce_dim', PCA(copy=True, iterated_power='auto', n_components=None, random_state=None,

  svd_solver='auto', tol=0.0, whiten=False))

并在named_steps中作为dict存在：

pipe.named_steps['reduce_dim']

输出：PCA(copy=True, iterated_power='auto', n_components=None, random_state=None,

  svd_solver='auto', tol=0.0, whiten=False)

设置参数：

pipe.set_params(clf__C=10)

输出：Pipeline(steps=[('reduce_dim', PCA(copy=True, iterated_power='auto',

    n_components=None, random_state=None, svd_solver='auto', tol=0.0,

    whiten=False)), ('clf', SVC(C=10, cache_size=200, class_weight=None,

    coef0=0.0, decision_function_shape=None, degree=3, gamma='auto',

    kernel='rbf', max_iter=-1, probability=False, random_state=None,

    shrinking=True, tol=0.001, verbose=False))])

这对于网格搜索尤为重要：

>>> from sklearn.model_selection import GridSearchCV

>>> params = dict(reduce_dim__n_components=[2, 5, 10],

...               clf__C=[0.1, 10, 100])

>>> grid_search = GridSearchCV(pipe, param_grid=params)

单个步骤也可以替换为参数，非最终步骤可以通过将其设置为None：

>>> from sklearn.linear_model import LogisticRegression

>>> params = dict(reduce_dim=[None, PCA(5), PCA(10)],

...               clf=[SVC(), LogisticRegression()],

...               clf__C=[0.1, 10, 100])

>>> grid_search = GridSearchCV(pipe, param_grid=params)

4.1.2 FeatureUnion：复合特征空间

FeatureUnion将多个转换器对象组合成一个新的转换器，结合了它们的输出。 FeatureUnion获取转换器对象的列表。在拟合期间，这些中的每一个独立地拟合数据。对于变换数据，变换器被并行应用，并且它们输出的样本向量端对端地连接成较大的向量。
FeatureUnion具有与Pipeline相同的目的 - 方便和联合参数估计和验证。
FeatureUnion和Pipeline可以组合以创建复杂模型。
（FeatureUnion无法检查两个转换器是否可能产生相同的特征，当特征集不相交时，它只产生一个并集，并确保它们是调用者的责任。）

4.1.2.1 用法

FeatureUnion使用（key，value）对的列表构建，其中key是您要给予给定变换的名称（任意字符串;它仅用作标识符），value是一个估计器对象：

>>> from sklearn.pipeline import FeatureUnion

>>> from sklearn.decomposition import PCA

>>> from sklearn.decomposition import KernelPCA

>>> estimators = [('linear_pca', PCA()), ('kernel_pca', KernelPCA())]

>>> combined = FeatureUnion(estimators)

>>> combined

FeatureUnion(n_jobs=1, transformer_list=[('linear_pca', PCA(copy=True,

    iterated_power='auto', n_components=None, random_state=None,

    svd_solver='auto', tol=0.0, whiten=False)), ('kernel_pca',

    KernelPCA(alpha=1.0, coef0=1, copy_X=True, degree=3,

    eigen_solver='auto', fit_inverse_transform=False, gamma=None,

    kernel='linear', kernel_params=None, max_iter=None, n_components=None,

    n_jobs=1, random_state=None, remove_zero_eig=False, tol=0))],

    transformer_weights=None)

像管道一样，特征联合体有一个称为make_union的简化构造函数，不需要显式命名组件。像管道一样，单个步骤可以使用set_params替换，并通过设置为None来忽略：

>>> combined.set_params(kernel_pca=None)

FeatureUnion(n_jobs=1, transformer_list=[('linear_pca', PCA(copy=True,

      iterated_power='auto', n_components=None, random_state=None,

      svd_solver='auto', tol=0.0, whiten=False)), ('kernel_pca', None)],

    transformer_weights=None)

Python机器学习库SKLearn：数据集转换之管道和特征的更多相关文章

Python机器学习库sklearn的安装
Python机器学习库sklearn的安装 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上能够为用户提供各种机器学习算法接口 ...
[Python] 机器学习库资料汇总
声明:以下内容转载自平行宇宙. Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: ...
[resource]Python机器学习库
reference: http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块: ...
Python 机器学习库 NumPy 教程
0 Numpy简单介绍 Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy.matplotlib一起使用.其实,list已经提供了类似于矩阵的表示形式,不过numpy ...
常用python机器学习库总结
开始学习Python,之后渐渐成为我学习工作中的第一辅助脚本语言,虽然开发语言是Java,但平时的很多文本数据处理任务都交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处 ...
Python机器学习库scikit-learn实践
原文:http://blog.csdn.net/zouxy09/article/details/48903179 一.概述机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得 ...
Python机器学习库和深度学习库总结
我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目,并挑选出最受欢迎和最活跃的项目. 1. Scikit-learn(重点推荐) www.github.com/sc ...
【机器学习】--Python机器学习库之Numpy
一.前述 NumPy(Numerical Python的缩写)是一个开源的Python科学计算库.使用NumPy,就可以很自然地使用数组和矩阵. NumPy包含很多实用的数学函数,涵盖线性代数运算.傅 ...
python 机器学习库 —— featuretools（自动特征工程）
文档:https://docs.featuretools.com/#minute-quick-start 所谓自动特征工程,即是将人工特征工程的过程自动化.以 featuretools 为代表的自动特 ...

随机推荐

洛谷 P1251 餐巾计划问题（线性规划网络优化）【费用流】
(题外话:心塞...大部分时间都在debug,拆点忘记加N,总边数算错,数据类型标错,字母写错......) 题目链接:https://www.luogu.org/problemnew/show/P1 ...
是否含有RTTI（运行时类型信息）是动态语言与静态语言的主要区别
运行时类型信息代表类型信息和对内存的操作能力. 运行时类型信息是运行时系统的基础. 类型信息分为编译时类型信息和运行时类型信息两种: 静态语言的类型信息只在编译时使用和保留,在可执行文件中没有类型信息 ...
调试cnn-Sentence-Classifier遇到的问题
运行train文件训练模型出现了以下错误: train文件在app文件目录下: raw_vectors.txt文件则在cnn-Sentence-Classifier目录下: 这是train代码调用re ...
Spring事务（一）JDBC方式下的事务使用示例
摘要: 本文结合<Spring源码深度解析>来分析Spring 5.0.6版本的源代码.若有描述错误之处,欢迎指正. 目录一.创建数据表结构二.创建对应数据表的PO 三.创建表与实体间 ...
学习笔记·堆优化$\mathscr{dijkstra}$
嘤嘤嘤今天被迫学了这个算法--其实对于学习图论来说我内心是拒绝的$\mathscr{qnq}$ 由于发现关于这个$\mathscr{SPFA}$的时间复杂度$O(kE)$中的\(k \ap ...
Jmeter新手频犯错误之一（登录）
昨天被人问了一个问题:为什么我用Jmeter先创建一个登录请求,然后创建一个操作(比如计算账单)请求,运行之后结果树中却是status_code=401(即登录失败),我明明登录了啊.... emmm ...
关于Nanchtiy
关于我宇宙超级无敌蒟蒻一枚爱玩游戏(LOL贼菜) 不爱刷题不定时更新博客福建某不知名市的某不知名高中的高二dog 偶尔看看动漫欢迎加友链啦~ QQ:1468473741(会有妹子加吗?) 我 ...
goalng nil interface浅析
0.遇到一个问题代码 func GetMap (i interface{})(map[string]interface{}){ if i == nil { //false ??? i = make( ...
iOS Swift WisdomHUD 提示界面框架
iOS Swift WisdomHUD 提示界面框架 Framework Use profile(应用简介) 一:WisdomHUD简介今天给大家介绍一款iOS的界面显示器:WisdomHUD,W ...
eclipse-Debug调试操作
去除所有断点(打开debug视图):(或者直接点击菜单栏的run也有对应的菜单) 常用快捷键: F5 Step into 单步调试进入函数内部. F6 Step over 单步调试不进入函数 ...

Python机器学习库SKLearn：数据集转换之管道和特征

Python机器学习库SKLearn：数据集转换之管道和特征的更多相关文章

随机推荐

热门专题