利用sklearn的Pipeline简化建模过程

很多框架都会提供一种Pipeline的机制，通过封装一系列操作的流程，调用时按计划执行即可。比如netty中有ChannelPipeline，TensorFlow的计算图也是如此。

下面简要介绍sklearn中pipeline的使用：

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import OneHotEncoder

from sklearn.impute import SimpleImputer

from sklearn.compose import ColumnTransformer

from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split

# 定义类别型特征预处理器

categorical_transformer=Pipeline(steps=[

    ('imputer',SimpleImputer(strategy='most_frequent')),

    ('onehot',OneHotEncoder(handle_unknown='ignore'))

])

# 定义数值型特征预处理器

numerical_transformer=SimpleImputer(strategy='constant')

# 将类别与数值型特征预处理器，分别应用于对应列上

preprocessor = ColumnTransformer(

    transformers=[

        ('num', numerical_transformer, ['Age']),

        ('cat', categorical_transformer, ['Embarked'])

    ])

# 定义Pipeline，传入预处理器与选择的模型

my_pipeline=Pipeline(steps=[

    ('preprocessor',preprocessor),

    ('model',RandomForestClassifier(n_estimators=100,random_state=0))

])

# 使用pipeline

X_train,X_valid,y_train,y_valid=train_test_split(X,y,test_size=0.2,random_state=0)

my_pipeline.fit(X_train.copy(),y_train.copy())# 训练，预处理会改变原始数据，不想改变copy一下

preds=my_pipeline.predict(X_valid)# 预测

利用sklearn的Pipeline简化建模过程的更多相关文章

利用Sklearn实现加州房产价格预测,学习运用机器学习的整个流程（包含很多细节注解）
Chapter1_housing_price_predict .caret, .dropup > .btn > .caret { border-top-color: #000 !impor ...
利用sklearn对MNIST手写数据集开始一个简单的二分类判别器项目（在这个过程中学习关于模型性能的评价指标，如accuracy，precision，recall，混淆矩阵）
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
Ice笔记－利用Ice::Application类简化Ice应用
Ice笔记-利用Ice::Application类简化Ice应用作者:ydogg,转载请申明. 在编写Ice相关应用时,无论是Client还是Server端,都必须进行一些必要的动作,如:Ice通信 ...
机器学习-TensorFlow建模过程 Linear Regression线性拟合应用
TensorFlow是咱们机器学习领域非常常用的一个组件,它在数据处理,模型建立,模型验证等等关于机器学习方面的领域都有很好的表现,前面的一节我已经简单介绍了一下TensorFlow里面基础的数据结构 ...
Azure Terraform（九）利用 Azure DevOps Pipeline 的审批来控制流程发布
一,引言 Azure Pipeline 管道是一个自动化过程:但是往往我们由于某种原因,需要在多个阶段之前获得批准之后再继续下一步流程,所以我们可以向Azure Pipeline 管道添加审批!批准流 ...
利用sklearn计算文本相似性
利用sklearn计算文本相似性,并将文本之间的相似度矩阵保存到文件当中.这里提取文本TF-IDF特征值进行文本的相似性计算. #!/usr/bin/python # -*- coding: utf- ...
利用sklearn实现k-means
基于上面的一篇博客k-means利用sklearn实现k-means #!/usr/bin/env python # coding: utf-8 # In[1]: import numpy as np ...
Azure DevOps（一）利用Azure DevOps Pipeline 构建应用程序镜像到AWS ECR
一,引言最近项目上让开始学习AWS,作为一名合格的开发人员,当然也是学会利用Azure DevOps Pipeline 将应用程序部署到 AWS ECS(完全托管的容器编排服务).我们要学会将应用程 ...
Azure DevOps（二）利用Azure DevOps Pipeline 构建基础设施资源
一,引言上一篇文章记录了利用 Azure DevOps 跨云进行构建 Docker images,并且将构建好的 Docker Images 推送到 AWS 的 ECR 中.今天我们继续讲解 Azu ...

随机推荐

（二）线程Thread中的方法详解
1.start() start()方法的作用讲得直白点就是通知"线程规划器",此线程可以运行了,正在等待CPU调用线程对象得run()方法,产生一个异步执行的效果.通过start( ...
hmmlearn 安装笔记
hmmlearn是在python上实现隐马可夫模型的一个组件包,原先是在sklearn中的,后来被弃用而单独分离出来. 首先安装sklearn,最好下载setup.py的安装包用命令行安装,因为安装h ...
【Java-算法】计算十六进制校验位
如何计算16进制校验位?校验的实质是16进制取和模256的值. eg. 十六进制串:0A0B0C0D0E0F 的校验位是: 4B (HEX)计算过程: 十六进制转十进制 0A (HEX)= 10(DE ...
Sqlserver on linux 高可用集群搭建
一.环境准备 1 部署环境: 服务器数量:3台 Ip地址:192.168.1.191(主) 192.168.1.192(从) 192.168.1.193(从) 操作系统:CentOS Linux re ...
C语言位运算题解
#include <stdio.h> #include <stdlib.h> #include <string.h> //#define NONBLANK 1 ma ...
PHP mysqli_get_charset() 函数
mysqli_get_charset() 函数返回字符集对象. <?php $con=mysqli_connect("localhost","my_user&quo ...
java+大文件上传下载
文件上传下载,与传统的方式不同,这里能够上传和下载10G以上的文件.而且支持断点续传. 通常情况下,我们在网站上面下载的时候都是单个文件下载,但是在实际的业务场景中,我们经常会遇到客户需要批量下载的场 ...
51 Nod 1475 建设国家（优先队列+贪心）
1475 建设国家基准时间限制:1 秒空间限制:131072 KB 分值: 20 难度:3级算法题收藏关注小C现在想建设一个国家.这个国家中有一个首都,然后有若干个中间站,还有若干个城 ...
Java基础_线程的使用及创建线程的三种方法
线程:线程是操作系统能够进行运算调度的最小单位.它被包含在进程之中,是进程中的实际运作单位.一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务. 进程:进 ...
python并发——从线程池获取返回值
并发是快速处理大量相似任务的绝佳办法,但对于有返回值的方法,需要一个容器专门来存储每个进程处理完的结果 from multiprocessing import Pool import time #返回 ...

利用sklearn的Pipeline简化建模过程

利用sklearn的Pipeline简化建模过程的更多相关文章

随机推荐

热门专题