转载：https://www.toutiao.com/i6606193174010397187/

　　当一个数据科学项目刚刚开始时，关键是要尽可能快地走向一个最小可行的产品(MVP)。这个MVP将包含最终数据产品的所有组件，但只具有最低限度的功能。在项目达到这一点之后，迭代和改进已经存在的Pipeline将会更快。由于一个经过训练的机器学习模型需要花费大量的时间和精力来创建，因此在数据管道中放置一个模拟模型将允许数据工程师在数据科学家完成最终模型的训练之前开始他们的工作。创建MockBinaryClassifier充当二元预测模型的类。该模型遵循以下简单规则：如果第一个特征的值小于或等于0，则返回0级，如果第一个特征大于0则返回1级：

import numpy as np

from sklearn.base import BaseEstimator

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import MinMaxScaler

class MockBinaryClassifier(BaseEstimator):

    def __init__(self):

        self.n_classes_ = 2

        self.classes_ = np.array([0, 1])

    def fit(self,features:np.ndarray,target:np.ndarray,sample_weight:np.ndarray=None):

        return self

    def predict(self,features:np.ndarray):

        return np.where(features[:,0]>0,1,0)

　　MockBinaryClassifier继承sklearn.base.BaseEstimator，这意味着它可以在任何使用scikit-learn estimator 的地方使用；fit函数本质上是一个无操作。既然我们知道如何对实例进行分类，就不需要考虑任何历史数据。

　　下面的Python代码展示了MockBinaryClassifier如何在scikit-learn pipeline中工作:　　　　

test_feature = np.array([[0], [0.5], [3], [-1]])

train_feature = np.zeros_like(test_feature)

train_target  = np.zeros_like(test_feature)  

pipe = Pipeline([("scale",MinMaxScaler()),

                 ("mock",MockBinaryClassifier())]) 

pred = pipe.fit(train_feature,train_target).predict(test_feature)

print(pred)

　　使用启发式方法创建模拟模型是在开发周期中消除瓶颈的一种极好的方法。它允许数据工程师和数据科学家并行工作，而不需要工程师等待真正的机器学习模型被建立。它还允许数据科学家使用他们将用于构建真实模型的精确代码来设置基准性能标准。

模拟估算器:scikit-learn Estimator的更多相关文章

(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
[TensorFlow 团队] TensorFlow 数据集和估算器介绍
发布人:TensorFlow 团队原文链接:http://developers.googleblog.cn/2017/09/tensorflow.html TensorFlow 1.3 引入了两个重 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
以下三种下载方式有什么不同？如何用python模拟下载器下载？
问题始于一个链接https://i1.pixiv.net/img-zip-...这个链接在浏览器打开,会直接下载一个不完整的zip文件但是,使用下载器下载却是完整文件而当我尝试使用python下载 ...
sk-learn 选择正确的估算器
选择正确的估算器解决机器学习问题最困难的部分通常是为工作找到正确的估算器. 不同的估计器更适合于不同类型的数据和不同的问题. 下面的流程图旨在为用户提供一些关于如何处理有关哪些估算器尝试数据的问题的 ...
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...

随机推荐

Hadoop streaming使用自定义python版本和第三方库
在使用Hadoop的过程中,遇到了自带python版本比较老的问题. 下面以python3.7为例,演示如何在hadoop上使用自定义的python版本以及第三方库. 1.在https://www.p ...
linux makefile (English)
############################################################################## Generic Makefile for ...
Redis的持久化策略
Redis 持久化: 提供了多种不同级别的持久化方式:一种是RDB,另一种是AOF. RDB 持久化可以在指定的时间间隔内生成数据集的时间点快照(point-in-time snapshot). AO ...
Unity3D游戏-愤怒的小鸟游戏源码和教程（二）
Unity愤怒的小鸟游戏教程(二) 本文提供全流程,中文翻译.Chinar坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) AngryEva游戏效果 ...
qwb的骚扰
题目描述自从学姐拒绝了qwb之后,qwb开始了疯狂的骚扰.qwb来到了一个公共电话亭,他摸摸口袋只有n元钱. 已知该公用电话的规则是,前3分钟一共收费x元(不到3分钟也要收x元),超过3分钟每分钟收 ...
51Nod：1085 背包问题
1085 背包问题基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注在N件物品取出若干件放在容量为W的背包里,每件物品的体积为W1,W2--Wn(Wi为 ...
hdu 5311（暴力）
题意:要求在一个字符串中找出三段,然后能拼成一个固定的单词,问是否可行 BC周年庆第二题,我枚举了那个单词的切断位置,然后到给的字符串里分别找,然后就没有然后了``` #include<stdi ...
IP相关的方法
1.验证是否为IP地址 def isIP(ip, with_netmask=True): """ 判断IP的格式是否正确 :param ip: IP字符串 :param ...
yocto和bitbake
一.yocto 1.yocto简介 Yocto 是一个开源社区通过它提供模版.工具和方法帮助开发者创建基于linux内核的定制系统,支持ARM, PPC, MIPS, x86 (32 & 64 ...
All the Apache Streaming Projects: An Exploratory Guide
The speed at which data is generated, consumed, processed, and analyzed is increasing at an unbeliev ...

模拟估算器:scikit-learn Estimator

模拟估算器:scikit-learn Estimator的更多相关文章

随机推荐

热门专题