模型融合——stacking原理与实现

一般提升模型效果从两个大的方面入手

数据层面：数据增强、特征工程等

模型层面：调参，模型融合

模型融合：通过融合多个不同的模型，可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用，也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果，模型自身，样本集等不同的角度进行融合。

模型融合是后期一个重要的环节，大体来说有如下的类型方式：

加权融合（投票、平均）

硬投票

软投票
boosting/bagging（集成学习）
stacking/blending

本文主要介绍stacking/blending方法的原理，及其实际应用

Stacking模型本质上是一种分层的结构，这里简单起见，只分析二级Stacking.假设我们有3个基模型M1、M2、M3。[1]

基模型M1，对训练集train训练，然后在训练集和测试集预测，分别得到P1，T1。同理，得到P2,T2；P3,T3

\[\begin{pmatrix}
\vdots\\
P1\\
\vdots\\
\end{pmatrix}
\begin{pmatrix}
\vdots\\
T1\\
\vdots\\
\end{pmatrix},
\begin{pmatrix}
\vdots\\
P2\\
\vdots\\
\end{pmatrix}
\begin{pmatrix}
\vdots\\
T2\\
\vdots\\
\end{pmatrix},
\begin{pmatrix}
\vdots\\
P3\\
\vdots\\
\end{pmatrix}
\begin{pmatrix}
\vdots\\
T3\\
\vdots\\
\end{pmatrix}
\]
分别把P1,P2,P3以及T1,T2,T3合并，得到一个新的训练集和测试集train2,test2.
再用第二层的模型M4训练train2,预测test2,得到最终的标签列。

注意：

用整个训练集训练的模型反过来去预测训练集的标签，毫无疑问过拟合是非常非常严重的，因此现在的问题变成了如何在解决过拟合的前提下得到P1、P2、P3，这就变成了熟悉的节奏——K折交叉验证。

上图的模型1-5其实是一个模型在不同折下训练。

最终的代码是两层循环，第一层循环控制基模型的数目，每一个基模型要这样去得到P1，T1，第二层循环控制的是交叉验证的次数K，对每一个基模型，会训练K次最后拼接得到P1，取平均得到T1。

python实现[2]

### 6折stacking

n_folds = 6

skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=1)

for i,clf in enumerate(clfs):

#     print("分类器：{}".format(clf))

    X_stack_test_n = np.zeros((X_test.shape[0], n_folds))

    for j,(train_index,test_index) in enumerate(skf.split(X_train,y_train)):

                tr_x = X_train[train_index]

                tr_y = y_train[train_index]

                clf.fit(tr_x, tr_y)

                #生成stacking训练数据集

                X_train_stack [test_index, i] = clf.predict_proba(X_train[test_index])[:,1]

                X_stack_test_n[:,j] = clf.predict_proba(X_test)[:,1]

    #生成stacking测试数据集

    X_test_stack[:,i] = X_stack_test_n.mean(axis=1)

理论介绍推荐阅读[1]，实现部分可以阅读[2]

references

【1】【机器学习】模型融合方法概述. https://zhuanlan.zhihu.com/p/25836678

【2】Kaggle提升模型性能的超强杀招Stacking——机器学习模型融合. https://zhuanlan.zhihu.com/p/107655409

模型融合——stacking原理与实现的更多相关文章

深度学习模型融合stacking
当你的深度学习模型变得很多时,选一个确定的模型也是一个头痛的问题.或者你可以把他们都用起来,就进行模型融合.我主要使用stacking和blend方法.先把代码贴出来,大家可以看一下. import ...
基于sklearn的 BaseEstimator开发接口：模型融合Stacking
转载:https://github.com/LearningFromBest/CMB-credit-card-department-prediction-of-purchasing-behavior- ...
深度学习模型stacking模型融合python代码，看了你就会使
话不多说,直接上代码 def stacking_first(train, train_y, test): savepath = './stack_op{}_dt{}_tfidf{}/'.format( ...
【集成学习】：Stacking原理以及Python代码实现
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用,尤其是在结构化的机器学习竞赛当中表现非常好.今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理.并在博文的后面附 ...
谈谈模型融合之一 —— 集成学习与 AdaBoost
前言前面的文章中介绍了决策树以及其它一些算法,但是,会发现,有时候使用使用这些算法并不能达到特别好的效果.于是乎就有了集成学习(Ensemble Learning),通过构建多个学习器一起结合来完成 ...
【转】Java 内存模型及GC原理
一个优秀Java程序员,必须了解Java内存模型.GC工作原理,以及如何优化GC的性能.与GC进行有限的交互,有一些应用程序对性能要求较高,例如嵌入式系统.实时系统等,只有全面提升内存的管理效率,才能 ...
在Caffe中实现模型融合
模型融合有的时候我们手头可能有了若干个已经训练好的模型,这些模型可能是同样的结构,也可能是不同的结构,训练模型的数据可能是同一批,也可能不同.无论是出于要通过ensemble提升性能的目的,还是要设 ...
Gluon炼丹（Kaggle 120种狗分类，迁移学习加双模型融合）
这是在kaggle上的一个练习比赛,使用的是ImageNet数据集的子集. 注意,mxnet版本要高于0.12.1b2017112. 下载数据集. train.zip test.zip labels ...
Java 内存模型、GC原理及算法
Java 内存模型.GC原理:https://blog.csdn.net/ithomer/article/details/6252552 GC算法:https://www.cnblogs.com/sm ...

随机推荐

Selenium_使用execute_script执行JavaScript（11）
selenium的包含的方法已能完全满足UI自动化,但是有些时候又不得不用到执行JS的情况,比如在一个富文本框中输入1W个字,使用send_keys方法将经历漫长的输入过程,如果换成使用JS的inne ...
vue 在实现关键字远程搜索时出现数据不准确的原因
实现通过输入关键字查询项目, 页面搜索规则框部分 js部分之前通过在data中定义一个变量,然后在methods中filterFn方法获取当时输入的值去后台请求数据,然后把请求的数据存放在state ...
MongoDB学习 - 简单使用
1.项目引入pom依赖 <dependency> <groupId>org.springframework.boot</gro ...
spring security 关于 http.sessionManagement().maximumSessions(1);的探究
1.前言 spring security 支持对session的管理 , http.sessionManagement().maximumSessions(1);的意思的开启session管理,ses ...
idea 开启 tomcat 热部署的具体流程和使用方式
1前言一直以来,使用idea做web开发修改html.jsp.js文件后,必须手动重新部署tomcat,最少都有等个6 -10 秒, 甚至有时候还提示找不到某个编译文件报错,重新编译整个项目,那得等 ...
通过js触发onPageView和event事件获取页面信息
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814814715022148100/ 承接上一篇文档<js页面触发launch事件编写> pageVi ...
T-SQL创建数据库常用方法2020年10月29日20:12:04网课笔记
2.接口的作用第一.方便框架的设计.利于团队的开发. 第二.方便项目拓展.高内聚.低耦合. 3.反射 [1]反射的理解:通过读取程序集的信息,找到相关的类型和类型的成员,也可以得到相关的对象.而这种 ...
access偏移注入原理
前言:近段时间在学习access偏移注入时,在网上查询了大量的资料,感觉很多资料讲解的十分模糊并且我个人认为有很多不够严谨的地方,于是我便在线下经过大量测试,写出以下文章,如有错误,望指出. 如要转载 ...
[硬拆解]拆解一个USB转CAN总线设备-PCAN-USB
介绍 PCAN-USB适配器可以简单地连接到CAN网络.其紧凑的塑料外壳使它适合移动应用.光电去耦版隔离了PC和CAN端之间高达500伏特的电流隔离. 该包还提供了Windows的CAN monito ...
golang中的结构体工厂
1. main包 package main import ( "day01/utils" "fmt" ) //type File struct { // fd ...

模型融合——stacking原理与实现

模型融合——stacking原理与实现的更多相关文章

随机推荐

热门专题