Stacking方法详解

集成学习方法主要分成三种：bagging，boosting 和 Stacking。这里主要介绍Stacking。

stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略。

首先来看一张图。

1、首先我们会得到两组数据：训练集和测试集。将训练集分成5份：train1,train2,train3,train4,train5。

2、选定基模型。这里假定我们选择了xgboost, lightgbm 和 randomforest 这三种作为基模型。比如xgboost模型部分：依次用train1,train2,train3,train4,train5作为验证集，其余4份作为训练集，进行5折交叉验证进行模型训练；再在测试集上进行预测。这样会得到在训练集上由xgboost模型训练出来的5份predictions，和在测试集上的1份预测值B1。将这五份纵向重叠合并起来得到A1。lightgbm和randomforest模型部分同理。

3、三个基模型训练完毕后，将三个模型在训练集上的预测值作为分别作为3个"特征"A1,A2,A3，使用LR模型进行训练，建立LR模型。

4、使用训练好的LR模型，在三个基模型之前在测试集上的预测值所构建的三个"特征"的值(B1,B2,B3)上，进行预测，得出最终的预测类别或概率。

做stacking,首先需要安装mlxtend库。安装方法：进入Anaconda Prompt，输入命令 pip install mlxtend 即可。

stacking主要有几种使用方法：

1、最基本的使用方法，即使用基分类器所产生的预测类别作为meta-classifier“特征”的输入数据

 from sklearn import datasets

 iris = datasets.load_iris()

 X, y = iris.data[:, 1:3], iris.target

 from sklearn import model_selection

 from sklearn.linear_model import LogisticRegression

 from xgboost.sklearn import XGBClassifier

 import lightgbm as lgb

 from sklearn.ensemble import RandomForestClassifier

 from mlxtend.classifier import StackingClassifier

 import numpy as np

 basemodel1 = XGBClassifier()

 basemodel2 = lgb.LGBMClassifier()

 basemodel3 = RandomForestClassifier(random_state=1)

 lr = LogisticRegression()

 sclf = StackingClassifier(classifiers=[basemodel1, basemodel2, basemodel3],

                           meta_classifier=lr)

 print('5-fold cross validation:\n')

 for basemodel, label in zip([basemodel1, basemodel2, basemodel3, sclf],

                       ['xgboost',

                        'lightgbm',

                        'Random Forest',

                        'StackingClassifier']):

     scores = model_selection.cross_val_score(basemodel,X, y,

                                               cv=5, scoring='accuracy')

     print("Accuracy: %0.2f (+/- %0.2f) [%s]"

           % (scores.mean(), scores.std(), label))

2、这一种是使用第一层所有基分类器所产生的类别概率值作为meta-classfier的输入。需要在StackingClassifier 中增加一个参数设置：use_probas = True。

另外，还有一个参数设置average_probas = True,那么这些基分类器所产出的概率值将按照列被平均，否则会拼接。

例如：

基分类器1：predictions=[0.2,0.2,0.7]

基分类器2：predictions=[0.4,0.3,0.8]

基分类器3：predictions=[0.1,0.4,0.6]

1）若use_probas = True，average_probas = True，

则产生的meta-feature 为：[0.233, 0.3, 0.7]

2）若use_probas = True，average_probas = False，

则产生的meta-feature 为：[0.2,0.2,0.7,0.4,0.3,0.8,0.1,0.4,0.6]

 from sklearn import datasets

 iris = datasets.load_iris()

 X, y = iris.data[:, 1:3], iris.target

 from sklearn import model_selection

 from sklearn.linear_model import LogisticRegression

 from xgboost.sklearn import XGBClassifier

 import lightgbm as lgb

 from sklearn.ensemble import RandomForestClassifier

 from mlxtend.classifier import StackingClassifier

 import numpy as np

 basemodel1 = XGBClassifier()

 basemodel2 = lgb.LGBMClassifier()

 basemodel3 = RandomForestClassifier(random_state=1)

 lr = LogisticRegression()

 sclf = StackingClassifier(classifiers=[basemodel1, basemodel2, basemodel3],

                           use_probas=True,

                           average_probas=False,

                           meta_classifier=lr)

 print('5-fold cross validation:\n')

 for basemodel, label in zip([basemodel1, basemodel2, basemodel3, sclf],

                       ['xgboost',

                        'lightgbm',

                        'Random Forest',

                        'StackingClassifier']):

     scores = model_selection.cross_val_score(basemodel,X, y,

                                               cv=5, scoring='accuracy')

     print("Accuracy: %0.2f (+/- %0.2f) [%s]"

           % (scores.mean(), scores.std(), label))

3、这一种方法是对基分类器训练的特征维度进行操作的，并不是给每一个基分类器全部的特征，而是赋予不同的基分类器不同的特征。比如：基分类器1训练前半部分的特征，基分类器2训练后半部分的特征。这部分的操作是通过sklearn中的pipelines实现。最终通过StackingClassifier组合起来。

 from sklearn.datasets import load_iris

 from mlxtend.classifier import StackingClassifier

 from mlxtend.feature_selection import ColumnSelector

 from sklearn.pipeline import make_pipeline

 from sklearn.linear_model import LogisticRegression

 from xgboost.sklearn import XGBClassifier

 from sklearn.ensemble import RandomForestClassifier

 iris = load_iris()

 X = iris.data

 y = iris.target

 #基分类器1：xgboost

 pipe1 = make_pipeline(ColumnSelector(cols=(0, 2)),

                       XGBClassifier())

 #基分类器2：RandomForest

 pipe2 = make_pipeline(ColumnSelector(cols=(1, 2, 3)),

                       RandomForestClassifier())

 sclf = StackingClassifier(classifiers=[pipe1, pipe2],

                           meta_classifier=LogisticRegression())

 sclf.fit(X, y)

StackingClassifier使用API和参数说明：

StackingClassifier(classifiers, meta_classifier, use_probas=False, average_probas=False, verbose=0, use_features_in_secondary=False)

参数：

classifiers : 基分类器，数组形式，[cl1, cl2, cl3]. 每个基分类器的属性被存储在类属性 self.clfs_.

meta_classifier : 目标分类器，即将前面分类器合起来的分类器

use_probas : bool (default: False) ，如果设置为True，那么目标分类器的输入就是前面分类输出的类别概率值而不是类别标签

average_probas : bool (default: False)，当上一个参数use_probas = True时需设置，average_probas=True表示所有基分类器输出的概率值需被平均，否则拼接。
verbose : int, optional (default=0)。用来控制使用过程中的日志输出，当 verbose = 0时，什么也不输出， verbose = 1，输出回归器的序号和名字。verbose = 2，输出详细的参数信息。verbose > 2, 自动将verbose设置为小于2的，verbose -2.
use_features_in_secondary : bool (default: False). 如果设置为True，那么最终的目标分类器就被基分类器产生的数据和最初的数据集同时训练。如果设置为False，最终的分类器只会使用基分类器产生的数据训练。

备注：Stacking一般多是两层就够了，多层也是可以的。

例如下图：

Stacking方法详解的更多相关文章

集成学习总结 & Stacking方法详解
http://blog.csdn.net/willduan1/article/details/73618677 集成学习主要分为 bagging, boosting 和 stacking方法.本文主要 ...
session的使用方法详解
session的使用方法详解 Session是什么呢?简单来说就是服务器给客户端的一个编号.当一台WWW服务器运行时,可能有若干个用户浏览正在运正在这台服务器上的网站.当每个用户首次与这台WWW服务器 ...
Kooboo CMS - Html.FrontHtml[Helper.cs] 各个方法详解
下面罗列了方法详解,每一个方法一篇文章. Kooboo CMS - @Html.FrontHtml().HtmlTitle() 详解 Kooboo CMS - Html.FrontHtml.Posit ...
HTTP请求方法详解
HTTP请求方法详解请求方法:指定了客户端想对指定的资源/服务器作何种操作下面我们介绍HTTP/1.1中可用的请求方法: [GET:获取资源] GET方法用来请求已被URI识别的资源.指定 ...
ecshop后台增加|添加商店设置选项和使用方法详解
有时候我们想在Ecshop后台做个设置.radio.checkbox 等等来控制页面的显示,看看Ecshop的设计,用到了shop_config这个商店设置功能 Ecshop后台增加|添加商店设置选项 ...
(转)Spring JdbcTemplate 方法详解
Spring JdbcTemplate方法详解文章来源:http://blog.csdn.net/dyllove98/article/details/7772463 JdbcTemplate主要提供 ...
C++调用JAVA方法详解
C++调用JAVA方法详解博客分类: 本文主要参考http://tech.ccidnet.com/art/1081/20050413/237901_1.html 上的文章. C++ ...
windows.open()、close()方法详解
windows.open()方法详解: window.open(URL,name,features,replace)用于载入指定的URL到新的或已存在的窗口中,并返回代表新窗口的Win ...
CURL使用方法详解
php采集神器CURL使用方法详解作者:佚名更新时间:2016-10-21 对于做过数据采集的人来说,cURL一定不会陌生.虽然在PHP中有file_get_contents函数可以获取远程 ...

随机推荐

Vue项目中将table组件导出Excel表格以及打印页面内容
体验更优排版请移步原文:http://blog.kwin.wang/programming/vue-table-export-excel-and-print.html 页面中显示的table表格,经常 ...
添加自己的discuz 的积分策略
在参考了网上的一些文章和discuzx开发手册,开始操作:1.在数据库表pre_common_credit_rule增加一条记录,rulename填“填写推荐人”,action填“txtjr”(跟下面 ...
Direcshow之视频捕捉<转>
关于视频捕捉(About Video Capture in Dshow) 1. 视频捕捉Graph的构建一个能够捕捉音频或者视频的graph图都称之为捕捉graph图.捕捉graph图比一般的文件回 ...
机器学习算法中GBDT和XGBOOST的区别有哪些
首先xgboost是Gradient Boosting的一种高效系统实现,并不是一种单一算法.xgboost里面的基学习器除了用tree(gbtree),也可用线性分类器(gblinear).而GBD ...
Thrift分析
[Thrift分析] Thrift定义一套IDL(Interface Definition Language)用于描述接口,通常后缀名为.thrift,通过thrift程序把.thrift文件导出成各 ...
更改Mysql数据库数据存储位置的具体步骤
首先把mysql的服务先停掉,更改MySQL配置文件My.ini中的数据库存储主路径,将老的数据库存储主路径中的数据库文件和文件夹复制到新的存储主路径,接下来重启搞定. 一.首先把mysql的服务先停 ...
面试概率极大的Oracle存储过程
1.什么是存储过程.存储过程是数据库服务器端的一段程序,它有两种类型.一种类似于SELECT查询,用于检索数据,检索到的数据能够以数据集的形式返回给客户.另一种类似于INSERT或DELETE查询,它 ...
strip命令
去掉文件里调试和符号信息,文件大小变小,一般在发布的时候使用. 主要作用于可执行文件,动态库,目标文件等. 可参考:http://blog.csdn.net/stpeace/article/detai ...
CentOS6，7不同
centos6与centos7,防火墙,开机自启不同 6用iptables,7用firewall-cmd http://www.cnblogs.com/liyuanhong/articles/7064 ...
asp.net安装指令
cd \ cd C:\WINDOWS\Microsoft.NET\Framework\v4.0.30319aspnet_regiis.exe -i注册.NET4到IIS

Stacking方法详解

Stacking方法详解的更多相关文章

随机推荐

热门专题