写在前面

Ensemble methods 组合模型的方式大致为四个：/bagging / boosting / voting / stacking ，此文主要简单叙述 bagging算法。

算法主要特点

Bagging:

平行合奏：每个模型独立构建
旨在减少方差，而不是偏差
适用于高方差低偏差模型（复杂模型）
基于树的方法的示例是随机森林，其开发完全生长的树（注意，RF修改生长的过程以减少树之间的相关性）

接下来进入主题

Bagging 算法：

WIKI百科：
Bagging算法（英语：Bootstrap aggregating，引导聚集算法），又称装袋算法，是机器学习领域的一种团体学习算法。最初由Leo Breiman于1994年提出。Bagging算法可与其他分类、回归算法结合，提高其准确率、稳定性的同时，通过降低结果的方差，避免过拟合的发生。

实现原理：

数学基础
图例描述
实现描述

在scikit-learn中，
参数 max_samples 和 max_features 控制子集的大小（在样本和特征方面）
参数 bootstrap 和 bootstrap_features 控制是否在有或没有替换的情况下绘制样本和特征。
- Bagging又叫自助聚集，是一种根据均匀概率分布从数据中重复抽样（有放回）的技术。
- 每个抽样生成的自助样本集上，训练一个基分类器；对训练过的分类器进行投票，将测试样本指派到得票最高的类中。
- 每个自助样本集都和原数据一样大
- 有放回抽样，一些样本可能在同一训练集中出现多次，一些可能被忽略。

实例分析：

实例环境

sklearn + anconda + jupyter
实例步骤
- 数据：可以采用 datasets 的数据，在此作者使用的是自己整理的股票行情
- 训练、测试数据归一化
- 参数寻优可以使用GridSearch，在此不作赘述
参数描述：
代码实现

import time

import pandas as pd

from pandas import Series,DataFrame

from sklearn.ensemble import BaggingClassifier

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import AdaBoostClassifier

from sklearn.model_selection import cross_val_score

from sklearn import preprocessing

from sklearn import datasets

iris = datasets.load_iris()

X,y = iris.data[:,1:3],iris.target

start = time.clock()  # 计时

min_max_scaler = preprocessing.MinMaxScaler()

# 读取训练数据 并数据规整化

raw_data  = pd.read_csv('train_data.csv')

raw_datax = raw_data[:20000]

X1_scaled = min_max_scaler.fit_transform(raw_datax.ix[:,3:7])

y1 = raw_datax['Y1']

y1 = list(y1)

# 读取测试数据 并数据规整化

raw_datat  = pd.read_csv('test_data.csv')

raw_datatx = raw_datat[:10000]

X1t_scaled = min_max_scaler.fit_transform(raw_datatx.ix[:,3:7])

y1t = raw_datatx['Y1']

y1t = list(y1t)

print len(X1_scaled)

print len(X1t_scaled)

end = time.clock()

print '运行时间:',end - start

clf = DecisionTreeClassifier().fit(X1_scaled,y1)

clfb = BaggingClassifier(base_estimator= DecisionTreeClassifier()

                         ,max_samples=0.5,max_features=0.5).fit(X1_scaled,y1)

predict = clf.predict(X1t_scaled)

predictb = clfb.predict(X1t_scaled)

print clf.score(X1t_scaled,y1t)

print clfb.score(X1t_scaled,y1t)

# print Series(predict).value_counts()

# print Series(predictb).value_counts()

方法总结

Bagging通过降低基分类器的方差，改善了泛化误差
其性能依赖于基分类器的稳定性；如果基分类器不稳定，bagging有助于降低训练数据的随机波动导致的误差；如果稳定，则集成分类器的误差主要由基分类器的偏倚引起
由于每个样本被选中的概率相同，因此bagging并不侧重于训练数据集中的任何特定实例

1.运用注意点
2.优化方向点

BaggingClassifier的更多相关文章

sklearn 组合分类器
组合分类器: 组合分类器有4种方法: (1)通过处理训练数据集.如baging boosting (2)通过处理输入特征.如 Random forest (3)通过处理类标号.error_corre ...
python中的几种集成分类器
from sklearn import ensemble 集成分类器(ensemble): 1.bagging(ensemble.bagging.BaggingClassifier) 对随机选取的子样 ...
【机器学习笔记之六】Bagging 简述
本文结构: 基本流程有放回抽样的好处 Bagging 特点 sklearn 中 Bagging 使用 Bagging 和 Boosting 的区别 bagging:bootstrap aggrega ...
XGBoost、LightGBM的详细对比介绍
sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是: bagging 基本思想独立的训练一些基学习器 ...
kaggle入门项目：Titanic存亡预测（四）模型拟合
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accu ...
第七章——集成学习和随机森林（Ensemble Learning and Random Forests）
俗话说,三个臭皮匠顶个诸葛亮.类似的,如果集成一系列分类器的预测结果,也将会得到由于单个预测期的预测结果.一组预测期称为一个集合(ensemble),因此这一技术被称为集成学习(Ensemble Le ...
壁虎书7 Ensemble Learning and Random Forests
if you aggregate the predictions of a group of predictors,you will often get better predictions than ...
Notes ： <Hands-on ML with Sklearn & TF> Chapter 7
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
Scikit-learn使用总结
在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包.在数据量不是过大的情况下,可以解决大部分问题.学习使用scikit-learn的过程中,我自己也在补充着机器学习和 ...

随机推荐

阿里云给自己实例扩容-扩展分区和文件系统_Linux系统盘
阿里云买了台服务器ecs 磁盘容量40g 发现已经用了30g了赶紧扩容进入 e'cs实例进入左边菜单存储与快照然后选择右边的扩容然后支付成功后进入服务器 df -h 发现怎么还是没变 ...
爬虫请求库 requests
requests模块阅读目录一介绍二基于GET请求三基于POST请求四响应Response 五高级用法一介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到 ...
python之反射机制与callattr()、issubclass()、isinstance、type()相关
一.反射机制 * 反射可以理解为通过字符串的形式,动态导入模块: 利用字符串的形式,在对象(模块)中操作(查找/获取/删除/添加)成员,是一种基于字符串的事件驱动! 反射机制的内置函数 # hasa ...
Warning | 3719 | 'utf8' is currently an alias for the character set UTF8MB3, but will be an alias for UTF8MB4 in a future release. Please consider using UTF8MB4 in order to be unambiguous.
MySQL的“utf8”实际上不是真正的UTF-8.“utf8”只支持每个字符最多三个字节,而真正的UTF-8是每个字符最多四个字节. MySQL一直没有修复这个bug,他们在2010年发布了一个叫作 ...
js依赖mui.css生成图片验证码
js依赖mui.css生成图片验证码相关css和js引入路径 https://cdnjs.cloudflare.com/ajax/libs/mui/3.7.1/css/mui.css https:/ ...
yum用法笔记
yum是指通过linux系统的一个命令也是一个软件包管理工具,基于rpm管理,通过命令下载指定网站的包源,下载好之后自动解压和分配下载yum:一般linux的服务器在出厂前都自带yum,包括虚拟机 ...
python模拟双色球大乐透生成算法
每天练习一段python代码,健康生活一辈子.晚上下班没事,打开电脑继续编写python代码!今天分享的一个是大家熟悉的双色球彩票的游戏,根据这个进行写的一个python算法,代码精简,肯定有bug, ...
9 loader - 分析webpack调用第三方loader的过程
注意:webpack处理第三方文件类型的过程: 1.发现这个要处理的文件不是JS文件,然后就去配置文件中,查找有没有对应的第三方loader规则 2.如果能找到对应的规则,就会调用对应的loader处 ...
python_面向对象——双下划线方法
1.__str__和__repe__ class Person(object): def __init__(self,name,age): self.name = name self.age = ag ...
云计算(7)---the scheduler of Hadoop
The scheduler of Hadoop Programming MapReduce 在有些情况下,reducer也可以先开始于Map.但为了便于理解,在这儿我们都是使reduce不会早于map ...

BaggingClassifier