python中的几种集成分类器

from sklearn import ensemble

集成分类器(ensemble)：

1.bagging(ensemble.bagging.BaggingClassifier)

　　其原理是从现有数据中有放回抽取若干个样本构建分类器，重复若干次建立若干个分类器进行投票，通过投票决定最终的分类结构

2.RandomForest(ensemble.RandomForestClassifier)

对随机选取的子样本集分别建立m个CART(Classifier and Regression Tree)，然后投票决定最终的分类结果

Random在此处的意义：

1）Bootstrap 中的随机选择子样本集

2）Random subspace 的算法从属性中随机选择k个属性，每个树节点分裂时从这随机的k个属性中，选择最优的

3.Boosting(ensemble.weight_boosting)

在选择分类超平面时给样本加了一个权值，使得loss function尽量考虑那些分错类的样本。（i.e.分错类的样本weight 大）

-boosting 重采样的不是样本，而是样本的分布。

　　最后的分类结果是几个弱分类器的线性加权和。注意这几个弱分类器都是一种base classifier类别。

-与bagging的区别：1）bagging 的训练集是随机的，各训练集是独立的；而boosting训练集的选择不是独立的，每次选择的训练集都依赖于上一次学习的结果；

2） bagging的每个预测函数（即弱假设）没有权重，而Boosting根据每一次训练的训练误差得到该次预测函数的权重；

　　　　　　　　　　3）bagging的每个分类器的训练样本是随机抽样构建，而Boosting会对上一次分类输出的结果进行采样，错误的样本会有更高的权重；

4）bagging的各个预测函数可以并行生成，而boosting的只能顺序生成。对于神经网络这样极为耗时的学习方法，Bagging可通过并行训练节省大量的时间开销。

　　2）、3）的权重机制，体现了boosting“提升”的特性。

-与bagging的共同点：都可以通过使用for循环给estimator赋不同的分类器类型，以实现集成多种分类器，而不是单一的某一种（比如决策树）。

代表算法 Adaboost 和 Realboost。总的来说，Adaboost 简单好用，Realboost 准确

4、GBDT

　　使用决策树作为基本分类器；梯度提升优化算法；

　　重复选择一个表现一般的模型并且每次基于先前模型的表现进行调整；

　　不同的是，AdaBoost是通过提升错分数据点的权重来定位模型的不足，而GradientBoosting是通过计算梯度（gradient）来定位模型的不足。因此相比AdaBoost，GradientBoosting可以使用更多种类的目标函数。

5.Stacking

在stacking（堆叠）方法中，每个单独分类器的输出会作为更高层分类器的输入，更高层分类器可以判断如何更好地合并这些来自低层的输出。

参考文章：http://blog.csdn.net/abcjennifer/article/details/8164315

python中的几种集成分类器的更多相关文章

Python中的三种数据结构
Python中,有3种内建的数据结构:列表.元组和字典.1.列表 list是处理一组有序项目的数据结构,即你可以在一个列表中存储一个序列的项目.列表中的项目.列表中的项目应该包括在方括号中,这 ...
python中的三种输入方式
python中的三种输入方式 python2.X python2.x中以下三个函数都支持: raw_input() input() sys.stdin.readline() raw_input( )将 ...
Python 中的几种矩阵乘法 np.dot, np.multiply, *【转】
本文转载自:https://blog.csdn.net/u012609509/article/details/70230204 Python中的几种矩阵乘法1. 同线性代数中矩阵乘法的定义: np.d ...
简单谈谈Python中的几种常见的数据类型
简单谈谈Python中的几种常见的数据类型计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当然地可以处理各种数值.但是,计算机能处理的远不止数值,还可以处理文本.图形.音频.视频.网页等 ...
Python中的几种数据类型
大体上把Python中的数据类型分为如下几类: Number(数字) 包括int,long,float,complex String(字符串) 例如:hello,"hello" ...
Python中的两种结构dict和set
Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度. 假设要根据同学的名字查找对应的成绩如果 ...
Python中的7种可调用对象
Python中有七种可调用对象,可调用对象可使用内置函数callable来检测一.用户自定义的函数: 使用def语句或者lambda表达式创建的函数. 二.内置函数: 使用C语言实现的函数,如len ...
Python中的几种矩阵乘法（转）
一. np.dot() 1.同线性代数中矩阵乘法的定义.np.dot(A, B)表示: 对二维矩阵,计算真正意义上的矩阵乘积. 对于一维矩阵,计算两者的内积. 2.代码 [code] import ...
Python中的两种路径
Java中有两种路径,一种是操作系统的路径path,另一种是类路径classpath. Python中也是如此,一种是操作系统环境变量中的path,另一种是PYTHONPATH. 当import xx ...

随机推荐

java 去掉字符串右侧空格
public static String rightTrim(String str) { String regex = "(.*\\S+)(\\s+$)"; Patte ...
【转】蓝牙物理链路类型：SCO和ACL链路
原文网址:http://blog.chinaunix.net/uid-23193900-id-3272233.html 蓝牙物理链路ACL(Asynchronous Connectionless), ...
Dev控件用法 aspxTreeList 无刷新 aspxGridView 数据
主要是利用 ASPxTreeList 点击事件回发服务器进行数据重新绑定 ASPxTreeList: <SettingsBehavior ExpandCollapseAction="N ...
C# 使用Nlog记录日志到数据库使用LogEventInfo类获取，命名空间名称、类名、方法名
原文地址:http://dotnet.9sssd.com/csbase/art/793 [摘要]Nlog是一个很不错的.NET日志记录组件,它可以将日志输出到控件台,保存到文本,也可以很方便的记录到数 ...
VM虚拟机下在LINUX上安装ORACLE 11G单实例数据库
1.环境及安装前规划:虚拟机及OS如下环境:VMware Wordstation ACE版 6.0.2 操作系统:OracleLinux-R5-U8-Server-i386-dvd 3.2G ...
mahout算法源码分析之Collaborative Filtering with ALS-WR拓展篇
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 额,好吧,心头的一块石头总算是放下了.关于Collaborative Filtering with AL ...
windows 下删除.svn文件
Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\DeleteSVN] @= ...
使用DBOutputFormat把MapReduce产生的结果集导入到mysql中
数据在HDFS和关系型数据库之间的迁移,主要有以下两种方式 1.按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入 2.采用JDBC的方式进行导入 MapReduce默认提供了DBI ...
使用 Xcode 和 Android Studio 管理 iOS 和 Android 项目版本
在移动应用开发和运营的过程中,版本管理是一个老生常谈的基础问题,一些版本的基本概念也常常会困扰我们的研发和运营人员.同时,手动管理软件版本,也常常会因为不小心导致后续的发布和更新问题. 这里,我准备了 ...
abc - zx
诛仙青云志第26集第25集第24集第23集第22集第21集第20集第19集第18集第17集第16集第15集第14集 ...

python中的几种集成分类器

python中的几种集成分类器的更多相关文章

随机推荐

热门专题