AdaBoostClassifier实战

部分内容摘自：http://blog.csdn.net/sun_shengyun/article/details/54289955　　　

　这里我们用一个具体的例子来讲解AdaBoostClassifier的使用。

#gnu
>>> from sklearn.model_selection import cross_val_score
>>> from sklearn.datasets import load_iris
>>> from sklearn.ensemble import AdaBoostClassifier
>>> iris = load_iris() #还是那个数据集
>>> clf = AdaBoostClassifier(n_estimators=100) #迭代100次
>>> scores = cross_val_score(clf, iris.data, iris.target) #分类器的精确度
>>> scores.mean()
0.9... #得分比较理想
#

Methods

`decision_function`(X)	Compute the decision function of `X`.
`fit`(X, y[, sample_weight])	Build a boosted classifier from the training set (X, y).
`get_params`([deep])	Get parameters for this estimator.
`predict`(X)	Predict classes for X.
`predict_log_proba`(X)	Predict class log-probabilities for X.
`predict_proba`(X)	Predict class probabilities for X.
`score`(X, y[, sample_weight])	Returns the mean accuracy on the given test data and labels.
`set_params`(**params)	Set the parameters of this estimator.
`staged_decision_function`(X)	Compute decision function of `X` for each boosting iteration.
`staged_predict`(X)	Return staged predictions for X.
`staged_predict_proba`(X)	Predict class probabilities for X.
`staged_score`(X, y[, sample_weight])	Return staged scores for X, y.

　　　　首先我们载入需要的类库：

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

from sklearn.ensemble import AdaBoostClassifier

from sklearn.tree import DecisionTreeClassifier

from sklearn.datasets import make_gaussian_quantiles

　　　　接着我们生成一些随机数据来做二元分类，如果对如何产生随机数据不熟悉，在另一篇文章机器学习算法的随机数据生成中有比较详细的介绍。

# 生成2维正态分布，生成的数据按分位数分为两类，500个样本,2个样本特征，协方差系数为2

X1, y1 = make_gaussian_quantiles(cov=2.0,n_samples=500, n_features=2,n_classes=2, random_state=1)

# 生成2维正态分布，生成的数据按分位数分为两类，400个样本,2个样本特征均值都为3，协方差系数为2

X2, y2 = make_gaussian_quantiles(mean=(3, 3), cov=1.5,n_samples=400, n_features=2, n_classes=2, random_state=1)

#讲两组数据合成一组数据

X = np.concatenate((X1, X2))

y = np.concatenate((y1, - y2 + 1))

　　　　我们通过可视化看看我们的分类数据，它有两个特征，两个输出类别，用颜色区别。

plt.scatter(X[:, 0], X[:, 1], marker='o', c=y)

　　　　输出为下图：

　　　　可以看到数据有些混杂，我们现在用基于决策树的Adaboost来做分类拟合。

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5), algorithm="SAMME", n_estimators=200, learning_rate=0.8) bdt.fit(X, y)

　　　　这里我们选择了SAMME算法，最多200个弱分类器，步长0.8，在实际运用中你可能需要通过交叉验证调参而选择最好的参数。拟合完了后，我们用网格图来看看它拟合的区域。

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1

y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1

xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),

                     np.arange(y_min, y_max, 0.02))

Z = bdt.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)

plt.scatter(X[:, 0], X[:, 1], marker='o', c=y)

plt.show()

　　　　输出的图如下：

　　　　从图中可以看出，Adaboost的拟合效果还是不错的，现在我们看看拟合分数：

print "Score:", bdt.score(X,y)

　　　　输出为：

　　　　也就是说拟合训练集数据的分数还不错。当然分数高并不一定好，因为可能过拟合。

　　　　现在我们将最大弱分离器个数从200增加到300。再来看看拟合分数。

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5),

                         algorithm="SAMME",

                         n_estimators=300, learning_rate=0.8)

bdt.fit(X, y)

print "Score:", bdt.score(X,y)

　　　　此时的输出为：

　　　　这印证了我们前面讲的，弱分离器个数越多，则拟合程度越好，当然也越容易过拟合。

　　　　现在我们降低步长，将步长从上面的0.8减少到0.5，再来看看拟合分数。

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5),

                         algorithm="SAMME",

                         n_estimators=300, learning_rate=0.5)

bdt.fit(X, y)

print "Score:", bdt.score(X,y)

　　　　此时的输出为：

　　　　可见在同样的弱分类器的个数情况下，如果减少步长，拟合效果会下降。

　　　　最后我们看看当弱分类器个数为700，步长为0.7时候的情况：

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5),

                         algorithm="SAMME",

                         n_estimators=600, learning_rate=0.7)

bdt.fit(X, y)

print "Score:", bdt.score(X,y)

　　　　此时的输出为：

　　　　此时的拟合分数和我们最初的300弱分类器，0.8步长的拟合程度相当。也就是说，在我们这个例子中，如果步长从0.8降到0.7，则弱分类器个数要从300增加到700才能达到类似的拟合效果。

AdaBoostClassifier实战的更多相关文章

scikit-learn Adaboost类库使用小结
在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结.这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做 ...
集成学习值Adaboost算法原理和代码小结(转载)
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类: 第一个是个体学习器之间存在强依赖关系: 另一类是个体学习器之间不存在强依赖关系. 前者的代表算法就是提升(bo ...
代码实战之AdaBoost
尝试用sklearn进行adaboost实战 & SAMME.R算法流程,博客地址初试AdaBoost SAMME.R算法流程 sklearn之AdaBoostClassifier类完整实 ...
机器学习实战 | SKLearn最全应用指南
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/41 本文地址:http://www.showmeai.tech/article-det ...
SSH实战 · 唯唯乐购项目（上）
前台需求分析一:用户模块注册前台JS校验使用AJAX完成对用户名(邮箱)的异步校验后台Struts2校验验证码发送激活邮件将用户信息存入到数据库激活点击激活邮件中的链接完成激活根 ...
GitHub实战系列汇总篇
基础: 1.GitHub实战系列~1.环境部署+创建第一个文件 2015-12-9 http://www.cnblogs.com/dunitian/p/5034624.html 2.GitHub实战系 ...
MySQL 系列（四）主从复制、备份恢复方案生产环境实战
第一篇:MySQL 系列(一) 生产标准线上环境安装配置案例及棘手问题解决第二篇:MySQL 系列(二) 你不知道的数据库操作第三篇:MySQL 系列(三)你不知道的视图.触发器.存储过程.函数 ...
Asp.Net Core 项目实战之权限管理系统（4）依赖注入、仓储、服务的多项目分层实现
0 Asp.Net Core 项目实战之权限管理系统(0) 无中生有 1 Asp.Net Core 项目实战之权限管理系统(1) 使用AdminLTE搭建前端 2 Asp.Net Core 项目实战之 ...
给缺少Python项目实战经验的人
我们在学习过程中最容易犯的一个错误就是:看的多动手的少,特别是对于一些项目的开发学习就更少了! 没有一个完整的项目开发过程,是不会对整个开发流程以及理论知识有牢固的认知的,对于怎样将所学的理论知识应用 ...

随机推荐

Oracle update时做表关联
感觉还是sqlserver中的写法比较好理解,Oracle的写法都快把我搞晕了, 注意: 1.要修改的表,不要加入到子查询中,用别名在子查询中与其他表进行关联即可. 2.exsits不能少,exsit ...
reduce多种方法计算数组中某个值的出现次数
先来了解下reduce用法 arr.reduce(callback[, initialValue]) callback执行数组中每个值的函数,包含四个参数: accumulator 累计器累计回调的返 ...
WPF度量系統
和Winform不同,WPF的度量單位不是像素,而是設備無關單位DIU,其大小總是1/96吋那麽,WPF中一個寬度爲96的按鈕,到底是多少個像素呢? 答:取決於系統DPI. 計算公式爲:實際像素 = ...
AS3.0+PHP写入mySQL
php中$_POST变量是一个数组,用于收集来自method="post"的值,内容是有HTTP POST方法发送的变量名称和值. 从带有POST方法的表单发送的信息,对任何人都是 ...
Kind (type theory)-higher-kinded types--type constructor
, pronounced "type", is the kind of all data types seen as nullary type constructors, and ...
c# 验证码实现代码
using System; using System.Collections.Generic; using System.Drawing; using System.Drawing.Drawing2D ...
Python-通过configparser读写配置文件
Python读写配置文件: 1.创建配置文件(文件名以.conf或.ini结束的文件表示配置文件) 2.导入所需模块 OS, configparser >>> import os & ...
微信小程序，时间戳和日期格式互相转化
微信小程序,时间戳转为日期格式通常后台传递过来的都是时间戳,但是前台展示不能展示时间戳.就需要转化了. 功能说明: 微信小程序里,时间戳转化为日期格式,支持自定义. 拷贝至项目utils/utils ...
java HttpURLConnection 登录网站完整代码
import java.io.*; import java.util.*; import java.net.*; public class WebTest { public static void m ...
unittest的case和报告生成方法
#coding=utf-8from appium import webdriverimport unittestimport HTMLTestRunnerclass CaseTest(unittest ...

AdaBoostClassifier实战

AdaBoostClassifier实战

AdaBoostClassifier实战的更多相关文章

随机推荐

热门专题