AdaBoost：自适应提升算法的原理及其实现

AdaBoost：通过改变训练样本权重来学习多个弱分类器并线性组合成强分类器的Boosting算法。

Boosting方法要解答的两个关键问题：一是在训练过程中如何改变训练样本的权重或者概率分布，二是如何将多个弱分类器组合成一个强分类器。

AdaBoost的做法：一是提高前一轮被弱分类器分类错误的样本的权重，而降低分类正确的样本的权重；

二是对多个弱分类器进行线性组合，提高分类效果好的弱分类器的权重，降低分类误差率高的弱分类器的权重。

首先概述一下Boost思想的原理：

具体过程：

对原始数据集初始化权重
用带权值数据集训练弱学习器
根据弱学习器的误差计算弱学习器的权重
调整数据集的权重
重复第2-4步K-1次
将K-1个弱学习器的结果进行加权组合

对于AdaBoost的数学说明，请见Adaboost算法讲解 - 知乎 (zhihu.com)

代码实现：

首先导入需要的库

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

然后来制造一些假数据：

# 生成数据并查看

from sklearn.model_selection import train_test_split

from sklearn.datasets import make_blobs  # 导入sklearn模拟二分类数据生成模块

X, y =  make_blobs(n_samples=150, n_features=2, centers=2, cluster_std=1.2, random_state=40) # 生成模拟二分类数据集

# 将标签转换为1/-1

y_ = y.copy()

y_[y_==0] = -1

y_ = y_.astype(float)

X_train, X_test, y_train, y_test = train_test_split(X, y_, test_size=0.3, random_state=43) # 训练/测试数据集划分

colors = {0:'r', 1:'g'} # 设置颜色参数

plt.scatter(X[:,0], X[:,1], marker='o', c=pd.Series(y).map(colors)) # 绘制二分类数据集的散点图

plt.show();

创建一个决策弱分类器的函数：

class DecisionStump():

    def __init__(self):

        # 基于划分阈值决定样本分类为1还是-1

        self.label = 1

        # 特征索引

        self.feature_index = None

        # 特征划分阈值

        self.threshold = None

        # 指示分类准确率的值

        self.alpha = None

定义整体model：

### 定义AdaBoost算法类

class Adaboost:

    # 弱分类器个数

    def __init__(self, n_estimators=5):

        self.n_estimators = n_estimators

    # Adaboost拟合算法

    def fit(self, X, y):

        m, n = X.shape

        # (1) 初始化权重分布为均匀分布 1/N

        w = np.full(m, (1/m))

        # 处初始化基分类器列表

        self.estimators = []

        for _ in range(self.n_estimators):

            # (2.a) 训练一个弱分类器：决策树桩

            estimator = DecisionStump()

            # 设定一个最小化误差

            min_error = float('inf')

            # 遍历数据集特征，根据最小分类误差率选择最优划分特征

            for i in range(n):

                # 获取特征值

                values = np.expand_dims(X[:, i], axis=1)

                # 特征取值去重

                unique_values = np.unique(values)

                # 尝试将每一个特征值作为分类阈值

                for threshold in unique_values:

                    p = 1

                    # 初始化所有预测值为1

                    pred = np.ones(np.shape(y))

                    # 小于分类阈值的预测值为-1

                    pred[X[:, i] < threshold] = -1

                    # 2.b 计算误差率

                    error = sum(w[y != pred])

                    # 如果分类误差大于0.5，则进行正负预测翻转

                    # 例如 error = 0.6 => (1 - error) = 0.4

                    if error > 0.5:

                        error = 1 - error

                        p = -1

                    # 一旦获得最小误差则保存相关参数配置

                    if error < min_error:

                        estimator.label = p

                        estimator.threshold = threshold

                        estimator.feature_index = i

                        min_error = error

            # 2.c 计算基分类器的权重

            estimator.alpha = 0.5 * np.log((1.0 - min_error) / (min_error + 1e-9))

            # 初始化所有预测值为1

            preds = np.ones(np.shape(y))

            # 获取所有小于阈值的负类索引

            negative_idx = (estimator.label * X[:, estimator.feature_index] < estimator.label * estimator.threshold)

            # 将负类设为 '-1'

            preds[negative_idx] = -1

            # 2.d 更新样本权重

            w *= np.exp(-estimator.alpha * y * preds)

            w /= np.sum(w)

            # 保存该弱分类器

            self.estimators.append(estimator)

    # 定义预测函数

    def predict(self, X):

        m = len(X)

        y_pred = np.zeros((m, 1))

        # 计算每个弱分类器的预测值

        for estimator in self.estimators:

            # 初始化所有预测值为1

            predictions = np.ones(np.shape(y_pred))

            # 获取所有小于阈值的负类索引

            negative_idx = (estimator.label * X[:, estimator.feature_index] < estimator.label * estimator.threshold)

            # 将负类设为 '-1'

            predictions[negative_idx] = -1

            # 2.e 对每个弱分类器的预测结果进行加权

            y_pred += estimator.alpha * predictions

        # 返回最终预测结果

        y_pred = np.sign(y_pred).flatten()

        return y_pred

最后，让我们借助sklearn中的准确率函数来测试一下：

##### 计算准确率

from sklearn.metrics import accuracy_score # 导入sklearn准确率计算函数

clf = Adaboost(n_estimators=5) # 创建Adaboost模型实例

clf.fit(X_train, y_train) # 模型拟合

y_pred = clf.predict(X_test) # 模型预测

accuracy = accuracy_score(y_test, y_pred) # 计算模型预测准确率

print("Accuracy of AdaBoost by numpy:", accuracy)

AdaBoost：自适应提升算法的原理及其实现的更多相关文章

【机器学习算法】AdaBoost自适应提升算法
前言 AdaBoost的算法步骤比较容易理解,可以参考李航老师的<统计学习方法>和July的blog. 对博主而言,最主要的是迭代部分的第二步骤是如何如何确定阈值呢,也就是说有一个特征就有 ...
Adaboost提升算法从原理到实践
1.基本思想: 综合某些专家的判断,往往要比一个专家单独的判断要好.在"强可学习"和"弱科学习"的概念上来说就是我们通过对多个弱可学习的算法进行"组合 ...
[机器学习]-Adaboost提升算法从原理到实践
1.基本思想: 综合某些专家的判断,往往要比一个专家单独的判断要好.在”强可学习”和”弱可学习”的概念上来说就是我们通过对多个弱可学习的算法进行”组合提升或者说是强化”得到一个性能赶超强可学习算法的算 ...
机器学习之Adaboost (自适应增强)算法
注:本篇博文是根据其他优秀博文编写的,我只是对其改变了知识的排序,另外代码是<机器学习实战>中的.转载请标明出处及参考资料. 1 Adaboost 算法实现过程 1.1 什么是 Adabo ...
Adaboost 算法的原理与推导——转载及修改完善
<Adaboost算法的原理与推导>一文为他人所写,原文链接: http://blog.csdn.net/v_july_v/article/details/40718799 另外此文大部分 ...
[转]Adaboost 算法的原理与推导
看了很多篇解释关于Adaboost的博文,觉得这篇写得很好,因此转载来自己的博客中,以便学习和查阅. 原文地址:<Adaboost 算法的原理与推导>,主要内容可分为三块,Adaboost ...
机器学习第5周--炼数成金-----决策树，组合提升算法，bagging和adaboost，随机森林。
决策树decision tree 什么是决策树输入:学习集输出:分类觃则(决策树) 决策树算法概述 70年代后期至80年代初期,Quinlan开发了ID3算法(迭代的二分器)Quinlan改迚了ID3 ...
梯度提升树(GBDT)原理小结(转载)
在集成学习值Adaboost算法原理和代码小结(转载)中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boos ...
Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理
Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理 1.1. 最开始的垃圾邮件判断方法,使用contain包含判断,只能一个关键词,而且100%概率判断1 1.2. 元件部件串联定律1 1.3. 垃 ...

随机推荐

Thread类的常用方法_获取线程名称的方法和Thread类的常用方法_设置线程名称的方法
构造方法: public Thread();分配一个新的线程对象 public Thread(String name);分配一个指定名字的新的线程对象 public Thread(Runnable t ...
基于Vue.js2.6结合h5来实现视频播放画中画技术(Picture-in-Picture)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_125 在开发基于vue.js的在线视频教育平台的时候,我们会注意一个小问题,就是如果用户在观看播放视频的同时,也会往下拖动窗口浏览 ...
ASP.NET Core 6框架揭秘实例演示[31]：路由“高阶”用法
ASP.NET的路由是通过EndpointRoutingMiddleware和EndpointMiddleware这两个中间件协作完成的,它们在ASP.NET平台上具有举足轻重的地位,MVC和gRPC ...
SQLServer的两个日期相减（间隔）datediff函数
select datediff(year, 开始日期,结束日期); --两日期间隔年 select datediff(quarter, 开始日期,结束日期); --两日期间隔季 select da ...
最近公共祖先（LCA）学习笔记 | P3379 【模板】最近公共祖先（LCA）题解
研究了LCA,写篇笔记记录一下. 讲解使用例题 P3379 [模板]最近公共祖先(LCA). 什么是LCA 最近公共祖先简称 LCA(Lowest Common Ancestor).两个节点的最近公共 ...
Apache DolphinScheduler 迎来 2 位 PPMC
经过 Apache DolphinScheduler PPMC 们的推荐和投票,我们高兴的宣布:Apache DolphinScheduler 迎来了 2 位 PPMC .他们是(github id) ...
Python 中MATLABspline函数的替代函数
调用scipy模块,其中有对应的函数UnivariateSpline.与MATLAB中spline函数不同的是,这个函数返回值是一个插值函数,而非插值结果. import scipy spline = ...
P2501 [HAOI2006]数字序列（LIS，DP）（未完成）
第二问好迷... #include "Head.cpp" #include <vector> const int N = 35007; vector<int> ...
Luogu3740 [HAOI2014]贴海报（线段树）
倒着来 #include <iostream> #include <cstdio> #include <cstring> #include <algorith ...
Vue3 发生错误：setup function returned a promise
当你组件中有 Promise 对象时,即 Axios.Ajax 这类的请求,然后把数据渲染到模板中就会报如下图的错误: 在这个异步组件外包裹一个 <Suspense> 组件.比如 App. ...

AdaBoost：自适应提升算法的原理及其实现

AdaBoost：自适应提升算法的原理及其实现的更多相关文章

随机推荐

热门专题