【笔记】Ada Boosting和Gradient Boosting
Ada Boosting和Gradient Boosting
Ada Boosting
除了先前的集成学习的思路以外,还有一种集成学习的思路boosting,这种思路,也是集成多个模型,但是和bagging不同的是,bagging的模型之间是独立的关系,但是在boosting中,模型之间不是独立的关系,而是一种相互增强的关系
集成多个模型,每个模型都在尝试增强整体的效果,这种效果就叫做boosting
其中最为典型的就是Ada boosting,以简单的回归问题为例,首先对原始的数据集(所有点的权值都一样大)进行学习(使用某一种学习方法),学习完以后可以得到模型,基本所有的算法都会犯一些错误,那么就对错误的点(基本没有错误的点以外的点)进行标记,让这些点产生权重的差别(改变权值可以看出是极值的问题),让上一次学习中没有学习到的点的权值增大,减小上次学习中已经学习过的点的权值,这样形成了新的样本数据
然后再使用学习算法进行学习,由于权值的差距,因此学习的时候可能优先选择上次没有学习的点,然后又可以得到一个模型,同样的,其中也有着没有被学习和被学习了的点,然后重复操作,将两种类型的点进行权值的变化,形成新的样本数据,再次学习,然后再进行上面的操作,依次进行下去
这样生成的模型都是在弥补上次没有被预测成功地样本点,也就是说每一个模型都在boost上一个模型犯的错误,经过这个过程,也可以生成很多的子模型,但是是基于同样的样本点形成的,不过区别在权重的不一样,最后用这些有差异的子模型进行综合投票,来作为Ada boosting整体的学习结果
Ada boosting的具体实现
(在notebook中)
加载好需要的包,然后使用虚拟数据,设置随机种子为666,然后绘制图像
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
X,y = datasets.make_moons(n_samples=500,noise=0.3,random_state=666)
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
图像如下
对数据进行分割
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=42)
调用sklearn中的AdaBoostClassifier类就可以实现Ada boosting,同样的使用决策树算法作为基本的算法,在实例化的时候传入参数,设置算法为决策树算法,在实例化决策树的时候也可以进行传参,这里设置最大深度为2,然后设置集成的分类器数量为500,然后进行训练,计算准确度
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2),n_estimators=500)
ada_clf.fit(X_train,y_train)
ada_clf.score(X_test,y_test)
结果如下
Gradient Boosting
另外一个比较常见的boosting算法是gradient boosting,这种算法的思想是,现针对整体的数据集使用某一个算法进行训练,训练出模型后设这个模型为m1,这个模型的对应的产生的错误为e1,然后针对e1训练第二个模型m2,同时得到的错误设置为e2,然后再针对e2训练第三个模型m3,得到的错误称为e3,以此类推,在这其中,m2的作用是可以预测出m1将会犯的错误,m2的输出是就是m1所犯的错误,同理往下,每一个模型都是对前面的模型所犯的错误的补偿,当有一个新的数据,那么最终预测的结果应该就是这些预测模型的总和
具体实现,只要调用sklearn中的GradientBoostingClassifier类就可以了,传入的参数这里设置为最大深度为2,子模型的数量为30,然后进行训练以后计算出准确度
from sklearn.ensemble import GradientBoostingClassifier
gb_clf = GradientBoostingClassifier(max_depth=2,n_estimators=30)
gb_clf.fit(X_train,y_train)
gb_clf.score(X_test,y_test)
结果如下
boosting也可以解决回归问题,和bagging一样,只要使用sklearn中的解决回归问题的类就可以了,比如adaboostregressor和GradientBoostingregressor这两个类都可以解决回归问题
【笔记】Ada Boosting和Gradient Boosting的更多相关文章
- 机器学习:集成学习(Ada Boosting 和 Gradient Boosting)
一.集成学习的思路 共 3 种思路: Bagging:独立的集成多个模型,每个模型有一定的差异,最终综合有差异的模型的结果,获得学习的最终的结果: Boosting(增强集成学习):集成多个模型,每个 ...
- 机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
- 模型组合(Model Combining)之Boosting与Gradient Boosting
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
- A Gentle Introduction to the Gradient Boosting Algorithm for Machine Learning
A Gentle Introduction to the Gradient Boosting Algorithm for Machine Learning by Jason Brownlee on S ...
- How to Configure the Gradient Boosting Algorithm
How to Configure the Gradient Boosting Algorithm by Jason Brownlee on September 12, 2016 in XGBoost ...
- 论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree
引言 GBDT已经有了比较成熟的应用,例如XGBoost和pGBRT,但是在特征维度很高数据量很大的时候依然不够快.一个主要的原因是,对于每个特征,他们都需要遍历每一条数据,对每一个可能的分割点去计算 ...
- 论文笔记:GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE
Boost是集成学习方法中的代表思想之一,核心的思想是不断的迭代.boost通常采用改变训练数据的概率分布,针对不同的训练数据分布调用弱学习算法学习一组弱分类器.在多次迭代的过程中,当前次迭代所用的训 ...
- Jackknife,Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting的区别
引自http://blog.csdn.net/xianlingmao/article/details/7712217 Jackknife,Bootstraping, bagging, boosting ...
- 【机器学习】Jackknife,Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting
Jackknife,Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting 这些术语,我经常搞混淆, ...
随机推荐
- MySql:MySql忘记密码怎么修改?
1. 关闭正在运行的MySQL服务2. 打开DOS窗口,转到mysql\bin目录3. 输入mysqld --skip-grant-tables 回车 --skip-grant-table ...
- python之学生信息管理系统
1 #!usr/bin/python 2 #encoding=utf-8 3 4 #1. 打印学生管理系统界面 5 def printStd(): 6 print ("*"*50) ...
- HCNA Routing&Switching之动态路由协议OSPF基础(二)
前文我们主要了解了OSPF的区域.区域分类.路由器类型.OSPF的核心工作流程,回顾请参考:https://www.cnblogs.com/qiuhom-1874/p/15025533.html:今天 ...
- python使用笔记10--os,sy模块
os操作文件,可以输入绝对路径,也可以输入相对路径 windows使用路径用\连接 Linux使用路径用/连接 但是我的电脑是windows 用/也没问题 1.os常用方法 1 import os 2 ...
- Java基础00-抽象类20
1. 抽象类 1.1 抽象类概述 代码示例:没有{}大括号的方法就是一个没有方法体的方法,要把它定义成抽象方法,就要给它加一个abstract关键字,而类中有抽象方法,该类也必须是一个抽象类,所以给类 ...
- [刘阳Java]_了解BeanFactory_第4讲
为什么说我们这篇文章只是说了解一下BeanFactory.因为BeanFactory内在的机制与代码实现实在是太强大了,在这一点我确实不敢滥竽充数. 1. 那么我们又如何去了解BeanFactory, ...
- CRUD搬砖两三年了,怎么阅读Spring源码?
作者:小傅哥 博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 连读同事写的代码都费劲,还读Spring? 咋的,Spring 很难读! 这个与我们码农朝夕 ...
- 在NestJS 中添加对Stripe 的WebHook 验证
在NestJS 中添加对Stripe 的WebHook 验证 背景介绍 Nest 是一个用于构建高效,可扩展的NodeJS 服务器端应用程序的框架.它使用渐进式JavaScript, 内置并完全支持T ...
- Scrapy 爬虫框架学习笔记(未完,持续更新)
Scrapy 爬虫框架 Scrapy 是一个用 Python 写的 Crawler Framework .它使用 Twisted 这个异步网络库来处理网络通信. Scrapy 框架的主要架构 根据它官 ...
- SpringBoot之了解自动配置原理
承接上文: import注解的使用: 作用:引用时,容器自动创建出这填写的类型的组件,默认组件的名字就是全类名. 往容器中添加两个组件 @Import({User.class, DBHelper.cl ...