1.bootstrap   在原始数据的范围内作有放回的再抽样M个, 样本容量仍为n,原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。于是可得到参数θ的一个估计值θ^(b),这样重复若干次,记为B 。为了可以避免一些误差点对少量树的决策影响。

2.决策树 : 

   信息熵: Ent(D) = - ΣPk*logPk, Ent(D)的值越小,则D的纯度越高
           信息增益: ID3中使用, 存在过拟合的情况,

避免过拟合的方法,1. 通过significant test,用判断成功的概率来判断要不要进行剩下的分类

2. 进行剪枝,去掉该枝还是可以完成正确的分类,就说明该枝没有用

举例说明: 17个西瓜, 8个好瓜, 9个坏西瓜

P1 = 8/17, P2 = 9/17

当前的信息熵 = -(8/17*log(8/17)+9/17*log(9/17))

根据色泽特征(绿色,红色,白色)分成了3类

绿色里面有6个瓜,3个好瓜,3个坏瓜, 红色里面有4个好瓜,2个坏瓜, 白色里面有一个好瓜,4个坏瓜

Ent(D1) = -(3/6*log(3/6) + 3/6*log(3/6))  根据绿色条件分出了6个西瓜,其中3个好瓜,3个坏瓜

Ent(D2) = -(4/6*log(4/6) + 2/6*log(2/6))  根据红色条件分出了6个西瓜,其中4个好瓜,2个坏瓜

Ent(D3) = -(1/5*log(1/5) + 4/5*log(4/5))   根据白色条件分出了5个西瓜,其中1个坏瓜,4个好瓜
                             信息增益率 = 上一次的信息熵 - 当前信息熵

=  -(8/17*log(8/17)+9/17*log(9/17)) - (6/17 * Ent(D1)  + 6/17 * Ent(D2) + 5/17*Ent(D3))  > 0 说明存在信息增益

信息增益率: C4,5

通过进行前后的信息熵的相除

CART算法: 基尼系数, 从两个样本中随机抽取两个样例,其类别标记不一致的概率

Gini(D) = 1 - ΣPk^2

如果是连续值的话,那么进行的就是回归树的分类

多分类  ΣΣPk*logPk

决策树:优势:

- 非黑盒

- 轻松去除无关attribute(Gain=0)

- test 起来很快
                            劣势:

- 只能线性分割数据
                                  - 贪婪算法(可能找不到最好的树)

3. Bagging 表示集群树进行投票,根据票数的结果来统计最终结果

4. Random Forest (随机森林) 在选取有限样本的同时,选取的特征也是有限的,有点像dropout,最后的结果进行投票

5.  Boosting :

1. 先在原始数据集中长出一个Tree,

2 把前一个tree没有完美分类的数据,进行数据权重的重构,让没有分好的数据所占的权重更大

3. 用新的re-weighted tree再训练一个tree

4.最终的分类结果由投票决定

根据前一个树的分类结果,来强化当前的树

6. Adaboost

步骤1 : 首先初始化数据的权重分布,每个训练样本最开始被赋予相同的权值

D1 = (w11, w12, ...., W1n) W1i = 1/n i= 1, 2, ....N

步骤2: 使用权值分布Dm的训练集学习,得到基本分类器(选取让误差率最低的阈值来设计基本分类器)

步骤3: 计算Gm(x) 在训练数据集上的分类误差率,Wm = 当前分类器的分类误差, 根据错误率对训练数据进行加权

em = ΣWmIGm(xi) != yi

步骤4: 带入上述进行权重加权的em,然后表示当前分类器的受重视程度

am = 1/2log(1-em/em) 当em<1/2 时 am>=0 且am随着em的减小而增大
                      意味着分类误差率越小的基本分类器在最终分类器的作用越大

步骤5:组合各个弱分类器

7.GBDT

Adaboost 的Regreesion版本
        Adaboost的em , 这里可以使用欧式距离或者交叉熵做为错误率判断的方式

把残差做为下一轮的学习目标

c .最终的结果有加权和值得到,不再是简单的多数投票

G(x) = ΣamGm(x)

8. XGboost 本身也是一种GBDT,但是把速度与效率做到了极值

a. 使用L1, L2 Regularization 防止Overfitting, 加入正则化偏质相,使得每次梯度方向都存在一定的偏差,减少局部拟合的情况

L1

w = argminΣ(t(xj) - Σwihi(xj)^2) + λΣwi

L2

w =argminΣ(t(xj) - Σwihi(xj)^2) + λΣwi^2

b. 对代价函数一阶与二阶求导,更快的Converge

c. 树长全后再进行剪枝,防止贪心算法

     

决策树与树集成模型(bootstrap, 决策树(信息熵,信息增益, 信息增益率, 基尼系数),回归树, Bagging, 随机森林, Boosting, Adaboost, GBDT, XGboost)的更多相关文章

  1. 【机器学习实战】第7章 集成方法(随机森林和 AdaBoost)

    第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...

  2. 机器学习之路:python 集成回归模型 随机森林回归RandomForestRegressor 极端随机森林回归ExtraTreesRegressor GradientBoostingRegressor回归 预测波士顿房价

    python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.dat ...

  3. 集成方法:渐进梯度回归树GBRT(迭代决策树)

    http://blog.csdn.net/pipisorry/article/details/60776803 单决策树C4.5由于功能太简单.而且非常easy出现过拟合的现象.于是引申出了很多变种决 ...

  4. bootstrap && bagging && 决策树 && 随机森林

    看了一篇介绍这几个概念的文章,整理一点点笔记在这里,原文链接: https://machinelearningmastery.com/bagging-and-random-forest-ensembl ...

  5. 【机器学习】迭代决策树GBRT(渐进梯度回归树)

    一.决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF. ...

  6. 机器学习实战---决策树CART回归树实现

    机器学习实战---决策树CART简介及分类树实现 一:对比分类树 CART回归树和CART分类树的建立算法大部分是类似的,所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方.首先,我 ...

  7. 随机森林(Random Forest),决策树,bagging, boosting(Adaptive Boosting,GBDT)

    http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...

  8. 什么是机器学习的分类算法?【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】

    1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...

  9. R语言︱决策树族——随机森林算法

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...

随机推荐

  1. vue-cli如何添加多种环境变量

    vue-cli如何添加多种环境变量 目前webpack(vue-cli) 打包有两种变量,development, productor, 如何添加一个 test的测试环境呢 vue-cli 3.0 v ...

  2. 《剑指offer》习题解答(C/C++)

    1.二维数组中的查找 /* 题目:在一个二维数组中,没一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序. 请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数 ...

  3. bzoj1225

    题解: 数论+报搜 首先套一个计算因子个数的公式 枚举一下这个数 代码: #include<bits/stdc++.h> using namespace std; ],res[],tmp[ ...

  4. 在myeclipse中配置DB Driver(数据库用MySql),并在myeclipse执行sql语句操作

    在myeclipse中配置DB Driver(数据库用MySql),并在myeclipse执行sql语句操作 MyEclipse6.5    ,  mysq驱动jar包为mysql-connector ...

  5. 51Nod 1006:最长公共子序列Lcs(打印LCS)

    1006 最长公共子序列Lcs  基准时间限制:1 秒 空间限制:131072 KB 分值: 0 难度:基础题  收藏  关注 给出两个字符串A B,求A与B的最长公共子序列(子序列不要求是连续的). ...

  6. windows server 2008 r2 修改远程登入的端口号(3389)

    步骤:打开“开始→运行”,输入“regedit”,打开注册表,进入以下路径:[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Terminal ...

  7. 494 - Kindergarten Counting Game

     Kindergarten Counting Game  Everybody sit down in a circle. Ok. Listen to me carefully. ``Woooooo, ...

  8. Reusing & Composing GraphQL APIs with GraphQL Bindings

    With GraphQL bindings you can embed existing GraphQL APIs into your GraphQL server. In previous blog ...

  9. Chrome 上传时打开对话框非常慢

    Chrome 上传时打开对话框非常慢 先说解决方法,将 Chrome 中这个选项关闭,打开会飞快. 如果只是图片之类是不会的,但是有 zip apk 之类的就会慢. 主要原因还是 Chrome 太安全 ...

  10. Java多线程编程核心技术,第四章

    1,ReentrantLock 2,object的wait(),wait(x),notify(),notifyAll(),分别等于Condition的await(),await(x,y),signal ...