【Decision Tree】林轩田机器学习技法

首先沿着上节课的AdaBoost-Stump的思路，介绍了Decision Tree的路数：

AdaBoost和Decision Tree都是对弱分类器的组合：

1）AdaBoost是分类的时候，让所有的弱分类器同时发挥作用

2）Decision Tree是每次根据condition让某个弱分类器发挥作用

林强调了一点，Decision Tree很多套路都是前人的insights，觉得这用好就这样处理了，没有那么完备的理论保证。

从递回的角度，可以这样看Decision Tree:

Decision Tree = Σ分支条件.子树

根据如上的递回思路，可以写出Decision Tree的算法的大概思路：

有点儿像dfs的代码模板：

输入：N个样本点

终止条件：达到base hypothesis gt(x)

dfs步骤：

　　1）获得分支条件

　　2）根据分支条件，将数据切分成C份

　　3）由这C份数据生成C棵子树

　　4）将C棵子树 & 分支判断条件合在一起return

其中很关键的一个步骤就是如何划分输入样本D成C分，这里介绍一种C&RT的方法。

这个方法的特点是每次只产生2一个判断条件，将数据分成两份（即binary tree）

选择判断条件的准则是：经过判断条件的划分后数据更纯了。

这里的“纯”还做了一个处理，就是“加权纯”，如果样本量大的那一堆数据更纯，认为划分的效果更好。

到这里需要停顿一下，整理下思路：b(x)是根据x划分分支条件的函数，跟定一个x就产生一种分支，即对数据产生一种划分。

接下来要考虑，划分出来的每组数据的impuirity如何计算呢？

根据需求不同impurify有两种计算套路：

1）如果是regression的：就可以用均方差来衡量

2）如果是classification的：就可以用Gini index来衡量（想象一个极端情况，如果数据D都属于一类了，那么Gini index就是0了，即不纯度是0）

接下来，看这种算法迭代的终止条件：

有两种强行终止条件：

1）如果impurity=0了，即只剩一类数据了，就不用再划分了

2）如果xn全部相同了，也没法划分了，因为b(x)的输出只有一个

完整的C&RT算法如上图，非常neat的算法。

但是上述的算法隐含问题，就是overfitting的问题。

可以通过剪枝来处理这个问题，一个可行的算法就是，每次除去叶子节点i，保证除去某个叶子节点后Ein(i)能最小。

另外，考虑pratical场景，有可能有枚举类型（categorical features)特征，对于这样的特征C&RT模型也可以轻易的处理。

如果有missing feature怎么办？

其中一个办法就是surrogate branch，简单来说，就是如果某种属性缺失了，可以找到其替代品。

最后林对比了Decision Tree和AdaBoost-Stump两种算法：

区别：

1）C&RT可以conditional的切，切的效率可能更高

2）AdaBoost-Stump只能完全横刀或完全竖刀来切，有可能没有Decision Tree切的效率高

最后，林总结了Decision Tree的优势：

真是居家旅行必备...

【Decision Tree】林轩田机器学习技法的更多相关文章

【Random Forest】林轩田机器学习技法
总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Fores ...
【Matrix Factorization】林轩田机器学习技法
在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种 ...
【Deep Learning】林轩田机器学习技法
这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密. 林介绍了deep learning近年来受到了很大的关注: ...
【Radial Basis Function Network】林轩田机器学习技法
这节课主要讲述了RBF这类的神经网络+Kmeans聚类算法,以及二者的结合使用. 首先回归的了Gaussian SVM这个模型: 其中的Gaussian kernel又叫做Radial Basis F ...
【Neural Network】林轩田机器学习技法
首先从单层神经网络开始介绍最简单的单层神经网络可以看成是多个Perception的线性组合,这种简单的组合可以达到一些复杂的boundary. 比如,最简单的逻辑运算AND OR NOT都可以由多 ...
【Adaptive Boosting】林轩田机器学习技法
首先用一个形象的例子来说明AdaBoost的过程: 1. 每次产生一个弱的分类器,把本轮错的样本增加权重丢入下一轮 2. 下一轮对上一轮分错的样本再加重学习,获得另一个弱分类器经过T轮之后,学得了T ...
【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...
【Support Vector Regression】林轩田机器学习技法
上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续 ...
【Dual Support Vector Machine】林轩田机器学习技法
这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1 ...

随机推荐

修改hosts工具推荐SwitchHosts
推荐一个修改hosts的工具.适合平时工作中经常修改hosts的开发测试. 下载地址:https://oldj.github.io/SwitchHosts/ 可以按各种环境或者项目添加,用的时候打开或 ...
SSM框架整合：转自：http://blog.csdn.net/zhshulin
使用SSM(Spring.SpringMVC和Mybatis)已经有三个多月了,项目在技术上已经没有什么难点了,基于现有的技术就可以实现想要的功能,当然肯定有很多可以改进的地方.之前没有记录SSM整合 ...
DevExpress控件经验集合
关于GridControl的可以先看这里:http://blog.csdn.net/dong413876225/article/details/8313094 增加新行,我用了AddNewRow,但是 ...
device not ready cuda
问题描述: CUDA: 使用cudaEventElapsedTime时返回device not ready error 强调下我是用谷歌大神搜索到的结构哦! http://stackoverflow. ...
微信端H5页面问题总结
1.div元素不确定高度的情况下背景图片显示问题,解决后可以自适应不同分辨率的屏幕大小,div元素的background-size设置100%后,其自身的高度和宽度不能再设置. .register-t ...
inline-block问题
1.两个相邻的inline-block元素,给inline-block元素设置max-width并且overflow:hidden;之后,相邻行内元素回向下偏移问题给inline-block元素添加 ...
cursor 在某一操作之前打开 fetch cursorname into var1
工作中遇到这样一个问题,在一个存储过程中,我想让一个游标在某一操作之前打开,说白了操作会影响我游标中已定义好的数据,这里我们用到游标的第二种用法,代码如下 cursor c_relation is s ...
Linux - 用户环境变量的查看与设置
1. 查看当前有哪些环境变量直接输入命令:env 2. 设置用户环境变量输入命令:vim ~/.bash_profile,打开文件,输入如下内容: 范例(设置maven环境变量): export ...
js函数的默认参数
function f(flag, start, end, msg){ flag = flag == false ? flag : true; start = start || null; start ...
SSH 登录时出现如下错误：No supported key exchange algorithms
https://help.aliyun.com/knowledge_detail/41486.html

【Decision Tree】林轩田机器学习技法

【Decision Tree】林轩田机器学习技法的更多相关文章

随机推荐

热门专题