【笔记】CART与决策树中的超参数

CART与决策树中的超参数

先前的决策树其实应该称为CART

CART的英文是Classification and regression tree，全称为分类与回归树，其是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法，就是假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支，其可以解决分类问题，又可以解决回归问题，特点就是根据某一个维度d和某一个阈值v进行二分

在sklearn中的决策树都是CART的方式实现的

回顾前面，不难发现，对于之前的决策树的划分模拟，平均而言，预测的复杂度是O(logm)，其中m为样本个数，这样创建决策树的训练的过程的复杂度是O(nmlogm)，是很高的，n为维度数，还有一个重要的问题就是很容易产生过拟合

那么因为种种原因，在创建决策树的时候需要进行剪枝，即降低复杂度，解决过拟合的操作

剪枝的操作有很多种，实际上就是对各种参数进行平衡

通过具体操作来体现一下

（在notebook中）

加载好需要的包，使用make_moons生成虚拟数据，将数据情况绘制出来

  import numpy as np

  import matplotlib.pyplot as plt

  from sklearn import datasets

  X,y = datasets.make_moons(noise=0.25,random_state=666)

  plt.scatter(X[y==0,0],X[y==0,1])

  plt.scatter(X[y==1,0],X[y==1,1])

图像如下

然后使用DecisionTreeClassifier这个类，不进行任何限定操作，进行实例化操作以后训练数据

  from sklearn.tree import DecisionTreeClassifier

  dt_clf = DecisionTreeClassifier()

  dt_clf.fit(X,y)

绘制函数，绘制图像

from matplotlib.colors import ListedColormap

def plot_decision_boundary(model, axis):

    x0,x1 = np.meshgrid(

        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),

        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)

    )

    X_new = np.c_[x0.ravel(),x1.ravel()]

    y_predict = model.predict(X_new)

    zz = y_predict.reshape(x0.shape)

    custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

  plot_decision_boundary(dt_clf,axis=[-1.5,2.5,-1.0,1.5])

  plt.scatter(X[y==0,0],X[y==0,1])

  plt.scatter(X[y==1,0],X[y==1,1])

图像如下（可以发现决策边界很不规则，很明显产生了过拟合）

设置参数max_depth为2，限制最大深度为2，然后训练数据并绘制模型

  dt_clf2 = DecisionTreeClassifier(max_depth=2)

  dt_clf2.fit(X,y)

  plot_decision_boundary(dt_clf2,axis=[-1.5,2.5,-1.0,1.5])

  plt.scatter(X[y==0,0],X[y==0,1])

  plt.scatter(X[y==1,0],X[y==1,1])

图像如下（可以发现过拟合已经不明显了，很清晰的表示出了边界）

还可以设置参数min_samples_split为10，限制一个节点的样本数最小为10，然后训练数据并绘制模型

  dt_clf3 = DecisionTreeClassifier(min_samples_split=10)

  dt_clf3.fit(X,y)

  plot_decision_boundary(dt_clf3,axis=[-1.5,2.5,-1.0,1.5])

  plt.scatter(X[y==0,0],X[y==0,1])

  plt.scatter(X[y==1,0],X[y==1,1])

图像如下（过拟合程度低）

还可以设置参数min_samples_leaf为6，限制一个叶子节点样本数至少为6，然后训练数据并绘制模型

  dt_clf4 = DecisionTreeClassifier(min_samples_leaf=6)

  dt_clf4.fit(X,y)

  plot_decision_boundary(dt_clf4,axis=[-1.5,2.5,-1.0,1.5])

  plt.scatter(X[y==0,0],X[y==0,1])

  plt.scatter(X[y==1,0],X[y==1,1])

图像如下

还可以设置参数max_leaf_nodes为4，限制叶子节点最多为4，然后训练数据并绘制模型

  dt_clf5 = DecisionTreeClassifier(max_leaf_nodes=4)

  dt_clf5.fit(X,y)

  plot_decision_boundary(dt_clf5,axis=[-1.5,2.5,-1.0,1.5])

  plt.scatter(X[y==0,0],X[y==0,1])

  plt.scatter(X[y==1,0],X[y==1,1])

图像如下

可以发现，对参数进行适当的修改可以很好的解决过拟合的问题，但是需要注意不要调节到欠拟合，那么寻找到合适的参数就可以使用网格搜索的方式

【笔记】CART与决策树中的超参数的更多相关文章

机器学习：决策树（CART 、决策树中的超参数）
老师:非参数学习的算法都容易产生过拟合: 一.决策树模型的创建方式.时间复杂度 1)创建方式决策树算法既可以解决分类问题,又可以解决回归问题: CART 创建决策树的方式:根据某一维度 d 和某一 ...
DeepLearning.ai学习笔记（二）改善深层神经网络：超参数调试、正则化以及优化--Week2优化算法
1. Mini-batch梯度下降法介绍假设我们的数据量非常多,达到了500万以上,那么此时如果按照传统的梯度下降算法,那么训练模型所花费的时间将非常巨大,所以我们对数据做如下处理: 如图所示,我 ...
【笔记】KNN之网格搜索与k近邻算法中更多超参数
网格搜索与k近邻算法中更多超参数网格搜索与k近邻算法中更多超参数网络搜索前笔记中使用的for循环进行的网格搜索的方式,我们可以发现不同的超参数之间是存在一种依赖关系的,像是p这个超参数,只有在 ...
Coursera Deep Learning笔记改善深层神经网络：超参数调试正则化以及梯度相关
笔记:Andrew Ng's Deeping Learning视频参考:https://xienaoban.github.io/posts/41302.html 参考:https://blog.cs ...
deeplearning.ai 改善深层神经网络 week3 超参数调试、Batch正则化和程序框架听课笔记
这一周的主体是调参. 1. 超参数:No. 1最重要,No. 2其次,No. 3其次次. No. 1学习率α:最重要的参数.在log取值空间随机采样.例如取值范围是[0.001, 1],r = -4* ...
[DeeplearningAI笔记]02_3.1-3.2超参数搜索技巧与对数标尺
Hyperparameter search 超参数搜索觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1 调试处理需要调节的参数级别一:\(\alpha\)学习率是最重要的需要调节的 ...
Deep Learning.ai学习笔记_第二门课_改善深层神经网络：超参数调试、正则化以及优化
目录第一周(深度学习的实践层面) 第二周(优化算法) 第三周(超参数调试.Batch正则化和程序框架) 目标: 如何有效运作神经网络,内容涉及超参数调优,如何构建数据,以及如何确保优化算法快速运行, ...
ng-深度学习-课程笔记-8: 超参数调试，Batch正则(Week3)
1 调试处理( tuning process ) 如下图所示,ng认为学习速率α是需要调试的最重要的超参数. 其次重要的是momentum算法的β参数(一般设为0.9),隐藏单元数和mini-batc ...
【笔记】KNN之超参数
超参数超参数很多时候,对于算法来说,关于这个传入的参数,传什么样的值是最好的? 这就涉及到了机器学习领域的超参数超参数简单来说就是在我们运行机器学习之前用来指定的那个参数,就是在算法运行前需要决 ...

随机推荐

资源：docker离线安装包下载路径
docker安装包下载路径: docker所有版本:https://download.docker.com/linux/static/stable/
html javascript checkbox实现全选功能
html代码 <input type="checkbox" id="all" />all</input> <input type= ...
SpringCloud的Ribbon自定义负载均衡算法
1.Ribbon默认使用RoundRobinRule策略轮询选择server 策略名策略声明策略描述实现说明 BestAvailableRule public class BestAvailab ...
PHP7与php5
php在2015年12月03日发布了7.0正式版,带来了许多新的特性,以下是不完全列表: 性能提升:PHP7比PHP5.6性能提升了两倍. Improved performance: PHP 7 is ...
Linux安装telnet（转）
一.安装telnet 1.检测telnet-server的rpm包是否安装 [root@localhost ~]# rpm -qa telnet-server 若无输入内容,则表示没有安装.出于安 ...
hdu 2093 成绩排名
思路: 没啥思路,就是定义结构体,跟题目,走,当时没想到对那个括号的处理,后面看了题解,才知道用个getchar直接判断算是一个值得思考的点. 代码: #include<bits/stdc++ ...
使用Flyway来管理数据库版本
使用Flyway来管理数据库版本 Flyway是什么 Flyway是一款数据库迁移(migration)工具. 它可以帮助我们在不同环境保持数据库的同步,减少手工操作,避免数据导入的顺序错误,同时也减 ...
一、从GitHub浏览Prism示例代码的方式入门WPF下的Prism
最近这段时间一直在看一个开源软件PowerToys的源码,里面使用Modules的开发风格让我特别着迷,感觉比我现在写代码的风格好了太多太多.我尝试把PowerToys的架构分离了出来,但是发现代码维 ...
kong插件Prometheus+grafana图形化展示
目录 1. 准备工作 3. 为kong添加 prometheus插件 4. 打开kong的metrics支持 4. 配置prometheus.yml添加kong提供的数据信息 5. 在 Grafana ...
「CF521E」 Cycling City
「CF521E」 Cycling City 传送门首先你能发现这个东西一定是两个环的公共边. 最开始想的是什么如果一个点被访问过三次那它一定是公共边的某一端之类的东西,然后发现被仙人掌叉掉. 然后就 ...

【笔记】CART与决策树中的超参数

CART与决策树中的超参数

【笔记】CART与决策树中的超参数的更多相关文章

随机推荐

热门专题