机器学习：决策树（CART 、决策树中的超参数）

老师：非参数学习的算法都容易产生过拟合；

一、决策树模型的创建方式、时间复杂度

　1）创建方式

决策树算法

既可以解决分类问题，又可以解决回归问题；
CART 创建决策树的方式：根据某一维度 d 和某一个阈值 v 进行二分；（得到的是一个二叉树）
scikit-learn 中的创建决策树的方式：CART（Classification And Regression Tree），也就是二叉树的方式；
创建决策树的方式有多种：ID3、C4.5、C5.0、CART；

　2）二叉树的实际复杂度

预测样本时的时间复杂度：O(logm)

m：待预测的样本个数；
logm：表示“树”的高度，也就是 “树” 一共有 logm 层；
可以这样理解：每一次的节点划分，都是对当前实际的对半划分，则“树”的高度是 logm ；当传入一个未知的新的样本时，从根节点处开始一步一步做决策，走到“叶子”节点；

训练决策树模型时的时间复杂度：O(n*m*logm)

X_train 是（m，n）；
“树”是 logm 级别的，如果每一层只划分一个节点，在一个节点上大概都要对数据集做 n*m 次划分，则训练的时间复杂度为 O(n*m*logm)；

二、scikit-learn 中决策树算法的参数

　1）决策树算法的问题

训练决策树模型的时间复杂度比较大：O(n*m*logm)；
训练决策树模型时容易产生过拟合；（这也是所有非参数学习算法的共同问题）

方案：剪枝——可降低复杂度，同时解决过拟合；

　2）常用参数

参数的功能：防止模型过拟合或欠拟合，降低训练模型的时间复杂度；

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion='entropy', min_samples_split=10, min_samples_leaf=6, max_leaf_nodes=4)

dt_clf.fit(X, y)

max_depth = 2：决策树模型的最高深度为 2；
criterion = 'entropy'：划分节点数据集时，采用信息熵为判断条件；
criterion = 'gini'：划分节点数据集时，采用基尼系数为判断条件；
min_samples_split = 10：节点数据集中至少要有 10 个样本，才能继续对节点数据集进行划分；否则即使信息熵和基尼系数都比较大，也不在划分数据集；
min_samples_leaf = 6：一个“叶子”节点，至少要有 6 个样本；
max_leaf_nodes = 4：模型最多只能有 4 个“叶子”节点；

scikit-learn 中的决策树算法中还有很多其它参数，可查官方文档；

实际应用中，需要将各种参数相互组合，可以用网格搜索的方式找到最佳的一组；

机器学习：决策树（CART 、决策树中的超参数）的更多相关文章

【笔记】CART与决策树中的超参数
CART与决策树中的超参数先前的决策树其实应该称为CART CART的英文是Classification and regression tree,全称为分类与回归树,其是在给定输入随机变量X条件下输 ...
lecture16-联合模型、分层坐标系、超参数优化及本课未来的探讨
这是HInton的第16课,也是最后一课. 一.学习一个图像和标题的联合模型在这部分,会介绍一些最近的在学习标题和描述图片的特征向量的联合模型上面的工作.在之前的lecture中,介绍了如何从图像中 ...
机器学习——决策树，DecisionTreeClassifier参数详解，决策树可视化查看树结构
0.决策树决策树是一种树型结构,其中每个内部节结点表示在一个属性上的测试,每一个分支代表一个测试输出,每个叶结点代表一种类别. 决策树学习是以实例为基础的归纳学习决策树学习采用的是自顶向下的递归方 ...
机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size
机器学习算法中如何选取超参数:学习速率.正则项系数.minibatch size 本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器 ...
机器学习实战---决策树CART回归树实现
机器学习实战---决策树CART简介及分类树实现一:对比分类树 CART回归树和CART分类树的建立算法大部分是类似的,所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方.首先,我 ...
机器学习超参数优化算法-Hyperband
参考文献:Hyperband: Bandit-Based Configuration Evaluation for Hyperparameter Optimization I. 传统优化算法机器学习 ...
Spark2.0机器学习系列之2：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优
Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation).举个例子,例如10折交叉验证(10-fold cross valida ...
机器学习：SVM（scikit-learn 中的 RBF、RBF 中的超参数 γ）
一.高斯核函数.高斯函数 μ:期望值,均值,样本平均数:(决定告诉函数中心轴的位置:x = μ) σ2:方差:(度量随机样本和平均值之间的偏离程度:, 为总体方差, 为变量, 为总体均值, 为总 ...
机器学习：调整kNN的超参数
一.评测标准模型的测评标准:分类的准确度(accuracy): 预测准确度 = 预测成功的样本个数/预测数据集样本总数: 二.超参数超参数:运行机器学习算法前需要指定的参数: kNN算法中的超参数 ...

随机推荐

Go 语言基础知识
0. Go语言书单 1. 文本注释 // 单行注释 /* */ 多行注释 2. 变量赋值 = 变量赋值 := 声明变量并赋值 3. 变量定义 var name string var age int v ...
Yii技巧大全（摘录）
Yii技巧大全(摘录) db组件 'schemaCachingDuration'=>3600, 为什么不起做用? 需要开缓存如何在页面下边显示sql的查询时间在log组件的routes中加入 ...
css 相对绝对定位
用Div+CSS进行网站布局时,做一些浮动层等特殊特殊效果时要考虑到定位问题.这就要用到Position属性等.Position属性有四个值:static.fixed.absolute和relativ ...
VK Cup 2017 - Qualification 1 C 贪心
是一道很有趣的题目给出地图和起始点与要求的步数k 要求走k步正好回到起始点输出字典序最小的移动路径 DLRU这样可以想到DU LR都是相同数量的于是k必须是一个偶数然后走了弯路QAQ 从 ...
android、ipone在文本框中输入文字的不同
1.android机会输入时会在键盘上先显示,你确定后再填充如文本框 2.ipone机是你输入时就直接填充到文本框,当你选择输入信息时,就会先把文本框的内容清空,在填充选择的文字,这时就会有个问题,如 ...
Spring中AOP的初窥和入门小案例
AOP:面向切面编程 AOP的主要作用:是为了程序员更好的关注"业务",专心"做事" 加上双引号的意思:所谓业务,是指他的核心,各行业中需要处理的核心事务,核心 ...
Composer 入门使用手册
依赖管理官网地址:http://docs.phpcomposer.com/00-intro.html#Locally Composer 不是一个包管理器.是的,它涉及 "packages& ...
MVC3 学习总结一(未发布)
MVC: Model,View,Control 设置View中的数据 1. 返回model,View中强类型化 Control: public ActionResult Browse(strin ...
APP测试的那些坑
在记录app测试走过的那些坑之前,先总结下app测试的工作主要有哪些: 1.功能测试,无论是什么软件产品,必不可少的就是功能测试.我们需要测试这款app产品的功能是否完善,是否符合客户需求,是否符 ...
CruiseControl初探
一.背景 CruiseControl从<项目自动化之道>这本书中了解到,然后又从网上查资料做了一定尝试.同时,项目持续集成这部分我也计划在自己参与的项目上先试点实行,才有了这篇文章. 二. ...

机器学习：决策树（CART 、决策树中的超参数）

一、决策树模型的创建方式、时间复杂度

1）创建方式

2）二叉树的实际复杂度

二、scikit-learn 中决策树算法的参数

1）决策树算法的问题

2）常用参数

参数的功能：防止模型过拟合或欠拟合，降低训练模型的时间复杂度；

机器学习：决策树（CART 、决策树中的超参数）的更多相关文章

随机推荐

热门专题

　1）创建方式

　2）二叉树的实际复杂度

　1）决策树算法的问题

　2）常用参数