秦曾昌人工智能课程---6、Decision Tree Learning

一、总结

一句话总结：

怎样去构建决策树：比如一维：|00||000|***,|为分割线，每个分割点都是一种情况，选一个分割点，然后再选下一个分割点，即可构成二叉树

决策树是机器学习中最简单的算法

1、机器学习的决策树算法中怎么构建决策树？

熵越小信息越有序：把不相干的点划分开，比如00|000***,|为分割线

一维表现：|00||000|***,|为分割线，每个分割点都是一种情况，选一个分割点，然后再选下一个分割点，即可构成二叉树

2、多维向量如何化为决策树（比如outlook几种，temperature几种，humidity几种，wind几种）？

条件做分支：如果以outlook为根，如果outlook是sunny怎样，比如判断湿度，如果outlook是rain怎么样，比如判断温度

叶子节点做结果：以叶子节点来做结果，比如yes啊，no啊，表示是否会去做某事

3、如何比较两个信息量的大小，比如（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金）？

概率相关：H(x)=1/P(x)：可能和事情发生的概率相关：H(x2)的概率要低

4、信息量的特点是什么，比如（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金）？

1、概率相关：H(x)=1/P(x)：可能和事情发生的概率相关：H(x2)的概率要低

2、大于等于0：H(x1)>=0：比如你妈妈给你打了一个电话，你最多觉得这件事没有信息，但是你的信息没有反馈回去给你妈妈

3、相加性：H(x1,x2)=H(x1)+H(x2)

5、两件事情的信息量和每件事情信息量之间的关系是什么（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金）？

相加性：H(x1,x2)=H(x1)+H(x2)

6、满足信息量三个条件的函数可以是什么？

|||-begin

1、概率相关：H(x)=1/P(x)：可能和事情发生的概率相关：H(x2)的概率要低

2、大于等于0：H(x1)>=0：比如你妈妈给你打了一个电话，你最多觉得这件事没有信息，但是你的信息没有反馈回去给你妈妈

3、相加性：H(x1,x2)=H(x1)+H(x2)

|||-end

log(1/p(x))：H(x)=log(1/p(x))=-log(p(x))，log以2为底

7、信息熵是什么，怎么表示？

信息量的数学期望：Entrapy(x)=Ex[H(x)]=Ex[-log(p(x))]，Ex表示数学期望，H(x)表示信息量函数

作用：描述物体的混合程度：信息熵为0表示只有一种物体，比如叉叉和圈圈的混合中

8、二维空间中，比如两种点（两种信息）怎么分割开？

横纵都可分：不仅可以横向分割，还可以纵向分割

9、低熵体是什么状态？

高度有序的状态

10、为什么数学中我们常用2做log的底数？

方便计算机存储和表示：因为我们想知道在计算机中用多少个01可以把这个结果表示出来

11、“分子运动的期望就是温度”，这句话怎么理解？

热就是分子的运动，热就是温度：热就是分子的运动，分子有的运动的快，有的运动的慢，所以分子运动的期望就是温度

12、信息熵和信息量的关系是什么？

信息熵小表示信息量大：熵越小，越有序，信息量越大

信息熵是信息量的期望：信息量越大，熵越多，但是熵就越无序（熵越多越无序）

13、信息熵和信息量在机器学习中的应用？

希望熵小，希望信息有序：我们希望熵小，这样信息量有序，我们在机器学习中越方便建立模型

14、决策树的本质是什么？

把不相关的因素给它分割开

决策树的每个叶子（每种情况）相当于你划分的一小块块

15、划分决策树的三种方式？

Entropy

Gini

Misclassification error

16、决策树越来越大，我们什么时候该停止？

停早-学不到数据的性能：如果停的比较早，代表决策树没有很好的学到这些数据的性能

停晚-过度拟合：如果停的特别往后，又会出现树比较大，过度拟合的问题

17、决策树算法使用的数据特征有哪些？

离散数据：比如没有顺序yes，no，比如有顺序的young，old

连续数据：比如一个人的年龄

18、信息增益是什么？

信息熵的变化：信息熵越小，信息增益越大

19、Gini系数与信息熵在对于不同的分叉的判断是怎样？

Gini系数越小表示信息越有序，统一

信息熵越小（信息增益越大）表示信息越有序，统一

20、决策树算法相当于在特征空间中进行什么样的操作？

垂直线性分割

二、内容在总结中

秦曾昌人工智能课程---6、Decision Tree Learning的更多相关文章

秦曾昌人工智能课程---7、决策树集成学习Tree Ensembles
秦曾昌人工智能课程---7.决策树集成学习Tree Ensembles 一.总结一句话总结: 其实机器模型减少variance的比较好的方式就是多个模型取平均值 1.CART是什么? classi ...
秦曾昌人工智能课程---5、KNN和朴素贝叶斯
秦曾昌人工智能课程---5.KNN和朴素贝叶斯一.总结一句话总结: 拟合和概率:构建机器学习模型,一般有拟合和概率两种方式轻学无用:一定要保证学有所用,要深入学习,比如之前做的安卓,一定要学通, ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
(转)Decision Tree
Decision Tree:Analysis 大家有没有玩过猜猜看(Twenty Questions)的游戏?我在心里想一件物体,你可以用一些问题来确定我心里想的这个物体:如是不是植物?是否会飞?能游 ...
Tree - Decision Tree with sklearn source code
After talking about Information theory, now let's come to one of its application - Decision Tree! No ...
Decision Tree
Decision Tree builds classification or regression models in the form of a tree structure. It break d ...
Coursera台大机器学习技法课程笔记11-Gradient Boosted Decision Tree
将Adaboost和decision tree相结合,需要注意的地主是,训练时adaboost需要改变资料的权重,如何将有权重的资料和decision tree相结合呢?方法很类似于前面讲过的bag ...
机器学习技法之Aggregation方法总结：Blending、Learning（Bagging、AdaBoost、Decision Tree）及其aggregation of aggregation
本文主要基于台大林轩田老师的机器学习技法课程中关于使用融合(aggregation)方法获得更好性能的g的一个总结.包含从静态的融合方法blending(已经有了一堆的g,通过uniform:voti ...
决策树Decision Tree 及实现
Decision Tree 及实现标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读评论(41) 收藏举报分类: Data Mining(25) Pyt ...

随机推荐

yarn安装node-sass报错问题
react前端项目在用yarn install命令安装依赖时报错了,看了下报错信息是node-sass安装的时候编译报错. 解决方法: 第一步:配置淘宝镜像 yarn config set regis ...
SP8222 NSUBSTR - Substrings(后缀自动机+dp）
传送门解题思路首先建出\(sam\),然后把\(siz\)集合通过拓扑排序算出来.对于每个点只更新它的\(maxlen\),然后再从大到小\(dp\)一次就行了.因为\(f[maxlen-1]&g ...
AcWing 144. 最长异或值路径 01字典树打卡
给定一个树,树上的边都具有权值. 树中一条路径的异或长度被定义为路径上所有边的权值的异或和: ⊕ 为异或符号. 给定上述的具有n个节点的树,你能找到异或长度最大的路径吗? 输入格式第一行包含整数n, ...
CSS中各种百分比（%）
1.固定定位 position:absolute;width:100%;height:100%: 中%相对的都是浏览器的可视窗口宽高. 2.标准文档流中,标签的 % 单位除了height以外, ...
提高ASP.NET首页性能的方法
1.js压缩文件,css压缩文件,引用的越少越好. 2.用 HTTP Module 控制页面的生命周期. 3.自定义生成动态页面的静态内容 . 4.页面用GZIP压缩. 5.OutputCache 编 ...
Python 工匠
https://github.com/piglei/one-python-craftsman/blob/master/zh_CN/7-two-tips-on-loop-writing.md
IIS身份验证和文件操作权限(二、匿名身份验证)
一.配置匿名身份验证二.浏览站点 -- 操作文件 ①无操作权限点击写入 ②有操作权限(IIS_IUSRS.Authenticated Users两个任选一个) 点击写入
7、jmeter-定时器介绍与使用
jmeter-定时器介绍与使用固定定时器 Uniform Random Timer Precise Throughput Timer Constant Throughput Timer 高斯随机定时 ...
022_IO流
对象流 // FileInput.FileOutputStream(节点流)ObjectInputStreamObjectOutputStream 序列化把内存的数据信息永久的保存在硬盘中,这个过程 ...
ps--窗口配置
移动工具设置 v 选择图层自动选择不勾图层ctrl + 左键视图设置智能参考线标尺 Ctrl+r 窗口设置关闭库颜色打开信息字符图层历史记录信息面板选项鼠标单位像素 rgb ...

秦曾昌人工智能课程---6、Decision Tree Learning

秦曾昌人工智能课程---6、Decision Tree Learning

一、总结

一句话总结：

怎样去构建决策树：比如一维：***|00|***|000|***,|为分割线，每个分割点都是一种情况，选一个分割点，然后再选下一个分割点，即可构成二叉树

决策树是机器学习中最简单的算法

1、机器学习的决策树算法中怎么构建决策树？

熵越小信息越有序：把不相干的点划分开，比如***00|***000***,|为分割线

一维表现：***|00|***|000|***,|为分割线，每个分割点都是一种情况，选一个分割点，然后再选下一个分割点，即可构成二叉树

2、多维向量如何化为决策树（比如outlook几种，temperature几种，humidity几种，wind几种）？

条件做分支：如果以outlook为根，如果outlook是sunny怎样，比如判断湿度，如果outlook是rain怎么样，比如判断温度

叶子节点做结果：以叶子节点来做结果，比如yes啊，no啊，表示是否会去做某事

3、如何比较两个信息量的大小，比如（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金） ？

概率相关：H(x)=1/P(x)：可能和事情发生的概率相关：H(x2)的概率要低

4、信息量的特点是什么，比如（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金） ？

1、概率相关：H(x)=1/P(x)：可能和事情发生的概率相关：H(x2)的概率要低

2、大于等于0：H(x1)>=0：比如你妈妈给你打了一个电话，你最多觉得这件事没有信息，但是你的信息没有反馈回去给你妈妈

3、相加性：H(x1,x2)=H(x1)+H(x2)

5、两件事情的信息量和每件事情信息量之间的关系是什么（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金）？

相加性：H(x1,x2)=H(x1)+H(x2)

6、满足信息量三个条件的函数可以是什么？

log(1/p(x))：H(x)=log(1/p(x))=-log(p(x))，log以2为底

7、信息熵是什么，怎么表示？

信息量的数学期望：Entrapy(x)=Ex[H(x)]=Ex[-log(p(x))]，Ex表示数学期望，H(x)表示信息量函数

作用：描述物体的混合程度：信息熵为0表示只有一种物体，比如叉叉和圈圈的混合中

8、二维空间中，比如两种点（两种信息）怎么分割开？

横纵都可分：不仅可以横向分割，还可以纵向分割

9、低熵体是什么状态？

高度有序的状态

10、为什么数学中我们常用2做log的底数？

方便计算机存储和表示：因为我们想知道在计算机中用多少个01可以把这个结果表示出来

11、“分子运动的期望就是温度”，这句话怎么理解？

热就是分子的运动，热就是温度：热就是分子的运动，分子有的运动的快，有的运动的慢，所以分子运动的期望就是温度

12、信息熵和信息量的关系是什么？

信息熵小表示信息量大：熵越小，越有序，信息量越大

信息熵是信息量的期望：信息量越大，熵越多，但是熵就越无序（熵越多越无序）

13、信息熵和信息量在机器学习中的应用？

希望熵小，希望信息有序：我们希望熵小，这样信息量有序，我们在机器学习中越方便建立模型

14、决策树的本质是什么？

把不相关的因素给它分割开

决策树的每个叶子（每种情况）相当于你划分的一小块块

15、划分决策树的三种方式？

Entropy

Gini

Misclassification error

16、决策树越来越大，我们什么时候该停止？

停早-学不到数据的性能：如果停的比较早，代表决策树没有很好的学到这些数据的性能

停晚-过度拟合：如果停的特别往后，又会出现树比较大，过度拟合的问题

17、决策树算法使用的数据特征有哪些？

离散数据：比如没有顺序yes，no，比如有顺序的young，old

连续数据：比如一个人的年龄

18、信息增益是什么？

信息熵的变化：信息熵越小，信息增益越大

19、Gini系数与信息熵在对于不同的分叉的判断是怎样？

Gini系数越小表示信息越有序，统一

信息熵越小（信息增益越大）表示信息越有序，统一

20、决策树算法相当于在特征空间中进行什么样的操作？

垂直线性分割

二、内容在总结中

秦曾昌人工智能课程---6、Decision Tree Learning的更多相关文章

随机推荐

热门专题

怎样去构建决策树：比如一维：|00||000|***,|为分割线，每个分割点都是一种情况，选一个分割点，然后再选下一个分割点，即可构成二叉树

熵越小信息越有序：把不相干的点划分开，比如00|000***,|为分割线

一维表现：|00||000|***,|为分割线，每个分割点都是一种情况，选一个分割点，然后再选下一个分割点，即可构成二叉树

3、如何比较两个信息量的大小，比如（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金）？

4、信息量的特点是什么，比如（H(x1)=你妈妈打电话让你穿秋裤；H(x2)=你辅导员打电话告诉你得了什么奖学金）？