秦曾昌人工智能课程---6、Decision Tree Learning

一、总结

一句话总结:

怎样去构建决策树:比如一维:***|00|***|000|***,|为分割线,每个分割点都是一种情况,选一个分割点,然后再选下一个分割点,即可构成二叉树
决策树是机器学习中最简单的算法

1、机器学习的决策树算法中怎么构建决策树?

熵越小信息越有序:把不相干的点划分开,比如***00|***000***,|为分割线
一维表现:***|00|***|000|***,|为分割线,每个分割点都是一种情况,选一个分割点,然后再选下一个分割点,即可构成二叉树

2、多维向量如何化为决策树(比如outlook几种,temperature几种,humidity几种,wind几种)?

条件做分支:如果以outlook为根,如果outlook是sunny怎样,比如判断湿度,如果outlook是rain怎么样,比如判断温度
叶子节点做结果:以叶子节点来做结果,比如yes啊,no啊,表示是否会去做某事

3、如何比较两个信息量的大小,比如(H(x1)=你妈妈打电话让你穿秋裤;H(x2)=你辅导员打电话告诉你得了什么奖学金) ?

概率相关:H(x)=1/P(x):可能和事情发生的概率相关:H(x2)的概率要低

4、信息量的特点是什么,比如(H(x1)=你妈妈打电话让你穿秋裤;H(x2)=你辅导员打电话告诉你得了什么奖学金) ?

1、概率相关:H(x)=1/P(x):可能和事情发生的概率相关:H(x2)的概率要低
2、大于等于0:H(x1)>=0:比如你妈妈给你打了一个电话,你最多觉得这件事没有信息,但是你的信息没有反馈回去给你妈妈
3、相加性:H(x1,x2)=H(x1)+H(x2)

5、两件事情的信息量和每件事情信息量之间的关系是什么(H(x1)=你妈妈打电话让你穿秋裤;H(x2)=你辅导员打电话告诉你得了什么奖学金)?

相加性:H(x1,x2)=H(x1)+H(x2)

6、满足信息量三个条件的函数可以是什么?

|||-begin

1、概率相关:H(x)=1/P(x):可能和事情发生的概率相关:H(x2)的概率要低
2、大于等于0:H(x1)>=0:比如你妈妈给你打了一个电话,你最多觉得这件事没有信息,但是你的信息没有反馈回去给你妈妈
3、相加性:H(x1,x2)=H(x1)+H(x2)

|||-end

log(1/p(x)):H(x)=log(1/p(x))=-log(p(x)),log以2为底

7、信息熵是什么,怎么表示?

信息量的数学期望:Entrapy(x)=Ex[H(x)]=Ex[-log(p(x))],Ex表示数学期望,H(x)表示信息量函数
作用:描述物体的混合程度:信息熵为0表示只有一种物体,比如叉叉和圈圈的混合中

8、二维空间中,比如两种点(两种信息)怎么分割开?

横纵都可分:不仅可以横向分割,还可以纵向分割

9、低熵体是什么状态?

高度有序的状态

10、为什么数学中我们常用2做log的底数?

方便计算机存储和表示:因为我们想知道在计算机中用多少个01可以把这个结果表示出来

11、“分子运动的期望就是温度”,这句话怎么理解?

热就是分子的运动,热就是温度:热就是分子的运动,分子有的运动的快,有的运动的慢,所以分子运动的期望就是温度

12、信息熵和信息量的关系是什么?

信息熵小表示信息量大:熵越小,越有序,信息量越大
信息熵是信息量的期望:信息量越大,熵越多,但是熵就越无序(熵越多越无序)

13、信息熵和信息量在机器学习中的应用?

希望熵小,希望信息有序:我们希望熵小,这样信息量有序,我们在机器学习中越方便建立模型

14、决策树的本质是什么?

把不相关的因素给它分割开
决策树的每个叶子(每种情况)相当于你划分的一小块块

15、划分决策树的三种方式?

Entropy
Gini
Misclassification error

16、决策树越来越大,我们什么时候该停止?

停早-学不到数据的性能:如果停的比较早,代表决策树没有很好的学到这些数据的性能
停晚-过度拟合:如果停的特别往后,又会出现树比较大,过度拟合的问题

17、决策树算法使用的数据特征有哪些?

离散数据:比如没有顺序yes,no,比如有顺序的young,old
连续数据:比如一个人的年龄

18、信息增益是什么?

信息熵的变化:信息熵越小,信息增益越大

19、Gini系数与信息熵在对于不同的分叉的判断是怎样?

Gini系数越小表示信息越有序,统一
信息熵越小(信息增益越大)表示信息越有序,统一

20、决策树算法相当于在特征空间中进行什么样的操作?

垂直线性分割

二、内容在总结中

 

秦曾昌人工智能课程---6、Decision Tree Learning的更多相关文章

  1. 秦曾昌人工智能课程---7、决策树集成学习Tree Ensembles

    秦曾昌人工智能课程---7.决策树集成学习Tree Ensembles 一.总结 一句话总结: 其实机器模型减少variance的比较好的方式就是 多个模型取平均值 1.CART是什么? classi ...

  2. 秦曾昌人工智能课程---5、KNN和朴素贝叶斯

    秦曾昌人工智能课程---5.KNN和朴素贝叶斯 一.总结 一句话总结: 拟合和概率:构建机器学习模型,一般有拟合和概率两种方式 轻学无用:一定要保证学有所用,要深入学习,比如之前做的安卓,一定要学通, ...

  3. Spark MLlib - Decision Tree源码分析

    http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...

  4. (转)Decision Tree

    Decision Tree:Analysis 大家有没有玩过猜猜看(Twenty Questions)的游戏?我在心里想一件物体,你可以用一些问题来确定我心里想的这个物体:如是不是植物?是否会飞?能游 ...

  5. Tree - Decision Tree with sklearn source code

    After talking about Information theory, now let's come to one of its application - Decision Tree! No ...

  6. Decision Tree

    Decision Tree builds classification or regression models in the form of a tree structure. It break d ...

  7. Coursera台大机器学习技法课程笔记11-Gradient Boosted Decision Tree

    将Adaboost和decision tree相结合,需要注意的地主是,训练时adaboost需要改变资料的权重,如何将有权重的资 料和decision tree相结合呢?方法很类似于前面讲过的bag ...

  8. 机器学习技法之Aggregation方法总结:Blending、Learning(Bagging、AdaBoost、Decision Tree)及其aggregation of aggregation

    本文主要基于台大林轩田老师的机器学习技法课程中关于使用融合(aggregation)方法获得更好性能的g的一个总结.包含从静态的融合方法blending(已经有了一堆的g,通过uniform:voti ...

  9. 决策树Decision Tree 及实现

    Decision Tree 及实现 标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读 评论(41) 收藏 举报  分类: Data Mining(25)  Pyt ...

随机推荐

  1. 页面background不随滚动条填充颜色

    这我又遇到了个问题,这问题我连问都不知道该怎么问,先搁在这儿,如果有办法了,再来补充. 原因:因为颜色板块是100%宽度,和页面保持同宽,所以拖动滚动条,右侧就大于了页面宽度. bug:  我写页面的 ...

  2. Delphi 打印纸张选项设置参数

    { paper selections } {$EXTERNALSYM DMPAPER_LETTER} DMPAPER_LETTER = 1; { Letter 8 12 x 11 in } {$EXT ...

  3. js设计模式——8.中介者模式

    js设计模式——8.中介者模式 /*js设计模式——中介者模式*/ class A { constructor() { this.number = 0; } setNumber(num, m) { t ...

  4. 获取客户端IP地址-----以及--------线上开启redis扩展

    /** * 获取客户端IP地址 * @param integer $type 返回类型 0 返回IP地址 1 返回IPV4地址数字 * @return mixed */ function get_cl ...

  5. Entity Framework 应用程序有以下优缺点

    优点: 1.跨数据库支持能力强大,只需修改配置就可以轻松实现数据库切换2.提升了开发效率,不需要在编写Sql脚本,但是有些特殊Sql脚本EF无法实现,需要我们自己编写(通过EF中的ExecuteSql ...

  6. ubuntu ceph集群安装以及简单使用

    ubuntu ceph安装以及使用 1.安装环境 本文主要根据官方文档使用ubuntu14.04安装ceph集群,并且简单熟悉其基本操作.整个集群包括一个admin节点(admin node,主机名为 ...

  7. Codeforce 1182B Plus from Picture

    题目链接:http://codeforces.com/problemset/problem/1182/B 题意:检查图中 * 形成的是否是唯一的十字. 思路:dfs找到十字的中心,反向消除十字,最后检 ...

  8. Day 19:面向对象【类方法】静态属性/静态属性/类方法

    静态属性  @property  class Mom: gender = "woman" def __init__(self,name,weight): self.name = n ...

  9. JUC源码分析-集合篇(九)SynchronousQueue

    JUC源码分析-集合篇(九)SynchronousQueue SynchronousQueue 是一个同步阻塞队列,它的每个插入操作都要等待其他线程相应的移除操作,反之亦然.SynchronousQu ...

  10. python学习10—迭代器、三元表达式与生成器

    python学习10—迭代器.三元表达式与生成器 1. 迭代器协议 定义:对象必须提供一个next方法,执行该方法或者返回迭代中的下一项,或者返回一个StopIteration异常,以终止迭代(只能往 ...