[数据挖掘课程笔记]SLIQ算法

1.数据结构

主要的数据结构有：1.Attribute List 2.Class List

对于数据集，每一个属性都有一个对应的Attribute List.如上图所示，每个Attribute List有两列，分别是对应的属性值和该条记录在Class List里的索引。根据不同的索引值，可以得到记录的类标。对于连续型的属性，Attribute List应当是有序的。

对于Class List,存储的是每条记录对应的类标以及记录所在的当前叶节点。Class List 需常驻内存当中。

2.算法过程

gini index:如果一个数据集D有n个不同的类，那么：

在属性A下，把数据集分为D1和D2，那么：

基尼增益定义：

算法思想：扫描全部的Attribute List.对于每一个不同的Attribute List,从上到下扫描，并计算以当前记录split所得出的基尼增益。从而求出最大基尼增益的属性和分裂点。

在对Attribute List 从上到下扫描时，需要用到另一种数据结构——类直方图。类直方图的行表分裂点的左边和右边，列代表不同的类。如上图所示，当算法扫描到Salary List的第一条记录时，首先根据index找到当前记录所属的叶子节点。可知，salary = 15时这条记录属于N2节点。当前N2节点有两条记录，类直方图初始化时默认这两条记录属于未分裂。所以，在N2节点中共有两条记录，分别是索引值1和索引值2的记录。在Class List中可知，这两条记录分别属于G类和B类。

算法在扫描到salary = 15这条记录时，实际上是在N2这个节点做了一次试探性的分裂，N2中salary<=15的记录归为左边，其余的归为右边。类直方图可变为：

从而可以根据这次分裂算得基尼增益：

依次向下扫描，分别得到每一次试探性分裂的基尼增益，选择基尼增益最大的分裂。比如，在N2节点中，选择salary = 15这条记录分裂所得的基尼增益最大，那么在该节点的分裂点就是(a1+a2)/2,也就是40.

算法在决定每一个当前叶子节点的分裂点之后，需要根据分裂点，更新Class List中每条记录所属的叶子节点。然后再次循环分裂。

[数据挖掘课程笔记]SLIQ算法的更多相关文章

[数据挖掘课程笔记]关联规则挖掘 - Apriori算法
两种度量: 支持度(support) support(A→B) = count(AUB)/N (N是数据库中记录的条数) 自信度(confidence)confidence(A→B) = count ...
[数据挖掘课程笔记]基于规则的分类-顺序覆盖算法（sequential covering algorithm）
Rule_set = {}; //学习的规则集初试为空 for 每个类c do repeat Rule = Learn_One_Rule(D,Att-vals,c) 从D中删除被Rule覆盖的元组; ...
数据挖掘学习笔记--AdaBoost算法(一)
声明: 这篇笔记是自己对AdaBoost原理的一些理解,如果有错,还望指正,俯谢- 背景: AdaBoost算法,这个算法思路简单,但是论文真是各种晦涩啊-,以下是自己看了A Short Introd ...
[数据挖掘课程笔记]无监督学习——聚类（clustering）
什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小. 聚类方法的分类如下图所示: ...
[数据挖掘课程笔记]人工神经网络（ANN）
人工神经网络(Artificial Neural Networks)顾名思义,是模仿人大脑神经元结构的模型.上图是一个有隐含层的人工神经网络模型.X = (x1,x2,..,xm)是ANN的输入,也就 ...
[数据挖掘课程笔记]Naïve Bayesian Classifier
朴素贝叶斯模型 1) X:一条未被标记的数据 2) H:一个假设,如H=X属于Ci类根据贝叶斯公式把X表示为(x1,x2,....xn) x1,x2,....xn表示X在各个特征上的值. 假设有c ...
Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
深度学习课程笔记（三）Backpropagation 反向传播算法
深度学习课程笔记(三)Backpropagation 反向传播算法 2017.10.06 材料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS1 ...
Andrew Ng机器学习课程笔记（五）之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...

随机推荐

关于TS返回　Can't use function return value in write context 问题
在项目开发过程中,出现某一接口文件间歇性出现500错误,间歇性出现说明是有条件才会产生,查看错误日志显示:Fatal error: Can't use function return value in ...
在 .Net Core xUnit test 项目中使用配置文件
在对项目做集成测试的时候,经常会需要用到一些参数比如用户名密码等,这些参数不宜放在测试代码中.本文介绍一种方法:使用配置文件. 添加配置文件在集成测试项目目录下新建文件:Configuration. ...
T2821 天使之城 codevs
http://codevs.cn/problem/2821/ 题目描述 Description 天使城有一个火车站,每辆火车都从A方向驶入车站,再从B方向驶出车站. 为了调度火车,火车站设有停放轨道, ...
awk在企业中最常用的语句
awk最常用以及面试基本都会被问到的实例: A.统计日志中每个URL被访问的次数 cat access.log http://www.etiantian.org/1.html http://post. ...
东方14ACM小组 15:Challenge 11
Challenge 11 查看提交统计提问总时间限制: 10000ms 单个测试点时间限制: 1000ms 内存限制: 262144kB 描述给一个长为N的数列,有M次操作,每次操作是 ...
Java Static Import的用法
在头部使用的imoirt static ***方式叫做静态引入,在Java SE 1.5.0(JDK 5)引入的特性. 官方文档的介绍: 为了访问静态成员,有必要限定它们来自的类的引用.例如,必须这样 ...
Android自己定义组件系列【6】——进阶实践（3）
上一篇<Android自己定义组件系列[5]--进阶实践(2)>继续对任老师的<可下拉的PinnedHeaderExpandableListView的实现>进行了分析,这一篇计 ...
转:如何mac下使用wireshark
Mac OS Mountain Lion默认是没有安装X11的,而wireshark运行需要x11,因此如果直接安装wireshark而没有安装x11,wireshark不会正常运行. 去苹果主页下载 ...
HDU1532_Drainage Ditches(网络流/EK模板/Dinic模板(邻接矩阵/前向星))
Drainage Ditches Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...
C++11中的原子操作（atomic operation）（转）
所谓的原子操作,取的就是“原子是最小的.不可分割的最小个体”的意义,它表示在多个线程访问同一个全局资源的时候,能够确保所有其他的线程都不在同一时间内访问相同的资源.也就是他确保了在同一时刻只有唯一的线 ...

[数据挖掘课程笔记]SLIQ算法

[数据挖掘课程笔记]SLIQ算法的更多相关文章

随机推荐

热门专题