鸢尾花卉数据集Iris是一类多重变量分析的数据集

  通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类

  针对iris数据集实践决策树算法(C4.5、C5.0),并用交叉矩阵评估模型

  

  iris数据RStudio系统自带

  

  

Gary<-iris
#建立决策树模型,来预测鸢尾花的种类
#重命名变量名,将预测鸢尾花卉转换为class 通过前四个变量预测class属于哪一个类
Gary.names<-c('sepal length','sepal width','petal length','petal width', 'class')
names(Gary)<-Gary.names
#查看维度 150条数据 5维变量
dim(Gary)
#str()查看数据框中每个变量的属性
str(Gary)
#summary()提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计
summary(Gary)
#设定生成随机数的种子,种子是为了让结果具有重复性
set.seed(1)
#将数据集拆分为训练集和测试集,拆分比例为0.75
index<-sample(nrow(Gary),0.75*nrow(Gary),replace = F)
train<-Gary[index,]
test<-Gary[-index,]
library(C50)
#训练数据用于建立决策树模型
#测试集用于模型评估
mod<-C5.0(train[,-5],train[,5])
summary(mod)
#预测模型
pre1<-predict(mod,newdata=test,type='class')
tab<-table(pre1,test$class)
tab
sum(diag(tab))/sum(tab)

Gary.Script

实现过程

  将数据保存并重命名变量名

Gary<-iris

Gary.names<-c('sepal length','sepal width','petal length','petal width', 'class')

names(Gary)<-Gary.names

  dim():查看数据的维度

  str():查看数据框中每个变量的属性

  summary():提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计

> dim(Gary)        #150条数据 5维变量
[1] 150 5 > str(Gary)        #查看了前四个数据框的属性值
'data.frame': 150 obs. of 5 variables:
$ sepal length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ sepal width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ petal length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ petal width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ class : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ... > summary(Gary)
sepal length sepal width petal length petal width class
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

  设定生成随机数的种子,种子是为了让结果具有重复性

  set.seed()只对运行该命令后的第一次随机产生结果有效(伪随机)

set.seed(1)

  将数据集拆分为训练集和测试集,拆分比例为0.75

index<-sample(nrow(Gary),0.75*nrow(Gary),replace = F)
train<-Gary[index,]
test<-Gary[-index,]

  加载C50包

  C5.0算法则是C4.5算法的商业版本,较C4.5算法提高了运算效率,它加入了boosting算法,使该算法更加智能化

library(C50)

  训练数据用于建立决策树模型

  测试集用于模型评估

  C5.0(x, y, ...):其中x指定自变量(数据框或矩阵的形式),y指定因变量

> C5.0(train[,-5],train[,5])

Call:
C5.0.default(x = train[, -5], y = train[, 5]) Classification Tree     分类树
Number of samples: 112     样本树
Number of predictors: 4     预测树 Tree size: 3   树高:3  
Non-standard options: attempt to group attributes    #尝试分组属性

  

> summary(mod)

Call:
C5.0.default(x = train[, -5], y = train[, 5]) C5.0 [Release 2.07 GPL Edition]
------------------------------- Class specified by attribute `outcome'         #"class"属性指定的类 Read 112 cases (5 attributes) from undefined.data  #112例(5读取从undefined.data属性) Decision tree:                #决策树: petal length <= 1.9: setosa (38)          #花瓣长度≤1.9:setosa(38)
petal length > 1.9:                  #花瓣长度>1.9:
:...petal width <= 1.6: versicolor (38/1)     #petal宽度:≤1.6:云芝(38/1)
petal width > 1.6: virginica (36/2)      #花瓣宽度>1.6:锦葵(36/2) Evaluation on training data (112 cases):      #评估在训练数据(112例): Decision Tree                 #决策树
----------------
Size Errors                 #尺寸错误
  
3 3( 2.7%) <<              #3 3(2.7 %)<< (a) (b) (c) <-classified as     
---- ---- ----
38 (a): class setosa   
37 2 (b): class versicolor
1 34 (c): class virginica Attribute usage:                    #属性 100.00% petal length                #100%的花瓣长度
66.07% petal width                 #占66.07%花瓣宽度 Time: 0.0 secs

  预测鸢尾花卉属于哪一类

  用交叉矩阵评估模型

> pre1<-predict(mod,newdata=test,type='class')
> tab<-table(pre1,test$class)
> tab pre1 setosa versicolor virginica
setosa 12 0 0
versicolor 0 11 3
virginica 0 0 12

  预测了38组数据,其中35组数据正确,3组数据预测出错

  对角线上的数据实际值和预测值相同,非对角线上的值为预测错误的值

  评估模型(预测)的正确率

sum(diag(tab))/sum(tab)
[1] 0.9210526

    diag(x = 1, nrow, ncol)

    diag(x) <- value

  解析:

    x:一个矩阵,向量或一维数组,或不填写。

    nrow, ncol:可选 行列。

    value :对角线的值,可以是一个值或一个向量

R_Studio(决策树算法)鸢尾花卉数据集Iris是一类多重变量分析的数据集【精】的更多相关文章

  1. 转载:scikit-learn学习之决策树算法

    版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...

  2. R语言 决策树算法

    定义: 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解 ...

  3. 【sklearn决策树算法】DecisionTreeClassifier(API)的使用以及决策树代码实例 - 鸢尾花分类

    决策树算法 决策树算法主要有ID3, C4.5, CART这三种. ID3算法从树的根节点开始,总是选择信息增益最大的特征,对此特征施加判断条件建立子节点,递归进行,直到信息增益很小或者没有特征时结束 ...

  4. scikit-learn决策树算法类库使用小结

    之前对决策树的算法原理做了总结,包括决策树算法原理(上)和决策树算法原理(下).今天就从实践的角度来介绍决策树算法,主要是讲解使用scikit-learn来跑决策树算法,结果的可视化以及一些参数调参的 ...

  5. 4-Spark高级数据分析-第四章 用决策树算法预测森林植被

    预测是非常困难的,更别提预测未来. 4.1 回归简介 随着现代机器学习和数据科学的出现,我们依旧把从“某些值”预测“另外某个值”的思想称为回归.回归是预测一个数值型数量,比如大小.收入和温度,而分类则 ...

  6. 决策树算法实现(train+test,matlab) 转

    原文:http://www.zgxue.com/198/1985544.html 华电北风吹 天津大学认知计算与应用重点实验室 修改日期:2015/8/15 决策树是一种特别简单的机器学习分类算法.决 ...

  7. [转]机器学习——C4.5 决策树算法学习

    1. 算法背景介绍 分类树(决策树)是一种十分常用的分类方法.它是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分 ...

  8. 决策树算法原理(CART分类树)

    决策树算法原理(ID3,C4.5) CART回归树 决策树的剪枝 在决策树算法原理(ID3,C4.5)中,提到C4.5的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不 ...

  9. 决策树算法原理(ID3,C4.5)

    决策树算法原理(CART分类树) CART回归树 决策树的剪枝 决策树可以作为分类算法,也可以作为回归算法,同时特别适合集成学习比如随机森林. 1. 决策树ID3算法的信息论基础   1970年昆兰找 ...

随机推荐

  1. 2019中山纪念中学夏令营-Day12[JZOJ]

    Begin (题目的排序方式:题号) 每期新姿势:(今天推荐一位巨佬)Cefola-Kiroxs 推荐知识:namespace的用法(本赛我的代码中将用到) 2019.08.12[NOIP普及组]模拟 ...

  2. liunx crontab 定时访问指定url

    链接主机 crontab -e 打开文件,直接输入需要执行的脚本 1 9 * * * /usr/bin/curl http://www.baidu.com 语法解析 * * * * * /usr/bi ...

  3. 从入门到自闭之Python列表,元祖及range

    1.列表 数据类型之一,存储数据,大量的,存储不同类型的数据 列表是一种有序的容器 支持索引 列表是一种可变数据类型 原地修改 列表中只要用逗号隔开的就是一个元素,字符串中只要是占一个位置的就是一个元 ...

  4. 100、神器的 routing mesh (Swarm07)

    参考https://www.cnblogs.com/CloudMan6/p/7930321.html   上一节我们提到了 swarm 的 routing mesh .当外部访问任意节点的8080端口 ...

  5. centos配置vsftp,ftp服务

    1.安装vsftp 1.1.安装vsftp,测试安装的vsftpd的版本是:vsftpd.x86_64 0:3.0.2-11.el7_2 yum -y install vsftpd 1.2.修改配置文 ...

  6. new Date,Date.parse()传值

    获取时间: 获取1997年10月1号日期 new Date: 当使用 - 拼接年月日时将会使用UTC时区解析参数,会比北京时间快八小时. 当时用 / 拼接年月日时会使用北京的时区去解析参数,取到的是北 ...

  7. OpenSSL(1)密钥和证书管理

    OpenSSL是一个开源项目,包括密码库和SSL/TLS工具集. 从项目的官方站点可以看到: OpenSSL项目是安全套接字层( secure sockets layer, SSL)和传输层安全( t ...

  8. MyBatis--把SQL带进Java

    简单来看软件服务的工作流程:用户端界面操作请求<---->本地处理|远程服务程序拦截转发请求<---->服务端逻辑功能实现<--MyBatis用在这里-->数据库. ...

  9. nginx服务学习第一章

    一.ubuntu系统安装nginx服务 # apt-get install nginx 二.nginx.config配置文件详解 配置文件结构: 全局块(全局变量) events{ } http{ h ...

  10. VirtualBox给CentOS虚拟机挂载磁盘扩大空间

    VirtualBox给CentOS虚拟机挂载磁盘扩大空间 楼主,发现虚拟机使用存储空间不够用的情况,需要改虚拟机挂载磁盘,扩容,在网上找了一波资料,于是整合记录操详细作如下: 概要步骤如下: 1.设置 ...