R_Studio(cart算法决策树)对book3.csv数据用测试集进行测试并评估模型

对book3.csv数据集，实现如下功能：

　　（1）创建训练集、测试集

　　（2）用rpart包创建关于类别的cart算法的决策树

　　（3）用测试集进行测试，并评估模型

　　book3.csv数据集

setwd('D:\\data')

list.files()　

dat=read.csv(file="book3.csv",header=TRUE)   

#变量重命名，并通过x1~x11对class属性进行预测

colnames(dat)<-c("x1","x2","x3","x4","x5","x6","x7","x8","x9","x10","x11","class")

n=nrow(dat)

split<-sample(n,n*(3/4))

traindata=dat[split,]

testdata=dat[-split,]

set.seed(1) 

library(rpart)

#用测试集进行测试

Gary1<-rpart(class~.,data=testdata,method="class", control=rpart.control(minsplit=1),parms=list(split="gini"))

printcp(Gary1)

#交叉矩阵评估模型

pre1<-predict(Gary1,newdata=testdata,type='class')

tab<-table(pre1,testdata$class)

tab

#评估模型(预测)的正确率

sum(diag(tab))/sum(tab)

Gary.Script

实现过程

　　数据预处理并创建训练(测试)集

setwd('D:\\data')

list.files()　

dat=read.csv(file="book3.csv",header=TRUE)   

#变量重命名，并通过x1~x11对class属性进行预测

colnames(dat)<-c("x1","x2","x3","x4","x5","x6","x7","x8","x9","x10","x11","class")

n=nrow(dat)

split<-sample(n,n*(3/4))

traindata=dat[split,]

testdata=dat[-split,]

　　设定生成随机数的种子,种子是为了让结果具有重复性

set.seed(1)

　　加载rpart包创建关于类别的cart算法的决策树

library(rpart)

　　用测试集进行测试

> Gary1<-rpart(class~.,data=testdata,method="class", control=rpart.control(minsplit=1),parms=list(split="gini"))

> printcp(Gary1)

Classification tree:　　　　　　　　　　　　　　　　　　　　　　#分类树：

rpart(formula = class ~ ., data = testdata, method = "class",

    parms = list(split = "gini"), control = rpart.control(minsplit = 1))

Variables actually used in tree construction:　　　　　　#树构建中实际使用的变量：

[1] x1  x10 x2  x4  x5  x8 　　　　　　　　　　　　　　　　　#〔1〕X1 x10 x2 x4 x5 x8

Root node error: 57/175 = 0.32571    　　　　　　　　　　　#根节点错误：57/175＝0.32571

n= 175 

        CP nsplit rel error  xerror     xstd

1 0.754386      0  1.000000 1.00000 0.108764

2 0.052632      1  0.245614 0.31579 0.070501

3 0.035088      3  0.140351 0.31579 0.070501

4 0.017544      6  0.035088 0.35088 0.073839

5 0.010000      7  0.017544 0.31579 0.070501

　　交叉矩阵评估模型

 pre1<-predict(Gary1,newdata=testdata,type='class')

> tab<-table(pre1,testdata$class)

> tab

pre1   恶性 良性

  恶性   57    1

  良性    0  117

　　评估模型(预测)的正确率

　　对角线上的数据实际值和预测值相同，非对角线上的值为预测错误的值

> sum(diag(tab))/sum(tab)

[1] 0.9942857

R_Studio(cart算法决策树)对book3.csv数据用测试集进行测试并评估模型的更多相关文章

Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率（图文详解）
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的 ...
《机器学习实战》学习笔记第九章 —— 决策树之CART算法
相关博文: <机器学习实战>学习笔记第三章 —— 决策树主要内容: 一.CART算法简介二.分类树三.回归树四.构建回归树五.回归树的剪枝六.模型树七.树回归与标准回归的比较 ...
02-23 决策树CART算法
目录决策树CART算法一.决策树CART算法学习目标二.决策树CART算法详解 2.1 基尼指数和熵 2.2 CART算法对连续值特征的处理 2.3 CART算法对离散值特征的处理 2.4 CA ...
十一，专著研读（CART算法）
十一,专著研读(CART算法) CART称为分类回归树,既能用于分类也能用于回归.使用二元切分方法处理连续型变量,给定特定值,如果特征值大于给定值就走左子树,否则走右子树. CART算法步骤决策树生 ...
Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率（图文详解）
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型 ...
03机器学习实战之决策树CART算法
CART生成 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支.这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有 ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
决策树模型 ID3/C4.5/CART算法比较
决策树模型在监督学习中非常常见,可用于分类(二分类.多分类)和回归.虽然将多棵弱决策树的Bagging.Random Forest.Boosting等tree ensembel 模型更为常见,但是“完 ...
python数据分析算法（决策树2）CART算法
CART(Classification And Regression Tree),分类回归树,,决策树可以分为ID3算法,C4.5算法,和CART算法.ID3算法,C4.5算法可以生成二叉树或者多叉树 ...

随机推荐

BugkuCTF--never give up
这道题还挺有意思的... http://123.206.87.240:8006/test/hello.php 查看元素,有个1p.html,访问. 还没看到网页元素就跳转了...抓包! 抓到了一堆东西 ...
Restful Api调用工具类
RestfulHttpClient.java package pres.lnk.utils; import com.fasterxml.jackson.databind.ObjectMapper; i ...
分布式唯一ID生成器Twitter
分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的. 有些时候我们希望能使用一种简单一 ...
C语言经典100例（1-50）
[程序1] 题目:有1.2.3.4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? 分析:可填在百位.十位.个位的数字都是1.2.3.4.组成所有的排列后再去掉不满足条件的排列. main ...
【Tomcat】热部署的遗留配置导致服务器无法启动
1.问题描述: 今天用myeclipse写了个小demo,然后用Tomcat7 部署了,接着点击启动服务器,服务器居然报错: 严重: Error starting static Resources j ...
Docker 环境下部署 redash
环境: centos7 官网:https://redash.io/help/open-source/dev-guide/docker 一.安装步骤 1.虚拟机安装安装vmware,并安装centos ...
monkey基础使用教程，如何安装和monkey分析日志
1.概念什么是monkey,monkey的作用是什么? Monkey是Android自身提供的,可以通过adb shell模拟用户行为,发送一些伪随机用户事件到目标设备上. Monkey和它的直接意 ...
jq sku实现
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Centos7.0 三种网络适配器
VMnet0:桥接模式 VMnet1:主机模式 VMnet8:NAT模式 VMware Network Adepter VMnet1:宿主Host用于与主机模式虚拟网络进行通信的虚拟网卡 VMwa ...
2.（基础）tornado的请求与响应
之前我们介绍了tornado 的基础流程,但是还遗留了一些问题,今天我们就来解决这些遗留问题并学习新的内容 settings,使用tornado.web.Application(handler, ** ...

R_Studio(cart算法决策树)对book3.csv数据用测试集进行测试并评估模型

R_Studio(cart算法决策树)对book3.csv数据用测试集进行测试并评估模型的更多相关文章

随机推荐

热门专题