R语言实现分层抽样(Stratified Sampling)以iris数据集为例

R语言实现分层抽样(Stratified
Sampling)以iris数据集为例

1.观察数据集

head(iris)

Sampling)以iris数据集为例">

选取数据集中前6个数据，我们可以看出iris数据集一共有5个字段。

dim(iris)

Sampling)以iris数据集为例">

iris数据集一共有150条数据，5个字段

summary(iris)

Sampling)以iris数据集为例">

观察各个变量的内容，可以看出前四个变量（Sepal.Length Sepal.Width Petal.Length
Petal.Width）都是定量变量，而最后一个（Species）是定性变量，我们将依据最后一个变量作为分层抽样的依据。

library(sampling)

载入分层抽样的包sampling

n=round(3/5*nrow(iris)/3)

计算每一个种类的抽样数目。这里我们按照每种“Species”抽取3/5个样本进行抽样。

sub_train=strata(iris,stratanames=("Species"),size=rep(n,3),method="srswor")

head(sub_train)

stratanames参数是抽样依据的变量，size参数是每个种类抽样的数目，这里我们用上一步计算出来的n作为抽样数目，method是抽样方法，我们选择srswor。

data_train=iris[sub_train$ID_unit,]

data_test=iris[-sub_train$ID_unit,]

将抽样结果分别定义为训练集（data_train）和测试集（data_test)。

dim(data_train);dim(data_test)

Sampling)以iris数据集为例">

观察训练集和测试集的字段和数据数目。符合我们的抽样预期。

head(data_train);head(data_test)

Sampling)以iris数据集为例">

观察训练集和测试集的前几条数据。

data_train；data_test

查看总的抽样结果，这里数据量太大不再给出。

write.csv(data_train,"C:/Users/cnrozh/Desktop/iris_data_train.csv")

write.csv(data_test,"C:/Users/cnrozh/Desktop/iris_data_test.csv")

保存数据集

R语言实现分层抽样(Stratified Sampling)以iris数据集为例的更多相关文章

R语言实战（一）介绍、数据集与图形初阶
本文对应<R语言实战>前3章,因为里面大部分内容已经比较熟悉,所以在这里只是起一个索引的作用. 第1章 R语言介绍获取帮助函数 help(), ? 查看函数帮助 exampl ...
R语言randomForest包实现随机森林——iris数据集和kyphosis数据集
library(randomForest)model.forest<-randomForest(Species~.,data=iris)pre.forest<-predict(model. ...
R语言AMORE包实现BP神经网络——German数据集
library(AMORE)data<-read.table('G:\\dataguru\\ML\\ML09\\基于BP网络的个人信贷信用评估\\基于BP网络的个人信贷信用评估\\german. ...
第五篇：R语言数据可视化之散点图
散点图简介散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图本例选用如下测试数据集: 绘制 ...
第二篇：R语言数据可视化之数据塑形技术
前言绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节 ...
R语言-向量化操作（apply、tapply、lapply、sapply、mapply、table等）
一.apply函数(对一个数组按行或者按列进行计算): 使用格式为:apply(X, MARGIN, FUN, ...) 其中X为一个数组:MARGIN为一个向量(表示要将函数FUN应用到X的行还是列 ...
DT包 -- R语言中自定义表格数据
DT 包提供了 JavaScript 库 DataTables 的一个R接口,它使得R对象(矩阵或数据框)可以在HTML页面上显示为表格. 该包的DataTables函数生成的表格提供了数据的筛选.分 ...
R语言Cairo包的使用
Cairo使用起来非常简单,和基础包grDevices中的函数对应. CairoPNG---grDevices:png(). CairoTIFF---grDevices:tiff(). CairoPD ...
用Python实现支持向量机并处理Iris数据集
SVM全称是Support Vector Machine,即支持向量机,是一种监督式学习算法.它主要应用于分类问题,通过改进代码也可以用作回归.所谓支持向量就是距离分隔面最近的向量.支持向量机就是要确 ...

随机推荐

[编织消息框架][netty源码分析]5 EventLoopGroup 实现类NioEventLoopGroup职责与实现
分析NioEventLoopGroup最主有两个疑问 1.next work如何分配NioEventLoop 2.boss group 与child group 是如何协作运行的从EventLoop ...
x86架构：x86架构
ylbtech-x86架构:x86架构 X86架构(The X86 architecture)是微处理器执行的计算机语言指令集,指一个intel通用计算机系列的标准编号缩写,也标识一套通用的计算机指令 ...
django2.x报错No module named 'django.core.urlresolvers'b
解决方法就是: from django.urls import reverse 最近从django1.9迁移到django2.0中出现一个意外的报错: 这个报错的原因在stack overflow上有 ...
Leetcode461Hamming Distance汉明距离
两个整数之间的汉明距离指的是这两个数字对应二进制位不同的位置的数目. 给出两个整数 x 和 y,计算它们之间的汉明距离. 注意: 0 ≤ x, y < 231. 示例: 输入: x = 1, y ...
PyCharm软件代码配色和字体设置
配置效果图: 1.字体设置: 2.tab键设置: 3.代码颜色配置: 注释颜色为: 类名称: 函数: 关键字: 关键字参数: 函数参数: 字符串:
loj6046 「雅礼集训 2017 Day8」爷
https://loj.ac/problem/6046 最近遇到几个分块题,我发现我一遇到分块题就死活构造不出来不对,明明是,遇到数据结构题,就死活构造不出来. 所以我就找了几个分块题做做. 其实分 ...
Wamp Apache 启动失败检测方法
一般情况下,看错误日志就可以解决.如果遇到错误日志看不到的情况,不放试试下面的方法 //无错误日志解决办法cmd命令行切换到C:\wamp\bin\apache\apache2.4.9\bin目录输 ...
WPF：数据绑定--PropertyChangeNotification属性更改通知
PropertyChangeNotification属性更改通知实现效果:1.拍卖金额自动随属性值变化而通知界面绑定的值变化. 关键词 : INotifyPropertyChanged Obse ...
step（）动画
<style type="text/css"> .hi { width: 50px; height: 72px; background-image: url(" ...
Django REST Framework之分页器
Django REST Framework提供了三种分页器: PageNumberPagination.基于Django Paginator封装,使得操作更方便,只需要做一些配置即可.分页方式:根据页 ...

R语言实现分层抽样(Stratified Sampling)以iris数据集为例

R语言实现分层抽样(Stratified Sampling)以iris数据集为例的更多相关文章

随机推荐

热门专题