每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

分箱法在实际案例操作过程中较为常见，能够将一些数据离散化，等级化，比如年龄段，我们并不想知道确切的几岁，于是乎可以将其分组、分段。

基础函数中cut能够进行简单分组，并且可以用于等宽分箱法。

cut函数：cut(x, n)：将连续型变量x分割为有着n个水平的因子.(参考来自： R语言︱数据集分组、筛选)

[plain] view plain copy

print ?

cut(x, breaks, labels = NULL,
include.lowest = FALSE, right = TRUE, dig.lab = 3,
ordered_result = FALSE, ...)

分箱法分为等深分箱（样本量一致，比等宽好）、等宽分箱（cut函数可以直接获取）。

着重看一下等深分箱法,笔者在这根据CDA DSC课程code之上，自己编译了一个等深分箱函数sbdeep。

sbdeep=function(data,parts,xiaoz){
  parts<-parts         #分几个箱
  xiaoz<-xiaoz         #极小值
    value<-quantile(data,probs = seq(0,1,1/parts))  #这里以data等比分为4段，步长为1/4
  number<-mapply(function(x){
    for (i in 1:(parts-1))
    {
      if(x>=(value[i]-xiaoz)&x<value[i+1])
      {
        return(i)
      }
    }
    if(x+xiaoz>value[parts])
    {
      return(parts)
    }
    return(-1)
  },data)
  #打标签L1L2L3L4
  return(list(degree=paste("L",number,sep=""),degreevalue=number,value=table(value),number=table(number)))               #将连续变量转化成定序变量，此时为L1,L2,L3,L4...根据parts
}

该函数是对单个序列数据进行等深分箱，可以返回四类：

一个基于L1L2L3....的每个指标标签序列degree；

标签序列值degreevalue，

每个百分位数对应的变量值value，

不同百分点的数量number。

————————————————————————————————————

应用一：R语言等宽分箱小案例

R语言的等宽分箱法一般都是用cut来获取，但是用法来说在网上还是比较少见的。譬如这里有一个需求就是把连续数列，根据等宽分箱的办法切分开来。这个应该怎么做呢？

来看一个cut的案例：

> a <- c(1,2,3,4,5,6,4,3,2,1)
> cut(a,10)
 [1] (0.995,1.5] (1.5,2]     (2.5,3]     (3.5,4]     (4.5,5]     (5.5,6]     (3.5,4]     (2.5,3]     (1.5,2]     (0.995,1.5]
Levels: (0.995,1.5] (1.5,2] (2,2.5] (2.5,3] (3,3.5] (3.5,4] (4,4.5] (4.5,5] (5,5.5] (5.5,6]
> cut(a,10,labels=F)
 [1]  1  2  4  6  8 10  6  4  2  1

一个数列，简单的cut滞后，就变成一个levels，因子型的一个区间范围，但是这个结果一般不是我们想要的，我们想要对连续数据进行切割。那么就是用R语言中的cut函数的，labels参数。

可以从案例中看到，labels=F之后，就变成了一系列等级型的分组序号，就像聚类一样，模型跑出来之后，就给数列打了一个标签。那么就可以这样选择你想要的，譬如我要选择连续变量的数值上的前10%的数值：

a[cut(a,10,labels=F)==10]

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

R语言︱噪声数据处理、数据分组——分箱法（离散化、等级化）的更多相关文章

R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理
在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号(如#.¥.*)的数据数 ...
[译]用R语言做挖掘数据《二》
数据探索一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: ...
[2]R语言在数据处理上的禀赋之——可视化技术
本文目录 Java的可视化技术 R的可视化技术二维做图利器plot的参数配置 *权限机制 *plot独有的参数 *plot的type介绍 *title介绍 *公共参数集合--par *par的权限机 ...
R语言分析朝阳医院数据
R语言分析朝阳医院数据本次实践通过分析朝阳医院2016年销售数据,得出“月均消费次数”.“月均消费金额”.“客单价”.“消费趋势”等结果,并据此作出可视化图形. 一.读取数据: library(op ...
R语言实现金融数据的时间序列分析及建模
R语言实现金融数据的时间序列分析及建模一移动平均移动平均能消除数据中的季节变动和不规则变动.若序列中存在周期变动,则通常以周期为移动平均项数.移动平均法可以通过数据显示出数据长期趋势的变动 ...
R语言之数据处理
R语言之数据处理一.向量处理 1.选择和显示向量 data[1] data[3] data[1:3] data[-1]:除第一项以外的所有项 data[c(1,3,4,6)] data[data&g ...
R语言处理Web数据
R语言处理Web数据许多网站提供的数据,以供其用户的消费.例如,世界卫生组织(WHO)提供的CSV,TXT和XML文件的形式的健康和医疗信息报告.基于R程序,我们可以通过编程提取这些网站的具体数据. ...
R语言之数据处理常用包
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
利用R语言进行交互数据可视化（转）
上周在中国R语言大会北京会场上,给大家分享了如何利用R语言交互数据可视化.现场同学对这块内容颇有兴趣,故今天把一些常用的交互可视化的R包搬出来与大家分享. rCharts包说起R语言的交互包,第一个 ...

随机推荐

安装Java和Pycharm的步骤
[root@nhserver1 usr]# java -versionjava version "1.7.0_25"OpenJDK Runtime Environment (rhe ...
re模块与正则表达式
一.正则表达式概念正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达式.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE),是计算机科 ...
oracle用户与表空间操作
oracle系统用户sys,system , sysman, scott 使用system用户登录[username/password][@server][as sysdba|sysoper]eg: ...
Core Animation 文档翻译（第五篇）
构建Layer层次结构在APP中大多数情况下,将Layer和View对象结合使用是Layer最好的使用方式.然而,很多时候我们可能需要通过添加单独的Layer对象,以便增加视图继承层次:当为了提 ...
03_Linux文件和目录
一.Linux目录结构 /:根目录,一般根目录下只存放目录,在Linux下有且只有一个根目录.所有的东西都是从这里开始.当你在终端里输入"/home",你其实是在告诉电脑,先从/( ...
安装golang的mongodb驱动mgo速记
这里介绍的方法只适用于Centos平台,测试版本为centos 6.5 下载源码安装实在麻烦,这里采用比较简单的方法给GO安装mongodb驱动安装mgo之前,需要先安装bzr yum -y ins ...
使用Z3破解简单的XOR加密
使用Z3破解简单的XOR加密翻译:无名侠原文地址: https://yurichev.com/blog/XOR_Z3/ 如果我们有一段用简单XOR加密过的文本,怎么寻找密钥呢?密钥的长度可能很长, ...
D 区间求和 [数学树状数组]
D 区间求和题意:求 \[ \sum_{k=1}^n \sum_{l=1}^{n-k+1} \sum_{r=l+k-1}^n 区间前k大值和 \] 比赛时因为被B卡了没有深入想这道题结果B没做出来 ...
HDU 4315 Climbing the Hill [阶梯Nim]
传送门题意: 和上题基本一样:山顶可以有多人,谁先把king放到山顶谁就胜并不太明白 #include <iostream> #include <cstdio> #incl ...
【转】Android UI 五种布局
在一个Android应用中,Layout是开发中的一个很重要环节,Layout是组成UI不可缺少的一部分. ## Android UI 核心类在Android应用构建UI的方法有以下几种: 单纯使用 ...

R语言︱噪声数据处理、数据分组——分箱法（离散化、等级化）

应用一：R语言等宽分箱小案例

R语言︱噪声数据处理、数据分组——分箱法（离散化、等级化）的更多相关文章

随机推荐

热门专题