Spark QuantileDiscretizer 分位数离散器

1、概念

接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。

和Bucketizer（分箱处理）一样也是：将连续数值特征转换为离散类别特征。实际上Class QuantileDiscretizer extends Bucketizer

    参数1：不同的是这里不再自己定义splits（分类标准），而是定义分几箱(段）就可以了。QuantileDiscretizer自己调用函数计算分位数，并完成离散化。

    参数2： 另外一个参数是精度，如果设置为0，则计算最精确的分位数，这是一个高时间代价的操作。

    另外上下边界将设置为正负无穷，覆盖所有实数范围。

分位数（Quantile），亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。

2、code

package com.home.spark.ml

import org.apache.spark.SparkConf

import org.apache.spark.ml.feature.QuantileDiscretizer

import org.apache.spark.sql.SparkSession

/**

  * @Description: 分位数离散器

  * QuantileDiscretizer接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。

  * 箱数由numBuckets参数设置。

  * 例如，如果输入的不同值太少而无法创建足够的不同分位数，则所使用的存储桶的数量可能会小于该值。

  *

  * NaN值：在QuantileDiscretizer拟合过程中，将从柱中除去NaN值。这将产生一个Bucketizer模型进行预测。

  * 在转换期间，Bucketizer在数据集中找到NaN值时将引发错误，但是用户也可以通过设置handleInvalid选择保留还是删除数据集中的NaN值。

  * 如果用户选择保留NaN值，则将对其进行特殊处理并将其放入自己的存储桶中，

  * 例如，如果使用4个存储桶，则将非NaN数据放入存储桶[0-3]中，但NaN将被存储放在一个特殊的桶中[4]。

  *

  * 算法：分箱范围是使用近似算法选择的（有关详细说明，请参见aboutQuantile的文档）。

  * 可以使用relativeError参数控制近似精度。设置为零时，将计算精确的分位数（注意：计算精确的分位数是一项昂贵的操作）。

  * 分箱的上下边界将是-Infinity和+ Infinity，覆盖所有实数值。

  *

  **/

object Ex_QuantileDiscretizer {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf(true).setMaster("local[2]").setAppName("spark ml")

    val spark = SparkSession.builder().config(conf).getOrCreate()

    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))

    val df = spark.createDataFrame(data).toDF("id", "hour")

    val discretizer = new QuantileDiscretizer()

      .setInputCol("hour")

      .setOutputCol("result")

      .setNumBuckets(3)

    val result = discretizer.fit(df).transform(df)

    result.show(false)

    spark.stop()

  }

}

+---+----+------+
|id |hour|result|
+---+----+------+
|0  |18.0|2.0   |
|1  |19.0|2.0   |
|2  |8.0 |1.0   |
|3  |5.0 |1.0   |
|4  |2.2 |0.0   |
+---+----+------+

Spark QuantileDiscretizer 分位数离散器的更多相关文章

Spark集群管理器介绍
Spark可以运行在各种集群管理器上,并通过集群管理器访问集群中的其他机器.Spark主要有三种集群管理器,如果只是想让spark运行起来,可以采用spark自带的独立集群管理器,采用独立部署的模式: ...
spark的task调度器(FAIR公平调度算法)
FAIR 调度策略的树结构如下图所示: FAIR 调度策略内存结构 FAIR 模式中有一个 rootPool 和多个子 Pool, 各个子 Pool 中存储着所有待分配的 TaskSetMagage ...
Volcano成Spark默认batch调度器
摘要:对于Spark用户而言,借助Volcano提供的批量调度.细粒度资源管理等功能,可以更便捷的从Hadoop迁移到Kubernetes,同时大幅提升大规模数据分析业务的性能. 2022年6月16日 ...
Alink漫谈(十九) ：源码解析之分位点离散化Quantile
Alink漫谈(十九) :源码解析之分位点离散化Quantile 目录 Alink漫谈(十九) :源码解析之分位点离散化Quantile 0x00 摘要 0x01 背景概念 1.1 离散化 1 ...
Apache Spark 2.2中基于成本的优化器（CBO）（转载）
Apache Spark 2.2最近引入了高级的基于成本的优化器框架用于收集并均衡不同的列数据的统计工作 (例如., 基(cardinality).唯一值的数量.空值.最大最小值.平均/最大长度,等等 ...
spark内存管理器--MemoryManager源码解析
MemoryManager内存管理器内存管理器可以说是spark内核中最重要的基础模块之一,shuffle时的排序,rdd缓存,展开内存,广播变量,Task运行结果的存储等等,凡是需要使用内存的地方 ...
Spark Extracting,transforming,selecting features
Spark(3) - Extracting, transforming, selecting features 官方文档链接:https://spark.apache.org/docs/2.2.0/m ...
大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...

随机推荐

python-元类和使用元类实现简单的ORM
元类面向对象中,对象是类的实例,即对象是通过类创建出来的,在python中,一切皆对象,同样,类也是一个对象,叫做类对象,只是这个类对象拥有创建其子对象(实例对象)的能力.既然类是对象,那么类是通过 ...
git常用命令操作
git常用命令 #查看配置 git config -l #查看系统config git config --system --list #查看当前用户(global)配置 git config --gl ...
C语言学习笔记二---数据类型运算符与表达式
一.C的基本语法单位 1.标识符:有效长度:31(DOS环境下) 2.关键字:main不是 3.分隔符:空格符,制表符,换行符,换页符 4.注释符:a./*.....*/ b.// 二.C的常用输 ...
Java开发环境配置之安装JDK
一:序言摘要学习过Java的人都知道,如果想要开发一套java程序,首先需要做的准备工作就是配置JDK.JDK是 Java 语言的软件开发工具包,它主要用于移动设备.嵌入式设备上的java应用程序. ...
LQB2013A01高斯日记
诶,今天发生了点不是很开心的事．说实话挺影响心情的啊(谁遇见这种事不生气呢啊啊啊啊) 但是不能水更,还是得好好更新呀．这个题居然直接用excel哈哈哈哈那,,就这样吧!
Django学习路22_empty为空,forloop.counter 从1计数,.counter0 从0计数 .revcounter最后末尾数字是1,.revcounter0 倒序,末尾为 0
当查找的数据不存在,返回为空时在 html 中使用 {%empty%} 语句进行显示 def getstudents(request): students = Student.objects.a ...
读书笔记《数据结构与算法JavaScript描述》第一章
第一章JavaScript的编程环境和模型 1.2JavaScript编程实践 1.2.1 声明和初始化变量 JavaScript中的变量默认为全局变量,如果初始化未被声明的变量,该变量就成了一个全局 ...
samba服务及配置
samba 目录 samba 1. samba简介 2. samba访问配置示例 3.搭建用户认证共享服务器 4.搭建匿名用户共享服务器 1. samba简介 Samba是在Linux和UNIX系统 ...
NOI Online#1 小记
虽然只是一个普通的模拟赛,但是毕竟是我第一次参加官方组织的比赛,所以还是写一篇小记纪念一下吧(毕竟经验少,太菜了. 上午一直颓着,随便看了两眼文化课,补了补昨天的化学作业,就当是对明天月考的复习吧(月 ...
【目标检测】：SPP-Net深入理解（从R-CNN到SPP-Net）
一. 导论 SPP-Net是何凯明在基于R-CNN的基础上提出来的目标检测模型,使用SPP-Net可以大幅度提升目标检测的速度,检测同样一张图片当中的所有目标,SPP-Net所花费的时间仅仅是RCNN ...

Spark QuantileDiscretizer 分位数离散器

Spark QuantileDiscretizer 分位数离散器的更多相关文章

随机推荐

热门专题