Spark QuantileDiscretizer 分位数离散器

1、概念

接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。

和Bucketizer（分箱处理）一样也是：将连续数值特征转换为离散类别特征。实际上Class QuantileDiscretizer extends Bucketizer

    参数1：不同的是这里不再自己定义splits（分类标准），而是定义分几箱(段）就可以了。QuantileDiscretizer自己调用函数计算分位数，并完成离散化。

    参数2： 另外一个参数是精度，如果设置为0，则计算最精确的分位数，这是一个高时间代价的操作。

    另外上下边界将设置为正负无穷，覆盖所有实数范围。

分位数（Quantile），亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。

2、code

package com.home.spark.ml

import org.apache.spark.SparkConf

import org.apache.spark.ml.feature.QuantileDiscretizer

import org.apache.spark.sql.SparkSession

/**

  * @Description: 分位数离散器

  * QuantileDiscretizer接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。

  * 箱数由numBuckets参数设置。

  * 例如，如果输入的不同值太少而无法创建足够的不同分位数，则所使用的存储桶的数量可能会小于该值。

  *

  * NaN值：在QuantileDiscretizer拟合过程中，将从柱中除去NaN值。这将产生一个Bucketizer模型进行预测。

  * 在转换期间，Bucketizer在数据集中找到NaN值时将引发错误，但是用户也可以通过设置handleInvalid选择保留还是删除数据集中的NaN值。

  * 如果用户选择保留NaN值，则将对其进行特殊处理并将其放入自己的存储桶中，

  * 例如，如果使用4个存储桶，则将非NaN数据放入存储桶[0-3]中，但NaN将被存储放在一个特殊的桶中[4]。

  *

  * 算法：分箱范围是使用近似算法选择的（有关详细说明，请参见aboutQuantile的文档）。

  * 可以使用relativeError参数控制近似精度。设置为零时，将计算精确的分位数（注意：计算精确的分位数是一项昂贵的操作）。

  * 分箱的上下边界将是-Infinity和+ Infinity，覆盖所有实数值。

  *

  **/

object Ex_QuantileDiscretizer {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf(true).setMaster("local[2]").setAppName("spark ml")

    val spark = SparkSession.builder().config(conf).getOrCreate()

    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))

    val df = spark.createDataFrame(data).toDF("id", "hour")

    val discretizer = new QuantileDiscretizer()

      .setInputCol("hour")

      .setOutputCol("result")

      .setNumBuckets(3)

    val result = discretizer.fit(df).transform(df)

    result.show(false)

    spark.stop()

  }

}

+---+----+------+
|id |hour|result|
+---+----+------+
|0  |18.0|2.0   |
|1  |19.0|2.0   |
|2  |8.0 |1.0   |
|3  |5.0 |1.0   |
|4  |2.2 |0.0   |
+---+----+------+

Spark QuantileDiscretizer 分位数离散器的更多相关文章

Spark集群管理器介绍
Spark可以运行在各种集群管理器上,并通过集群管理器访问集群中的其他机器.Spark主要有三种集群管理器,如果只是想让spark运行起来,可以采用spark自带的独立集群管理器,采用独立部署的模式: ...
spark的task调度器(FAIR公平调度算法)
FAIR 调度策略的树结构如下图所示: FAIR 调度策略内存结构 FAIR 模式中有一个 rootPool 和多个子 Pool, 各个子 Pool 中存储着所有待分配的 TaskSetMagage ...
Volcano成Spark默认batch调度器
摘要:对于Spark用户而言,借助Volcano提供的批量调度.细粒度资源管理等功能,可以更便捷的从Hadoop迁移到Kubernetes,同时大幅提升大规模数据分析业务的性能. 2022年6月16日 ...
Alink漫谈(十九) ：源码解析之分位点离散化Quantile
Alink漫谈(十九) :源码解析之分位点离散化Quantile 目录 Alink漫谈(十九) :源码解析之分位点离散化Quantile 0x00 摘要 0x01 背景概念 1.1 离散化 1 ...
Apache Spark 2.2中基于成本的优化器（CBO）（转载）
Apache Spark 2.2最近引入了高级的基于成本的优化器框架用于收集并均衡不同的列数据的统计工作 (例如., 基(cardinality).唯一值的数量.空值.最大最小值.平均/最大长度,等等 ...
spark内存管理器--MemoryManager源码解析
MemoryManager内存管理器内存管理器可以说是spark内核中最重要的基础模块之一,shuffle时的排序,rdd缓存,展开内存,广播变量,Task运行结果的存储等等,凡是需要使用内存的地方 ...
Spark Extracting,transforming,selecting features
Spark(3) - Extracting, transforming, selecting features 官方文档链接:https://spark.apache.org/docs/2.2.0/m ...
大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...

随机推荐

Java基础之Bridge method（桥接方法）
1.什么是桥接方法桥接方法是 JDK 1.5 引入泛型后,为了使Java的泛型方法生成的字节码和 1.5 版本前的字节码相兼容,由编译器自动生成的方法. 判断方法我们可以通过 Method.isB ...
超简单的jq图片上传
<label class="file_img" for="file_imgs"> <input class="file_imgs&q ...
重学c#系列——非托管实例(五)
前言托管资源到是好,有垃圾回收资源可以帮忙,即使需要我们的一些小小的调试来优化,也是让人感到欣慰的.但是非托管资源就显得苍白无力了,需要程序员自己去设计回收,同样有设计的地方也就能体现出程序员的设计 ...
Alink漫谈(十四) ：多层感知机之总体架构
Alink漫谈(十四) :多层感知机之总体架构目录 Alink漫谈(十四) :多层感知机之总体架构 0x00 摘要 0x01 背景概念 1.1 前馈神经网络 1.2 反向传播 1.3 代价函 ...
Centos 7下编译安装PHP7.2（与Nginx搭配的安装方式）
一.下载源码包百度云网盘下载地址:https://pan.baidu.com/s/1li4oD3qjvFyIaEZQt2NVRg 提取码:4yde 二.安装php依赖组件 yum -y instal ...
Elasticsearch及相关插件的安装
Elasticsearch及相关插件的安装 1.安装Elasticsearch并启动服务 2.安装第三方插件 2.1.Head插件是Elasticsearch的一个集群管理工具,可以通过它来查看和搜 ...
深度学习论文翻译解析（十一）：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
论文标题:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 标题翻译: ...
第三章 Java面向对象（下）
3.1.抽象类概述:在做子类共性功能抽取时,有些方法在父类中并没有具体的体现,这个时候就需要抽象类了格式:public abstract class 类名 {} 语法特点: 抽象类和抽象方法必须使 ...
org.apache.catalina.LifecycleException: Failed to start component [StandardEngine[Catalina].StandardHost[localhost].StandardContext[/book]] Tomcat ServletXml 异常
此异常是因为xml配置serlvet-url-pattern缺少’/’ 应该改为 /regist 背景: 写了base标签 form表单的action属性的值个人分析: ️表单提交时 ...
vue同时安装element ui跟 vant
记一个卡了我比较久的问题,之前弄的心态爆炸各种问题. 现在来记录一下,首先我vant是已经安装成功了的. 然后引入element ui npm i element-ui -S 接着按需引入,安装插件 ...

Spark QuantileDiscretizer 分位数离散器

Spark QuantileDiscretizer 分位数离散器的更多相关文章

随机推荐

热门专题