DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理,处理分为三种类型:

drop:根据条件丢弃含有null或NaN的行

fill:根据条件使用指定值填充值为null或NaN的列,相当于设置默认值

replace:根据条件替换列值

下面是针对每种处理方式的详细解释:

package cc11001100.spark.dataset.DataFrameNaFunctionsDemo;

import com.google.common.collect.ImmutableMap;
import org.apache.spark.sql.DataFrameNaFunctions;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.catalyst.encoders.RowEncoder;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField; import java.util.ArrayList;
import java.util.List; /**
* DataFrameNaFunctions对空值的处理主要有三种:
* drop
* fill
* replace
*
* @author CC11001100
*/
public class DataFrameNaFunctionsDemo { private static Integer randomValue(int n) {
if (Math.random() < 0.5) {
return n;
} else {
return null;
}
} public static void main(String[] args) {
SparkSession spark = SparkSession.builder().master("local[*]").getOrCreate(); List<Row> rowList = new ArrayList<>();
for (int i = 0; i < 100; i++) {
Row row = RowFactory.create(randomValue(i), randomValue(i));
rowList.add(row);
}
Dataset<Row> nums = spark.createDataset(rowList, RowEncoder.apply(DataTypes.createStructType(new StructField[]{
DataTypes.createStructField("col_1", DataTypes.IntegerType, true),
DataTypes.createStructField("col_2", DataTypes.IntegerType, true),
})));
nums.show(false);
DataFrameNaFunctions dataFrameNaFunctions = nums.na(); /*----------------------------- drop -------------------------------*/ // 只要某行中有一列是null或NaN即丢掉此行数据,内部调用了drop("any")
dataFrameNaFunctions.drop().show();
// 指定丢弃行的方式,any表示行中任意一列是null或NaN即丢弃此行,all表示此行中所有列都是null或NaN才丢弃此行
dataFrameNaFunctions.drop("any").show();
// 当某行中的所有列为null或NaN时丢弃掉此行
dataFrameNaFunctions.drop("all").show();
// 当某行的指定列为null或any时丢弃掉此行
dataFrameNaFunctions.drop(new String[]{"col_1", "col_2"}).show();
// 当某行的指定列任意一个为null或NaN时丢弃掉此行
dataFrameNaFunctions.drop("any", new String[]{"col_1", "col_2"}).show();
// 当某行的指定列全部为null或NaN时丢弃掉此行
dataFrameNaFunctions.drop("all", new String[]{"col_1", "col_2"}).show();
// 当某行中指定列为null或NaN的数量大于指定值时丢弃掉此行
dataFrameNaFunctions.drop(1).show();
dataFrameNaFunctions.drop(1, new String[]{"col_1", "col_2"}).show(); /*----------------------------- fill -------------------------------*/ // 使用指定的值填充所有为null或NaN的列s,相当于为所有null或NaN设置默认值
dataFrameNaFunctions.fill(1L).show();
dataFrameNaFunctions.fill(0.1).show();
dataFrameNaFunctions.fill("").show();
dataFrameNaFunctions.fill(true).show(); // 当给定的列出现null或NaN值时使用对应值填充,相当于为指定的列设置默认值
dataFrameNaFunctions.fill(1L, new String[]{"col_1, col_2"}).show();
dataFrameNaFunctions.fill(0.1, new String[]{"col_1, col_2"}).show();
dataFrameNaFunctions.fill("", new String[]{"col_1, col_2"}).show();
dataFrameNaFunctions.fill(true, new String[]{"col_1, col_2"}).show(); // 传入Map可以为每一列设置不同的值,map的key为列名,值为当key列为null或NaN时要填充的值
// 要填充的值必须是下列类型之一: `Integer`, `Long`, `Float`, `Double`, `String`, `Boolean`.
dataFrameNaFunctions.fill(ImmutableMap.of("col_1", "unknown", "col_2", 1.0)).show(); /*----------------------------- replace -------------------------------*/ // 当指定列的值为key时,将其替换为value
dataFrameNaFunctions.replace("col_1", ImmutableMap.of("UNKNOWN", "unnamed")).show();
dataFrameNaFunctions.replace(new String[]{"col_1", "col_2"}, ImmutableMap.of("UNKNOWN", "unnamed")).show(); } }

相关资料:

1. Class DataFrameNaFunctions - spark doc

.

Spark笔记之DataFrameNaFunctions的更多相关文章

  1. spark笔记 环境配置

    spark笔记 spark简介 saprk 有六个核心组件: SparkCore.SparkSQL.SparkStreaming.StructedStreaming.MLlib,Graphx Spar ...

  2. 大数据学习——spark笔记

    变量的定义 val a: Int = 1 var b = 2 方法和函数 区别:函数可以作为参数传递给方法 方法: def test(arg: Int): Int=>Int ={ 方法体 } v ...

  3. spark 笔记 16: BlockManager

    先看一下原理性的文章:http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/ ,http://jerrys ...

  4. spark 笔记 15: ShuffleManager,shuffle map两端的stage/task的桥梁

    无论是Hadoop还是spark,shuffle操作都是决定其性能的重要因素.在不能减少shuffle的情况下,使用一个好的shuffle管理器也是优化性能的重要手段. ShuffleManager的 ...

  5. spark 笔记 14: spark中的delay scheduling实现

    延迟调度算法的实现是在TaskSetManager类中的,它通过将task存放在四个不同级别的hash表里,当有可用的资源时,resourceOffer函数的参数之一(maxLocality)就是这些 ...

  6. spark 笔记 12: Executor,task最后的归宿

    spark的Executor是执行task的容器.和java的executor概念类似. ===================start executor runs task============ ...

  7. spark 笔记 11: SchedulingAlgorithm 两种调度算法的优先级比较

    调度算法的最基本工作之一,就是比较两个可执行的task的优先级.spark提供的FIFO和FAIR的优先级比较在SchedulingAlgorithm这个接口体现.) { ) { ) { ) { fa ...

  8. spark 笔记 10: TaskScheduler相关

    任务调度器的接口类.应用程序可以定制自己的调度器来执行.当前spark只实现了一个任务调度器) )))))val createTime = System.currentTimeMillis()clas ...

  9. spark 笔记 8: Stage

    Stage 是一组独立的任务,他们在一个job中执行相同的功能(function),功能的划分是以shuffle为边界的.DAG调度器以拓扑顺序执行同一个Stage中的task. /** * A st ...

随机推荐

  1. mysql学习(4)python操作数据库

    整理了一下前面3期学的内容后,现在练习使用python去操作数据库 #!python3# coding:utf-8import pymysqlclass mysql_option(): def __i ...

  2. Alpha版本项目展示要求(加入模板)

    Alpha版本展示的时间暂定为11月17日课上,提前到13:00开始.如有变动,另行通知. Alpha版本项目展示要求如下: 不得使用PPT,展示所用的资料必须发表在博客上. 现场演示你们发布的软件. ...

  3. 第一个spring,总结!

    陈志棚:界面跳转与框架 李天麟:游戏界面ui 徐侃:算法代码的设计 经过五天的时间,开会时候分配的任务,已经全部完成,在这期间中,我们遇到了一些问题.但是,经过android老师的指导后,app成功的 ...

  4. 团队作业(五)-笔记app top5

    在互联网快速发展的情况下,各个行业的软件层出不穷,五花八门.各个行业都有相当多的软件介入其中,在如此多的软件之中,便有了相当激烈的竞争角逐.今天我们十五万的总冠军就着笔记APP行业中位列top 5的软 ...

  5. 将ssh失败的用户放入hosts.deny中

    1.find / -name secure 找到linux系统安全日志文件 2.cp `find / -name secure` /tmp/`date +%F` 将secure文件复制出来 或者使用f ...

  6. 第十一周(11.24-12.01)----WBS功能分解

    功能 子功能 二级子功能 预计花费时间(小时) 游戏基础功能 显示首界面 绘制产产品主logo及不同难度下的布局 4   游戏 难度选择(初级.中级.高级) 4     退出整个程序 1     放弃 ...

  7. git 生成秘钥

    Permission denied (publickey). fatal: The remote end hung up unexpectedly 应该是ssh key过期了吧 试着重新创建ssh k ...

  8. ssh中文乱码解决

    在终端执行命令:export LC_ALL=zh_CN.GB2312;export LANG=zh_CN.GB2312是最有效的.=======================1.不管用那种ssh客户 ...

  9. #LOJ2564 SDOI2018 原题识别 主席树

    转载请注明原文地址:http://www.cnblogs.com/LadyLex/p/9057297.html 原题链接: 今天考试考了前天的SDOI考题 天啊我菜爆,只有T2拿了30分 然后考试后半 ...

  10. 数位DP学习笔记

    数位DP学习笔记 什么是数位DP? 数位DP比较经典的题目是在数字Li和Ri之间求有多少个满足X性质的数,显然对于所有的题目都可以这样得到一些暴力的分数 我们称之为朴素算法: for(int i=l_ ...