Spark2 Dataset DataFrame空值null,NaN判断和处理

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.Dataset

import org.apache.spark.sql.Row

import org.apache.spark.sql.DataFrame

import org.apache.spark.sql.Column

import org.apache.spark.sql.DataFrameReader

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder

import org.apache.spark.sql.Encoder

import org.apache.spark.sql.functions._

import org.apache.spark.sql.DataFrameStatFunctions

import org.apache.spark.ml.linalg.Vectors 

math.sqrt(-1.0)

res43: Double = NaN 

math.sqrt(-1.0).isNaN()

res44: Boolean = true

val data1 = data.toDF("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating")

data1: org.apache.spark.sql.DataFrame = [affairs: string, gender: string ... 7 more fields] 

data1.limit(10).show

+-------+------+---+------------+--------+-------------+---------+----------+------+

|affairs|gender|age|yearsmarried|children|religiousness|education|occupation|rating|

+-------+------+---+------------+--------+-------------+---------+----------+------+

|      0|  male| 37|          10|      no|            3|       18|         7|     4|

|      0|  null| 27|        null|      no|            4|       14|         6|  null|

|      0|  null| 32|        null|     yes|            1|       12|         1|  null|

|      0|  null| 57|        null|     yes|            5|       18|         6|  null|

|      0|  null| 22|        null|      no|            2|       17|         6|  null|

|      0|  null| 32|        null|      no|            2|       17|         5|  null|

|      0|female| 22|        null|      no|            2|       12|         1|  null|

|      0|  male| 57|          15|     yes|            2|       14|         4|     4|

|      0|female| 32|          15|     yes|            4|       16|         1|     2|

|      0|  male| 22|         1.5|      no|            4|       14|         4|     5|

+-------+------+---+------------+--------+-------------+---------+----------+------+ 

 // 删除所有列的空值和NaN

val resNull=data1.na.drop()

resNull: org.apache.spark.sql.DataFrame = [affairs: string, gender: string ... 7 more fields] 

 resNull.limit(10).show()

+-------+------+---+------------+--------+-------------+---------+----------+------+

|affairs|gender|age|yearsmarried|children|religiousness|education|occupation|rating|

+-------+------+---+------------+--------+-------------+---------+----------+------+

|      0|  male| 37|          10|      no|            3|       18|         7|     4|

|      0|  male| 57|          15|     yes|            2|       14|         4|     4|

|      0|female| 32|          15|     yes|            4|       16|         1|     2|

|      0|  male| 22|         1.5|      no|            4|       14|         4|     5|

|      0|  male| 37|          15|     yes|            2|       20|         7|     2|

|      0|  male| 27|           4|     yes|            4|       18|         6|     4|

|      0|  male| 47|          15|     yes|            5|       17|         6|     4|

|      0|female| 22|         1.5|      no|            2|       17|         5|     4|

|      0|female| 27|           4|      no|            4|       14|         5|     4|

|      0|female| 37|          15|     yes|            1|       17|         5|     5|

+-------+------+---+------------+--------+-------------+---------+----------+------+ 

 //删除某列的空值和NaN

val res=data1.na.drop(Array("gender","yearsmarried")) 

// 删除某列的非空且非NaN的低于10的

data1.na.drop(10,Array("gender","yearsmarried")) 

 //填充所有空值的列

val res123=data1.na.fill("wangxiao123")

res123: org.apache.spark.sql.DataFrame = [affairs: string, gender: string ... 7 more fields] 

 res123.limit(10).show()

+-------+-----------+---+------------+--------+-------------+---------+----------+-----------+

|affairs|     gender|age|yearsmarried|children|religiousness|education|occupation|     rating|

+-------+-----------+---+------------+--------+-------------+---------+----------+-----------+

|      0|       male| 37|          10|      no|            3|       18|         7|          4|

|      0|wangxiao123| 27| wangxiao123|      no|            4|       14|         6|wangxiao123|

|      0|wangxiao123| 32| wangxiao123|     yes|            1|       12|         1|wangxiao123|

|      0|wangxiao123| 57| wangxiao123|     yes|            5|       18|         6|wangxiao123|

|      0|wangxiao123| 22| wangxiao123|      no|            2|       17|         6|wangxiao123|

|      0|wangxiao123| 32| wangxiao123|      no|            2|       17|         5|wangxiao123|

|      0|     female| 22| wangxiao123|      no|            2|       12|         1|wangxiao123|

|      0|       male| 57|          15|     yes|            2|       14|         4|          4|

|      0|     female| 32|          15|     yes|            4|       16|         1|          2|

|      0|       male| 22|         1.5|      no|            4|       14|         4|          5|

+-------+-----------+---+------------+--------+-------------+---------+----------+-----------+ 

 //对指定的列空值填充

 val res2=data1.na.fill(value="wangxiao111",cols=Array("gender","yearsmarried") )

res2: org.apache.spark.sql.DataFrame = [affairs: string, gender: string ... 7 more fields] 

 res2.limit(10).show()

+-------+-----------+---+------------+--------+-------------+---------+----------+------+

|affairs|     gender|age|yearsmarried|children|religiousness|education|occupation|rating|

+-------+-----------+---+------------+--------+-------------+---------+----------+------+

|      0|       male| 37|          10|      no|            3|       18|         7|     4|

|      0|wangxiao111| 27| wangxiao111|      no|            4|       14|         6|  null|

|      0|wangxiao111| 32| wangxiao111|     yes|            1|       12|         1|  null|

|      0|wangxiao111| 57| wangxiao111|     yes|            5|       18|         6|  null|

|      0|wangxiao111| 22| wangxiao111|      no|            2|       17|         6|  null|

|      0|wangxiao111| 32| wangxiao111|      no|            2|       17|         5|  null|

|      0|     female| 22| wangxiao111|      no|            2|       12|         1|  null|

|      0|       male| 57|          15|     yes|            2|       14|         4|     4|

|      0|     female| 32|          15|     yes|            4|       16|         1|     2|

|      0|       male| 22|         1.5|      no|            4|       14|         4|     5|

+-------+-----------+---+------------+--------+-------------+---------+----------+------+ 

val res3=data1.na.fill(Map("gender"->"wangxiao222","yearsmarried"->"wangxiao567") )

res3: org.apache.spark.sql.DataFrame = [affairs: string, gender: string ... 7 more fields] 

 res3.limit(10).show()

+-------+-----------+---+------------+--------+-------------+---------+----------+------+

|affairs|     gender|age|yearsmarried|children|religiousness|education|occupation|rating|

+-------+-----------+---+------------+--------+-------------+---------+----------+------+

|      0|       male| 37|          10|      no|            3|       18|         7|     4|

|      0|wangxiao222| 27| wangxiao567|      no|            4|       14|         6|  null|

|      0|wangxiao222| 32| wangxiao567|     yes|            1|       12|         1|  null|

|      0|wangxiao222| 57| wangxiao567|     yes|            5|       18|         6|  null|

|      0|wangxiao222| 22| wangxiao567|      no|            2|       17|         6|  null|

|      0|wangxiao222| 32| wangxiao567|      no|            2|       17|         5|  null|

|      0|     female| 22| wangxiao567|      no|            2|       12|         1|  null|

|      0|       male| 57|          15|     yes|            2|       14|         4|     4|

|      0|     female| 32|          15|     yes|            4|       16|         1|     2|

|      0|       male| 22|         1.5|      no|            4|       14|         4|     5|

+-------+-----------+---+------------+--------+-------------+---------+----------+------+ 

 //查询空值列

data1.filter("gender is null").select("gender").limit(10).show

+------+

|gender|

+------+

|  null|

|  null|

|  null|

|  null|

|  null|

+------+ 

 data1.filter("gender is not null").select("gender").limit(10).show

+------+

|gender|

+------+

|  male|

|female|

|  male|

|female|

|  male|

|  male|

|  male|

|  male|

|female|

|female|

+------+ 

 data1.filter( data1("gender").isNull ).select("gender").limit(10).show

+------+

|gender|

+------+

|  null|

|  null|

|  null|

|  null|

|  null|

+------+ 

 data1.filter("gender<>''").select("gender").limit(10).show

+------+

|gender|

+------+

|  male|

|female|

|  male|

|female|

|  male|

|  male|

|  male|

|  male|

|female|

|female|

+------+

Spark2 Dataset DataFrame空值null,NaN判断和处理的更多相关文章

Spark Dataset DataFrame空值null,NaN判断和处理
Spark Dataset DataFrame空值null,NaN判断和处理 import org.apache.spark.sql.SparkSession import org.apache.sp ...
oracle中空值null的判断和转换：NVL的用法
1.NULL空值概念数据库里有一个很重要的概念:空值即NULL.有时表中,更确切的说是某些字段值,可能会出现空值, 这是因为这个数据不知道是什么值或根本就不存在. 2.NULL空值判断空值不等同于 ...
Spark Dataset DataFrame 操作
Spark Dataset DataFrame 操作相关博文参考 sparksql中dataframe的用法一.Spark2 Dataset DataFrame空值null,NaN判断和处理 1. ...
js判断undefined类型,undefined,null,NaN的区别
js判断undefined类型今天使用showModalDialog打开页面,返回值时.当打开的页面点击关闭按钮或直接点浏览器上的关闭则返回值是undefined 所以自作聪明判断 ...
Javascript 中的非空判断 undefined,null, NaN的区别
JS 数据类型在介绍这三个之间的差别之前, 先来看一下JS 的数据类型. 在 Java ,C这样的语言中, 使用一个变量之前,需要先定义这个变量并指定它的数据类型,是整型,字符串型,.... 但是 ...
(转载)Javascript 中的非空判断 undefined,null, NaN的区别
原文地址:https://blog.csdn.net/oscar999/article/details/9353713 在介绍这三个之间的差别之前, 先来看一下JS 的数据类型. 在 Java ,C ...
Spark2-对于Null/Nan的处理
一.几种查找空值的方法 1.Column方法 column.isNull/column.isNotNull/column.isNaN 2.类sql方法二.na方法 2.1 na.drop方法 2.1 ...
Update(Stage4)：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset ...
SQL学习之空值(Null)检索
在创建表表,我们可以指定其中的列包不包含值,在一列不包含值时,我们可以称其包含空值null. 确定值是否为null,不能简单的检查是否=null.select语句有一个特殊的where子句,可用来检查 ...

随机推荐

VMware12多台虚拟机上网设置
1.根据镜像安装好linux系统, 2. 把网络适配器移除后,重新添加试试 3. 当按照上述配置后还是无法上网,把VMnet0 桥接模式的自动 ,这里重新点击下自动设置(其实没有做到自动配置) 4. ...
linux中高亮显示文本的工具 -- bat
bat 的项目地址 https://github.com/sharkdp/bat bat 是用rust 开发的, 在centos中安装bat需要rust的环境, 我们可以通过安装rust的包管理工具c ...
golang程序在windows上，注册为服务
https://blog.csdn.net/yang8023tao/article/details/53332984
Ajax请求全局配置
摘要: jQuery已经成为项目中最常见的js库,也是前端开发最喜欢使用的库.下面是在项目中封装了jQuery的Ajax,分享给大家. 代码: // ajax 请求参数 var ajaxSetting ...
MongoDB中的聚合操作
根据MongoDB的文档描述,在MongoDB的聚合操作中,有以下五个聚合命令. 其中,count.distinct和group会提供很基本的功能,至于其他的高级聚合功能(sum.average.ma ...
入门常用SQL及官方文档的使用
SQL语句基础理论 SQL是操作和检索关系型数据库的标准语言,标准SQL语句可用于操作关系型数据库. 5大主要类型: ①DQL(Data Query Language,数据查询语言)语句,主要由于se ...
WAF Bypass数据库特性（Oracle探索篇）
0x01 背景 oracle与mysql特性类似,半自动化fuzz了一下,记录成果. 0x02 测试位置一:参数和union之间的位置 1)空白字符 Oracle中可以利用的空白字符有: %00 ...
AE插件开发的一些总结
首先会遇到第一个问题,为什么输出的aex文件不在bin目录下,而在别的目录下.其实问题出在链接器的设置里.把这个改成自己想要的目录就OK 然后一些object的报错,直接把警告等级改成0就可以了.属性 ...
MDK972-EK开发板裸调试设置和裸机程序烧写（转）
硬件平台:MDK972-EK开发板编译调试软件:KEIL uVision4仿真工具:JLINK V7/V8 本例子从串口输出信息,如图: KEIL uVision4调试设置如图所示: ...
STL——空间配置器(SGI-STL)
一. 空间配置器标准接口参见<STL源码剖析>第二章-2.1.<memory>文件. 二.具备次配置力的SGI空间配置器 1. SGI STL的配置器与众不同,也与标准规范不 ...

Spark2 Dataset DataFrame空值null,NaN判断和处理

Spark2 Dataset DataFrame空值null,NaN判断和处理的更多相关文章

随机推荐

热门专题