Spark2 探索性数据统计分析

data数据源，请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html

import org.apache.Spark.sql.DataFrameStatFunctions

import org.apache.spark.sql.functions._

相关系数

val df = Range(0,10,step=1).toDF("id").withColumn("rand1", rand(seed=10)).withColumn("rand2", rand(seed=27))

df: org.apache.spark.sql.DataFrame = [id: int, rand1: double ... 1 more field]

df.show

+---+-------------------+-------------------+

| id|              rand1|              rand2|

+---+-------------------+-------------------+

|  0|0.41371264720975787|  0.714105256846827|

|  1| 0.7311719281896606| 0.8143487574232506|

|  2| 0.9031701155118229| 0.5282207324381174|

|  3|0.09430205113458567| 0.4420100497826609|

|  4|0.38340505276222947| 0.9387162206758006|

|  5| 0.5569246135523511| 0.6398126862647711|

|  6| 0.4977441406613893| 0.9895498513115722|

|  7| 0.2076666106201438| 0.3398720242725498|

|  8| 0.9571919406508957|0.15042237695815963|

|  9| 0.7429395461204413| 0.7302723457066639|

+---+-------------------+-------------------+

df.stat.corr("rand1", "rand2", "pearson")

res24: Double = -0.10993962467082698

查看数据的统计分布情况

val colArray = Array("age", "yearsmarried", "religiousness", "education", "occupation", "rating")

// 查看数据的统计分布情况

val descrDF = data.describe("age", "yearsmarried", "religiousness", "education", "occupation", "rating")

descrDF: org.apache.spark.sql.DataFrame = [summary: string, age: string ... 5 more fields]

descrDF.selectExpr("summary",

        "round(age,2) as age",

        "round(yearsmarried,2) as yearsmarried",

        "round(religiousness,2) as religiousness",

        "round(education,2) as education",

        "round(occupation,2) as occupation",

        "round(rating,2) as rating").show(10, truncate = false)

+-------+-----+------------+-------------+---------+----------+------+

|summary|age  |yearsmarried|religiousness|education|occupation|rating|

+-------+-----+------------+-------------+---------+----------+------+

|count  |601.0|601.0       |601.0        |601.0    |601.0     |601.0 |

|mean   |32.49|8.18        |3.12         |16.17    |4.19      |3.93  |

|stddev |9.29 |5.57        |1.17         |2.4      |1.82      |1.1   |

|min    |17.5 |0.13        |1.0          |9.0      |1.0       |1.0   |

|max    |57.0 |15.0        |5.0          |20.0     |7.0       |5.0   |

+-------+-----+------------+-------------+---------+----------+------+

统计字段中元素的个数

// 统计字段中元素的个数

val fi = data.stat.freqItems(colArray)

fi: org.apache.spark.sql.DataFrame = [age_freqItems: array<double>, yearsmarried_freqItems: array<double> ... 4 more fields]

fi.printSchema()

root

 |-- age_freqItems: array (nullable = true)

 |    |-- element: double (containsNull = false)

 |-- yearsmarried_freqItems: array (nullable = true)

 |    |-- element: double (containsNull = false)

 |-- religiousness_freqItems: array (nullable = true)

 |    |-- element: double (containsNull = false)

 |-- education_freqItems: array (nullable = true)

 |    |-- element: double (containsNull = false)

 |-- occupation_freqItems: array (nullable = true)

 |    |-- element: double (containsNull = false)

 |-- rating_freqItems: array (nullable = true)

 |    |-- element: double (containsNull = false)

val f = fi.selectExpr(

     |   "size(age_freqItems)",

     |   "size(yearsmarried_freqItems)",

     |   "size(religiousness_freqItems)",

     |   "size(education_freqItems)",

     |   "size(occupation_freqItems)",

     |   "size(rating_freqItems)")

f: org.apache.spark.sql.DataFrame = [size(age_freqItems): int, size(yearsmarried_freqItems): int ... 4 more fields]

f.show(10, truncate = false)

+-------------------+----------------------------+-----------------------------+-------------------------+--------------------------+----------------------+

|size(age_freqItems)|size(yearsmarried_freqItems)|size(religiousness_freqItems)|size(education_freqItems)|size(occupation_freqItems)|size(rating_freqItems)|

+-------------------+----------------------------+-----------------------------+-------------------------+--------------------------+----------------------+

|9                  |8                           |5                            |7                        |7                         |5                     |

+-------------------+----------------------------+-----------------------------+-------------------------+--------------------------+----------------------+

集合字段的元素

// 集合字段的元素

val f1 = data.stat.freqItems(Array("age", "yearsmarried", "religiousness"))

f1: org.apache.spark.sql.DataFrame = [age_freqItems: array<double>, yearsmarried_freqItems: array<double> ... 1 more field]

f1.show(10, truncate = false)

+------------------------------------------------------+-----------------------------------------------+-------------------------+

|age_freqItems                                         |yearsmarried_freqItems                         |religiousness_freqItems  |

+------------------------------------------------------+-----------------------------------------------+-------------------------+

|[32.0, 47.0, 22.0, 52.0, 37.0, 17.5, 27.0, 57.0, 42.0]|[0.75, 0.125, 1.5, 0.417, 4.0, 7.0, 10.0, 15.0]|[2.0, 5.0, 4.0, 1.0, 3.0]|

+------------------------------------------------------+-----------------------------------------------+-------------------------+

// 对数组的元素排序

f1.selectExpr("sort_array(age_freqItems)", "sort_array(yearsmarried_freqItems)", "sort_array(religiousness_freqItems)").show(10, truncate = false)

+------------------------------------------------------+-----------------------------------------------+-----------------------------------------+

|sort_array(age_freqItems, true)                       |sort_array(yearsmarried_freqItems, true)       |sort_array(religiousness_freqItems, true)|

+------------------------------------------------------+-----------------------------------------------+-----------------------------------------+

|[17.5, 22.0, 27.0, 32.0, 37.0, 42.0, 47.0, 52.0, 57.0]|[0.125, 0.417, 0.75, 1.5, 4.0, 7.0, 10.0, 15.0]|[1.0, 2.0, 3.0, 4.0, 5.0]                |

+------------------------------------------------------+-----------------------------------------------+-----------------------------------------+

// 集合字段的元素

val f2 = data.stat.freqItems(Array("education", "occupation", "rating"))

f2: org.apache.spark.sql.DataFrame = [education_freqItems: array<double>, occupation_freqItems: array<double> ... 1 more field]

f2.show(10, truncate = false)

+-----------------------------------------+-----------------------------------+-------------------------+

|education_freqItems                      |occupation_freqItems               |rating_freqItems         |

+-----------------------------------------+-----------------------------------+-------------------------+

|[17.0, 20.0, 14.0, 16.0, 9.0, 18.0, 12.0]|[2.0, 5.0, 4.0, 7.0, 1.0, 3.0, 6.0]|[2.0, 5.0, 4.0, 1.0, 3.0]|

+-----------------------------------------+-----------------------------------+-------------------------+

// 对数组的元素排序

f2.selectExpr("sort_array(education_freqItems)", "sort_array(occupation_freqItems)", "sort_array(rating_freqItems)").show(10, truncate = false)

+-----------------------------------------+--------------------------------------+----------------------------------+

|sort_array(education_freqItems, true)    |sort_array(occupation_freqItems, true)|sort_array(rating_freqItems, true)|

+-----------------------------------------+--------------------------------------+----------------------------------+

|[9.0, 12.0, 14.0, 16.0, 17.0, 18.0, 20.0]|[1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]   |[1.0, 2.0, 3.0, 4.0, 5.0]         |

+-----------------------------------------+--------------------------------------+----------------------------------+

Spark2 探索性数据统计分析的更多相关文章

初识Spark2.0之Spark SQL
内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织 ...
Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+Spark2.4.0(HA)高可用集群搭建
目录目录 1.前言 1.1.什么是 Hadoop? 1.1.1.什么是 YARN? 1.2.什么是 Zookeeper? 1.3.什么是 Hbase? 1.4.什么是 Hive 1.5.什么是 Sp ...
spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
geotrellis使用（二十五）将Geotrellis移植到spark2.0
目录前言升级spark到2.0 将geotrellis最新版部署到spark2.0(CDH) 总结一.前言事情总是变化这么快,前面刚写了一篇博客介绍如何将geotrellis移植 ...
统计分析中Type I Error与Type II Error的区别
统计分析中Type I Error与Type II Error的区别在统计分析中,经常提到Type I Error和Type II Error.他们的基本概念是什么?有什么区别? 下面的表格显示 b ...
Ubuntu14.04或16.04下安装JDK1.8+Scala+Hadoop2.7.3+Spark2.0.2
为了将Hadoop和Spark的安装简单化,今日写下此帖. 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录. 1. 伪分布式安装伪分布式的Hadoo ...
Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...
maven+spark2.0.0最大连通分量
运用到了spark2.0.0的grarhx包,要手动的在pom.xml里面添加依赖包,要什么就在里面添加依赖,然后在run->maven install
Eclipse+maven+scala2.11.8+spark2.0.0的环境部署
主要在maven-for-scalaIDE纠结了,因为在eclipse版本是luna4.x 里面有自己带有的maven. 根据网上面无脑的下一步下一步,出现了错误,在此讲解各个插件的用途,以此新人看见 ...

随机推荐

ubuntu12.04 折腾流水
今天突然间update 一些软件后,就遇到了无法启动桌面,就是输入正确的用户名和密码后还是无法进入系统. 重启后,一直停留在waiting for network configuration, 然后显 ...
Python 中遍历序列中元素和下标
enumerate 函数用于遍历序列中的元素以及它们的下标 for i,v in enumerate(['tic','tac','toe']): print i,v #0 tic #1 tac #2 ...
Android开发学习笔记-自定义控件的属性
若想让自定义控件变得更加方便灵活,则就需要对控件进行定义属性,使其用起来更方便. 下面是自定义控件属性的方法 1.添加attrs.xml,内容格式样式可以参考sdk\platforms\android ...
springmvc 文件下载
1.使用servlet的API实现参考:http://my.oschina.net/u/1394615/blog/311307 @RequestMapping("/download&quo ...
实现一个div，左边固定div宽度200px，右边div自适应
实现一个div,左边固定div宽度200px,右边div自适应<div class= "container"> <div class="left&quo ...
linux环境中,ssh登录报错,Permission denied, please try again.
问题描述: 今天早上一个同事反应一个问题,通过ssh登录一台测试机的时候,发现两个账号,都是普通账号,一个账号能够登录, 另外一个账号无法登录.问他之前有做过什么变更吗,提到的就是之前有升级过open ...
jar包的启动和停止脚本
启动: #!/bin/sh PIDFILE="/app/eureka/eureka.pid" LOGFILE="/app/eureka/out.log" if ...
[Algorithm] Beating the Binary Search algorithm – Interpolation Search, Galloping Search
From: http://blog.jobbole.com/73517/ 二分检索是查找有序数组最简单然而最有效的算法之一.现在的问题是,更复杂的算法能不能做的更好?我们先看一下其他方法. 有些情况下 ...
switch和continue的关系
突然想到我们用 switch都是用 break return等关键字来配合,有没有一种情况下是用continue呢?而且如果真的出现了continue,结果是什么样的呢?
C 修改命令行文本颜色
#include <Windows.h> #include <stdio.h> int main() { HANDLE h = GetStdHandle(STD_OUTPUT_ ...

Spark2 探索性数据统计分析

Spark2 探索性数据统计分析的更多相关文章

随机推荐

热门专题