DataFrame WordCount

测试数据：

**

  * 使用DataFrame实现WordCount

  */

object DataFrameWordCount {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local").getOrCreate()

    import spark.implicits._

    val linesDF = spark.sparkContext.textFile("D:\\workspace\\test_data.txt").toDF("line")

    linesDF.show(false)

    linesDF.printSchema()

    //将一行数据展开

    val wordsDF = linesDF.explode("line", "word")((line: String) => line.split(" "))

    wordsDF.printSchema()

    wordsDF.show(,false)

    //对 "word"列进行聚合逻辑并使用count算子计算每个分组元素的个数

    val wordCoungDF = wordsDF.groupBy("word").count()

    wordCoungDF.show(false)

    wordCoungDF.printSchema()

    println(wordCoungDF.count() + "----------")

  }

}

打印结果：

+------------+

|line        |

+------------+

|      |

|     |

|     |

|      |

+------------+

root

 |-- line: string (nullable = true)

root

 |-- line: string (nullable = true)

 |-- word: string (nullable = true)

+------------+----+

|line        |word|

+------------+----+

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|     |   |

|     |   |

|     |   |

|     |   |

|     |   |

|     |  |

|     |  |

|     |   |

|     |   |

|     |   |

|     |   |

|     |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

+------------+----+

+----+-----+

|word|count|

+----+-----+

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|  |    |

|   |    |

|   |    |

+----+-----+

root

 |-- word: string (nullable = true)

 |-- count: long (nullable = false)

DataFrame WordCount的更多相关文章

RDD、DataFrame和DataSet的区别
原文链接:http://www.jianshu.com/p/c0181667daa0 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同. RDD ...
spark RDD，DataFrame,DataSet 介绍
弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在 ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
PySpark理解wordcount.py
在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱.我们再次回顾wordcount.py代码来回答如下问题对于大多数语言的Hello Word示例,都有mai ...
RDD、DataFrame和DataSet
简述 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema.RDD是分布式的 Java对象的集 ...
scala学习（3）-----wordcount【sparksession】
参考: spark中文官方网址:http://spark.apachecn.org/#/ https://www.iteblog.com/archives/1674.html 一.知识点: 1.Dat ...
Spark入门之DataFrame/DataSet
目录 Part I. Gentle Overview of Big Data and Spark Overview 1.基本架构 2.基本概念 3.例子(可跳过) Spark工具箱 1.Dataset ...
wordcount实例
scala的wordcount实例 package com.wondersgroup.myscala import scala.actors.{Actor, Future} import scala. ...
使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack ...

随机推荐

使用Java提供的MXBean来监控jvm创建了哪些线程
MBean是一种JavaBean,MBean往往代表的是JMX中的一种可以被管理的资源.MBean会通过接口定义,给出这些资源的一些特定操作: 属性的读和写操作可以被执行的操作关于自己的描述信息 ...
objective-c启用ARC时的内存管理（循环引用）
PDF版下载:http://download.csdn.net/detail/cuibo1123/7443125 在Objective-C中,内存的引用计数一直是一个让人比较头疼的问 ...
AJAX里使用的弹窗样式 tanchuang.js tanchuang.css
tanchuang.js // 每个弹窗的标识 var x =0; var idzt = new Array(); var Window = function(config){ //ID不重复 idz ...
文末有福利 | IT从业者应关注哪些技术热点？
7月14-15日,MPD工作坊北京站即将开幕,目前大会日程已经出炉,来自各大企业的技术专家,按照软件研发中心的岗位职能划分,从产品运营.团队管理.架构技术.自动化运维等领域进行干货分享,点击此[链接] ...
vue + vue-router+vuex+elementUI开发环境搭建
先在npm中安装vue脚手架, //先安装国内镜像源 npm install -g cnpm --registry=https://registry.npm.taobao.org //安装vue cn ...
{MySQL的逻辑查询语句的执行顺序}一 SELECT语句关键字的定义顺序二 SELECT语句关键字的执行顺序三准备表和数据四准备SQL逻辑查询测试语句五执行顺序分析
MySQL的逻辑查询语句的执行顺序阅读目录一 SELECT语句关键字的定义顺序二 SELECT语句关键字的执行顺序三准备表和数据四准备SQL逻辑查询测试语句五执行顺序分析一 SEL ...
MyBatis中choose when正确写法
<choose> <when test="scoreRange!=null and scoreRange eq 1"> AND sc.score <! ...
无法跨越程序集边界使用程序集“DataCheck, Version=1.0.0.0, Culture=neutral, PublicKeyToken=null”中的类型“List<ILayer>”，因为该类型有一个为嵌入互操作类型的泛型类型参数
主窗体: FrmDataInspect f2 = new FrmDataInspect(listMapControl1Lyr); f2.Show(); 弹出的窗体: 应该改为: gListMapLyr ...
MySQL transaction
MySQL transaction(数据库的事务) 数据库事务(Database Transaction),是指作为单个逻辑工作单元执行的一系列操作. 要么完全执行,要么完全地不执行. ACID 事务 ...
[development][tcp/ip][ids] 一个简单有参考价值的库 libnids
libhtp 中的例子, 可以通过libnids快速使用. 或者可以快速的写个sniffer. 支持三个功能 ip分片重组, tcp乱序重排, 端口扫描发现. 工程: https://github.c ...

DataFrame WordCount

DataFrame WordCount的更多相关文章

随机推荐

热门专题