DataFrame WordCount

测试数据：

**

  * 使用DataFrame实现WordCount

  */

object DataFrameWordCount {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local").getOrCreate()

    import spark.implicits._

    val linesDF = spark.sparkContext.textFile("D:\\workspace\\test_data.txt").toDF("line")

    linesDF.show(false)

    linesDF.printSchema()

    //将一行数据展开

    val wordsDF = linesDF.explode("line", "word")((line: String) => line.split(" "))

    wordsDF.printSchema()

    wordsDF.show(,false)

    //对 "word"列进行聚合逻辑并使用count算子计算每个分组元素的个数

    val wordCoungDF = wordsDF.groupBy("word").count()

    wordCoungDF.show(false)

    wordCoungDF.printSchema()

    println(wordCoungDF.count() + "----------")

  }

}

打印结果：

+------------+

|line        |

+------------+

|      |

|     |

|     |

|      |

+------------+

root

 |-- line: string (nullable = true)

root

 |-- line: string (nullable = true)

 |-- word: string (nullable = true)

+------------+----+

|line        |word|

+------------+----+

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|     |   |

|     |   |

|     |   |

|     |   |

|     |   |

|     |  |

|     |  |

|     |   |

|     |   |

|     |   |

|     |   |

|     |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

+------------+----+

+----+-----+

|word|count|

+----+-----+

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|  |    |

|   |    |

|   |    |

+----+-----+

root

 |-- word: string (nullable = true)

 |-- count: long (nullable = false)

DataFrame WordCount的更多相关文章

RDD、DataFrame和DataSet的区别
原文链接:http://www.jianshu.com/p/c0181667daa0 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同. RDD ...
spark RDD，DataFrame,DataSet 介绍
弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在 ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
PySpark理解wordcount.py
在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱.我们再次回顾wordcount.py代码来回答如下问题对于大多数语言的Hello Word示例,都有mai ...
RDD、DataFrame和DataSet
简述 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema.RDD是分布式的 Java对象的集 ...
scala学习（3）-----wordcount【sparksession】
参考: spark中文官方网址:http://spark.apachecn.org/#/ https://www.iteblog.com/archives/1674.html 一.知识点: 1.Dat ...
Spark入门之DataFrame/DataSet
目录 Part I. Gentle Overview of Big Data and Spark Overview 1.基本架构 2.基本概念 3.例子(可跳过) Spark工具箱 1.Dataset ...
wordcount实例
scala的wordcount实例 package com.wondersgroup.myscala import scala.actors.{Actor, Future} import scala. ...
使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack ...

随机推荐

Error running app: Default Activity Not Found
最近在调试安装Android Widget程序时,碰到Error running app: Default ActivityNot Found. 因为简单的Widget程序,如果不和应用程序关联,就不 ...
跨服务器做yum源
服务器无法上网,然后自己根据光盘搭建的YUM源不够用.RPM安装软件,各种依赖,找包烦死. 先做个能上外网的 http proxy 找一个可以上Internet的服务器,然后起一个squid服务, ...
git rebase 操作撤销
git rebase可以更改提交历史,在不影响别人的情况下,能够重整git树. 但如果git rebase操作失误,却在push后才发现,怎么撤销rebase操作呢? 使用git reflog + g ...
Flask web开发之路三
今天写一个URL传参.反转URL.页面跳转和重定向 URL传参主app文件代码: from flask import Flask app = Flask(__name__) @app.route(' ...
window.history.go(-1)返回且刷新页面点击返回上一层
windows窗口对象(历史)history.go(),history.back(),history.forward(). 因为windows对象引用不是必须的.所以windows.history.g ...
POJ 2408 - Anagram Groups - [字典树]
题目链接:http://poj.org/problem?id=2408 World-renowned Prof. A. N. Agram's current research deals with l ...
HDU 1247 - Hat’s Words - [字典树水题]
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1247 Problem DescriptionA hat’s word is a word in the ...
[No0000134]C#中的委托,匿名方法和Lambda表达式
简介在.NET中,委托,匿名方法和Lambda表达式很容易发生混淆.我想下面的代码能证实这点.下面哪一个First会被编译?哪一个会返回我们需要的结果?即Customer.ID=5.答案是6个Fir ...
node 下查看安装插件的最新版本号的方法
例如查看extract-text-webpack-plugin的最新版本号 (不一定时本地安装的插件的版本号) npm view extract-text-webpack-plugin version ...
Mean reversion (finance) 均值回归
Mean reversion (finance) 均值回归

DataFrame WordCount

DataFrame WordCount的更多相关文章

随机推荐

热门专题