scala WordCount案例

数据样例：

java,spark,hadoop,python,datax

java,spark,hadoop,spark,python,datax

java,spark,hadoop,python,datax

java,spark,hadoop,spark,python

java,spark,hadoop,spark,python,datax

java,spark,hadoop,python,datax

java,spark,hadoop,python,datax

java,spark,hadoop,spark,python,datax

java,spark,hadoop,python,datax

java,spark,hadoop,spark,python,datax

hadoop,spark,spark,python


package com.shujia

import scala.io.Source

object Test1wordcount {

  def main(args: Array[String]): Unit = {

//读取文件，并将转换成list集合

    val list: List[String] = Source.fromFile("data/words.txt").getLines().toList

  //将list集合按照分隔键进行展开

  val words: List[String] = list.flatMap((lines: String) => lines.split(","))

    //分组

    val groupBy: Map[String, List[String]] = words.groupBy((word: String) =>word)

    //统计单词数量

    val wordCount: Map[String, Int] = groupBy.map((kv: (String, List[String])) => {

      //分组单词

      val word: String = kv._1

      //组内所有单词

      val value: List[String] = kv._2

      //求出数组内的长度

      val count: Int = value.length

      //返回单词的数量

      (word, count)

    })

wordCount.foreach(println)

  }

}
输出结果：

F:\soft\java\jdk\bin\java.exe "-javaagent:F:\soft\IDEA\IntelliJ

(datax,36)

(java,40)

(hadoop,44)

(spark,68)

(python,44)

Process finished with exit code 0

scala WordCount案例的更多相关文章

大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
scala wordcount kmeans
scala wordcount kmeans k-means算法的输入对象是d维向量空间的一些点,对一个d维向量的点集进行聚类. k-means聚类算法会将集合D划分成k个聚簇.
MapReduce简单执行过程及Wordcount案例
MapReducer运行过程以单词统计为案例. 假如现在文件中存在如下内容: aa bb aa cc dd aa 当然,这是小文件,如果文件大小较大时会将文件进行 "切片" ,此 ...
3. scala-spark wordCount 案例
1. 创建maven 工程 2. 相关依赖和插件 <dependencies> <dependency> <groupId>org.apache.spark< ...
Spark Streaming的wordcount案例
之前测试的一些spark案例都是采用离线处理,spark streaming的流处理一样可以运行经典的wordcount. 基本环境: spark-2.0.0 scala-2.11.0 IDEA-15 ...
scala Wordcount
package my.bigdata.scala08 import scala.collection.mutableimport scala.collection.mutable.ArrayBuffe ...
使用MapReduce运行WordCount案例
@ 目录一.准备数据二.MR的编程规范三.编程步骤四.编写程序 Mapper程序解读一.准备数据注意:准备的数据的格式必须是文本,每个单词之间使用制表符分割.编码必须是utf-8无bom ...
Spark框架——WordCount案例实现
package wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} ...
hadoop环境搭建及Wordcount案例实验
1.Linux环境变量设置在/etc/profile中添加环境变量 sudo vim /etc/profile PATH=$PATH:/usr/local/hadoop/bin source /et ...

随机推荐

蓝桥杯Web：【功能实现】菜单树检索
[功能实现]菜单树检索背景介绍实际工作中很多前端攻城狮都会遇到这样一个需求:在多级菜单树中模糊搜索匹配的菜单项,并显示出来. 本题需要在已提供的基础项目中使用 Vue.js 知识,实现对已提供的二 ...
docker 保存,加载,导入,导出命令
持久化docker的镜像或容器的方法 docker的镜像和容器可以有两种方式来导出 docker save #ID or #Name docker export #ID or #Name docker ...
Nginx分片限流
一.全局限流在http节点中添加 # 创建限流规则 limit_req_zone $binary_remote_addr zone=addr:10m rate=1r/s;# 客户端进行限流 # li ...
mongoDB 命令大全
每日一句 There should be a better way to start a day than waking up every morning. 应该有更好的方式开始新一天, 而不是千篇一 ...
查询语句写了limit 1，为什么依然很慢？
摘要: 很多时候计算引擎会对语句进行代价估计并调整语句的执行顺序.执行计划是语句如何执行的直观表达.语句如何执行不能只关注语句写法,要想写出符合预期执行顺序的查询语句,还需要关注语句执行计划. 本文分 ...
洛谷 P2629 好消息，坏消息题解
暴力算法的时间复杂度是O(n^2),考虑优化: 先导入一种思想--断环为链.说通俗点就是在原数组后面再接上下标为1--(n - 1)的元素: 以样例为例:-3 5 1 2:我们将其断环为链后可以得到这 ...
C#.NET中的程序集版本
更新记录 2022年4月16日:本文迁移自Panda666原博客,原发布时间:2021年8月22日. 在Visual Studio中查看程序集版本在程序运行中获得程序集版本信息除了在Visual ...
线程崩溃为什么不会导致 JVM 崩溃
大家好,我是坤哥网上看到一个很有意思的据说是美团的面试题:为什么线程崩溃崩溃不会导致 JVM 崩溃,这个问题我看了不少回答,但都没答到根本原因,所以决定答一答,相信大家看完肯定会有收获,本文分以下几 ...
kubernetes之常用核心资源对象
部门产品线本身是做DEVOPS平台,最近部署架构也在往K8S上靠了,不得不学一下K8S.自己搭建了K8S集群与harbor仓库来学习. 1.kubernetes之常用核心资源对象 1.1.K8s服务部 ...
Windows 2008R2 IIS环境配置(靶机)
一.Windows 2008 R2系统安装 VMware Workstation 15安装包链接:https://pan.baidu.com/s/11sYcZTYPqIV-pyvzo7pWLQ 提取 ...

scala WordCount案例

scala WordCount案例的更多相关文章

随机推荐

热门专题