Spark框架——WordCount案例实现

package wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark01_WordCount {

  def main(args: Array[String]): Unit = {

    //TODO 建立与spark的连接

    val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")    //基本配置

    val sc = new SparkContext(sparConf)

    //TODO 执行业务操作

    //1.读取文件，获取一行一行的数据

    val lines: RDD[String] = sc.textFile("datas/1.txt")

    //2.将一行数据进行拆分，形成一个一个的单词

    //  扁平化：将整体拆分成个体

    //  "hello world,hello world" => hello,world,hello,world

    val words: RDD[String] = lines.flatMap(_.split(" "))

    //3.将数据根据单词进行分组，便于统计

    //  "(hello,hello),(world,world)

    val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)

    //4.对分组后的数据进行转换

//      "(hello,hello),(world,world) => (hello,2),(world,2)

    val wordToCount = wordGroup.map {

      case (word,list) => {

        (word,list.size)

      }

    }

    //5.将转换结果采集到控制台打印出来

    val array: Array[(String, Int)] = wordToCount.collect()

    array.foreach(println)

    //TODO 关闭spark连接

    sc.stop()

  }

}

方式二

package wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark02_WordCount {

  def main(args: Array[String]): Unit = {

    //TODO 本地建立与spark的连接

    val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")

    val sc = new SparkContext(sparConf)   //spark实例

    //TODO 执行业务操作

    //1.读取文件，获取一行一行的数据，按行读取

    val lines: RDD[String] = sc.textFile("datas/1.txt")

    //2.将一行数据进行拆分，形成一个一个的单词

    val words: RDD[String] = lines.flatMap(_.split(" "))

    val wordToOne = words.map(

      word => (word,1)

    )

    val wordGroup: RDD[(String, Iterable[(String, Int)])] = wordToOne.groupBy(

      t => t._1

    )

    val wordToCount = wordGroup.map {

      case (word,list) => {

        list.reduce(

          (t1, t2) => {

            (t1._1, t1._2 + t2._2)

          }

        )

      }

    }

    //5.将转换结果采集到控制台打印出来

    val array: Array[(String, Int)] = wordToCount.collect()

    array.foreach(println)

    //TODO 关闭spark连接

    sc.stop()

  }

}

方式三

package wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark03_WordCount {

  def main(args: Array[String]): Unit = {

    //TODO 本地建立与spark的连接

    val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")

    val sc = new SparkContext(sparConf)   //spark实例

    //TODO 执行业务操作

    //1.读取文件，获取一行一行的数据，按行读取

    val lines: RDD[String] = sc.textFile("datas/1.txt")

    //2.将一行数据进行拆分，形成一个一个的单词

    val words: RDD[String] = lines.flatMap(_.split(" "))

    val wordToOne = words.map(

      word => (word,1)

    )

    //spark框架提供了更多功能，可以将分组和聚合使用一个方法实现

    //reduceByKey：相同的key数据，可以对value进行reduce聚合

    val wordToCount = wordToOne.reduceByKey(_+_)

    //5.将转换结果采集到控制台打印出来

    val array: Array[(String, Int)] = wordToCount.collect()

    array.foreach(println)

    //TODO 关闭spark连接

    sc.stop()

  }

}

运行截图：

Spark框架——WordCount案例实现的更多相关文章

大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
Spark Streaming updateStateByKey案例实战和内幕源码解密
本节课程主要分二个部分: 一.Spark Streaming updateStateByKey案例实战二.Spark Streaming updateStateByKey源码解密第一部分: upda ...
.Net for Spark 实现 WordCount 应用及调试入坑详解
.Net for Spark 实现WordCount应用及调试入坑详解 1. 概述 iNeuOS云端操作系统现在具备物联网.视图业务建模.机器学习的功能,但是缺少一个计算平台产品.最近在调研使用 ...
3. scala-spark wordCount 案例
1. 创建maven 工程 2. 相关依赖和插件 <dependencies> <dependency> <groupId>org.apache.spark< ...
ENode框架Conference案例分析系列之 - 文章索引
ENode框架Conference案例分析系列之 - 业务简介 ENode框架Conference案例分析系列之 - 上下文划分和领域建模 ENode框架Conference案例分析系列之 - 架构设 ...
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展 Receiver是SparkStreaming的输入数据来源,从对Receiver整个生命周期的设计,我们 ...
[转] 用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需 ...
ENode框架Conference案例转载
ENode框架Conference案例分析系列之 - Quick Start 前言前一篇文章介绍了Conference案例的架构设计,本篇文章开始介绍Conference案例的代码实现.由于代码比较 ...
【iOS】7.4 定位服务->2.1.4 定位 - 官方框架CoreLocation 案例：指南针效果
本文并非最终版本,如果想要关注更新或更正的内容请关注文集,联系方式详见文末,如有疏忽和遗漏,欢迎指正. 本文相关目录: ================== 所属文集:[iOS]07 设备工具 === ...

随机推荐

让你熟知jquery见鬼去吧
$是jquery最具代表的符号,当然php也是,但是二者不能同日而语;不得不说jquery的选择器是大家赞不绝口的,在它1.x版本中对ie兼容性是最好的,这要归功于$选择器; 现在呢,html5的降临 ...
微信小程序：自定义组件的数据传递
一.前言如果小程序中有可复用的UI且具有一定的功能性,就可以使用自定义组件将其封装起来.下面介绍一个简单的组件和一个复杂的组件. 二.简单的组件(计数器) 1. 组件功能介绍这个组件常见于外卖软件 ...
前端react+redux+koa写的博客推荐
React-Node搭建的博客曾经用的php+mysql+js写的博客,现在看来已经很low了,所以用目前最火的react+koa框架重构一下.先上地址吧:目前线上版本http://www.liuw ...
SourceMonitor的安装
SourceMonitor 本词条缺少名片图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! 中文名 SourceMonitor 软件大小 1743KB 软件语言英文软件类别国外软件 ...
使用pyinstaller库打包文件
1.pyinstaller的安装先win+r打开cmd,安装具体命令如下: pip3 install pyinstaller 2.使用pyinstaller库打包文件假设Python源文件LPR ...
更改docker默认的data,metadata存储大小(实操)
为什么要更改 data,metadata呢?我们运行环境中涉及大量数据操作,数据增长有时候很快,由于之前规划不足,所以磁盘很快达到瓶颈需要进行重新部署.这就需要调整原来的一些docker配置.操作系统 ...
鲜为人知帝国CMS内容页调用上一篇和下一篇的精华方法汇总
<span style="float:left">上一篇:[!--info.pre--]</span><span style="float: ...
java四种访问修饰符及各自的权限
1.public,即共有的,是访问权限限制最宽的修饰符.被public修饰的类.属性.及方法不仅可以跨类访问,而且可以跨包访问. 2. protected,即保护访问权限,是介于public和priv ...
初识ES6（JavaScript）
初识ES6(JavaScript) 关于ES6: ES6即ECMAScript6,是一种规范,JavaScript遵循了这种规范. *优点:*代码比较简洁. *缺点:*浏览器的兼容性不好. 1.变量和 ...
图片杂乱无章、分享麻烦？HMS Core图片分类服务教你快速筛选、分类、整合相册
如今手机摄影越来越方便,随手一拍就能记录美好生活.但照片越多,整理越麻烦,有的时候我们想对照片进行二次加工.分享,需要不停翻找相册.HMS Core机器学习服务(ML Kit)提供了图片分类服务,方便 ...

Spark框架——WordCount案例实现

方式二

方式三

运行截图：

Spark框架——WordCount案例实现的更多相关文章

随机推荐

热门专题