实现思路

实现1: scala 基本集合操作方式获取结果

package com.lzw.bigdata.spark.core.wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark01_WordCount {

  def main(args: Array[String]): Unit = {

    // Spark框架步骤

    // 1. 建立和Spark框架的链接

    val sparkConfig: SparkConf = new SparkConf()

      .setMaster("local")

      .setAppName("WordCount")

    val ctx = new SparkContext(sparkConfig)

    // 2. 执行业务逻辑

    // 2.1 读取文件，获取一行一行的数据

    val lines: RDD[String] = ctx.textFile("data")

    lines.foreach(println)

    // 2.2 分词，此处按照空格spilt

    val words: RDD[String] = lines.flatMap(line => line.split(" "))

    words.foreach(println)

    val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)

    val x = 1

    // 2.3 将数据根据单词进行分组，便于统计

    val wordToCount: RDD[(String, Int)] = wordGroup.map({

      case (word, list) => (word, list.size)

    })

    val tuples: Array[(String, Int)] = wordToCount.collect()

    // 2.4 打印结果

    tuples.foreach(println)

    // 3. 关闭连接

    ctx.stop()

  }

}

实现2: scala map reduce方式获取结果

package com.lzw.bigdata.spark.core.wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark02_WordCount {

  def main(args: Array[String]): Unit = {

    // Spark框架步骤

    // 1. 建立和Spark框架的链接

    val sparkConfig: SparkConf = new SparkConf()

      .setMaster("local")

      .setAppName("WordCount")

    val ctx = new SparkContext(sparkConfig)

    // 2. 执行业务逻辑

    // 2.1 读取文件，获取一行一行的数据

    val lines: RDD[String] = ctx.textFile("data")

    // lines.foreach(println)

    // 2.2 分词，此处按照空格spilt

    val words: RDD[String] = lines.flatMap(line => line.split(" "))

    val wordToOne: RDD[(String, Int)] = words.map(word => (word, 1))

    // 分组

    val wordGroup: RDD[(String, Iterable[(String, Int)])] = wordToOne.groupBy(t => t._1)

    // 聚合

    val tuple: RDD[(String, Int)] = wordGroup.map({

      case (word, list) => list.reduce((t1, t2) => (t1._1, t1._2 + t2._2))

    })

    tuple.foreach(println)

    // 3. 关闭连接

    ctx.stop()

  }

}

实现3: spark 提供的map reduce方式获取结果

package com.lzw.bigdata.spark.core.wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark03_WordCount {

  def main(args: Array[String]): Unit = {

    // Spark框架步骤

    // 1. 建立和Spark框架的链接

    val sparkConfig: SparkConf = new SparkConf()

      .setMaster("local")

      .setAppName("WordCount")

    val ctx = new SparkContext(sparkConfig)

    // 2. 执行业务逻辑

    // 2.1 读取文件，获取一行一行的数据

    val lines: RDD[String] = ctx.textFile("data")

    // lines.foreach(println)

    // 2.2 分词，此处按照空格spilt

    val words: RDD[String] = lines.flatMap(line => line.split(" "))

    val wordToOne: RDD[(String, Int)] = words.map(word => (word, 1))

    // Spark框架提供了更多的功能，可以将分组和聚合使用一个方法实现

    // 相同的key会对value做reduce

    val tuple: RDD[(String, Int)] = wordToOne.reduceByKey((t1, t2) => t1 + t2)

    tuple.foreach(println)

    // 3. 关闭连接

    ctx.stop()

  }

}

FAQ:

Q: 初步运行spark错误

A: JDK版本问题, 切换jdk到1.8就可以了

spark (二) spark wordCount示例的更多相关文章

hadoop学习第三天-MapReduce介绍&&WordCount示例&&倒排索引示例
一.MapReduce介绍 (最好以下面的两个示例来理解原理) 1. MapReduce的基本思想 Map-reduce的思想就是“分而治之” Map Mapper负责“分”,即把复杂的任务分解为若干 ...
Spark练习之wordcount，基于排序机制的wordcount
Spark练习之wordcount 一.原理及其剖析二.pom.xml 三.使用Java进行spark的wordcount练习四.使用scala进行spark的wordcount练习五.基于排序 ...
Spark metrics on wordcount example
I read the section Metrics on spark website. I wish to try it on the wordcount example, I can't make ...
openfire spark 二次开发服务插件
==================== 废话 begin ============================ 最近老大让我为研发平台增加即时通讯功能.告诉我用comet 在web端实现即 ...
PC结束 Spark 二次开发收到自己主动，并允许好友请求
本次Spark二次开发是为了客服模块的开发, 能让用户一旦点击该客服则直接自己主动加入好友.而客服放则需自己主动加入好友,不同弹出对话框进行允许,这方便的广大客服. 如今废话不多说,直接上代码. pa ...
Spark:使用Spark Shell的两个示例
Spark:使用Spark Shell的两个示例 Python 行数统计 ** 注意: **使用的是Hadoop的HDFS作为持久层,需要先配置Hadoop 命令行代码 # pyspark >& ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决
运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决在Idea中,直接运行ComprehensiveExample.scala,报需要指定master ...
Spark安装和简单示例
spark的安装先到官网下载安装包注意第二项要选择和自己hadoop版本相匹配的spark版本,然后在第4项点击下载.若无图形界面,可用windows系统下载完成后传送到centos中. 本例中安 ...
配置spark历史服务(spark二)
1. 编辑spark-defaults.conf位置文件添加spark.eventLog.enabled和spark.eventLog.dir的配置修改spark.eventLog.dir为我们之前 ...

随机推荐

KubeSphere 社区双周报 | OpenFunction 集成 WasmEdge | 2023.02.03-02.16
KubeSphere 社区双周报主要整理展示新增的贡献者名单和证书.新增的讲师证书以及两周内提交过 commit 的贡献者,并对近期重要的 PR 进行解析,同时还包含了线上/线下活动和布道推广等一系列 ...
python多线程应用-批量下载视频课程（宠医堂）
#!/usr/bin/env python # -*- coding: UTF-8 -*- ''' @Name: cyt_record_download @IDE:PyCharm @Author:qt ...
Redhat7重置root管理员密码
如果要重置Red Hat Enterprise Linux Server release 7.0 的root常见有2种办法(均测试有效) rd.break方法 1.重启Linux系统主机并出现引导界面 ...
狂神说-Docker基础-学习笔记-03 日志、元数据、进程的查看
狂神说-Docker基础-学习笔记-03 日志.元数据.进程的查看视频链接:https://www.bilibili.com/video/BV1og4y1q7M4?p=1 1.docker logs ...
Httprunner生成Allure格式HTML报告
一.httprunner v2.x版本的报告最近组内其他同学使用httprunner做接口自动化,之前没有接触过httprunner,发现httprunner相比pytest和unittest有自己 ...
php在大并发下redis锁实现
在现如今电商盛行的时期,会出现很多促销活动,最为常见的就是秒杀.在秒杀系统中最为常见的问题就是会出现超卖的情况,那么如何来杜绝超卖的情形了,在业务逻辑层面可以使用缓存以及加锁的手法来避免超卖的情形. ...
多校A层冲刺NOIP2024模拟赛20
多校A层冲刺NOIP2024模拟赛20 昨天晚上打 ABC 了,所以今天才发. T1 星际联邦直接上菠萝(Borůvka)算法就行了,当然还可以用线段树优化 prim算法,但是没打过只是口胡:就是 ...
6. jenkins触发器
常用的触发器 Jenkins内置4种构建触发器触发远程构建其他工程构建后触发(Build after other projects are build) 定时构建(Build periodical ...
（系列十一）Vue3框架中路由守卫及请求拦截（实现前后端交互）
说明该文章是属于OverallAuth2.0系列文章,每周更新一篇该系列文章(从0到1完成系统开发). 该系统文章,我会尽量说的非常详细,做到不管新手.老手都能看懂. 说明:OverallAuth2 ...
低功耗4G模组：RSA算法示例
今天我们学习合宙低功耗4G模组Air780EP_LuatOS_rsa示例,文末[阅读原文]获取最新资料. 一.简介 RSA算法的安全性基于:将两个大质数相乘很容易,但是想要将其乘积分解成原始的质数 ...

spark (二) spark wordCount示例

实现思路

实现1: scala 基本集合操作方式获取结果

实现2: scala map reduce方式获取结果

实现3: spark 提供的map reduce方式获取结果

FAQ:

spark (二) spark wordCount示例的更多相关文章

随机推荐

热门专题