spark的wordcount

在开发环境下实现第一个程序wordcount

1、下载和配置scala，注意不要下载2.13，在spark-core明确支持scala2.13前，使用2.12或者2.11比较好。

https://www.scala-lang.org/download/

2、windows环境下的scala配置，可选

3、开发工具IDEA环境设置，全局环境添加scala的sdk，注意scala的源码要手动下载和添加

4、在IDEA中新建MAVEN项目，添加scala框架支持

5、在MAVEN工程添加spark-core依赖，注意根据自己需要选择对应的版本，版本不对很可能会出现运行期异常。

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.12</artifactId>

            <version>2.4.4</version>

        </dependency>

    </dependencies>

6、wordcount代码

在项目根目录（与src平级）中新建一个input目录，里面放入需要统计词频的文本文件

package com.home.spark

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    //获取环境

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkWordCount")

    //获取上下文

    val sc: SparkContext = new SparkContext(conf)

    //读取每一行

    val lines: RDD[String] = sc.textFile("input")

    //扁平化，将每行数据拆分成单个词（自定义业务逻辑）

    val words: RDD[String] = lines.flatMap(_.split(" "))

    //结构转换，对每个词获得初始词频

    val wordToOne: RDD[(String, Int)] = words.map((_,1))

    //词频计数

    val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_+_)

    //按词频数量降序排序

    val wordToSorted: RDD[(String, Int)] = wordToSum.sortBy(_._2,false)

    //数据输出

    val result: Array[(String, Int)] = wordToSorted.collect()

    //打印

    result.foreach(println)

    //关闭上下文

    sc.stop()

  }

}

spark的wordcount的更多相关文章

[转] 用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需 ...
Spark 实现wordcount
配置完spark之后,使用spark实现wordcount,这一部分完全参考<深入理解Spark:核心思想与源码分析> 依然使用hadoop wordcountTest的那几个txt文件 ...
用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要 ...
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ...
spark 例子wordcount topk
spark 例子wordcount topk 例子描述: [单词计算wordcount ] [词频排序topk] 单词计算在代码方便很简单,基本大体就三个步骤拆分字符串以需要进行记数的单位为K,自 ...
1.spark的wordcount解析
一.Eclipse(scala IDE)开发local和cluster (一). 配置开发环境要在本地安装好java和scala. 由于spark1.6需要scala 2.10.X版本的.推荐 2 ...
.Net for Spark 实现 WordCount 应用及调试入坑详解
.Net for Spark 实现WordCount应用及调试入坑详解 1. 概述 iNeuOS云端操作系统现在具备物联网.视图业务建模.机器学习的功能,但是缺少一个计算平台产品.最近在调研使用 ...
Spark版wordcount，并根据词频进行排序
import org.apache.spark.{SparkConf, SparkContext}/** * Created by loushsh on 2017/10/9. */object Wor ...
Spark开发wordcount程序
1.java版本(spark-2.1.0) package chavin.king; import org.apache.spark.api.java.JavaSparkContext; import ...
在IDEA中编写Spark的WordCount程序
1:spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包 ...

随机推荐

使用dom4j类操作xml文档
dom4j操作xml数据 1.Document对象相关 ①读取XML文件,获得document对象. SAXReader reader = new SAXReader(); Document docu ...
HTML实例之搜索栏（附源码）
1. 简书类实现效果 html代码 <div class="container"> <form action="" class=" ...
BPC成员公式
BPC可以通过成员公式,定义维度成员之间相关的计算公式,前端自动得到相应计算结果. 新建成员公式,选择对应的维度成员. 编辑维度成员的计算公式.保存后激活维度即可.
SQLi-LABS Page-1(Basic Challenges) Less5-Less10
Less5 GET - Double Injection - Single Quotes http://10.10.202.112/sqli/Less-5?id=1 http://10.10.202. ...
Fundebug网站升级HTTP/2，真的变快了！
作为新一代的HTTP协议,HTTP/2可以提高网站性能,优化用户体验,Fundebug也是时候升级HTTP/2了,虽然已经有点晚了. 升级HTTP/2是一件很简单的事情,改1行Nginx配置就好了,但 ...
微信小程序官方文档中表单组建button部分有关function(type)中type的个人理解
官方文档关于button组件的简介 xml页面挺容易理解,但js部分起初对整体写的形式都不太理解,随着逐渐阅读代码基本理解了 xml页面代码: <button type="defaul ...
elasticsearch安装与使用
一.windows10上安装elasticsearch Elasticsearch 需要 Java环境,在安装Elasticsearch之前先安装好JDK. 本文安装jdk1.8,es6.3.2为例. ...
Unity如何更改精灵中心点
Unity虽然可以改中心点但是仅支持几个特定位置. 如果是一个你是切割的精灵,则可以进入精灵编辑器中调整打开精灵编辑器后按调整如下图所示的pivot选项,我在这里把精灵调整成了右上. 在精灵编辑 ...
关于华为模拟器（eNSP）添加路由器启动后一直打印#号的原因
操作系统为win10 专业版 1903:1.首先打开控制面板,找到windows defender防火墙,在“允许应用通过防火墙”中把和espn相关的两个的专网和公网都勾选上,最后确定:然后重启华为模 ...
Acwing43 不分行从上往下打印二叉树
地址 https://www.acwing.com/problem/content/description/41/ 从上往下打印出二叉树的每个结点,同一层的结点按照从左到右的顺序打印. 样例输入如下 ...

spark的wordcount

spark的wordcount的更多相关文章

随机推荐

热门专题