Scala，Java，Python 3种语言编写Spark WordCount示例

首先，我先定义一个文件，hello.txt，里面的内容如下：

hello spark
hello hadoop
hello flink
hello storm

Scala方式

scala版本是2.11.8。

配置maven文件，三个依赖：

<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-client</artifactId>
  <version>2.6.0-cdh5.7.0</version>
</dependency>

<dependency>
  <groupId>org.scala-lang</groupId>
  <artifactId>scala-library</artifactId>
  <version>2.11.8</version>
</dependency>

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.2.0</version>
</dependency>

package com.darrenchan.spark

import org.apache.spark.{SparkConf, SparkContext}

object SparkCoreApp2 {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("WordCountApp")

    val sc = new SparkContext(sparkConf)

    //业务逻辑

    val counts = sc.textFile("D:\\hello.txt").

      flatMap(_.split(" ")).

      map((_, 1)).

      reduceByKey(_+_)

    println(counts.collect().mkString("\n"))

    sc.stop()

  }

}

运行结果：

Java方式

Java8，用lamda表达式。

package com.darrenchan.spark.javaapi;

import org.apache.spark.SparkConf;

import org.apache.spark.SparkContext;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.SparkSession;

import scala.Tuple2;

import java.util.Arrays;

public class WordCountApp2 {

    public static void main(String[] args) {

        SparkConf sparkConf = new SparkConf().setMaster("local[2]").setAppName("WordCountApp");

        JavaSparkContext sc = new JavaSparkContext(sparkConf);

        //业务逻辑

        JavaPairRDD<String, Integer> counts =

                sc.textFile("D:\\hello.txt").

                        flatMap(line -> Arrays.asList(line.split(" ")).iterator()).

                        mapToPair(word -> new Tuple2<>(word, 1)).

                        reduceByKey((a, b) -> a + b);

        System.out.println(counts.collect());

        sc.stop();

    }

}

运行结果：

Python方式

Python 3.6.5。

from pyspark import SparkConf, SparkContext

def main():

    # 创建SparkConf，设置Spark相关的参数信息

    conf = SparkConf().setMaster("local[2]").setAppName("spark_app")

    # 创建SparkContext

    sc = SparkContext(conf=conf)

    # 业务逻辑开发

    counts = sc.textFile("D:\\hello.txt").\

        flatMap(lambda line: line.split(" ")).\

        map(lambda word: (word, 1)).\

        reduceByKey(lambda a, b: a + b)

    print(counts.collect())

    sc.stop()

if __name__ == '__main__':

    main()

运行结果：

使用Python在Windows下运行Spark有很多坑，详见如下链接：

http://note.youdao.com/noteshare?id=aad06f5810f9463a94a2d42144279ea4

Scala，Java，Python 3种语言编写Spark WordCount示例的更多相关文章

插入算法分别从C，java,python三种语言进行书写
真正学懂计算机的人(不只是“编程匠”)都对数学有相当的造诣,既能用科学家的严谨思维来求证,也能用工程师的务实手段来解决问题——而这种思维和手段的最佳演绎就是“算法”. 作为一个初级编程人员或者说是一个 ...
梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...
近50种语言编写的“Hello, World”，你会几种？可不要贪杯哦~
本文转自公众号CSDN(ID:CSDNnews)作者:Sylvain Saurel,译者:风车云马
三种文本特征提取（TF-IDF/Word2Vec/CountVectorizer）及Spark MLlib调用实例（Scala/Java/python）
https://blog.csdn.net/liulingyuan6/article/details/53390949
spark Using MLLib in Scala/Java/Python
Using MLLib in ScalaFollowing code snippets can be executed in spark-shell. Binary ClassificationThe ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
Spark机器学习1·编程入门(scala/java/python)
Spark安装目录 /Users/erichan/Garden/spark-1.4.0-bin-hadoop2.6 基本测试 ./bin/run-example org.apache.spark.ex ...
idea配置scala编写spark wordcount程序
1.创建scala maven项目选择骨架的时候为org.scala-tools.archetypes:scala-aechetype-simple 1.2 2.导入包,进入spark官网Docum ...
Java用n种方法编写实现双色球随机摇号案例
方法清单规则实现方式一实现方式二实现方式三实现方式四实现方法五之前我用JavaScript编写过一个实现双色球随机摇号的案例, 点击此处查看,今天我再用Java语言来实现这一效果. 规则 ...

随机推荐

Java之Map接口（双列集合）
Map集合概述现实生活中,我们常会看到这样的一种集合:IP地址与主机名,身份证号与个人,系统用户名与系统用户对象等,这种一一对应的关系,就叫做映射.Java提供了专门的集合类用来存放这种对象关系的对 ...
yii2自定义操作按钮
[ 'class' => 'yii\grid\ActionColumn', 'header' => 'Html::a('操作')',//表单头 'template' => '{vie ...
jQuery-文件上传问题解决
后端要求文件上传需传参数为二进制流,用form-data方式传递,如下图所示: 为了满足该输入参数要求,上传代码如下: <input type="file" id=" ...
IT兄弟连 HTML5教程 HTML5表单 HTML5新增表单元素
HTML5有一些新的表单元素:<datalist>.<keygen>.<output>.不是所有的浏览器都支持HTML5新的表单元素,但即使浏览器不支持该表单属性, ...
Python3 获取系统资源
cpu disk mem import osimport psutilos.chdir(os.getcwd()) #cpu def get_cpu_info(): cpu_percent=psutil ...
SpringCloud微服务(03)：Hystrix组件，实现服务熔断
本文源码:GitHub·点这里 || GitEE·点这里写在前面:阅读本文前,你可能需要熟悉一下内容. 微服务组件:Eureka管理注册中心微服务组件:Ribbon和Feign服务调用 Sprin ...
PAT 1013 Battle Over Cities DFS深搜
It is vitally important to have all the cities connected by highways in a war. If a city is occupied ...
微软、IBM、GitLab 等大厂全部到齐的 OCS 第一天有什么看点？
在本周一的推文中我们大致介绍了下 Open Core 峰会及到场嘉宾,(≧▽≦) 当然还有 Nebula Graph 在会场的展位位置图,本文我们来看看 Open Core 峰会第一天有哪些值得一看的 ...
C#中类的修饰符
Q&A 项目=程序集=assembly 1,Q:类的修饰符有哪些? A: 有 new.public.protect.internal.private.abstract.sealed.st ...
Java每日一面(Part1:计算机网络)[19/11/02]
作者:故事我忘了￠个人微信公众号:程序猿的月光宝盒 1.TCP的滑动窗口 1.1 RTT和RTO的区别 RTT:发送一个数据包到收到对应的ACK,所花费的时间 RTO:重传时间间隔,TCP在发 ...

Scala，Java，Python 3种语言编写Spark WordCount示例

Scala方式

Java方式

Python方式

Scala，Java，Python 3种语言编写Spark WordCount示例的更多相关文章

随机推荐

热门专题