多种语言开发Spark-以WordCount为例

Spark是目前最火爆的大数据计算框架，有赶超Hadoop MapReduce的趋势。因此，趁着现在还有大多数人不懂得Spark开发的，赶紧好好学习吧，为了使不同的开发人员能够很好的利用Spark，Spark官方提供了不同开发语言的API，本文以大数据经典入门案例WordCount为例，开发多个版本的Spark应用程序，以满足不同的开发人员需求。

一、Scala：

    val conf: SparkConf = new SparkConf().setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    sc.textFile("test")

      .flatMap(line => {

        line.split("\t")

      })

      .mapPartitions(iter => {

        val list: List[(String, Int)] = List[(String, Int)]()

        iter.foreach(word => {

          list.::((word,1))

        })

        list.iterator

      })

      .reduceByKey(_ + _)

      .saveAsTextFile("result")

二、JDK1.7及以下版本：

SparkConf conf = new SparkConf().setAppName("JavaSparkTest").setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);

sc.textFile("test")

        .flatMap(new FlatMapFunction<String, String>() {

            @Override

            public Iterable<String> call(String t) throws Exception {

                return Arrays.asList(t.split("\t"));

            }

        }).mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String t) throws Exception {

                return new Tuple2<String, Integer>(t, 1);

            }

        }).reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1+v2;

            }

        }).saveAsTextFile("result");

三、JDK1.8：

　　由于JDK1.8加入了新特性——函数式编程，因此，可以利用JDK1.8的新特性简化Java开发Spark的语句。

SparkConf conf = new SparkConf().setAppName("JavaSparkTest").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

sc.textFile("test")

        .flatMap(line -> {

            return Arrays.asList(line.split("\t"));

        }).mapToPair(word -> {

            return new Tuple2<String, Integer>(word, 1);

        }).reduceByKey((x, y) -> {

            return x + y;

        }).saveAsTextFile("result");

　　是不是觉得比上述的Scala还简洁呢？其实是这样的，Scala中使用了mapPartitions是对map函数的优化，即对每一个RDD的分区进行map操作，这样就减少了对象的创建，从而加速了计算。而Java中，通过我的测试，不能使用mapPartitions方法进行上述优化，只能使用map方法（不知道为啥），这样也可以使用，但是在大数据集面前，其性能就逊色于mapPartitions了。

四、Python：

from pyspark import SparkContext

from pyspark import SparkConf as conf

conf.setAppName("WordCount").setMaster("local")

sc = SparkContext(conf)

text_file = sc.textFile("test")\

    .flatMap(lambda line: line.split("\t"))\

    .map(lambda word: (word, 1))\

    .reduceByKey(lambda x, y: x + y)\

    .saveAsTextFile("test")

多种语言开发Spark-以WordCount为例的更多相关文章

利用Scala语言开发Spark应用程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Ja ...
【Spark】使用java语言开发spark程序
目录步骤一.创建maven工程,导入jar包二.开发代码步骤一.创建maven工程,导入jar包 <properties> <scala.version>2.11.8 ...
使用java开发spark的wordcount程序（多种实现）
package spark; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; impo ...
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ...
「C语言」在Windows平台搭建C语言开发环境的多种方式
新接触C语言,如何在Windows下进行C语言开发环境的搭建值得思考并整理. 以下多种开发方式择一即可(DEV C++无须环境准备). 注:本文知识来源于 Windows 平台搭建C语言集成开发环境 ...
提交任务到spark（以wordcount为例）
1.首先需要搭建好hadoop+spark环境,并保证服务正常.本文以wordcount为例. 2.创建源文件,即输入源.hello.txt文件,内容如下: tom jerry henry jim s ...
强者联盟——Python语言结合Spark框架
引言:Spark由AMPLab实验室开发,其本质是基于内存的高速迭代框架,"迭代"是机器学习最大的特点,因此很适合做机器学习. 得益于在数据科学中强大的表现,Python语言的粉丝 ...
1.spark的wordcount解析
一.Eclipse(scala IDE)开发local和cluster (一). 配置开发环境要在本地安装好java和scala. 由于spark1.6需要scala 2.10.X版本的.推荐 2 ...
使用scala开发spark入门总结
使用scala开发spark入门总结一.spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...

随机推荐

IE6浏览器常见的bug及其修复方法
IE6不支持min-height,解决办法使用css hack: .target { min-height: 100px; height: auto !important; height: 100px ...
深圳尚学堂：Web程序员应该会的知识
互联网的行业里涌入了很多的程序员, 都在为互联网的发展添砖加瓦.程序员可以分为很多种,像Unix程序员.Windows程序员,或是C++程序员.Delphi程序员,等等.今天我们谈谈Web程序员,一名 ...
蓝桥网试题 java 基础练习数列特征
----------------------------------- Collections.sort(list);是个好东西但是要学会排列然后你才能浪 -------------------- ...
Java虚拟机(JVM)默认字符集详解
Java中对字符串等进行转换字节数组时, 需要根据字符集编码来进行转换, 当不显示的指定字符集编码时(如: "测试".getBytes()), 会使用Charset.default ...
ThreadLocal模式的原理
在JDK的早期版本中,提供了一种解决多线程并发问题的方案:java.lang.ThreadLocal类.ThreadLocal类在维护变量时,实际使用了当前线程(Thread)中的一个叫做Thread ...
UI进阶即时通讯之XMPP好友列表、添加好友、获取会话内容、简单聊天
这篇博客的代码是直接在上篇博客的基础上增加的,先给出部分代码,最后会给出能实现简单功能的完整代码. UI进阶即时通讯之XMPP登录.注册 1.好友列表初始化好友花名册 #pragma mark - ...
UITableView、UICollectionView行高/尺寸自适应
UITableView 我们都知道UITableView从iOS 8开始实现行高的自适应相对比较简单,首先必须设置estimatedRowHeight给出预估高度,设置rowHeight为UITabl ...
matlab 子函数的使用
本文参考了该篇博客:http://www.cnblogs.com/MarshallL/p/4048846.html 对其进行学习,为我所用吧. 一. 在matlab的函数定义中,如果函数如果函数较长或 ...
android开发过程中踩过的坑
1) 4.X下 viewgroup 不一定会向下传递requestLayout,当onlayout的速度比较慢(比如子View比较复杂之类的原因),系统会跳帧!此时子View下层的view可能就不会再 ...
img图片标签alt和title属性的区别
alt 用于图片没显示图片显示区域显示说明文字title 表示鼠标图片停留显示悬浮框其显示文字

多种语言开发Spark-以WordCount为例

多种语言开发Spark-以WordCount为例的更多相关文章

随机推荐

热门专题