Spark scala和java的api使用

1、利用scala语言开发spark的worcount程序（本地运行）

package com.zy.spark

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

//todo:利用scala语言来实现spark的wordcount程序

object WordCount {

  def main(args: Array[String]): Unit = {

    //1、创建SparkConf对象,设置appName和master  local[2]表示本地采用2个线程去运行任务

    val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[2]")

    //2、创建SparkContext 该对象是所有spark程序的执行入口，它会创建DAGScheduler和TaskScheduler

    val sc = new SparkContext(sparkConf)

    //设置日志输出级别

    sc.setLogLevel("warn")

    //3、读取数据文件

    val data: RDD[String] = sc.textFile("D:\\words.txt")

    //4、切分每一行获取所有单词

    val words: RDD[String] = data.flatMap(_.split(" "))

    //5、每个单词计为1

    val wordAndOne: RDD[(String, Int)] = words.map((_, 1))

    //6、相同单词出现的所有的1累加

    val result: RDD[(String, Int)] = wordAndOne.reduceByKey(_ + _)

    //按照单词出现的次数降序排列

    val sortRDD: RDD[(String, Int)] = result.sortBy(x => x._2, false)

    //7、收集数据，打印输出

    val finalResult: Array[(String, Int)] = sortRDD.collect()

    finalResult.foreach(println)

    //8、关闭sc

    sc.stop()

  }

}

2、利用scala语言开发spark的wordcount程序（集群运行）

package com.zy.spark

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

//todo:利用scala语言开发spark的wordcount程序（集群运行）

object WordCount_Online {

  def main(args: Array[String]): Unit = {

    //1、创建SparkConf对象,设置appName

    val sparkConf: SparkConf = new SparkConf().setAppName("WordCount_Online")

    //2、创建SparkContext 该对象是所有spark程序的执行入口，它会创建DAGScheduler和TaskScheduler

    val sc = new SparkContext(sparkConf)

    //设置日志输出级别

    sc.setLogLevel("warn")

    //3、读取数据文件 args(0)为文件地址参数

    val data: RDD[String] = sc.textFile(args(0))

    //4、切分每一行获取所有单词

    val words: RDD[String] = data.flatMap(_.split(" "))

    //5、每个单词计为1

    val wordAndOne: RDD[(String, Int)] = words.map((_, 1))

    //6、相同单词出现的所有的1累加

    val result: RDD[(String, Int)] = wordAndOne.reduceByKey(_ + _)

    //7、把结果数据保存到hdfs上  args(1)是保存到hdfs的目录参数

    result.saveAsTextFile(args(1))

    //8、关闭sc

    sc.stop()

  }

}

最后打成jar包到集群上执行

spark-submit --master spark://node1:7077 --class cn.itcast.spark.WordCount_Online --executor-memory 1g --total-executor-cores 2 original-spark_xxx-1.0-SNAPSHOT.jar /words.txt /out

3、利用java语言开发spark的wordcount程序（本地运行）

package com.zy.spark;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

import java.util.Arrays;

import java.util.Iterator;

import java.util.List;

//todo:利用java语言开发spark的wordcount程序（本地运行）

public class WordCount_Java {

    public static void main(String[] args) {

        //1、创建SparkConf对象

        SparkConf sparkConf = new SparkConf().setAppName("WordCount_Java").setMaster("local[2]");

        //2、创建JavaSparkContext对象

        JavaSparkContext jsc = new JavaSparkContext(sparkConf);

        //3、读取数据文件

        JavaRDD<String> data = jsc.textFile("D:\\words.txt");

        //4、切分每一行获取所有的单词

        JavaRDD<String> words = data.flatMap(new FlatMapFunction<String, String>() {

            public Iterator<String> call(String line) throws Exception {

                String[] words = line.split(" ");

                return Arrays.asList(words).iterator();

            }

        });

        //5、每个单词计为1

        JavaPairRDD<String, Integer> wordAndOne = words.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String word) throws Exception {

                return new Tuple2<String, Integer>(word, 1);

            }

        });

        //6、相同单词出现1累加

        JavaPairRDD<String, Integer> result = wordAndOne.reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        //按照单词出现的次数降序排列 (单词，次数)------>(次数，单词).sortByKey------->(单词，次数)

        JavaPairRDD<Integer, String> reverseRDD = result.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {

            public Tuple2<Integer, String> call(Tuple2<String, Integer> t) throws Exception {

                return new Tuple2<Integer, String>(t._2, t._1);

            }

        });

        JavaPairRDD<String, Integer> sortedRDD = reverseRDD.sortByKey(false).mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {

            public Tuple2<String, Integer> call(Tuple2<Integer, String> t) throws Exception {

                return new Tuple2<String, Integer>(t._2, t._1);

            }

        });

        //7、收集数据打印输出

        List<Tuple2<String, Integer>> finalResult = sortedRDD.collect();

        for (Tuple2<String, Integer> tuple : finalResult) {

            System.out.println("单词：" + tuple._1 + " 次数：" + tuple._2);

        }

        //8、关闭jsc

        jsc.stop();

    }

}

Spark scala和java的api使用的更多相关文章

Spark：用Scala和Java实现WordCount
http://www.cnblogs.com/byrhuangqiang/p/4017725.html 为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境.IDEA确实很优秀,学会 ...
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
Apache Spark 2.0三种API的传说：RDD、DataFrame和Dataset
Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单.易用的APIs,支持跨多种语言(比如:Scala.Java.Python和R)来操作大数据. 本文主要 ...
Scala IDEA for Eclipse里用maven来创建scala和java项目代码环境（图文详解）
这篇博客是在Scala IDEA for Eclipse里手动创建scala代码编写环境. Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群模式) ...
用maven来创建scala和java项目代码环境（图文详解）（Intellij IDEA（Ultimate版本）、Intellij IDEA（Community版本）和Scala IDEA for Eclipse皆适用）（博主推荐）
不多说,直接上干货! 为什么要写这篇博客? 首先,对于spark项目,强烈建议搭建,用Intellij IDEA(Ultimate版本),如果你还有另所爱好尝试Scala IDEA for Eclip ...
三、使用maven创建scala工程（scala和java混一起）
本文先叙述如何配置eclipse中maven+scala的开发环境,之后,叙述如何实现spark的本地运行.最后,成功运行scala编写的spark程序. 刚开始我的eclipse+maven环境是配 ...
Scala For Java的一些参考
变量 String yourPast = "Good Java Programmer"; val yourPast : String = "Good Java ...

随机推荐

自定义vue全局组件use使用(解释vue.use()的原理)
我们在前面学习到是用别人的组件:Vue.use(VueRouter).Vue.use(Mint)等等.其实使用的这些都是全剧组件,这里我们就来讲解一下怎么样定义一个全局组件,并解释vue.use()的 ...
c++深拷贝/浅拷贝
拷贝构造函数,是一种特殊的构造函数,它由编译器调用来完成一些基于同一类的其他对象的构建及初始化.其唯一的参数(对象的引用)是不可变的(const类型).此函数经常用在函数调用时用户定义类型的值传递及返 ...
[LeetCode系列]翻转链表问题II
给定一个链表和两个整数m, n, 翻转链表第m个节点到第n个节点(从1开始计数). 如, 给定链表: 1->2->3->4->5->NULL, 以及 m = 2, n = ...
【转】VC 模式对话框和非模式对话框的创建，销毁和区别
原文网址:http://blog.csdn.net/mycaibo/article/details/6002151 VC 模式对话框和非模式对话框的创建,销毁和区别在WIN32中,模式对话框的创 ...
ubuntu12.04LTS安装以及卸载 QT4.8.6和QT creator2.5.2
鉴于,下载QT5.5安装,编译总是有问题,可能是配置不正确. 于是按照论坛的一些资料,就换回QT4版本,具体实施步骤如下: 在qt官网http://download.qt.io/archive/ 下的 ...
ABP学习之路
ABP文档介绍 http://www.cnblogs.com/kid1412/p/AbpDocumentContent.html [ABP开源项目]--vue+vuex+vue-router+EF的权 ...
jdk1.8新特性之函数式接口
函数式接口就是只有一个抽象方法的接口.如果这个接口里没有或者包含了两个以上的抽象方法,对不起,你不叫函数式接口,只能叫你接口.那这个函数式有啥用呢?如果配合Lambda表达式的话,可以大大的简化代码. ...
面试常考知识点——Java（JVM，JDK，JRE）
1. 什么是Java虚拟机?为什么Java被称作是“平台无关的编程语言”? 答:(1)Java虚拟机是一个可以执行Java字节码的虚拟机进程.Java源文件被编译成能被Java虚拟机执行的字节码文件. ...
在Mac和win7上分别安装了docker后，发现原来的vagrant都启动不了了
在Mac和win7上分别安装了docker后,发现原来的vagrant都启动不了了 liugx@liugx vagrant$ vagrant up /opt/vagrant/embedded/gems ...
免费数据集下载网站【dataset】
https://github.com/awesomedata/awesome-public-datasets

Spark scala和java的api使用

Spark scala和java的api使用的更多相关文章

随机推荐

热门专题