spark scala 例子

object ScalaApp {

  def main(args: Array[String]): Unit = {

    var conf = new SparkConf()

    conf.setMaster("local")

    var sc = new SparkContext(conf)

    val lines: RDD[String] = sc.textFile("./words.txt")

    lines.flatMap(line=>line.split(" ")).map(word=>(word,)).reduceByKey((v1,v2)=>v1+v2).foreach(println)

    // 简洁版

    // lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).foreach(println)

  }

}

分别取出下面三个班级Top3的分数

class1 90
class2 91
class1 88
class2 99
class1 100
class2 77
class1 77
class2 57
class3 77
class3 88
class3 99
class3 100
class3 22
class3 77

    lines.map(line=>(line.split(" ")(),line.split(" ")().toDouble)).groupByKey()

      .map(group=>{

        (group._1,group._2.toList.sortWith(_>_).take())

      })

      .foreach(println)

结果：

(class3,List(100.0, 99.0, 88.0))
(class1,List(100.0, 90.0, 88.0))
(class2,List(99.0, 91.0, 77.0))

spark scala 例子的更多相关文章

spark JavaDirectKafkaWordCount 例子分析
spark JavaDirectKafkaWordCount 例子分析: 1. KafkaUtils.createDirectStream( jssc, String.class, String.c ...
Spark Scala当中reduce的用法和例子
[学习笔记] reduce将RDD中元素前两个传给输入函数,产生一个新的return值,将新产生的return值与RDD中下一个元素(即第三个元素)组成两个元素,再被传给输入函数,这样递归运作,直到最 ...
intellij 调试spark scala 程序报错
spark用的是cdh spark-2.0.1 package main.scala import org.apache.spark.rdd.RDD import org.apache.spark.{ ...
dataframe 数据统计可视化---spark scala 应用
统计效果: 代码部分: import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{Logging, SparkConf ...
第一个spark+scala程序
import org.apache.spark._import SparkContext._import java.util.{Calendar,Properties,Date,Locale}impo ...
Spark:scala集合转化为DS/DF
scala集合转化为DS/DF case class TestPerson(name: String, age: Long, salary: Double) val tom = TestPerson( ...
Spark SQL例子
综合案例分析现有数据集 department.json与employee.json,以部门名称和员工性别为粒度,试计算每个部门分性别平均年龄与平均薪资. department.json如下: {&q ...
Spark Streaming 例子
NetworkWordCount.scala /* * Licensed to the Apache Software Foundation (ASF) under one or more * con ...
Spark scala和java的api使用
1.利用scala语言开发spark的worcount程序(本地运行) package com.zy.spark import org.apache.spark.rdd.RDD import org. ...

随机推荐

使用python-fabric进行远程环境部署
使用fabric可以通过ssh连接远程终端,对终端进行操作,可以进行远程环境的部署,前提是远程终端已安装openssh-server,且ssh-server开启安装fabric fabric支持py ...
loj #6046. 「雅礼集训 2017 Day8」爷
#6046. 「雅礼集训 2017 Day8」爷题目描述如果你对山口丁和 G&P 没有兴趣,可以无视题目背景,因为你估计看不懂 …… 在第 63 回战车道全国高中生大赛中,军神西住美穗带领 ...
洛谷P4016 负载平衡问题（费用流）
传送门嗯……完全不会……不过题解似乎讲的挺清楚…… 考虑一下,每一个仓库最终肯定都是平均数,所以数量大于平均数的可以往外运,小于平均数的要从别的地方运进来考虑建一个超级源$S$和超级汇$T$,并把 ...
获取表单提交的数据getParameter()方法
请求对象:request public String getParameter(String name); 通过request的getParameter(String name)方法获取表单里面的n ...
关于pip无法安装scrapy的问题
安装scrapy时如果出现下列问题: building ' twisted. test. raiser' extension error: Microsoft Visual C++ 14.0 is r ...
jq学习笔记（二）
jq笔记-dom篇-慕课网学习笔记 1.jQuery节点创建与属性的处理创建元素节点: 1.$("<div></div>") 创建为本节点: 1.$(&q ...
推荐分享一个牛X的自定义PHP加密解密类
通俗点说,用它来进行加密,同一个字符串,每次进行加密,得出的结果都是不一样的,大大加强了数据安全性.同时还可设定加密后数据的有效期,简直牛掰了 #食用方法将下面的第二份模块代码保存为 Mcrypt. ...
Android中include标签的使用（打开引用布局，隐藏当前布局）
在开发app的时候,有时候一个布局会反复用到,可以把反复用到的布局单独写一个xml文件,什么时候用到就用includ标签引入xml 下面是我写的反复用到的一个xml,里面有2个button,一个Tex ...
svn学习笔记（一）
一.svn介绍 1.1 项目管理中的版本控制问题通常软件开发由多人协作开发,如果对代码文件.配置文件.文档等没有进行版本控制,将会出现很多问题: 备份多个版本,占用磁盘空间大解决代码冲突困难容易 ...
LeetCode162.寻找峰值
162.寻找峰值描述峰值元素是指其值大于左右相邻值的元素. 给定一个输入数组 nums,其中 nums[i] ≠ nums[i+1],找到峰值元素并返回其索引. 数组可能包含多个峰值,在这种情况下 ...

spark scala 例子

spark scala 例子的更多相关文章

随机推荐

热门专题