spark-shell 交互式编程

题目：该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：

（1）该系总共有多少学生；

（2）该系共开设来多少门课程；

（3）Tom 同学的总成绩平均分是多少；

（4）求每名同学的选修的课程门数；

共265行

（5）该系 DataBase 课程共有多少人选修；

（6）各门课程的平均分是多少；

（7）使用累加器计算共有多少人选了 DataBase 这门课。

独立应用

实现数据去重，连接，排序

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其

中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。

输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

代码：

@Test

  def test(): Unit ={

    val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_union")

    val sc=new SparkContext(conf)

    val ra=sc.textFile("dataset/a.txt")

    val rb=sc.textFile("dataset/b.txt")

    val rc=ra.union(rb)

      .distinct()

      .map(item => (item.split(" ")(0),item.split(" ")(1)))

      .sortBy(item =>(item._1,item._2))

      .collect()

    val file = "dataset/c.txt"

    val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))

    for(x<- rc)

    {

      println(x)

      writer.write(x+"\n")

    }

    writer.close()

  }

实现求平均值

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生

名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到

一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

代码：

@Test

def test2(): Unit ={

  val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_avg")

  val sc=new SparkContext(conf)

  val ra=sc.textFile("dataset/Algorithm.txt")

  val rb=sc.textFile("dataset/Database.txt")

  val rc=sc.textFile("dataset/Python.txt")

  val out=ra.union(rb)

    .union(rc)

    .map(item => (item.split(" ")(0),item.split(" ")(1).toDouble))

    .mapValues(v => (v,1))

    .reduceByKey( (x,y) =>(x._1+y._1,x._2+y._2) )

    .mapValues(v => (v._1/v._2).formatted("%.2f") )

    .collect()

  val file = "dataset/out.txt"

  val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))

  for(x<- out)

  {

    println(x)

    writer.write(x+"\n")

  }

  writer.close()

}

Spark学习进度-实战测试的更多相关文章

Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...
Spark学习进度10-DS&DF基础操作
有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark"," ...
Spark学习进度11-Spark Streaming&Structured Streaming
Spark Streaming Spark Streaming 介绍批量计算流计算 Spark Streaming 入门 Netcat 的使用项目实例目标:使用 Spark Streaming ...
Spark学习进度-RDD
RDD RDD 是什么定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数 ...
Spark学习进度-Transformation算子
Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize( ...
Spark学习进度7-综合案例
综合案例文件排序解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit = ...
Spark大型项目实战：电商用户行为分析大数据平台
本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...
Spark学习入门(让人看了想吐的话题)
这是个老生常谈的话题,大家是不是看到这个文章标题就快吐了,本来想着手写一些有技术深度的东西,但是看到太多童鞋卡在入门的门槛上,所以还是打算总结一下入门经验.这种标题真的真的在哪里都可以看得到,度娘一搜 ...
NGUI 学习笔记实战之二——商城数据绑定（Ndata）
上次笔记实现了游戏商城的UI界面,没有实现动态数据绑定,所以是远远不够的.今天采用NData来做一个商城. 如果你之前没看过,可以参考上一篇博客 NGUI 学习笔记实战——制作商城UI界面 ht ...

随机推荐

flask对数据库的外键主键
近期一直在学flask框架,后悔当初没有好好学习数据库.一个外键的知识,真的是太....蓝瘦香菇创建数据库 class Users(db.Model): __tablename__ = 'users ...
【面试】java什么时候要用static
static关键字是在我们编写代码和阅读代码时碰到的常见的一个关键字,在学习java基础时就学过了,这也是各大公司的面试官喜欢在面试时问到的知识点之一.虽然大概知道是什么,但完整的表达出来还是有点难度 ...
Scrum 冲刺第四篇
Scrum 冲刺第四篇每日会议照片昨天已完成工作队员昨日完成任务黄梓浩初步完成app项目架构搭建黄清山完成部分个人界面模块数据库的接口邓富荣完成部分后台首页模块数据库的接口钟俊 ...
mvvm和mvc区别？
mvc和mvvm其实区别并不大.都是一种设计思想.主要就是mvc中Controller演变成mvvm中的viewModel. mvvm主要解决了mvc中大量的DOM 操作使页面渲染性能降低,加载速度变 ...
串口数据监视 Serial Port Monitor
串口数据监视工具 Serial Port Monitor可以在其它应用读写串口时监视串口数据, 很好用,但只有15天试用期.
Eureka部署在阿里云所带来的问题
没有那么多废话,直奔主题... 1.解决查看eureka界面时服务名显示而非ip+端口,以及解决显示ip而非阿里云公网ip问题(个人解决方式,如果和我这样配置还是不行,那就再百度或者谷歌下吧) eur ...
matplotlib的学习12-Subplot 多合一显示
import matplotlib.pyplot as plt # matplotlib 是可以组合许多的小图, 放在一张大图里面显示的. 使用到的方法叫作 subplot. plt.figure() ...
matplotlib的学习9-bar柱状图
import matplotlib.pyplot as plt import numpy as np ''' 向上向下分别生成12个数据,X为 0 到 11 的整数 ,Y是相应的均匀分布的随机数据. ...
RabbitMQ史上最全文章
老规矩,本篇文章不做 RabbitMQ 的编码讲解 ,只介绍文章学习的一些优秀文章重点在于不要循规蹈矩,教程这样走,你不一定要按他这样走,按自己的方式来,学习效率会更高,网上的教程有很多,今 ...
vue原理之-神奇的Object.defineProperty
vue2.0通过defineProperty进行数据双向绑定例如:(他接受三个参数,都是必填!) var a= {} Object.defineProperty(a,"b",{ ...

Spark学习进度-实战测试

spark-shell 交互式编程

独立应用

实现数据去重，连接，排序

实现求平均值

Spark学习进度-实战测试的更多相关文章

随机推荐

热门专题