spark-shell 交互式编程

题目：该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：

（1）该系总共有多少学生；

（2）该系共开设来多少门课程；

（3）Tom 同学的总成绩平均分是多少；

（4）求每名同学的选修的课程门数；

共265行

（5）该系 DataBase 课程共有多少人选修；

（6）各门课程的平均分是多少；

（7）使用累加器计算共有多少人选了 DataBase 这门课。

独立应用

实现数据去重，连接，排序

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其

中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。

输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

代码：

@Test

  def test(): Unit ={

    val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_union")

    val sc=new SparkContext(conf)

    val ra=sc.textFile("dataset/a.txt")

    val rb=sc.textFile("dataset/b.txt")

    val rc=ra.union(rb)

      .distinct()

      .map(item => (item.split(" ")(0),item.split(" ")(1)))

      .sortBy(item =>(item._1,item._2))

      .collect()

    val file = "dataset/c.txt"

    val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))

    for(x<- rc)

    {

      println(x)

      writer.write(x+"\n")

    }

    writer.close()

  }

实现求平均值

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生

名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到

一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

代码：

@Test

def test2(): Unit ={

  val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_avg")

  val sc=new SparkContext(conf)

  val ra=sc.textFile("dataset/Algorithm.txt")

  val rb=sc.textFile("dataset/Database.txt")

  val rc=sc.textFile("dataset/Python.txt")

  val out=ra.union(rb)

    .union(rc)

    .map(item => (item.split(" ")(0),item.split(" ")(1).toDouble))

    .mapValues(v => (v,1))

    .reduceByKey( (x,y) =>(x._1+y._1,x._2+y._2) )

    .mapValues(v => (v._1/v._2).formatted("%.2f") )

    .collect()

  val file = "dataset/out.txt"

  val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))

  for(x<- out)

  {

    println(x)

    writer.write(x+"\n")

  }

  writer.close()

}

Spark学习进度-实战测试的更多相关文章

Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...
Spark学习进度10-DS&DF基础操作
有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark"," ...
Spark学习进度11-Spark Streaming&Structured Streaming
Spark Streaming Spark Streaming 介绍批量计算流计算 Spark Streaming 入门 Netcat 的使用项目实例目标:使用 Spark Streaming ...
Spark学习进度-RDD
RDD RDD 是什么定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数 ...
Spark学习进度-Transformation算子
Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize( ...
Spark学习进度7-综合案例
综合案例文件排序解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit = ...
Spark大型项目实战：电商用户行为分析大数据平台
本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...
Spark学习入门(让人看了想吐的话题)
这是个老生常谈的话题,大家是不是看到这个文章标题就快吐了,本来想着手写一些有技术深度的东西,但是看到太多童鞋卡在入门的门槛上,所以还是打算总结一下入门经验.这种标题真的真的在哪里都可以看得到,度娘一搜 ...
NGUI 学习笔记实战之二——商城数据绑定（Ndata）
上次笔记实现了游戏商城的UI界面,没有实现动态数据绑定,所以是远远不够的.今天采用NData来做一个商城. 如果你之前没看过,可以参考上一篇博客 NGUI 学习笔记实战——制作商城UI界面 ht ...

随机推荐

MySQL和sparkSQL合并行
表A 表B 从表A到表B MySQL 写法:select name, group_concat(score seperate ';') as score from A group by name sp ...
Centos7网卡绑定的方法
温和的方式请参考:https://www.cnblogs.com/zzf0305/p/9594093.html 一:传统的bond方式(饭已验证)------------本种的绑定方式比较暴躁 (1) ...
php curl的使用心得
php的curl有很多参数,整理一下其中的常用参数的作用 1.CURLOPT_SSL_VERIFYHOST 设置为 1 是检查服务器SSL证书中是否存在一个公用名(common name).译者注:公 ...
（数据科学学习手札100）搞定matplotlib中的字体设置
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 matplotlib作为数据可视化的利器,被广泛 ...
封装事件订阅来进行非父子组件的传值(React)
const list={} // 将事件名和事件函数装进事件池里 function $on(name,func) { if(!name || !func) return; if(!Object.key ...
1、MyCat入门
1.Mycat简介 [1].Mycat是什么 Mycat 是数据库中间件 [2].why使用Mycat ①.Java与数据库紧耦合 ②.高访问量高并发对数据库的压力 ③.读写请求数据不一致 [3].数 ...
centos7 安装netstat命令工具
[root@node01 yum.repos.d]# yum install -y net-tools Loaded plugins: fastestmirror Loading mirror spe ...
monkey在指定的activity里面运行
下载包地址:链接: https://pan.baidu.com/s/1Wk2eOj3saZx71Mx6pT2L4Q 提取码: gupa 运行方式:步骤1: 将工具下载下来放到本地目录下,解压步骤2:配 ...
Hexo结合Stun静态博客搭建从入门到入土
摘要安装npm,安装hexo相关依赖,安装主题stun 修改hexo配置,修改stun配置,部署到github,gitee实现静态访问给博客加上全局搜索,访问量统计 hexo博客编写模板 tips ...
【java学习笔记2】访问控制修饰符 public、protected、默认、private
先写了一个User()类: package chapter01; public class User { // 私有的 private int id; // 受保护的 protected int ag ...

Spark学习进度-实战测试

spark-shell 交互式编程

独立应用

实现数据去重，连接，排序

实现求平均值

Spark学习进度-实战测试的更多相关文章

随机推荐

热门专题