spark-shell的Scala的一些方法详解

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

.......

根据给定的数据在spark-shell中通过编程来计算以下内容

（1）该系总共有多少学生；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val par = lines.map(row=>row.split(",")(0))

val distinct_par = par.distinct() //去重操作

distinct_par.count //取得总数

答案为：265 人

（2）该系共开设来多少门课程；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val par = lines.map(row=>row.split(",")(1))//根据，切分的每行数据的第二列进行map

val distinct_par = par.distinct()//去重

distinct_par.count//取总数

　　答案为 8 门

（3） Tom 同学的总成绩平均分是多少;

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.filter(row=>row.split(",")(0)=="Tom")

pare.foreach(println)

Tom,DataBase,26

Tom,Algorithm,12

Tom,OperatingSystem,16

Tom,Python,40

Tom,Software,60

pare.map(row=>(row.split(",")(0),row.split(",")(2).toInt))

.mapValues(x=>(x,1)).//mapValues是对值的操作,不操作key使数据变成(Tom,（26,1）)

reduceByKey((x,y) => (x._1+y._1,x._2 + y._2))//接着需要按key进行reduce，让key合并当将Tom进行reduce后 这里的(x,y) 表示的是(26,1)(12,1)

.mapValues(x => (x._1 / x._2))//接着要对value进行操作，用mapValues()就行啦

.collect()

//res9: Array[(String, Int)] = Array((Tom,30))

　　Tom 同学的平均分为 30 分

（4）求每名同学的选修的课程门数；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.map(row=>(row.split(",")(0),row.split(",")(1)))

pare.mapValues(x => (x,1))//数据变为(Tom,(DataBase,1)),(Tom,(Algorithm,1)),(Tom,(OperatingSystem,1)),(Tom,(Python,1)),(Tom,(Software,1))

.reduceByKey((x,y) => (" ",x._2 + y._2))//数据变为(Tom,( ,5))

.mapValues(x =>x._2)//数据变为(Tom, 5)

.foreach(println)

　　答案共 265 行

（5）该系 DataBase 课程共有多少人选修

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.filter(row=>row.split(",")(1)=="DataBase")filter方法允许你提供一个判断条件（函数），来过滤集合元素

pare.count

res1: Long = 126

　　答案为 126 人

（6）各门课程的平均分是多少；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.map(row=>(row.split(",")(1),row.split(",")(2).toInt))

pare.mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()

res0: Array[(String, Int)] = Array((Python,57), (OperatingSystem,54), (CLanguage,50),

(Software,50), (Algorithm,48), (DataStructure,47), (DataBase,50), (ComputerNetwork,51))

　　答案为： (CLanguage,50) (Python,57) (Software,50) (OperatingSystem,54) (Algorithm,48) (DataStructure,47) (DataBase,50) (ComputerNetwork,51)

（7）使用累加器计算共有多少人选了 DataBase 这门课。

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.filter(row=>row.split(",")(1)=="DataBase").map(row=>(row.split(",")(1),1))

val accum = sc.longAccumulator("My Accumulator")//累加器函数Accumulator

pare.values.foreach(x => accum.add(x))

accum.value

res19: Long = 126

　　答案：共有 126 人

2.编写独立应用程序实现数据去重

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其

中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。

输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

　　eclipse代码

package my.scala

import org.apache.spark.{SparkConf, SparkContext}

object case2 {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("reduce")

    val sc = new SparkContext(conf)

    sc.setLogLevel("ERROR")

    //获取数据

    val two = sc.textFile("hdfs://192.168.85.128:9000/quchong")

    two.filter(_.trim().length>0) //需要有空格。

        .map(line=>(line.trim,""))//全部值当key，(key value,"")

          .groupByKey()//groupByKey,过滤重复的key value ，发送到总机器上汇总

              .sortByKey() //按key value的自然顺序排序

                  .keys.collect().foreach(println) //所有的keys变成数组再输出

    //第二种有风险

    two.filter(_.trim().length>0)

          .map(line=>(line.trim,"1"))

            .distinct()

                .reduceByKey(_+_)

                    .sortByKey()

                        .foreach(println)

    //reduceByKey,在本机suffle后,再发送一个总map，发送到一个总机器上汇总，（汇总要压力小）

    //groupByKey,发送本机所有的map,在一个机器上汇总（汇总压力大）

    //如果数据在不同的机器上，则会出现先重复数据，distinct，reduceBykey，只是在本机上去重，谨慎一点的话，在reduceByKey后面需要加多一个distinct

  }

}

3.编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生

名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到

一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

 (小红,83.67)

 (小新,88.33)

 (小明,89.67)

(小丽,88.67)

package my.scala

import org.apache.spark.{SparkConf, SparkContext}

object pingjunzhi {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("reduce")

    val sc = new SparkContext(conf)

    sc.setLogLevel("ERROR")

val fourth = sc.textFile("hdfs://192.168.85.128:9000/pingjunzhi")

val res = fourth.filter(_.trim().length>0).map(line=>(line.split("\t")(0).trim(),line.split("\t")(1).trim().toInt)).groupByKey().map(x => {

   var num = 0.0

   var sum = 0

   for(i <- x._2){

    sum = sum + i

    num = num +1

   }

   val avg = sum/num

   val format = f"$avg%1.2f".toDouble

   (x._1,format)

 }).collect.foreach(x => println(x._1+"\t"+x._2))

  }

}

spark-shell的Scala的一些方法详解的更多相关文章

(转)shell中test命令方法详解
test命令用法.功能:检查文件和比较值 shell中test命令方法详解原文:https://www.cnblogs.com/guanyf/p/7553940.html 1)判断表达式 if te ...
telnet 命令使用方法详解，telnet命令怎么用
telnet 命令使用方法详解,telnet命令怎么用? 文章类型:电脑教程原创:天诺时空什么是Telnet? 对于Telnet的认识,不同的人持有不同的观点,可以把Telnet当成一种通信协 ...
[转帖]Vim编辑器使用方法详解
Vim编辑器使用方法详解程序员小新人学习 2018-12-16 12:26:23 转载于https://www.cnblogs.com/libaoliang/articles/6961676.htm ...
【Python】Linux crontab定时任务配置方法(详解)
CRONTAB概念/介绍 crontab命令用于设置周期性被执行的指令.该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行. cron 系统调度进程. 可以使用它在 ...
Linux中让alias设置永久生效的方法详解
Linux中让alias设置永久生效的方法详解一.问题描述 1.有很多时候我们想要将很多操作作为一个步骤,那么在不作为系统的服务的情况下,别名是我们最好的选择,但是发现别名只能在一次会话中生效,重启 ...
Python学习之旅—生成器对象的send方法详解
前言在上一篇博客中,笔者带大家一起探讨了生成器与迭代器的本质原理和使用,本次博客将重点聚焦于生成器对象的send方法. 一.send方法详解我们知道生成器对象本质上是一个迭代器.但是它比迭代器对 ...
session的使用方法详解
session的使用方法详解 Session是什么呢?简单来说就是服务器给客户端的一个编号.当一台WWW服务器运行时,可能有若干个用户浏览正在运正在这台服务器上的网站.当每个用户首次与这台WWW服务器 ...
Kooboo CMS - Html.FrontHtml[Helper.cs] 各个方法详解
下面罗列了方法详解,每一个方法一篇文章. Kooboo CMS - @Html.FrontHtml().HtmlTitle() 详解 Kooboo CMS - Html.FrontHtml.Posit ...
HTTP请求方法详解
HTTP请求方法详解请求方法:指定了客户端想对指定的资源/服务器作何种操作下面我们介绍HTTP/1.1中可用的请求方法: [GET:获取资源] GET方法用来请求已被URI识别的资源.指定 ...

随机推荐

javascript模板引擎template.js使用
到GitHub上下载template.js库.引入到页面以type="text/html" 这样指定javascript类型的是一种javascript模板渲染方法,在实际项目中 ...
课堂小记---html
其他注意点: 行高line-hight的继承特性: 行高有三种属性值:数字(1.5).百分比(150%).长度值(1.5em或者30px).继承上这三者是有区别的. 当属性值为数字值,其子元素会继承行 ...
Innodb与Myisam引擎的区别与应用场景
1. 区别: (1)事务处理: MyISAM是非事务安全型的,而InnoDB是事务安全型的(支持事务处理等高级处理): (2)锁机制不同: MyISAM是表级锁,而InnoDB是行级锁: (3)sel ...
git合并分支
源分支向向目标分支上合并.将fix分支向develop分支上合并
Stars HDU - 1541
HDU - 1541 思路:二维偏序,一维排序,一维树状数组查询即可. #include<bits/stdc++.h> using namespace std; #define maxn ...
django中widget小部件
1. 处理 input 的部件 TextInput NumberInput EmailInput URLInput PasswordInput HiddenInput DateInput Dat ...
python class属性
代码一: class A(object): pass a = A() a.name = "class_A" print(a.name) #class_A 代码二:class A(o ...
在vue脚手架中使用npm的方式使用swiper
打开项目的根目录,然后打开命令窗口,输入 npm install swiper@4.4.1 @后为指定版本号,也可以不写在main.js 中,引入 import Swiper from 'swipe ...
CSS_圣杯布局和双飞翼布局
参考: 圣杯布局的来历是2006年发在a list part上的这篇文章: http://alistapart.com/article/holygrail 双飞翼布局介绍-始于淘宝UED: http: ...
ajax项目冲刺01
1.模板引擎 1)模板+数据=>静态页面片段 2)art-template性能较好分支语法: {{if value}} ... {{/if}} {{if v1}} ... {{else if ...

spark-shell的Scala的一些方法详解

spark-shell的Scala的一些方法详解的更多相关文章

随机推荐

热门专题