综合案例

文件排序

解法：

1.读取数据

2.数据清洗，变换数据格式

3.从新分区成一个分区

4.按照key排序，返还带有位次的元组

5.输出

@Test

  def filesort(): Unit ={

    val source=sc.textFile("dataset/filesort.txt",3)

    var index=0

    /*

    partitionBy:把所有的分区相关的数据组成一个新的分区

    HashPartitioner(1)：分成一个分区，使得在一个分区内总体有序

     */

    val result= source.filter(_.trim().length>0).map(n => (n.trim.toInt,""))

      .partitionBy(new HashPartitioner(1))

      .sortByKey().map( t=> {

      index+=1

      (index,t._1)

    })

    result.foreach(println(_))

  }

二次排序

题目大意：先按照第一个比，相同则按照第二个比

题意思路：

1.读取数据

2.转换格式如下

可用图片展示：

class SecondarySortKey(val first:Int,val second:Int) extends Ordered

  [SecondarySortKey] with Serializable{

  override def compare(that: SecondarySortKey): Int = {

    if(this.first-that.first!=0){

      this.first-that.first

    }else {

      this.second-that.second

    }

  }

}

//二次排序

  @Test

  def sortsecond(): Unit ={

    val source=sc.textFile("dataset/secondsort.txt",3)

    val secondrdd = source.map(item => (new SecondarySortKey(item.split(" ")(0).toInt, item.split(" ")(1).toInt), item))

        .partitionBy(new HashPartitioner(1))

    secondrdd.sortByKey(false)

      .map(item => item._2)

      .foreach(println(_))

  }

连接操作

案例介绍：

有两个表：movie表，和score表

score:包含的信息为：用户ID，电影ID,电影评分

movie:电影ID，电影名字

我们想要得到，评分超过4分的（电影ID，电影名字，电影评分）

思路如下：

首先先弄score表：

1.获取想要的信息

2.获取对应电影ID的平均值

3.更换格式：keyBy，如下

对于movie表进行连接，连接前需要变化下格式

然后可通过相同的key进行连接join，后的结果如下：

进行评分的过滤，然后取出需要的数据

@Test

  /*

  score:包含的信息为：用户ID，电影ID,电影评分

  movie:电影ID，电影名字

   */

  def joinTest(): Unit ={

    val scoreRDD=sc.textFile("dataset/score.txt")

      .map(line => {

        val filed=line.split(",")

        (filed(1).toInt,filed(2).toDouble)

      })

      .groupByKey()

      .map(data =>{

        val avg=data._2.sum/data._2.size

        (data._1,avg)

      })

      .keyBy(it =>it._1)

    val movie=sc.textFile("dataset/movie.txt")

      .map(line => {

        val filed=line.split(",")

        (filed(0).toInt,filed(1))

      })

      .keyBy(it =>it._1)

    scoreRDD.join(movie)

      .filter(item => item._2._1._2>4.0)

      .map(it => (it._1,it._2._2._2,it._2._1._2))

      .foreach(println(_))

  }

输出：

score表：

movie表：

最终输出：

Spark学习进度7-综合案例的更多相关文章

Spark学习进度11-Spark Streaming&Structured Streaming
Spark Streaming Spark Streaming 介绍批量计算流计算 Spark Streaming 入门 Netcat 的使用项目实例目标:使用 Spark Streaming ...
Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...
Spark学习进度-实战测试
spark-shell 交互式编程题目:该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure ...
SparkSQL学习进度9-SQL实战案例
Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json. { "id":1 , "name&quo ...
Spark学习进度10-DS&DF基础操作
有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark"," ...
Spark学习进度-RDD
RDD RDD 是什么定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数 ...
Spark学习进度-Transformation算子
Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize( ...
spark 学习路线及参考课程
一.Scala编程详解: 第1讲-Spark的前世今生第2讲-课程介绍.特色与价值第3讲-Scala编程详解:基础语法第4讲-Scala编程详解:条件控制与循环第5讲-Scala编程详解:函数 ...
【原创 Hadoop&Spark 动手实践 13】Spark综合案例：简易电影推荐系统
[原创 Hadoop&Spark 动手实践 13]Spark综合案例:简易电影推荐系统

随机推荐

Office宏病毒免杀（1）
使用github开源工具EvilClippy进行宏病毒混淆免杀:https://github.com/outflanknl/EvilClippy/releases 注意需要将这两个文件下载在同一个文件 ...
嘶吼CTF easy calc
进入之后可以看到我们需要输入一个计算式来得到答案,burpsuite进行抓包之后发现页面来自于calc.php 我们直接访问calc.php页面发现源代码泄露可以看到当我们没有输入num值的时候就 ...
Llbp2p是什么？
这是个很好的问题.用一句话来概况就是libp2p是一个模块化的协议系统,它的规范和程序库可以用来开发p2p网络应用程序. 对等节点基础对于我们对libp2p在上面的概要描述有很多内容需要进一步解释, ...
哪些地方会出现css阻塞,哪些地方会出现js阻塞？
js的阻塞特性: 所有浏览器在下载JS的时候,会阻止一切其他活动,比如其他资源的下载,内容的呈现等等. 直到JS下载.解析.执行完毕后才开始继续并行下载其他资源并呈现内容. 为了提高用户体验,新一代浏 ...
js获取url参数、图片转本地base64跨域问题
获取url参数是经常需要用的一个方法,url上的参数可以让我们的程序执行更灵活. 图片转本地也是很实用的,因为海报合成通常只支持本地. 下面我们来看看这些功能的实现: 获取所有参数,采用split拆分 ...
C++ 虚函数表与多态 —— 多重继承的虚函数表 & 内存布局
多重继承的虚函数表会有两个虚表指针,分别指向两个虚函数表,如下代码中的 vptr_s_1.vptr_s_2,Son类继承自 Father 和 Mather 类,并且改写了 Father::func_1 ...
Linux安装Mysql8.0.20并配置主从复制（一主一从，双主双从）
1. 主从复制解释将主数据库的增删改查等操作记录到二进制日志文件中,从库接收主库日志文件,根据最后一次更新的起始位置,同步复制到从数据库中,使得主从数据库保持一致. 2. 主从复制的作用高可用 ...
redis位操作
setbit 设置指定key的偏移量处的值 key:键值 offset:二进制数据的偏移量(注意从左开始为第0位) value:要设置的值(0或1) getbit 获取对应key的offset处的值 ...
下载windows官网镜像并打包成iso文件
一.微软官网下载镜像地址:https://www.microsoft.com/zh-cn/software-download/ 选择所需下载的win10.win7等windows镜像(以win10为例 ...
[日常摸鱼]Luogu1801 黑匣子（NOI导刊）
题意:写一个数据结构,要求滋兹两种操作,ADD:插入一个数,GET:令$i++$然后输出第$i$小的数这个数据结构当然是平衡树啦!(雾) 写个Treap直接过掉啦- #include<cstd ...