Spark- 计算每个学科最受欢迎的老师
日志类型
测试数据
http://bigdata.myit.com/zhangsan
http://bigdata.myit.com/zhangsan
http://bigdata.myit.com/zhangsan
http://bigdata.myit.com/zhangsan
http://bigdata.myit.com/zhangsan
http://java.myit.com/lisi
http://java.myit.com/lisi
http://java.myit.com/lisi
计算每个学科最受欢迎的老师
package mypro
import java.net.URL
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkContext, SparkConf}
/**
* Created by 166 on 2017/9/5.
*/
object FavTeacher {
def main(args: Array[String]) {
Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
val conf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]")//local[*]代表用多个线程跑,2代表用两个线程跑
val sc = new SparkContext(conf)
//读取数据
val lines: RDD[String] = sc.textFile(args())
//整理数据
val subjectAndTeacher:RDD[(String,String)]=lines.map(line=> {
val url = new URL(line)
val host = url.getHost
val subject = host.substring(, host.indexOf("."))
val teacher = url.getPath.substring() //去掉路径前面的"/"
(subject, teacher)
})
//聚合
val reduce = subjectAndTeacher.map((_,)).reduceByKey(_+_)
//println(reduce.collect().toBuffer)
//按学科分组
val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduce.groupBy(_._1._1)//迭代器不能排序,需要将它变成List。
//二次排序
val result: RDD[(String, List[((String, String), Int)])] = grouped.mapValues(_.toList.sortBy(_._2).reverse.take())//用scala的语法,会把数据全部加载到内存后再做排序,数据量大的时候会有性能问题,内存溢出的问题,不建议这样使用,
val arr: Array[(String, List[((String, String), Int)])] = result.collect()
println(arr.toBuffer)
}
}
另种角度来实现,过滤多次提交
package com.rz.spark.base
import java.net.URL
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
// 过滤多次提交
object GroupFavTeacher2 {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
val sc = new SparkContext(conf)
val topN = args(1).toInt
val subject = Array("bigdata","javaee","php")
// 读取数据
val lines: RDD[String] = sc.textFile(args(0))
// 整理数据 http://bigdata.myit.cn/laozhang
val subjectAndTeacher= lines.map(line => {
val url = new URL(line)
val host = url.getHost
val subject = host.substring(0, host.indexOf("."))
val teacher = url.getPath.substring(1) // 去掉前面的/
((subject, teacher),1)
})
// 聚合
val reduced = subjectAndTeacher.reduceByKey(_+_)
// 缓存到内存,因为多次过滤都是使用同一个rdd,缓存到内存可以提高反复使用的性能
val cache = reduced.cache()
for (sb <- subject){
val sorted = cache.filter(_._1._1 == sb).sortBy(_._2,false).take(topN)
println(sorted.toBuffer)
}
sc.stop()
}
}
使用自定义分区器将每个学科的数据shuffle到独自的分区,在分区内进行排序取topN
package com.rz.spark.base
import java.net.URL
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}
// 自定义分区器
import scala.collection.mutable
// 过滤多次提交
object GroupFavTeacher3 {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
val sc = new SparkContext(conf)
val topN = args().toInt
val subject = Array("bigdata","javaee","php")
// 读取数据
val lines: RDD[String] = sc.textFile(args())
// 整理数据 http://bigdata.myit.cn/laozhang
val subjectAndTeacher= lines.map(line => {
val url = new URL(line)
val host = url.getHost
val subject = host.substring(, host.indexOf("."))
val teacher = url.getPath.substring() // 去掉前面的/
((subject, teacher),)
})
// 聚合
val reduced = subjectAndTeacher.reduceByKey(_+_)
// 计算我们有多少学科
val sujects: Array[String] = reduced.map(_._1._1).distinct().collect()
// 自定义一个分区器,并且按照指定的分区器进行分区
val subjectPartitoner = new SubjectPartitoner(sujects)
// partitionBy按照指定的分区规则进行分区
val partitioned: RDD[((String, String), Int)] = reduced.partitionBy(subjectPartitoner)
// 如果一次拿出一个分区(可以操作一个分区的数据)
val sorted = partitioned.mapPartitions(it => {
// 将迭代器转成List,然后排序,再转成迭代器返回
it.toList.sortBy(_._2).reverse.take(topN).toIterator // 按数值排序
})
val result = sorted.collect()
println(result.toBuffer)
sc.stop()
}
// 自定义分区器
class SubjectPartitoner(sbs: Array[String]) extends Partitioner{
// 相当于主构造器(new 的时候会执行一次)
// 用于存放规则的一个map
val rules = new mutable.HashMap[String, Int]()
var i =
for (sb <- sbs){
rules.put(sb,i)
i +=
}
// 返回分区的数量(下一个RDD有多少分区)
override def numPartitions: Int = sbs.length
// 根据传入的key计算分区标号
// Key是一个无组(String, String)
override def getPartition(key: Any): Int ={
// 获取学科名称
val subject = key.asInstanceOf[(String, String)]._1
// 根据规则计算分区编号
rules(subject)
}
}
}
上面的方式会有多次shuffle,reduceByKey聚合数据的时候shuffle一次,使用自定义分区器重新对数据进行分析又shuffle了一次。我们可以尽可能的减少shuffle的过程,我们可以在reduceByKey的时候手动使用自定分区器进行分区,reduceByKey默认使用的是。HashPartitioner。
package com.rz.spark.base
import java.net.URL
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}
// 自定义分区器且减少shuffle
import scala.collection.mutable
// 过滤多次提交
object GroupFavTeacher4 {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
val sc = new SparkContext(conf)
val topN = args().toInt
val subject = Array("bigdata","javaee","php")
// 读取数据
val lines: RDD[String] = sc.textFile(args())
// 整理数据 http://bigdata.myit.cn/laozhang
val subjectAndTeacher= lines.map(line => {
val url = new URL(line)
val host = url.getHost
val subject = host.substring(, host.indexOf("."))
val teacher = url.getPath.substring() // 去掉前面的/
((subject, teacher),)
})
// 计算我们有多少学科
val sujects: Array[String] = subjectAndTeacher.map(_._1._1).distinct().collect()
// 自定义一个分区器,并且按照指定的分区器进行分区
val subjectPartitoner = new SubjectPartitoner2(sujects)
// 聚合,聚合是按照指定的分区器进行分区
// 该RDD一个分区内仅有一个学科的数据
val reduced: RDD[((String, String), Int)] = subjectAndTeacher.reduceByKey(subjectPartitoner,_+_)
// 如果一次拿出一个分区(可以操作一个分区的数据)
val sorted = reduced.mapPartitions(it => {
// 将迭代器转成List,然后排序,再转成迭代器返回
it.toList.sortBy(_._2).reverse.take(topN).toIterator // 按数值排序
})
// 收集数据
val result = sorted.collect()
println(result.toBuffer)
sc.stop()
}
// 自定义分区器
class SubjectPartitoner2(sbs: Array[String]) extends Partitioner{
// 相当于主构造器(new 的时候会执行一次)
// 用于存放规则的一个map
val rules = new mutable.HashMap[String, Int]()
var i =
for (sb <- sbs){
rules.put(sb,i)
i +=
}
// 返回分区的数量(下一个RDD有多少分区)
override def numPartitions: Int = sbs.length
// 根据传入的key计算分区标号
// Key是一个无组(String, String)
override def getPartition(key: Any): Int ={
// 获取学科名称
val subject = key.asInstanceOf[(String, String)]._1
// 根据规则计算分区编号
rules(subject)
}
}
}
Spark- 计算每个学科最受欢迎的老师的更多相关文章
- 大数据学习day22------spark05------1. 学科最受欢迎老师解法补充 2. 自定义排序 3. spark任务执行过程 4. SparkTask的分类 5. Task的序列化 6. Task的多线程问题
1. 学科最受欢迎老师解法补充 day21中该案例的解法四还有一个问题,就是当各个老师受欢迎度是一样的时候,其排序规则就处理不了,以下是对其优化的解法 实现方式五 FavoriteTeacher5 p ...
- 大数据学习day21-----spark04------1. 广播变量 2. RDD中的cache 3.RDD的checkpoint方法 4. 计算学科最受欢迎老师TopN
1. 广播变量 1.1 补充知识(来源:https://blog.csdn.net/huashetianzu/article/details/7821674) 之所以存在reduce side jo ...
- Spark计算模型
[TOC] Spark计算模型 Spark程序模型 一个经典的示例模型 SparkContext中的textFile函数从HDFS读取日志文件,输出变量file var file = sc.textF ...
- spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集.交集.合集,只选择某一列来对比比较好.新建两个 dataframe : import org.apache.spark.{SparkConf, Spar ...
- 【原创 Hadoop&Spark 动手实践 7】Spark 计算引擎剖析与动手实践
[原创 Hadoop&Spark 动手实践 7]Spark计算引擎剖析与动手实践 目标: 1. 理解Spark计算引擎的理论知识 2. 动手实践更深入的理解Spark计算引擎的细节 3. 通过 ...
- 【Spark深入学习 -13】Spark计算引擎剖析
----本节内容------- 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark ...
- Java进行spark计算
首先在Linux环境安装spark: 可以从如下地址下载最新版本的spark: https://spark.apache.org/downloads.html 这个下载下来后是个tgz的压缩包,解压后 ...
- 使用spark 计算netflow数据初探
spark是一个高性能的并发的计算平台,而netflow是一种一般来说数量级很大的数据.本文记录初步使用spark 计算netflow数据的大致过程. 本文包括以下过程: 1. spark环境的搭建 ...
- Spark计算均值
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 object ColumnVal ...
随机推荐
- reveal end of document
window - Preferences - Run/Debug - Console 将 Console buffer size (characters)设置大一点
- 受防火墙影响,win7的IPV6经常Ping不通,需要手动放行
在路由器上面设置了IPV6隧道,路由自动给每台机器分配了IPV6地址. 然后总是发现过会IPV6就ping不通了,IPV6的网站也打不开. 经从次实验发现:关闭防火墙后立马就通了,打开防火墙后,过会又 ...
- python视频教程大全(转载)
python3英文视频教程(全87集) http://pan.baidu.com/s/1dDnGBvV python从入门到精通视频(全60集)链接:http://pan.baidu.com/s/1e ...
- 如何创建AnjularJS项目
第一步:命名空间 var applyAppModule=angular.module('apply-app' ,[]); 第二步:控制器 ng-controller="ApplyCon ...
- PHP-Manual的学习----【语言参考】----【类型】
2017年7月17日15:18:02 该看Boolean 布尔类型1.PHP 支持 8 种原始数据类型. 2.四种标量类型: ◦ boolean(布尔型) ◦ integer(整型) ◦ ...
- POJ 1860
须要推断是否有正权环存在,Bellman-Ford算法就能够辣~ AC代码: #include <iostream> #include <cstdio> #include &l ...
- 使用UIImageView展现来自网络的图片
本文转载至 http://www.cnblogs.com/chivas/archive/2012/05/21/2512324.html UIImageView:可以通过UIImage加载图片赋给UII ...
- lucas定理证明
Lucas 定理(证明) A.B是非负整数,p是质数.AB写成p进制:A=a[n]a[n-1]...a[0],B=b[n]b[n-1]...b[0]. 则组合数C(A,B)与C(a[n],b[n])* ...
- 第三课 nodejs读取文件
//引入文件操作模块var fs = require('fs'); //读取文件 使用 回调函数 utf-8编码读取 a.txt在当前文件目录fs.readFile('a.txt','UTF-8',f ...
- 九度OJ 1205:N阶楼梯上楼问题 (斐波那契数列)
时间限制:1 秒 内存限制:128 兆 特殊判题:否 提交:3739 解决:1470 题目描述: N阶楼梯上楼问题:一次可以走两阶或一阶,问有多少种上楼方式.(要求采用非递归) 输入: 输入包括一个整 ...