Spark分区实例（teacher）

package URL1

import org.apache.spark.Partitioner

import scala.collection.mutable

class MyPartitioner(val num:Array[String]) extends Partitioner{

val parMap=new mutable.HashMap[String,Int]()

  var count=

  for(i<-num){

    parMap.put(i,count)

    count +=

  }

  //分区数目

  override def numPartitions: Int = num.length

  //分区的规则

  //def getPartition(key: Any): Int：这个函数需要对输入的key做计算，然后返回该key的分区ID，范围一定是0到numPartitions-1

  override def getPartition(key: Any): Int = {

    // 将对象转换为指定类型；

    val tople=key.asInstanceOf[(String,String)]

    val subject=tople._1

    this.parMap(subject)

}

}

package URL1

class Orders extends Ordering[((String,String),Int)]{

  override def compare(x: ((String, String), Int), y: ((String, String), Int)): Int = {

    x._2-y._2

  }

}

package URL1

import java.net.URL

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

object teacher {

  def main(args: Array[String]): Unit = {

    val cof=new SparkConf()

      .setAppName(this.getClass.getSimpleName)

      .setMaster("local[*]")

    val sc=new SparkContext(cof)

    val lines=sc.textFile("E:\\teacher.log")

    val result1:RDD[((String,String),Int)]=lines.map( tp=>{

      val teacher=tp.split("/").last

      val host=new URL(tp).getHost

      val subject=host.substring(,host.indexOf("."))

      ((subject,teacher),)

    })

    //科目

    val subject=result1.map(tp=>tp._1._1).distinct().collect()

    //分区

    val partitions=new MyPartitioner(subject)

    //业务逻辑

    //1.全局TOPN

   // val result2=result1.reduceByKey(partitions,_+_).sortBy(-_._2).take(2).foreach(println)

    //1.全局TOPN

    val result3=result1.foreachPartition(tp=>{

      val treeSet=new mutable.TreeSet[((String,String),Int)]()(new Orders)

      tp.foreach(tp=>{

        treeSet.add(tp)

        if(treeSet.size>){

          treeSet.dropRight()

        }

      })

      treeSet.foreach(println)

    })

sc.stop()

  }

}

teacher.log

http://bigdata.baidu.cn/zhangsan

http://bigdata.baidu.cn/zhangsan

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://php.baidu.cn/laoli

http://php.baidu.cn/laoliu

http://php.baidu.cn/laoli

http://php.baidu.cn/laoli

Spark分区实例（teacher）的更多相关文章

Spark Job-Stage-Task实例理解
Spark Job-Stage-Task实例理解基于一个word count的简单例子理解Job.Stage.Task的关系,以及各自产生的方式和对并行.分区等的联系: 相关概念 Job:Job是由 ...
【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示
[原创 Hadoop&Spark 动手实践 6]Spark 编程实例与案例演示 Spark 编程实例和简易电影分析系统的编写目标: 1. 掌握理论:了解Spark编程的理论基础 2. 搭建 ...
【Spark 深入学习-08】说说Spark分区原理及优化方法
本节内容 ------------------ · Spark为什么要分区 · Spark分区原则及方法 · Spark分区案例 · 参考资料 ------------------ 一.Spark为什 ...
Spark学习之路（十七）Spark分区
一.分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务 ...
Spark（十一）Spark分区
一.分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务 ...
spark分区
spark默认的partition的分区数是和本机CPU的核数保持一致: bucket的数量和reduce的数量一致:buket的概念是map会将计算获得数据放到各个buket中,每个bucket和一 ...
Spark Streaming实例
Spark Streaming实例分析 2015-02-02 21:00 4343人阅读评论(0) 收藏举报分类: spark(11) 转载地址:http://www.aboutyun.co ...
Spark学习之路（十七）Spark分区[转]
分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个 ...
Hive和Spark分区策略
1.概述离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的.这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效 ...

随机推荐

nginx之"/"结尾
一.配置127.0.0.1:8081的tomcat下的文件: 1.ROOT/a.html : this is ROOT page 2.ROOT/testa.html : nihao 3.ROOT/in ...
BBS-添加文章及文章中图片
目录 BBS项目中的添加文章 BBS项目中的添加文章中的图片 BBS项目中的添加文章 1.添加文章的时候,我们需要特别注意的是这个地方需要利用到到BeautifulSoup这个模块,因为我们在inpu ...
记录一个关于 Document.on绑定事件后，导致页面卡顿的情况
假设当前页面的js文件中有如下函数: function A(){ function B(); } function B(){ $(document).on("click",&quo ...
Spring Security 解决X-Frame-Options deny
错误信息: Refused to display 'https://github.com/hwclass/awesome-sound' in a frame because it set 'X-Fra ...
C#验证数字的正则表达
说明:@符号的作用,省去转义字符\ "^\\+?[1-9][0-9]*$" 与 @"^\+?[1-9][0-9]*$" 等效 @"^(0?[1-9 ...
XML -- 为什么选择XML？
1.XML是什么,主要功能? XML全称(EXtensible Markup Language),是可扩展性标记语言. XML主要功能是用来传输和存储数据.它就是一种纯文本.只要程序能访问纯文本就能访 ...
ACM-ICPC 2018 沈阳赛区网络预赛 I 题 Lattice's basics in digital electronics
原题链接:https://nanti.jisuanke.com/t/31450 附上队友代码:(感谢队友带飞) #include <bits/stdc++.h> using namespa ...
HNOI2004 树的计数 | HNOI2008 明明的烦恼
题目链接:戳我 prufer序列的问题. prufer序列和无根树是一一对应的.而且在树中度数为k的点,在prufer序列中的出现次数为$k-1$次. 根据有限制次数的可重复元素的排列计数公式,我 ...
【集训队作业2018】小Z的礼物
小水题.题意就是不断随机放一个 $1 \times 2$ 骨牌,然后取走里面的东西.求期望多少次取走所有的东西.然后有一维很小. 首先显然 minmax 容斥,将最后取走转化为钦定一些物品,求第一 ...
Marked
哈夫曼树 2-sat问题线性代数基础矩阵和行列式基础可并堆1 可并堆2 概率与期望概念 Kruskcl重构树1 Kruskcl重构树2 匈牙利算法带权并查集 C++参考手册尺取法 AC自动机 ...

Spark分区实例（teacher）

Spark分区实例（teacher）的更多相关文章

随机推荐

热门专题