Spark基础排序+二次排序（java+scala）

1.基础排序算法

sc.textFile("/data/putfile.txt").flatMap(_.split(" ")).map(word=>(word,)).reduceByKey(_+_,).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).collect

//key value交换

sc.setLogLevel("WARN")

2.二次排序算法

所谓二次排序就是指排序的时候考虑两个维度（有可能10次排序）
Java版本

package com.dt.java.spark;

import akka.util.HashCode;

import scala.math.Ordered;

import java.io.Serializable;

//实现Ordered接口（scala的）

public class SecondarySort implements Ordered<SecondarySort>,Serializable {

//自定义二次排序的key

private int first;

private int second;

public int getFirst() {

return first;

}

public void setFirst(int first) {

this.first = first;

}

public int getSecond() {

return second;

}

public void setSecond(int second) {

this.second = second;

}

public SecondarySort(int first,int second)

{

this.first =first;

this.second=second;

}

@Override

public int compare(SecondarySort that) {

if (this.first - that.getFirst()!=)

{

return this.first - that.getFirst();

}else

{

return this.second - that.getSecond();

}

}

@Override

public boolean $less(SecondarySort that) {

if(this.first < that.getFirst())

{

return true;

}else if(this.first == that.getFirst() && this.second < that.getSecond())

{

return true;

}

return false;

}

@Override

public boolean $greater(SecondarySort that) {

if(this.first > that.getFirst()){

return true;

}else if(this.first == that.getFirst() && this.second > that.second)

{

return true;

}

return false;

}

@Override

public boolean $less$eq(SecondarySort that) {

if(this.$less(that)){

return true;

}else if(this.first == that.getFirst() && this.second == that.second)

{

return true;

}

return false;

}

@Override

public boolean $greater$eq(SecondarySort that) {

if(this.$greater(that))

{

return true;

}else if(this.first == that.getFirst() && this.second == that.getSecond())

{

return true;

}

return false;

}

@Override

public int compareTo(SecondarySort that) {

if (this.first - that.getFirst()!=)

{

return this.first - that.getFirst();

}else

{

return this.second - that.getSecond();

}

}

@Override

public boolean equals(Object o) {

if (this == o) return true;

if (o == null || getClass() != o.getClass()) return false;

SecondarySort that = (SecondarySort) o;

if (first != that.first) return false;

return second == that.second;

}

@Override

public int hashCode() {

int result = first;

result =  * result + second;

return result;

}

}

package com.dt.java.spark;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

//二次排序，具体实现步骤

//第一步：按照Ordered和Serrializable接口实现自定义排序的Key

//第二步：将要进行二次排序的文件加载进来生成《key，value》类型的RDD

//第三步：使用sortByKey基于自定义的Key进行二次排序

//第四步：去除掉排序的key，，只保留排序结果

public class SecondarySortApp {

public static void main(String[] args){

SparkConf conf = new SparkConf().setAppName("SecondarySortApp").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD lines = sc.textFile("D:\\JavaWorkspaces\\sparkproject\\sparktest.txt");

JavaPairRDD,String> pairs = lines.mapToPair(new PairFunction, SecondarySort, String>() {

@Override

public Tuple2, String> call(String line) throws Exception {

String[] splited = line.split(" ");

SecondarySort key = new SecondarySort(Integer.valueOf(splited[]),Integer.valueOf(splited[]));

return new Tuple2, String>(key,line);

}

}

);

JavaPairRDD,String> sorted = pairs.sortByKey();//完成二次排序

//过滤掉排序后自定的key，保留排序的结果

JavaRDD secondarysorted = sorted.map(new Function, String>, String>() {

@Override

public String call(Tuple2, String> sortedContent) throws Exception {

return sortedContent._2();

}

}

);

//

secondarysorted.foreach(new VoidFunction() {

@Override

public void call(String sorted) throws Exception {

System.out.println(sorted);

}

});

}

}//生成默认的构造器

Scala版本

package com.dt.scala.spark

class SecondarySort(val first:Int, val second:Int) extends Ordered[SecondarySort] with Serializable{

override def compare(that: SecondarySort): Int = {

if(this.first - that.first != )

{

this.first - that.first

}else {

this.second - that.second

}

}

}

package com.dt.scala.spark

import org.apache.spark.{SparkContext, SparkConf}

object SecondarySortApp {

def main (args: Array[String]) {

//第一步；创建spark的配置对象sparkconf

val conf = new SparkConf()//创建sparkconf对象

conf.setAppName("SecondarySortApp")//设置应用程序的名称

conf.setMaster("local")//设置本地运行

//创建sparkcontext对象，sparkcontext是程序的唯一入口

val sc = new SparkContext(conf)

val lines = sc.textFile("D:\\JavaWorkspaces\\sparkproject\\sparktest.txt")

val pairWithSortkey = lines.map(line =>(

new SecondarySort( line.split(" ")().toInt,line.split(" ")().toInt),line

))

val sorted = pairWithSortkey.sortByKey(false)

val sortedResult = sorted.map(sortedline => sortedline._2)

sortedResult.collect.foreach(println)

}

}

Spark基础排序+二次排序（java+scala）的更多相关文章

spark基础知识二
主要围绕spark的底层核心抽象RDD进行理解.主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子 ...
Java基础（二十七）Java IO（4）字符流（Character Stream）
字符流用于处理字符数据的读取和写入,它以字符为单位. 一.Reader类与Writer类 1.Reader类是所有字符输入流的父类,它定义了操作字符输入流的各种方法. 2.Writer类是所有字符输出 ...
夯实Java基础（二十一）——Java反射机制
1.反射机制概述 Java反射机制是指程序在运行状态中,对于任何一个类,我们都能够知道这个类的所有属性和方法(包括private.protected等).对于任何一个对象,我们都能够对它的属性和方法进 ...
夯实Java基础（二十）——JAVA正则表达式
1.为什么要用正则表达式首先我们先来做一道题目:判断一个字符串是否由数字组成.代码示例如下: public class Test { public static void main(String[] ...
java 基础（二）搭建Java编译环境（linux系统）
jdk安装配置首先下载JDK和JRE,这里你的需要看看你的Linux系统是多少位的,比如我的是64位的:下载JDK并指定到Download目录,JRE同样操作:解压并且配置环境: tar -zxvf ...
分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
Spark实现二次排序
一.代码实现 package big.data.analyse.scala.secondsort import org.apache.log4j.{Level, Logger} import org. ...
Haoop MapReduce 的Partition和reduce端的二次排序
先贴一张原理图(摘自hadoop权威指南第三版) 实际中看了半天还是不太理解其中的Partition,和reduce端的二次排序,最终根据实验来结果来验证自己的理解 1eg 数据如下 20140101 ...
spark函数sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果.由于之前对spark的API使用过,知道API中的sortByKey()可以自定 ...

随机推荐

java类总结
1.java类与类之间存在六种关系:继承,实现,依赖,关联,聚合组成 2.一个类可以继承另外一个类,并在此基础上添加自己的特有的功能. 3.一个类的方法中操作另外一个类的对象,这种情况称为第一个类依赖 ...
(转)winform post 访问网站
最近使用winform对webapi进行测试,搜集到园友的文章,记录下来供后续参考. 第一篇文章,原文地址http://www.cnblogs.com/Johnny_Z/archive/2012/02 ...
IOS开发-跨域访问DWR方法
用Phonegap做手机客户端,服务器用spring+DWR,需要在手机端访问服务器的方法,需要做以下配置,可以参见http://www.iteye.com/topic/337460: 服务器DWR配 ...
UIButton 详解
1)创建 UIButton *btn1 = [UIButton buttonWithType:UIButtonTypeRoundedRect]; 风格有如下 typedef enum { UIButt ...
Hive参数层面常用优化
1.hive数据仓库权限问题: set hive.warehouse.subdir.inherit.perms=true; 2.HiveServer2的内存连接的个数越多压力越大,可以加大内存:可以 ...
Eclipse Gtk+
From: http://hi.baidu.com/spmno/item/9425018707f295dfd1f8cdbe 1. Project->Properties,然后选 C/C++ Bu ...
JSP SQL注入--破法
1.JS验证拦截 <%@ page language="java" import="java.util.*" pageEncoding="UTF ...
php json中文处理方法，请json更懂中文
1.php5.3版本及以下.的处理方式 /** *php5.3版本以前,json中文问题的解决解决方案 */ function encode_json($str) { return urldecode ...
进程内外的session
进程内session:缺点:当访问量大的时候,会导致进程内session的重启优点:存储速度快进程外session: 01.将session存储在状态服务器中 asp.net state servi ...
【ITOO 1】将List数据导出Excel表
需求描述:在课表导入的时候,首先给用户提供模板(excel),然后将用户填写好的数据读取到list集合中.再进行判空处赋值处理,以及去重处理.这篇博客,主要介绍读取excel表和导出excel表的方法 ...

Spark基础排序+二次排序（java+scala）

Spark基础排序+二次排序（java+scala）的更多相关文章

随机推荐

热门专题