Flink--3种分区方式

partitionByHash

//TODO partitionByHash

val data = new mutable.MutableList[(Int, Long, String)]

data.+=((1, 1L, "Hi"))

data.+=((2, 2L, "Hello"))

data.+=((3, 2L, "Hello world"))

data.+=((4, 3L, "Hello world, how are you?"))

data.+=((5, 3L, "I am fine."))

data.+=((6, 3L, "Luke Skywalker"))

data.+=((7, 4L, "Comment#1"))

data.+=((8, 4L, "Comment#2"))

data.+=((9, 4L, "Comment#3"))

data.+=((10, 4L, "Comment#4"))

data.+=((11, 5L, "Comment#5"))

data.+=((12, 5L, "Comment#6"))

data.+=((13, 5L, "Comment#7"))

data.+=((14, 5L, "Comment#8"))

data.+=((15, 5L, "Comment#9"))

data.+=((16, 6L, "Comment#10"))

data.+=((17, 6L, "Comment#11"))

data.+=((18, 6L, "Comment#12"))

data.+=((19, 6L, "Comment#13"))

data.+=((20, 6L, "Comment#14"))

data.+=((21, 6L, "Comment#15"))

val collection = env.fromCollection(Random.shuffle(data))

val unique = collection.partitionByHash(1).mapPartition{

  line =>

    line.map(x => (x._1 , x._2 , x._3))

}

unique.writeAsText("hashPartition", WriteMode.NO_OVERWRITE)

env.execute()

Range-Partition

//TODO Range-Partition

val data = new mutable.MutableList[(Int, Long, String)]

data.+=((1, 1L, "Hi"))

data.+=((2, 2L, "Hello"))

data.+=((3, 2L, "Hello world"))

data.+=((4, 3L, "Hello world, how are you?"))

data.+=((5, 3L, "I am fine."))

data.+=((6, 3L, "Luke Skywalker"))

data.+=((7, 4L, "Comment#1"))

data.+=((8, 4L, "Comment#2"))

data.+=((9, 4L, "Comment#3"))

data.+=((10, 4L, "Comment#4"))

data.+=((11, 5L, "Comment#5"))

data.+=((12, 5L, "Comment#6"))

data.+=((13, 5L, "Comment#7"))

data.+=((14, 5L, "Comment#8"))

data.+=((15, 5L, "Comment#9"))

data.+=((16, 6L, "Comment#10"))

data.+=((17, 6L, "Comment#11"))

data.+=((18, 6L, "Comment#12"))

data.+=((19, 6L, "Comment#13"))

data.+=((20, 6L, "Comment#14"))

data.+=((21, 6L, "Comment#15"))

val collection = env.fromCollection(Random.shuffle(data))

val unique = collection.partitionByRange(x => x._1).mapPartition(line => line.map{

  x=>

    (x._1 , x._2 , x._3)

})

unique.writeAsText("rangePartition", WriteMode.OVERWRITE)

env.execute()

sortPartition

根据指定的字段值进行分区的排序；

 //TODO Sort Partition

    val data = new mutable.MutableList[(Int, Long, String)]

    data.+=((1, 1L, "Hi"))

    data.+=((2, 2L, "Hello"))

    data.+=((3, 2L, "Hello world"))

    data.+=((4, 3L, "Hello world, how are you?"))

    data.+=((5, 3L, "I am fine."))

    data.+=((6, 3L, "Luke Skywalker"))

    data.+=((7, 4L, "Comment#1"))

    data.+=((8, 4L, "Comment#2"))

    data.+=((9, 4L, "Comment#3"))

    data.+=((10, 4L, "Comment#4"))

    data.+=((11, 5L, "Comment#5"))

    data.+=((12, 5L, "Comment#6"))

    data.+=((13, 5L, "Comment#7"))

    data.+=((14, 5L, "Comment#8"))

    data.+=((15, 5L, "Comment#9"))

    data.+=((16, 6L, "Comment#10"))

    data.+=((17, 6L, "Comment#11"))

    data.+=((18, 6L, "Comment#12"))

    data.+=((19, 6L, "Comment#13"))

    data.+=((20, 6L, "Comment#14"))

    data.+=((21, 6L, "Comment#15"))

    val ds = env.fromCollection(Random.shuffle(data))

    val result = ds

      .map { x => x }.setParallelism(2)

      .sortPartition(1, Order.DESCENDING)//第一个参数代表按照哪个字段进行分区

      .mapPartition(line => line)

      .collect()

    println(result)

  }

}

Flink--3种分区方式的更多相关文章

flink两种安装方式
Flink Standalone 集群 HA 配置 1. HA 集群环境规划使用三台节点实现两主两从集群(由于笔记本性能限制,不能开启太多虚拟机,其实使用三台和四台机器在安装配置上没有本质区别) ...
kudu的分区方式
为了提供可扩展性,Kudu 表被划分为称为 tablets 的单元,并分布在许多 tablet servers 上.行总是属于单个 tablet .将行分配给 tablet 的方法由在表创建期间设置的 ...
linux初学者-磁盘分区方式篇
linux初学者-磁盘分区方式篇一般的计算机都会采用mbr分区方式,这种分区方式只能够建立四个主分区,如果还需要或更多的分区,就需要将其中一个主分区建立成一个扩展分区,在里面建立逻辑分区,这些分区信 ...
Linux-两种磁盘分区方式
Linux文件设备要理解Linux,首先要理解Linux文件结构在Linux操作系统中,几乎所有的设备都位于/dev目录中名称作用位置 SATA接口电脑硬盘接口 /dev/sd[a-p] ...
MySQL表的四种分区类型
MySQL表的四种分区类型一.什么是表分区通俗地讲表分区是将一大表,根据条件分割成若干个小表.mysql5.1开始支持数据表分区了. 如:某用户表的记录超过了600万条,那么就可以根据入库日期将表 ...
一步一步安装UEFI分区方式的windows 10 企业版
发现很多坛友不会安装UEFI分区的windows 10 从启动设置,到分区,到最后的引导与激活都是很大的问题. 在我看来这是最不容易出错的安装方式适合于刚刚上手的菜鸟,自己按照图片一步一步的就可以安装 ...
linux大于2T的磁盘使用GPT分区方式
MBR(Master Boot Record)(主引导记录)和GPT(GUID Partition Table)(GUID意为全局唯一标识符)是在磁盘上存储分区信息的两种不同方式对于传统的MBR分区 ...
hive命令的三种执行方式
hive命令的3种调用方式方式1:hive –f /root/shell/hive-script.sql(适合多语句) hive-script.sql类似于script一样,直接写查询命令就行不 ...
（1.5）MySQL表的5种分区类型
(1.5)MySQL表的5种分区类型关键词:mysql表分区小细节: (1)Null 将会放入最小范围区间 (2)无论哪种类型的分区,要么没有主键.唯一键,要么分区表的主键/唯一键都必须包含 ...

随机推荐

WebSocket参考
websocker是一种网页和服务端建立tcp全双工通信的技术,可以不再让页面进行向服务器发送轮询请求. 需要注意使用的场景,如果建立的tcp过多的话,会对服务器有很大压力. WebSocket前后台 ...
【原创】大叔经验分享（36）CM部署kafka
1 下载kafka parcel http://archive.cloudera.com/kafka/parcels/latest/KAFKA-3.1.1-1.3.1.1.p0.2-el7.parce ...
REST风格接口测试利器Wisdom rest-client
前言偶然间接触到Wisdom rest-client这款测试工具,后来经过尝试体验,感觉还不错,现在分享给大家,如何使用这款测试利器 Wisdom rest-client是什么? Wisdom re ...
ELK Packetbeat 部署指南
http://www.ttlsa.com/elk/elk-packetbeat-deployment-guide/
js之雪花飘落
有很多网站都有雪花或花瓣飘落的特效,看上去很好看.我来用js实现这个效果. 在写代码之前可以先引入bass.css对样式做下处理: 1.html部分先建一个文件夹,在body中插入如下代码 < ...
Let the Balloon Rise <map>的应用
Contest time again! How excited it is to see balloons floating around. But to tell you a secret, the ...
AppServ安装到一半卡住的问题
今天在笔记本安装AppServ的时候,运行到Installing mysql service时就卡住不动了,因为之前在自己的台式电脑安装过AppServ,当时是一步成功的,所以觉得这个问题莫名其妙,因 ...
python接收邮件
# -*- coding: utf-8 -*- import poplib import email from email.parser import Parser from email.header ...
war的创建
javascript 面向对象-面试题实例
/ 从设计到模式 // 设计模式简介 // 设计 // 模式 // 分开 // 从设计到模式 // 23种设计模式 // 创建型 // 工厂模式(工厂方法模式,抽象工厂模式,建造者模式) // 单例模 ...

Flink--3种分区方式

partitionByHash

Range-Partition

sortPartition

Flink--3种分区方式的更多相关文章

随机推荐

热门专题