Flink--3种分区方式

partitionByHash

//TODO partitionByHash

val data = new mutable.MutableList[(Int, Long, String)]

data.+=((1, 1L, "Hi"))

data.+=((2, 2L, "Hello"))

data.+=((3, 2L, "Hello world"))

data.+=((4, 3L, "Hello world, how are you?"))

data.+=((5, 3L, "I am fine."))

data.+=((6, 3L, "Luke Skywalker"))

data.+=((7, 4L, "Comment#1"))

data.+=((8, 4L, "Comment#2"))

data.+=((9, 4L, "Comment#3"))

data.+=((10, 4L, "Comment#4"))

data.+=((11, 5L, "Comment#5"))

data.+=((12, 5L, "Comment#6"))

data.+=((13, 5L, "Comment#7"))

data.+=((14, 5L, "Comment#8"))

data.+=((15, 5L, "Comment#9"))

data.+=((16, 6L, "Comment#10"))

data.+=((17, 6L, "Comment#11"))

data.+=((18, 6L, "Comment#12"))

data.+=((19, 6L, "Comment#13"))

data.+=((20, 6L, "Comment#14"))

data.+=((21, 6L, "Comment#15"))

val collection = env.fromCollection(Random.shuffle(data))

val unique = collection.partitionByHash(1).mapPartition{

  line =>

    line.map(x => (x._1 , x._2 , x._3))

}

unique.writeAsText("hashPartition", WriteMode.NO_OVERWRITE)

env.execute()

Range-Partition

//TODO Range-Partition

val data = new mutable.MutableList[(Int, Long, String)]

data.+=((1, 1L, "Hi"))

data.+=((2, 2L, "Hello"))

data.+=((3, 2L, "Hello world"))

data.+=((4, 3L, "Hello world, how are you?"))

data.+=((5, 3L, "I am fine."))

data.+=((6, 3L, "Luke Skywalker"))

data.+=((7, 4L, "Comment#1"))

data.+=((8, 4L, "Comment#2"))

data.+=((9, 4L, "Comment#3"))

data.+=((10, 4L, "Comment#4"))

data.+=((11, 5L, "Comment#5"))

data.+=((12, 5L, "Comment#6"))

data.+=((13, 5L, "Comment#7"))

data.+=((14, 5L, "Comment#8"))

data.+=((15, 5L, "Comment#9"))

data.+=((16, 6L, "Comment#10"))

data.+=((17, 6L, "Comment#11"))

data.+=((18, 6L, "Comment#12"))

data.+=((19, 6L, "Comment#13"))

data.+=((20, 6L, "Comment#14"))

data.+=((21, 6L, "Comment#15"))

val collection = env.fromCollection(Random.shuffle(data))

val unique = collection.partitionByRange(x => x._1).mapPartition(line => line.map{

  x=>

    (x._1 , x._2 , x._3)

})

unique.writeAsText("rangePartition", WriteMode.OVERWRITE)

env.execute()

sortPartition

根据指定的字段值进行分区的排序；

 //TODO Sort Partition

    val data = new mutable.MutableList[(Int, Long, String)]

    data.+=((1, 1L, "Hi"))

    data.+=((2, 2L, "Hello"))

    data.+=((3, 2L, "Hello world"))

    data.+=((4, 3L, "Hello world, how are you?"))

    data.+=((5, 3L, "I am fine."))

    data.+=((6, 3L, "Luke Skywalker"))

    data.+=((7, 4L, "Comment#1"))

    data.+=((8, 4L, "Comment#2"))

    data.+=((9, 4L, "Comment#3"))

    data.+=((10, 4L, "Comment#4"))

    data.+=((11, 5L, "Comment#5"))

    data.+=((12, 5L, "Comment#6"))

    data.+=((13, 5L, "Comment#7"))

    data.+=((14, 5L, "Comment#8"))

    data.+=((15, 5L, "Comment#9"))

    data.+=((16, 6L, "Comment#10"))

    data.+=((17, 6L, "Comment#11"))

    data.+=((18, 6L, "Comment#12"))

    data.+=((19, 6L, "Comment#13"))

    data.+=((20, 6L, "Comment#14"))

    data.+=((21, 6L, "Comment#15"))

    val ds = env.fromCollection(Random.shuffle(data))

    val result = ds

      .map { x => x }.setParallelism(2)

      .sortPartition(1, Order.DESCENDING)//第一个参数代表按照哪个字段进行分区

      .mapPartition(line => line)

      .collect()

    println(result)

  }

}

Flink--3种分区方式的更多相关文章

flink两种安装方式
Flink Standalone 集群 HA 配置 1. HA 集群环境规划使用三台节点实现两主两从集群(由于笔记本性能限制,不能开启太多虚拟机,其实使用三台和四台机器在安装配置上没有本质区别) ...
kudu的分区方式
为了提供可扩展性,Kudu 表被划分为称为 tablets 的单元,并分布在许多 tablet servers 上.行总是属于单个 tablet .将行分配给 tablet 的方法由在表创建期间设置的 ...
linux初学者-磁盘分区方式篇
linux初学者-磁盘分区方式篇一般的计算机都会采用mbr分区方式,这种分区方式只能够建立四个主分区,如果还需要或更多的分区,就需要将其中一个主分区建立成一个扩展分区,在里面建立逻辑分区,这些分区信 ...
Linux-两种磁盘分区方式
Linux文件设备要理解Linux,首先要理解Linux文件结构在Linux操作系统中,几乎所有的设备都位于/dev目录中名称作用位置 SATA接口电脑硬盘接口 /dev/sd[a-p] ...
MySQL表的四种分区类型
MySQL表的四种分区类型一.什么是表分区通俗地讲表分区是将一大表,根据条件分割成若干个小表.mysql5.1开始支持数据表分区了. 如:某用户表的记录超过了600万条,那么就可以根据入库日期将表 ...
一步一步安装UEFI分区方式的windows 10 企业版
发现很多坛友不会安装UEFI分区的windows 10 从启动设置,到分区,到最后的引导与激活都是很大的问题. 在我看来这是最不容易出错的安装方式适合于刚刚上手的菜鸟,自己按照图片一步一步的就可以安装 ...
linux大于2T的磁盘使用GPT分区方式
MBR(Master Boot Record)(主引导记录)和GPT(GUID Partition Table)(GUID意为全局唯一标识符)是在磁盘上存储分区信息的两种不同方式对于传统的MBR分区 ...
hive命令的三种执行方式
hive命令的3种调用方式方式1:hive –f /root/shell/hive-script.sql(适合多语句) hive-script.sql类似于script一样,直接写查询命令就行不 ...
（1.5）MySQL表的5种分区类型
(1.5)MySQL表的5种分区类型关键词:mysql表分区小细节: (1)Null 将会放入最小范围区间 (2)无论哪种类型的分区,要么没有主键.唯一键,要么分区表的主键/唯一键都必须包含 ...

随机推荐

cef_binary_3.2623.1401.gb90a3be
这个资源现在很难搜索到分享给大家 http://www.ceffans.com/forum.php?mod=viewthread&tid=9 http://pan.baidu.com/sha ...
024_nginx之backlog坑
一. 线上碰到一个nginx调优的一个设置,即listen后面设置 listen 80 backlog=1024; 但是多个域名都设置这个值的时候就会出现以下的提示重复报错. 关于backlog参数的 ...
python操作三大主流数据库(5)python操作mysql⑤使用Jinja2模板提取优化页面展示
python操作mysql⑤使用Jinja2模板提取优化页面展示在templates目录下的index.html.cat.html等页面有一些共同的元素,代码比较冗余可以使用模板提取公共代码,在各网 ...
修改SIP协议中的User-Agent名称
修改目的:如果user-agent 带上了 GIT 版本信息,容易被人抓住版本漏洞针对性的攻击. 示例如下: SIP/2.0 100 Trying Via: SIP/2.0/UDP 192.168.5 ...
python安装提示No module named setuptools,wget提示ERROR 403: SSL is required
在下载安装一个python工具时提示报错No module named setuptools [root@kermit supervisor-3.3.0]$ sudo python setup.py ...
单点登录SSO的原理及实现方式总结
核心思想用户信息的集中存储(全局Cooike.集中式Session.Json Web Token.Redis缓存服务器.自定义SSO服务器) 认证(Filter中执行) 登出(不同站 ...
Jmeter之csv参数化
创建数据源csv文件在线程组中添加CSV Data Set Config 1.添加CSV Data Set Config 添加CSV Data Set Config 2.配置CSV Data Set ...
用docker快速搭建wordpress博客
WordPress是一个非常著名的PHP编写的博客平台,发展到目前为止已经形成了一个庞大的网站平台系统.在WP上有规模庞大的插件和主题,可以帮助我们快速建立一个博客甚至网站. 在Windows上可 ...
洛谷P4827 [国家集训队] Crash 的文明世界 [斯特林数，组合数，DP]
传送门思路又见到这个$k$次方啦!按照套路,我们将它搞成斯特林数: \[ ans_x=\sum_{i=0}^k i!S(k,i)\sum_y {dis(x,y) \choose i} \] 前 ...
Math中的floor,round和ceil方法总结
floor向下取整,返回不大于的最大整数 Math.floor(1.4)=1.0ceil向上取整,返回不小于的最小整数 Math.ceil(1.4)=2.0round 四舍五入,将原来的数字加入0 ...

Flink--3种分区方式

partitionByHash

Range-Partition

sortPartition

Flink--3种分区方式的更多相关文章

随机推荐

热门专题