kudu的分区方式

为了提供可扩展性，Kudu 表被划分为称为 tablets 的单元，并分布在许多 tablet servers 上。行总是属于单个 tablet 。将行分配给 tablet 的方法由在表创建期间设置的表的分区决定。 kudu提供了3种分区方式:

Range Partitioning ( 范围分区 )

范围分区可以根据存入数据的数据量，均衡的存储到各个机器上，防止机器出现负载不均衡现象

创建一张表，要求按照如下方式进行分区：

create table rangeTable(CompanyId Type.INT32 , WorkId Type.INT32 , Name Type.STRING , Gender Type.STRING , Photo Type.STRING)

RANGE (CompanyId) (

    PARTITION 0 <= VALUES < 10,

    PARTITION 10 <= VALUES < 20,

    PARTITION 20 <= VALUES < 30,

    PARTITION 30 <= VALUES < 40,

    PARTITION 40 <= VALUES < 50,

    PARTITION 50 <= VALUES < 60,

    PARTITION 60 <= VALUES < 70,

    PARTITION 70 <= VALUES < 80,

    PARTITION 80 <= VALUES < 90

)

代码实现：

public class createRangePartition {

    private static ColumnSchema newColumn(String column , Type type , boolean isPrimary){

        final ColumnSchema.ColumnSchemaBuilder columnSchemaBuilder = new ColumnSchema.ColumnSchemaBuilder(column, type);

        columnSchemaBuilder.key(isPrimary);

        return columnSchemaBuilder.build();

    }

    public static void main(String[] args) {

        //master地址

        final String master = "hadoop01,hadoop02,hadoop03";

        final KuduClient client = new KuduClient.KuduClientBuilder(master).defaultSocketReadTimeoutMs(6000).build();

        // 设置表的schema

        List<ColumnSchema> columns = new LinkedList<ColumnSchema>();

        columns.add(newColumn("CompanyId", Type.INT32, true));

        columns.add(newColumn("WorkId", Type.INT32, false));

        columns.add(newColumn("Name", Type.STRING, false));

        columns.add(newColumn("Gender", Type.STRING, false));

        columns.add(newColumn("Photo", Type.STRING, false));

        Schema schema = new Schema(columns);

        //创建表时提供的所有选项

        final CreateTableOptions options = new CreateTableOptions();

        //设置备份数

        options.setNumReplicas(1) ;

        //设置范围分区的分区规则

        List<String> parcols = new LinkedList<String>();

        parcols.add("CompanyId") ;

        //设置按照哪个字段进行range分区

        options.setRangePartitionColumns(parcols);

        /**

         * 设置range的分区范围

         * 分区1：0 < value < 10

         * 分区2：10 <= value < 20

         * 分区3：20 <= value < 30

         * ........

         * 分区9：80 <= value < 90

         * */

        int count = 0 ;

        for(int i=1 ; i< 10 ; i++){

            PartialRow lower = schema.newPartialRow();

            lower.addInt("CompanyId" , count);

            PartialRow upper = schema.newPartialRow();

            count += 10;

            upper.addInt("CompanyId" , count);

            options.addRangePartition(lower , upper);

        }

        try {

            client.createTable("rangeTable" , schema , options);

        } catch (KuduException e) {

            e.printStackTrace();

        }finally {

            try {

                client.close();

            } catch (KuduException e) {

                e.printStackTrace();

            }

        }

    }

}

效果截图：

Hash Partitioning ( 哈希分区 )

哈希分区通过哈希值将行分配到许多 buckets ( 存储桶 )之一；哈希分区是一种有效的策略，当不需要对表进行有序访问时。哈希分区对于在 tablet 之间随机散布这些功能是有效的，这有助于减轻热点和 tablet 大小不均匀。

创建一张表，要求按照如下方式进行分区：

create table rangeTable(CompanyId Type.INT32 , WorkId Type.INT32 , Name Type.STRING , Gender Type.STRING , Photo Type.STRING)

HASH (CompanyId) PARTITIONS 6,

RANGE (CompanyId) (

    PARTITION UNBOUNDED

)

代码实现：

public class createHashPartition {

    private static ColumnSchema newColumn(String column , Type type , boolean isPrimary){

        final ColumnSchema.ColumnSchemaBuilder columnSchemaBuilder = new ColumnSchema.ColumnSchemaBuilder(column, type);

        columnSchemaBuilder.key(isPrimary);

        return columnSchemaBuilder.build();

    }

    public static void main(String[] args) {

        //master地址

        final String master = "hadoop01,hadoop02,hadoop03";

        final KuduClient client = new KuduClient.KuduClientBuilder(master).defaultSocketReadTimeoutMs(6000).build();

        // 设置表的schema

        List<ColumnSchema> columns = new LinkedList<ColumnSchema>();

        columns.add(newColumn("CompanyId", Type.INT32, true));

        columns.add(newColumn("WorkId", Type.INT32, false));

        columns.add(newColumn("Name", Type.STRING, false));

        columns.add(newColumn("Gender", Type.STRING, false));

        columns.add(newColumn("Photo", Type.STRING, false));

        Schema schema = new Schema(columns);

        //创建表时提供的所有选项

        final CreateTableOptions options = new CreateTableOptions();

        //设置备份数

        options.setNumReplicas(1) ;

        //设置范围分区的分区规则

        List<String> parcols = new LinkedList<String>();

        parcols.add("CompanyId") ;

        //设置按照哪个字段进行Hash分区

        options.addHashPartitions(parcols , 6);

        try {

            client.createTable("hashTable" , schema , options);

        } catch (KuduException e) {

            e.printStackTrace();

        }finally {

            try {

                client.close();

            } catch (KuduException e) {

                e.printStackTrace();

            }

        }

    }

}

Multilevel Partitioning ( 多级分区 )

Kudu 允许一个表在单个表上组合多级分区。当正确使用时，多级分区可以保留各个分区类型的优点，同时减少每个分区的缺点需求：

HASH (CompanyId) PARTITIONS 10,

RANGE (CompanyId) (

    PARTITION 0 <= VALUES < 10,

    PARTITION 10 <= VALUES < 20,

    PARTITION 20 <= VALUES < 30,

    PARTITION 30 <= VALUES < 40,

    PARTITION 40 <= VALUES < 50,

    PARTITION 50 <= VALUES < 60,

    PARTITION 60 <= VALUES < 70,

    PARTITION 70 <= VALUES < 80,

    PARTITION 80 <= VALUES < 90

)

实现：

public class MultilevelParitition {

    private static ColumnSchema newColumn(String column , Type type , boolean isPrimary){

        final ColumnSchema.ColumnSchemaBuilder columnSchemaBuilder = new ColumnSchema.ColumnSchemaBuilder(column, type);

        columnSchemaBuilder.key(isPrimary);

        return columnSchemaBuilder.build();

    }

    public static void main(String[] args) {

        //master地址

        final String master = "hadoop01,hadoop02,hadoop03";

        final KuduClient client = new KuduClient.KuduClientBuilder(master).defaultSocketReadTimeoutMs(6000).build();

        // 设置表的schema

        List<ColumnSchema> columns = new LinkedList<ColumnSchema>();

        columns.add(newColumn("CompanyId", Type.INT32, true));

        columns.add(newColumn("WorkId", Type.INT32, false));

        columns.add(newColumn("Name", Type.STRING, false));

        columns.add(newColumn("Gender", Type.STRING, false));

        columns.add(newColumn("Photo", Type.STRING, false));

        Schema schema = new Schema(columns);

        //创建表时提供的所有选项

        final CreateTableOptions options = new CreateTableOptions();

        //设置备份数

        options.setNumReplicas(1) ;

        //设置范围分区的分区规则

        List<String> parcols = new LinkedList<String>();

        parcols.add("CompanyId") ;

        //设置按照哪个字段进行range分区

        options.addHashPartitions(parcols , 10);

        options.setRangePartitionColumns(parcols);

        /**

         * 设置range的分区范围

         * 分区1：0 < value < 10

         * 分区2：10 <= value < 20

         * 分区3：20 <= value < 30

         * ........

         * 分区9：80 <= value < 90

         * */

        int count = 0 ;

        for(int i=1 ; i< 10 ; i++){

            PartialRow lower = schema.newPartialRow();

            lower.addInt("CompanyId" , count);

            PartialRow upper = schema.newPartialRow();

            count += 10;

            upper.addInt("CompanyId" , count);

            options.addRangePartition(lower , upper);

        }

        try {

            client.createTable("MultilevelTable" , schema , options);

        } catch (KuduException e) {

            e.printStackTrace();

        }finally {

            try {

                client.close();

            } catch (KuduException e) {

                e.printStackTrace();

            }

        }

    }

}

哈希分区有利于最大限度地提高写入吞吐量，而范围分区可避免 tablet 无限增长的问题；hash分区和range分区结合，可以极大提升kudu性能

kudu的分区方式的更多相关文章

linux大于2T的磁盘使用GPT分区方式
MBR(Master Boot Record)(主引导记录)和GPT(GUID Partition Table)(GUID意为全局唯一标识符)是在磁盘上存储分区信息的两种不同方式对于传统的MBR分区 ...
Linux 常用分区方式
1 分两个区主目录:/ 交换分区:swap 2 常用分区方式,以使用100G空间安装linux为例引导分区: 挂载点/boot,分区格式ext4,500M以内即可交换分区: 无挂载点,分区格式选 ...
Linux分区方式及关闭iptables和selinux的方式
分区方式一般有三种第一种:数据不是很重要 /boot(系统的引导分区): 系统引导的信息/软件系统的内核 200M swap( 交换分区): 为了避免系统内存用光了导致系统宕机如果系统内存 ...
mac+win10：UEFI分区方式下安装windows 10
小编,最近通过在远景论坛上寻找教程--安装双系统(win10+mac os).经过一天努力,成功安装win10.为此,特地分享给各位正在需求教程的朋友,我在UEFI分区方式下安装windows 10的 ...
mysql分区功能（三个文件储存一张表）（分区作用）（分区方式）
mysql分区功能(三个文件储存一张表)(分区作用)(分区方式) 一.总结 1.mysql数据表的存储方式(三个文件储存一张表): 一张表主要对应着三个文件,一个是frm存放表结构的,一个是myd存放 ...
linux初学者-磁盘分区方式篇
linux初学者-磁盘分区方式篇一般的计算机都会采用mbr分区方式,这种分区方式只能够建立四个主分区,如果还需要或更多的分区,就需要将其中一个主分区建立成一个扩展分区,在里面建立逻辑分区,这些分区信 ...
Linux-两种磁盘分区方式
Linux文件设备要理解Linux,首先要理解Linux文件结构在Linux操作系统中,几乎所有的设备都位于/dev目录中名称作用位置 SATA接口电脑硬盘接口 /dev/sd[a-p] ...
一步一步安装UEFI分区方式的windows 10 企业版
发现很多坛友不会安装UEFI分区的windows 10 从启动设置,到分区,到最后的引导与激活都是很大的问题. 在我看来这是最不容易出错的安装方式适合于刚刚上手的菜鸟,自己按照图片一步一步的就可以安装 ...
Linux学习2-Linux分区方式
1.磁盘分区磁盘分区是使用分区编辑器(partition editor)在磁盘上划分几个逻辑部分.碟片一旦划分成数个分区(partition),不同类的目录与文件可以存储进不同的分区. 未经过分类整 ...

随机推荐

生产环境elasticsearch5.0报错IllegalArgumentException: number of documents in the index cannot exceed 2147483519的处理
最近几天的push:user:req数据写不到集群,报错如下: [--13T09::,][DEBUG][o.e.a.b.TransportShardBulkAction] [yunva_etl_es8 ...
centOS docker运行Asp.net Core程序
[root@localhost chenhua]# docker run -it --rm -p : --name aspnetcore_sample microsoft/dotnet-samples ...
ASP.NET Core之NLog使用
1.新建ASP.NET Core项目 1.1选择项目 1.2选择.Net版本 2. 添加NLog插件 2.1 通过Nuget安装 2.2下载相关的插件 3.修改NLog配置文件 3.1添加NLog配置 ...
【算法】二分查找法&大O表示法
二分查找基本概念二分查找是一种算法,其输入是一个有序的元素列表.如果要查找的元素包含在列表中,二分查找返回其位置:否则返回null. 使用二分查找时,每次都排除一半的数字对于包含n个元素的列表, ...
查看当前APP打开的是哪个Activity
按下 “window键+R键” 打开电脑的 “运行” 窗口,输入“cmd”,进入你的adb.exe所在的目录,输入 “ adb shell "dumpsys window | grep mC ...
Struts2配置拦截器
<package name="loginaction" namespace="/" extends="struts-default"& ...
bootstrap栅格系统中同行div高度不一致的解决方法
通过div底部的margin和padding实现,缺点:下边框无法完整显示,建议在无边框情况下使用 .row{ overflow: hidden; } [class*="col-" ...
Cropper.js使用笔记
官网:https://fengyuanchen.github.io/cropperjs/ github:https://github.com/fengyuanchen/cropperjs 由于文档不好 ...
FormData中delete方法在ios不兼容
1.移动端直接用的input的file上传图片(name=“file”必填) <input type="file" id="exampleInputFile1&qu ...
高级UI特效—用SVG码造一个精美的中国地图
前言来继续学习SVG,要想深入了解还是要多动手进行实战.关于svg基础可以去看一下我的上一篇文章<SVG前戏—让你的View多姿多彩>,今天就用SVG打造一个精美的UI效果. 正文先上 ...