前言

Data Lake Analytics（后文简称DLA）提供了无服务化的大数据分析服务，帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。

在关系型数据库中，用户可以对大数据量的表进行分区，提高查询的性能。同样在DLA中，用户可以使用分区表将数据进行细化，达到缩短查询响应时间的目的。

本文将以OSS数据源为例，详细介绍如何在DLA中创建和使用分区表。

创建分区表

在DLA中，创建一张分区表需要在建表语句中指定 PARTITIONED BY，例如
创建一张名为tbl3_part的分区表，该表有两个分区列，分别为p和q。

CREATE EXTERNAL TABLE tbl3_part

(foo int, bar string)

PARTITIONED BY (p string, q string)

STORED AS TEXTFILE

LOCATION 'oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/';

分区表在OSS上的目录结构

DLA可以将存储在OSS上的目录或文件映射成一张表。表中的数据就是OSS中的文件内容。

对于分区表来说，分区列对应OSS上的目录，而且是有特殊命名规则的目录：

分区列对应表的LOCATION下的一个子目录，目录的命名规则为 分区列名=分区值
如果有多个分区列，则需要按照建表语句中指定的分区列的顺序依次嵌套

对于上面例子中的建表语句，OSS上的目录结构为：

$osscmd ls oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3

prefix list is:

object list is:

2018-08-08 14:23:17 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/p=3/q=3/kv1.txt

2018-08-08 18:01:08 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/p=30/q=30/kv1.txt

使用MSCK命令更新分区信息

建表成功后，需要执行 MSCK REPAIR TABLE 命令，将分区信息同步到DLA中。

MSCK REPAIR TABLE tbl3_part；

执行MSCK成功后，通过 SHOW PARTITIONS 语句可以看到表中所有的分区信息。

mysql> show partitions tbl3_part;

+-----------+

| Result    |

+-----------+

| p=3/q=3   |

| p=30/q=30 |

+-----------+

MSCK只能识别符合DLA分区列命名规则的目录，即分区列的目录名为分区列名=分区列值。
因此，当OSS上的分区目录发上变化时，执行MSCK命令，DLA可以根据OSS中当前分区值信息自动同步。

使用ALTER命令添加/删除分区

对于已经存在的但是不满足DLA分区列命名规则的目录，用户可以通过 ALTER命令更新表的分区信息。

添加分区

语法：

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location'][, PARTITION partition_spec [LOCATION 'location'], ...];

partition_spec:

  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

可以一次指定添加多个分区，分区之间用逗号分隔。
示例，

ALTER TABLE order_part ADD

    PARTITION (dt='2008-08-08', status='ready') location '/path/to/ready/part080808',

    PARTITION (dt='2008-08-09', status='new') location '/path/to/new/part080809';

对于上面的语句，

如果新增的分区已经存在，则执行失败，报错 "Partition already exists";
如果使用了 [IF NOT EXISTS], 当新增分区已存在时，执行不会报错，新的LOCATION会覆盖掉原有分区所指向的目录；

删除分区

语法：

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec[, PARTITION partition_spec, ...];

可以一次指定删除多个分区，分区之间用逗号分隔。
示例，

ALTER TABLE order_part DROP

    PARTITION (dt='2008-08-08', status='ready');

对于上面的语句，

如果删除的分区不存在，执行不会报错;
如果使用了 [IF EXISTS], 当删除分区不存在时，执行不会报错；
DROP 分区目前只支持 "分区列=分区值" 的指定方式。不支持分区值是一个表达式，比如 partitionCol > 100；
如果删除的分区目录名符合分区列名=分区列值的命名规则，执行MSCK命令仍会将已经删除的分区自动添加。

分区表查询

全表查询时，得到的是所有分区下的数据。

mysql> select count(*) from tbl3_part;

+-------+

| _col0 |

+-------+

|  1000 |

+-------+

当执行 SELECT * 时，可以发现分区列将以列的形式出现在表中定义的数据列的后面。

mysql> select * from tbl3_part limit 3;

+------+---------+------+------+

| foo  | bar     | p    | q    |

+------+---------+------+------+

|  238 | val_238 | 3    | 3    |

|   86 | val_86  | 3    | 3    |

|  311 | val_311 | 3    | 3    |

+------+---------+------+------+

查询时可以使用分区列做filter

mysql> select count(*) from tbl3_part where p='3';

+-------+

| _col0 |

+-------+

|   500 |

+-------+

注意事项

OSS上分区列的目录结构的嵌套顺序需要与表中定义的顺序一致
比如对于本文例子中的目录结构，下面的建表语句是错误的。

CREATE EXTERNAL TABLE tbl3_part

(col1 int, col2 string)

PARTITIONED BY (q string, p string)

STORED AS TEXTFILE

LOCATION 'oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/';

分区表只会扫描分区列所在目录下的数据.
对于下面的目录结构

$osscmd ls oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/

prefix list is:

object list is:

2018-08-08 14:23:56 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/kv1.txt

2018-08-08 14:23:48 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/p=4/kv2.txt

2018-08-08 14:23:40 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/p=4/q=4/kv3.txt

如果建表语句中指定的分区列为 p 和 q，则该表的数据文件只有 kv3.txt.
数据文件 kv1.txt 和 kv2.txt 将不会被计算在内。

如果有新增的OSS分区目录，则需要手动执行 MSCK REPAIR TABLE table_name 命令或者ALTER ADD PARTITION命令使其生效，再进行查询。

本文作者：金络

原文链接

本文为云栖社区原创内容，未经允许不得转载。

如何使用Data Lake Analytics创建分区表的更多相关文章

如何在Data Lake Analytics中使用临时表
前言 Data Lake Analytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品,可以对存储在OSS,OTS上的数据进行查询分析.相较于传统的数据分析产品,用户无需将数据重新 ...
使用Data Lake Analytics从OSS清洗数据到AnalyticDB
前提必须是同一阿里云region的Data Lake Analytics(DLA)到AnalyticDB的才能进行清洗操作: 开通并初始化了该region的DLA服务: 开通并购买了Analytic ...
Data Lake Analytics: 读/写PolarDB的数据
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于PolarDB的支持, PolarDB 是阿里云自研的下一代关系型分布式云原生数据库,100%兼容MySQL,存储容量最高 ...
Data Lake Analytics，大数据的ETL神器！
0. Data Lake Analytics(简称DLA)介绍数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake. ...
Data Lake Analytics: 使用DataWorks来调度DLA任务
DataWorks作为阿里云上广受欢迎的大数据开发调度服务,最近加入了对于Data Lake Analytics的支持,意味着所有Data Lake Analytics的客户可以获得任务开发.任务依赖 ...
使用Data Lake Analytics + OSS分析CSV格式的TPC-H数据集
0. Data Lake Analytics(DLA)简介关于Data Lake的概念,更多阅读可以参考:https://en.wikipedia.org/wiki/Data_lake 以及AWS和 ...
Data Lake Analytics账号和权限体系详细介绍
一.Data Lake Analytics介绍数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake.基于数据湖做分析 ...
使用Data Lake Analytics读/写RDS数据
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于RDS(目前支持 MySQL , SQLServer ,Postgres 引擎)的支持, 这篇教程带你玩转 DLA 的 R ...
Data Lake Analytics中OSS LOCATION的使用说明
前言 Data Lake Analytic(后文简称 DLA)可以帮助用户通过标准的SQL语句直接对存储在OSS.TableStore上的数据进行查询分析. 在查询前,用户需要根据数据文件的格式和内容 ...

随机推荐

[计蒜之道2019 复赛 A]外教 Michale 变身大熊猫
[计蒜之道2019 复赛 A]外教 Michale 变身大熊猫 Online Judge:2019计蒜之道复赛 A Label:LIS+线段树.树状数组+快速幂(模逆元) 题目描述题解: pre. ...
_strupr _wcsupr _mbsupr
将字符串转化为大写的形式(Convert a string to uppercase.)定义: char *_strupr( char *string ); wchar_t *_wcsupr( wch ...
php连接数据库插入数据
<form action="updata.php" method="post"> 姓名:<input type="text" ...
创建一个欢迎 cookie 利用用户在提示框中输入的数据创建一个 JavaScript Cookie，当该用户再次访问该页面时，根据 cookie 中的信息发出欢迎信息。
创建一个欢迎 cookie 利用用户在提示框中输入的数据创建一个 JavaScript Cookie,当该用户再次访问该页面时,根据 cookie 中的信息发出欢迎信息. <html> & ...
Java内功修炼系列一工厂模式
工厂模式是一种创建型模式,它提供了一种新的创建对象的方式,一般情况下我们都习惯用new关键字直接创建对象.有时候会遇到这种情况,我们需要根据具体的场景选择创建什么类型的对象,可能有多种类型都能选择,但 ...
Java虚拟机系列（一）---Java内存划分
Java和C++之间有一堵由内存管理和垃圾收集技术所围成的“高墙”,墙外的人想进去,墙内的人却想出来. ------摘自<深入理解Java虚拟机> 作为一个Java程序员,因为虚拟机的好 ...
修改CentOS6.5主机名引起MySQL5.6.35服务问题
本来是心血来潮修改CentOS6.5的主机名 /****** 修改CentOS6.5默认主机名 ******/ .备份系统网络配置文件 [root@localhost ~]# cp /etc/sysc ...
【One by one系列】一步步部署.net core应用
我们的目标: CentOS系统 nginx服务器 asp.net core应用 mysql服务器腾讯云服务器工具准备 [Xshell]--使用windwos下的工具Xshell,原理就是使用SHH ...
2019-8-31-dotnet-新项目格式与对应框架预定义的宏
title author date CreateTime categories dotnet 新项目格式与对应框架预定义的宏 lindexi 2019-08-31 16:55:58 +0800 201 ...
HDFS 数据存取策略

如何使用Data Lake Analytics创建分区表

前言