Cassandra的数据模型类似于关系型数据库的模型，且提供了与SQL语言非常类似的CQL语言进行操作。

但是Cassandra的数据模型类似于多层键值对结构，与关系型数据库存在巨大差别。

本文基于: [cqlsh 5.0.1 | Cassandra 3.11.2 | CQL spec 3.4.4 | Native protocol v4]

多层KV结构
- 查询
- 排序
- 聚合
ALLOW FILTERING
次级索引

多层KV结构

Cassandra 的数据模型由 keyspace (类似关系型数据库里的database), column family（类似关系型数据库里的table), 主键（key）和列（column）组成。

对于一个 column family 不应该想象成关系型数据库中的表, 而是一个多层的key-value结构:

Map<PartitionKey, SortedMap<ClusteringKey, Column>>

我们使用CQL来描述:

create table table1 (

    key1 int,

    key2 int,

    content text,

    PRIMARY KEY ((key1), key2)

);

在上述CQL创建的表(column family)中，key1是 partition key, 而 key2 是 clustering key, key1 和 key2 称为主键(PRIMARY KEY)

Cassandra支持更复杂的表结构:

CREATE TABLE table2 (

    pkey1 int,

    pkey2 int,

    ckey1 int,

    ckey2 int,

    content text,

    PRIMARY KEY ((pkey1, pkey2), ckey1, ckey2)

);

此时的数据结构可以描述为:

Map<pkey1, Map<pkey2, SortedMap<ckey1, SortedMap<ckey2, content>>>>

作为一个分布式数据库, Cassandra 根据 partition key 决定数据如何在集群的各个节点上分区。clustering key 决定数据在分区内的排序。

查询

下文中将以 table2 为例介绍 cassadra 数据模型的特性。

从上文使用Map描述的表结构可知，我们无法根据非主键进行查询(如table2中的data):

SELECT * FROM table2 WHERE content='a'; -- error

SELECT * FROM table2 WHERE pkey1 = 1 AND content='a'; -- error

SELECT * FROM table2 WHERE pkey1 = 1 AND pkey2 = 1; -- right

通常情况下，在对形如((pkey1, pkey2), ckey1, ckey2)这样的主键列进行查询时需要注意:

partition key 仅支持精确查询(=, in), 不能进行范围查询(>, <, >=, <=)。注: Cassandra 不支持 != 查询。
涉及多个 partition key 的查询必须提供前置 partition key 的精确值。即若要查询 pkey2 则必须提供 pkey1 的精确值。
涉及 clustering key 的查询，必须提供所有 partition key 的精确值
涉及的 clustering key 不能跳跃，若要根据 ckey2 进行查询则必须提供 ckey1 的精确值

(请不要记忆上述结论，根据Cassandra的内部数据结构很容易明白可以进行什么样的查询)

下面根据具体示例说明。

仅涉及partition key:

SELECT * FROM table2 WHERE pkey1 = 1; -- right

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1; -- right

SELECT * FROM table2 WHERE pkey2=1; -- error

涉及一个 clustering key:

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1>0; -- right

SELECT * FROM table2 WHERE pkey1=1 AND ckey1>0; -- error

SELECT * FROM table2 WHERE ckey1=1; -- error

涉及多个 clusterin key：

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1=1 AND ckey2>0; -- right

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey2>0; -- error

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1>0 AND ckey2=1; --error

排序

Cassandra 支持查询结果按照 clustering key 进行排序，不过排序功能也非常有限:

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey1; -- right

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey1, ckey2; -- right

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey2; -- error

使用排序功能和涉及 clustering key 的查询一样，必须提供所有 partition key 的精确值(= 或 in 运算符)。这是因为 Cassandra 仅支持单个节点上数据的排序。

涉及多个 clustering key 的排序必须按照 clustering key 的顺序进行排序不能跳跃，即可以ORDER BY ckey1, ckey2, 不能ORDER BY ckey2。

默认情况下只能进行升序排列，即ORDER BY ckey1 ASC, ORDER BY ckey2。

这是因为Cassandra只能根据每个节点上"SortedMap"固有的顺序排列查询结果，不过我们可以在创建表时自定义排序规则:

CREATE TABLE table2 (

    pkey1 int,

    pkey2 int,

    ckey1 int,

    ckey2 int,

    content text,

    PRIMARY KEY ((pkey1, pkey2), ckey1, ckey2)

) WITH CLUSTERING ORDER BY(ckey1 DESC, ckey2 ASC);

聚合

Cassandra 允许根据主键列定义的顺序进行聚合:

SELECT count(*) FROM table2 GROUP BY pkey1; -- right

SELECT count(*) FROM table2 GROUP BY pkey1, pkey2; -- right

SELECT count(*) FROM table2 GROUP BY pkey1, pkey2, ckey1, ckey2; -- right

SELECT count(*) FROM table2 WHERE pkey1=1 GROUP BY pkey2; -- error

这种聚合可以对多个节点上的数据进行聚合处理。

对于带有WHERE条件的查询, Cassandra 仅支持对单个节点上的数据进行聚合，就是说必须提供 partition key 的精确值才能进行聚合:

SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey1; -- right

SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey1, ckey2; -- right

SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey2; -- error

SELECT count(*) FROM table2 WHERE pkey1=1 GROUP BY pkey2; -- error

这一点与 Cassandra 查询时的特征是一致的。

Cassandra 支持 sum, min, max, count, distinct 等聚合功能, 不支持HAVING语句。

ALLOW FILTERING

上文我们提到一些 Cassandra 不支持的查询:

SELECT * FROM table2 WHERE ckey1=1;

可以看到 Cassandra 的报错信息:

Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING

对于 Cassandra 多层嵌套KV的数据结构来说，不可能通过 key 查找到相应数据，只能搜索所有的数据来完成此查询。

对于一个有100万条数据表而言，ckey1=1的记录可能仅占5%, 此时 Cassandra 仍可以在可接受的时间内完成查询。但是，Cassandra 并不了解此查询需要搜索所有数据，因此需要操作者使用 ALLOW FILTERING 允许 Cassandra 扫描所有数据:

SELECT * FROM table2 WHERE ckey1=1 ALLOW FILTERING;

Cassandra 官方对于ALLOW FILTERING 进行了非常详尽的说明，可以参考ALLOW FILTERING explained。

作者提醒， ALLOW FILTERING 可能消耗大量时间和资源，请谨慎在生产环境下使用此功能。

次级索引

除了主键列之外我们可以为 clustering key 和普通的值建立次级索引(secondary index)。

次级索引是一个另外的key-value映射，可以根据索引列直接查找到数据。

创建索引:

CREATE INDEX idx_ckey1 on table2(ckey1);

CREATE INDEX idx_content on table2(content);

使用索引进行查询:

SELECT * FROM table2 WHERE ckey1=1; -- right

SELECT * FROM table2 WHERE content='a'; -- right

SELECT * FROM table2 WHERE ckey1>0; -- error

SELECT * FROM table2 WHERE pkey1=1 AND ckey1=1; --error

索引仅支持单独、精确查询，不支持范围查询或者与主键(其它索引)联合查询。

请阅读官方文档When to use an index，了解索引的使用场景。

Cassandra 数据模型的更多相关文章

Cassandra数据模型
Ⅰ.数据模型 1.1 Column 一组包含Name/Value Pair的数据叫Row,其中每一组Name/Value Pair叫Column Column是Cassandra最基本的数据结构,它是 ...
Cassandra 数据模型（基于CQL,解决胖列数量限制及灵活性问题）（1.1及以上版本）
文中主要交代Cassandra的编程模型及数据结构. 由于Cassandra版本数次更新,网上中文的资料已经有点过时,比较有代表性的比如ebuy那篇文章都已经过时了,于是自己找资料,结合官方博客写一篇 ...
Cassandra数据模型和模式(Schema)的配置检查
免责声明本文档提供了有关DataStax Enterprise(DSE)和Apache Cassandra的常规数据建模和架构配置建议.本文档需要DSE / Cassandra基本知识.它不能代替官 ...
Cassandra简介
在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了一种非常流行的图形数据库Neo4J的使用方法.而在本文中,我们将对另外一种类型的NoSQL数据库——Cassandra进行简单地介 ...
[转载] Cassandra入门框架模型总结
转载自http://asyty.iteye.com/blog/1202072 一.Cassandra框架二.Cassandra数据模型 Colum / Colum Family, SuperColum ...
开源软件：NoSql数据库 - 图数据库 Cassandra
转载原文:http://www.cnblogs.com/loveis715/p/5299495.html Cassandra简介在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了 ...
Cassandra标准列和超级列
列(column)是Cassandra数据模型中的最基本的数据结构单元.列是一个由列名(key).值(value).时间戳(timestamp)构成的三元组.在关系型数据库中,你需要先定义列的名称和和 ...
Cassandra基础
Apache Cassandra特性 Apache Cassandra由Facebook基于Amazon的Dynamo及其在Google的Bigtable上的数据模型设计开发的面相列的数据库,实现没有 ...
Cassandra 的数据存储结构——本质是SortedMap<RowKey, SortedMap<ColumnKey, ColumnValue>>
Cassandra 的数据存储结构 Cassandra 的数据模型是基于列族(Column Family)的四维或五维模型.它借鉴了 Amazon 的 Dynamo 和 Google's BigTab ...

随机推荐

rabbit初学之连接测试2
com.rabbitmq.client.ShutdownSignalException: connection error 发现,port是5672,不是15672(15672是后台管理平台的端口)
QQ网页弹窗
QQ网页弹窗 1.网址:http://shang.qq.com/v3/index.html 2.选推广工具,提示语随便写 3.建一个html 网页,并把代码拷进去. 4.双击网页,就可以打开了.(用E ...
ETL概念详解
ETL是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决策提供分析依据. ETL是BI项目重要的一个环节. 通常情况下,在 ...
Centos安装Grafana
下载:https://grafana.com/grafana/download $ wget wget https://s3-us-west-2.amazonaws.com/grafana-relea ...
背水一战 Windows 10 (87) - 文件系统: 获取文件的属性, 修改文件的属性, 获取文件的缩略图
[源码下载] 背水一战 Windows 10 (87) - 文件系统: 获取文件的属性, 修改文件的属性, 获取文件的缩略图作者:webabcd 介绍背水一战 Windows 10 之文件系统获 ...
MyBatis 源码分析 - 缓存原理
1.简介在 Web 应用中,缓存是必不可少的组件.通常我们都会用 Redis 或 memcached 等缓存中间件,拦截大量奔向数据库的请求,减轻数据库压力.作为一个重要的组件,MyBatis 自然 ...
HTML各个版本以及对应doctype
HTML发布的正式历史版本: 1.HTML2.0 2.HTML3.2 3.HTML4.0 4.HTML4.01 5.XHTML1.0 6.XHTML1.1 7.XHTML2.0 中途放弃,未完成 8 ...
一篇入门 -- Git
一. Git 介绍 Git作为一款分布式的==版本控制==工具,作为一名程序员,是必须要掌握的. 最初由林纳斯·托瓦兹(Linus Torvalds)创作,于2005年以GPL发布.最初目的是为更好地 ...
Android开发工程师文集-Android知识点讲解
前言大家好,给大家带来Android开发工程师文集-Android知识点讲解的概述,希望你们喜欢 WebView讲解一般通过Intent调用系统的浏览器: Uri uri = Uri.parse( ...
css3 动画与display:none冲突的解决方案
概述 css不能在display:none和display:block之间进行动画,并且也不能在height:0和height:auto之间进行动画.这里我研究了一下在display:none和dis ...

Cassandra 数据模型

多层KV结构

查询

排序

聚合

ALLOW FILTERING

次级索引

Cassandra 数据模型的更多相关文章

随机推荐

热门专题