简介:本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技术文章,将详细展开介绍 ClickHouse。

前言

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB 级的数据规模,简单的架构,被国内外公司广泛采用。

阿里云 EMR-OLAP 团队,基于开源 ClickHouse 进行了系列优化,提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。EMR ClickHouse 完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础上优化了 ClickHouse 的读写性能,提升了 ClickHouse 与 EMR 其他组件快速集成的能力。访问 ClickHouse - E-MapReduce - 阿里云 了解详情。

译者:何源(荆杭),阿里云计算平台事业部高级产品专家

ClickHouse 聚合函数和聚合状态

ClickHouse 可能有一个独特的功能——聚合状态(除了聚合函数外)。你可以参考  和  组合子的文档。

简而言之,许多数据库使用概率数据结构,例如 HyperLogLog(简称 HLL)。它用于唯一/去重计算,你可以在Spark、ElasticSearch、Flink、Postgres、BigQuery 和 Redis 等服务中看到它的效果。但通常你只能在聚合函数中应用此函数一次,例如查询每月唯一用户数——得到一个数字,这样就知足了。由于 HLL 结构没有对应的内部格式,因此无法重用预聚合或部分聚合的数据。而在 ClickHouse 中,你可以这样做,因为 HLL 结构是一致的。

ClickHouse 的速度非常快,其基本思路是处理原始数据而不是预聚合数据。但是让我们做个实验。例如,我们需要为上个月的唯一用户数计算一些指标。

设想:每天预聚合,然后汇总所有结果。这就是所谓的存储空间方法——以后你可以只汇总最后 30 个测量值来计算上个月的统计数据,或者只汇总最后 7 个测量值来计算上周的统计数据。

创建我们的预聚合表:

create table events_unique (
date Date,
group_id String,
client_id String,
event_type String,
product_id String,
value AggregateFunction(uniq, String)
) ENGINE = MergeTree(date, (group_id, client_id, event_type, product_id, date), 8192);

这里将我的聚合声明为 AggregateFunction(uniq, String)。我们关注的是一些独特的指标,这些指标是在 String 列上计算的(为了进一步优化,你可能应该使用 FixedString 或二进制数据)。

让我们将数据插入预聚合表:

INSERT INTO events_unique
SELECT date, group_id, client_id, event_type, product_id, uniqState(visitor_id) AS value
FROM events
GROUP BY date, group_id, client_id, event_type, product_id;

进行冒烟测试,确认其可以正常运行:

SELECT uniqMerge(value) FROM events_unique GROUP BY product_id;

现在让我们比较原始表和预聚合表的查询性能。原始查询:

SELECT uniq(visitor_id) AS c
FROM events
WHERE client_id = ‘aaaaaaaa’
AND event_type = ‘click’
AND product_id = ‘product1’
AND date >= ‘2017–01–20’
AND date < ‘2017–02–20’; ┌──────c─┐
│ 457954 │
└────────┘
1 rows in set. Elapsed: 0.948 sec. Processed 13.22 million rows, 1.61 GB (13.93 million rows/s., 1.70 GB/s.)

预聚合表的结果:

SELECT uniqMerge(value) AS c
FROM events_unique
WHERE client_id = ‘aaaaaaaa’
AND event_type = ‘click’
AND product_id = ‘product1’
AND date >= ‘2017–01–20’
AND date < ‘2017–02–20’; ┌──────c─┐
│ 457954 │
└────────┘
1 rows in set. Elapsed: 0.050 sec. Processed 39.39 thousand rows, 8.55 MB (781.22 thousand rows/s., 169.65 MB/s.)

结果表明,我们的处理时间缩短到 1/20。

在实践中,将物化视图与 AggregatingMergeTree 引擎结合使用,会比使用单独的表更方便。

总结

ClickHouse 可让你将聚合状态存储在数据库中,而不仅仅是存储在业务应用中,这有望带来颇具吸引力的性能优化和新用例。有关更多详细信息,请查看关于 AggregatingMergeTree 引擎的丰富文档。

后续

您已经了解了在 ClickHouse 中处理实时更新相关内容,本系列还包括其他内容:

原文链接

本文为阿里云原创内容,未经允许不得转载。

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态的更多相关文章

  1. 【SqlServer系列】聚合函数

    1   概述 本篇文章简要回顾SQL Server  聚合函数,MAX,MIN,SUM,AVG,SUM,CHECKSUM_EGG,COUNT,STDEV,STDEVP,VAR,VARP. 2   具体 ...

  2. Sql Server系列:聚合函数

    1 SUM SUM是一个求和函数,返回指定列值的总和.SUM 只能用于数字列. 其中忽略 Null 值. 语法 SUM ( [ ALL | DISTINCT ] expression ) OVER ( ...

  3. ClickHouse源码笔记5:聚合函数的源码再梳理

    笔者在源码笔记1之中分析过ClickHouse的聚合函数的实现,但是对于各个接口函数的实际如何共同工作的源码,回头看并没有那么明晰,主要原因是没有结合Aggregator的类来一起分析聚合函数的是如果 ...

  4. ClickHouse源码笔记1:聚合函数的实现

    由于工作的需求,后续笔者工作需要和开源的OLAP数据库ClickHouse打交道.ClickHouse是Yandex在2016年6月15日开源了一个分析型数据库,以强悍的单机处理能力被称道. 笔者在实 ...

  5. ClickHouse学习系列之三【配置文件说明】

    背景 最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统.在介绍了安装和用户权限管理之后,本文对其配置文件做下相关的 ...

  6. ClickHouse学习系列之五【系统库system说明】

    背景 之前介绍过ClickHouse相关的系列文章,现在ClickHouse已经能正常使用起来了,包括副本和分片.因为ClickHouse已经可以提供服务了,现在需要关心的就是服务期间该数据库的各项性 ...

  7. ClickHouse学习系列之八【数据导入迁移&同步】

    背景 在介绍了一些ClickHouse相关的系列文章之后,大致对ClickHouse有了比较多的了解.它是一款非常优秀的OLAP数据库,为了更好的来展示其强大的OLAP能力,本文将介绍一些快速导入大量 ...

  8. 微软BI 之SSAS 系列 - 多维数据集中度量值设计时的聚合函数 (累加性_半累加性和非累加性)

    在 SSAS 系列 - 实现第一个 Cube 以及角色扮演维度,度量值格式化和计算成员的创建 中主要是通过已存在的维度和事实数据创建了一个多维数据集,并同时解释了 Role-Playing Dimen ...

  9. SQL Server温故系列(4):SQL 查询之集合运算 & 聚合函数

    1.集合运算 1.1.并集运算 UNION 1.2.差集运算 EXCEPT 1.3.交集运算 INTERSECT 1.4.集合运算小结 2.聚合函数 2.1.求行数函数 COUNT 2.2.求和函数 ...

  10. Spark 系列(十一)—— Spark SQL 聚合函数 Aggregations

    一.简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSe ...

随机推荐

  1. python高级技术(IO模型)

    一 IO模型介绍 Linux环境下的network IO * blocking IO           阻塞IO    * nonblocking IO      非阻塞IO    * IO mul ...

  2. python基础十一(异常)

    1.什么是异常异常是程序发生错误的信号,程序一旦出错就会抛出异常,程序的运行随即终止1)异常处理的三个特征异常的追踪信息异常的类型异常的内容2.为何处理异常为了增强程序的健壮性,即便是程序运行过程中出 ...

  3. 记录--Loading 用户体验 - 加载时避免闪烁

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 在切换详情页中有这么一个场景,点击上一条,会显示上一条的详情页,同理,点击下一条,会显示下一条的详情页. 伪代码如下所示: 我们定义了一个 ...

  4. 记录--在Vue3这样子写页面更快更高效

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 在开发管理后台过程中,一定会遇到不少了增删改查页面,而这些页面的逻辑大多都是相同的,如获取列表数据,分页,筛选功能这些基本功能.而不 ...

  5. elasticsearch使用painless的一些简单例子

    目录 1.背景 2.准备数据 2.1 mapping 2.2 插入数据 3.例子 3.1 (update)更新文档 id=1 的文档,将 age 加 2岁 3.2 (update_by_query)如 ...

  6. KingbaseES date 数据类型的两种格式

    关于date 数据类型,Oracle 与 PostgreSQL 格式是不同的,Oracle 是 日期 + 时间的类型,而PG 则只有日期.KingbaseES Oracle 模式则同时实现了二者类型, ...

  7. Scala 递归和尾递归

    1 package com.atguigu.function 2 3 object Recursion { 4 def main(args: Array[String]): Unit = { 5 // ...

  8. C++简单实现vector

    向量 向量是序列容器,表示可以更改大小的数组. 就像数组一样,向量对其元素使用连续的存储位置,这意味着也可以使用指向其元素的常规指针上的偏移量来访问其元素,并且与数组一样高效.但与数组不同的是,它们的 ...

  9. ES6中模块化详解

    前言 因为ES6中的模块化是将来,所以就必须有必要好好的了解一下,学习一下,这篇文章就简单总结一下ES6中模块的概念,语法和用法.纯属个人总结,不喜勿喷. 下面我将通过a.js.b.js和c.js三个 ...

  10. 爱奇艺携手HMS Core,为用户打造更流畅的沉浸式观影体验

    本文分享于HMS Core开发者论坛<[开发者说]爱奇艺携手HMS Core,为用户打造更流畅.更沉浸的观影体验>采访稿整理. 爱奇艺是国内领先的视频播放平台,通过接入HMS Core H ...