常用SQL

创建表

CREATE TABLE b6logs(

eventDate Date,

impid UInt64,

uid String,

idfa String,

imei String

) ENGINE=MergeTree(eventDate, (impid, eventDate), 8192)

一般情况下, 都建议使用 MergeTree 引擎. 这个引擎必须要有一个 Date 的列来作为索引, 即上面的 eventDate.

导入CSV数据

1	cat xxx.csv \| clickhouse-client --query="INSERT INTO b6logs FORMAT CSV";

指定分隔符

1	cat xxx.csv \| clickhouse-client --format_csv_delimiter="\|" --query="INSERT INTO b6logs FORMAT CSV";

导入数据时忽略错误

1	clickhouse-client --input_format_allow_errors_num=100000 --input_format_allow_errors_ratio=0.2

--input_format_allow_errors_num : 是允许的错误数

--input_format_allow_errors_ratio : 是允许的错误率, 范围是 [0-1]

导出 CSV 数据

clickhouse-client --query="select uid, idfa, imei from (select impid, uid from b2logs where impid >= 15289903030261609347 and impid <= 15289904230261609347) any inner join (select impid, idfa, imei from b6logs where impid >= 15289903030261609347 and impid <= 15289904230261609347) using(impid) format CSV" > 9c9dc608-269b-4f02-b122-ef5dffb2669d.log

即语法为 select xxxx format CSV

重命名表

1	rename table tbl1 to btl2;

删除表

1	drop table tbl;

添加列

1	alter table dsp_statis add column cost UInt32 default 0;

查看表结构

desc tbl;

更多语法, 参考官方文档. https://clickhouse.yandex/docs/en/query_language/queries/

MergeTree 引擎中删除分区

注意, 默认情况下 mergeTree 引擎是按月分区的, 删除分区的格式为 201808

如果想修改为按日分区, 则在建表时加上:

ENGINE = MergeTree PARTITION BY eventDate ORDER BY imp_id SETTINGS index_granularity = 8192;

然后就可以:

alter table xxx drop partition '2018-08-08';

默认情况下, Clickhouse 不允许删除分区或表的大小大于 50GB 的分区或表. 可以通过修改server的配置文件来永久配置. 也可以临时设置一下来删除而不用重启服务.

永久配置

sudo vim /etc/clickhouse-server/config.xml

然后注释掉下面两行

0表示不限制. 或者你可以设置为你想限制的最大的大小.

临时设置

创建个标志文件:

1	sudo touch '/home/username/clickhouse/flags/force_drop_table' && sudo chmod 666 '/home/username/clickhouse/flags/force_drop_table'

创建好之后, 就可以执行上面的删除分区或表的命令了.

查看表大小

SELECT

database,

table,

formatReadableSize(size) AS size,

formatReadableSize(bytes_on_disk) AS bytes_on_disk,

formatReadableSize(data_uncompressed_bytes) AS data_uncompressed_bytes,

formatReadableSize(data_compressed_bytes) AS data_compressed_bytes,

compress_rate,

rows,

days,

formatReadableSize(avgDaySize) AS avgDaySize

FROM

(

SELECT

database,

table,

sum(bytes) AS size,

sum(rows) AS rows,

min(min_date) AS min_date,

max(max_date) AS max_date,

sum(bytes_on_disk) AS bytes_on_disk,

sum(data_uncompressed_bytes) AS data_uncompressed_bytes,

sum(data_compressed_bytes) AS data_compressed_bytes,

(data_compressed_bytes / data_uncompressed_bytes) * 100 AS compress_rate,

max_date - min_date AS days,

size / (max_date - min_date) AS avgDaySize

FROM system.parts

WHERE active

GROUP BY

database,

table

ORDER BY

database ASC,

size DESC

)

执行 SQL 文件

1	clickhouse-client -d 数据库 --multiquery < /tmp/your.sql.file

查看分区信息

1	select partition, name, active from system.parts WHERE table = 'visits'

性能相关收集

join 表性能

切记, 要用大表 join 小表. (不知道具体为什么, 从经验上看, 用大表作为驱动表, 性能远远快于用小表作为驱动表). (MySQL 里的话, 则是小表驱动大表).

优化 distinct count

之前

1	select yob, count(), count(distinct uid, idfa, imei) from nginx_bid_log where eventDate='2018-9-1' group by yob;

之后

1	select yob, count(), count(distinct(sipHash64(concat(uid, idfa, imei)))) from nginx_bid_log where eventDate='2018-9-1' group by yob;

查看数据分布

1	select histogram(100)(upstream_resp_time) from (select upstream_resp_time from nginx_bid_log where eventDate = '2018-12-13') format CSV;

histogram(100) 表示组距100 (即分成100等份的的分布) , 后面的 upstream_resp_time 是你的列名, 即按这个列的数据来进行统计.

bar

1	select upstream_resp_time, bar(列名, 最小值, 最大, step) from tableXX;

显示简单的图形.

hex 十六进制转换为十进制

1	SELECT reinterpretAsInt64(reverse(unhex('123')));

md5 分区

# 一

SELECT reinterpretAsInt64(reverse(unhex(substring(md5_field, 1, 1))));

# 二, md5 => hex => 十进制 => 取模

SELECT modulo(reinterpretAsInt64(reverse(unhex(substring(md5_field, 1, 1)))), 5);

参考资料

ClickHouse基本操作（一）的更多相关文章

ClickHouse基本操作（二）
一.先来说一下,ClickHouse为啥快 MySQL单条SQL是单线程的,只能跑满一个core,ClickHouse相反,有多少CPU,吃多少资源,所以飞快: ClickHouse不支持事务,不存在 ...
clickhouse基本操作一
常用SQL 创建表 1 2 3 4 5 6 7 CREATE TABLE b6logs( eventDate Date, impid UInt64, uid String, idfa String, ...
clickhouse分布式集群
一.环境准备: 主机系统应用 ip ckh-01 centos 8 jdk,zookeeper,clickhouse 192.168.205.190 ckh-02 centos 8 jdk,zoo ...
列式数据库~clickhouse 场景以及安装
一简介:列式数据库clickhouse的安装与基本操作二基本介绍:ClickHouse来自俄罗斯,是一款列式数据库三适用场景: 简单类型的大数据统计四限制 1 不支持更新操作,不支持事 ...
Key/Value之王Memcached初探：二、Memcached在.Net中的基本操作
一.Memcached ClientLib For .Net 首先,不得不说,许多语言都实现了连接Memcached的客户端,其中以Perl.PHP为主. 仅仅memcached网站上列出的语言就有: ...
Android Notification 详解（一）——基本操作
Android Notification 详解(一)--基本操作版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰源码:AndroidDemo/Notification 文中如有纰 ...
Android Notification 详解——基本操作
Android Notification 详解版权声明:本文为博主原创文章,未经博主允许不得转载. 前几天项目中有用到 Android 通知相关的内容,索性把 Android Notificatio ...
三、Redis基本操作——List
小喵的唠叨话:前面我们介绍了Redis的string的数据结构的原理和操作.当时我们提到Redis的键值对不仅仅是字符串.而这次我们就要介绍Redis的第二个数据结构了,List(链表).由于List ...
二、Redis基本操作——String(实战篇)
小喵万万没想到,上一篇博客,居然已经被阅读600次了!!!让小喵感觉压力颇大.万一有写错的地方,岂不是会误导很多筒子们.所以,恳请大家,如果看到小喵的博客有什么不对的地方,请尽快指正!谢谢! 小喵的唠 ...

随机推荐

Mockito如何mock一条链式调用
在写单元测试的时候,不免可能需要mock一些对象出来,并且mock一些方法调用去返回一个自己想要的对象.一般的使用是这样的: FinalPumpkin pumpkin = mock(FinalPump ...
spark机器学习从0到1协同过滤算法 (九）
一.概念协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法. 基于用户的协同过滤算法和基于项目的协同过滤算法 1.1.以用户为基础(User-based)的协同过滤用相似统 ...
从模块化到认识Babel
转载自:https://www.cnblogs.com/qcloud1001/p/10167756.html https://blog.csdn.net/a250758092/article/deta ...
vue中事件代理
由于在vue实例内部,this指向了实例本身,所以在编写事件代理的时候,用e.currentTarget引用绑定事件代理的元素,e.target引用事件目标元素.刚刚不注意想用this引用代理元素报错 ...
Colorful String
Colorful String #include <bits/stdc++.h> using namespace std; typedef long long ll; ; char s[m ...
scrapy请求发送详解
scrapy自动发送请求对start_urls列表中存储的起始url进行过请求的发送并没有通过手动实现,但是在parse函数中还是获取到了响应数据,这是因为爬虫文件中的爬虫类继承到了Spider父类 ...
Django操作cookie实例
cookie项目文件: templates模板: login.html {% load static %} <!DOCTYPE html> <html lang="en& ...
疯狂VirtualBox实战讲学录以及 virtualbox完全学习手册之我见
都是是很专业,并钻石得很深的内容,但,有些事情是交替进行着的深入,太专注于VIRTUAL BOX就必要要牺牲其它的东西.
php连接数据库需要下载adodb
<?include('adodb/ADOdb.inc.php'); # 加载ADODB$conn = &ADONewConnection('odbc_mssql'); # 建立一个连结$ ...
poi——读取excel数据
单元格类型读取Excel数据 package com.java.test.poi; import java.io.File; import java.io.FileInputStream; impo ...

ClickHouse基本操作（一）

常用SQL

创建表

导入CSV数据

指定分隔符

导入数据时忽略错误

导出 CSV 数据

重命名表

删除表

添加列

查看表结构

MergeTree 引擎中删除分区

永久配置

临时设置

查看表大小

执行 SQL 文件

查看分区信息

性能相关收集

join 表性能

优化 distinct count

查看数据分布

bar

hex 十六进制 转换为 十进制

md5 分区

参考资料

ClickHouse基本操作（一）的更多相关文章

随机推荐

热门专题

hex 十六进制转换为十进制