ClickHouse基本操作(一)
常用SQL
创建表
| 
 1 
2 
3 
4 
5 
6 
7 
 | 
 CREATE TABLE b6logs( 
eventDate Date, 
impid UInt64, 
uid String, 
idfa String, 
imei String 
) ENGINE=MergeTree(eventDate, (impid, eventDate), 8192) 
 | 
一般情况下, 都建议使用 MergeTree 引擎. 这个引擎必须要有一个 Date 的列来作为索引, 即上面的 eventDate.
导入CSV数据
| 
 1 
 | 
 cat xxx.csv | clickhouse-client --query="INSERT INTO b6logs FORMAT CSV"; 
 | 
指定分隔符
| 
 1 
 | 
 cat xxx.csv | clickhouse-client --format_csv_delimiter="|" --query="INSERT INTO b6logs FORMAT CSV"; 
 | 
导入数据时忽略错误
| 
 1 
 | 
 clickhouse-client --input_format_allow_errors_num=100000 --input_format_allow_errors_ratio=0.2  
 | 
--input_format_allow_errors_num : 是允许的错误数
--input_format_allow_errors_ratio : 是允许的错误率, 范围是 [0-1]
导出 CSV 数据
| 
 1 
 | 
 clickhouse-client --query="select uid, idfa, imei from (select impid, uid from b2logs where impid >= 15289903030261609347 and impid <= 15289904230261609347) any inner join (select impid, idfa, imei from b6logs where impid >= 15289903030261609347 and impid <= 15289904230261609347) using(impid) format CSV" > 9c9dc608-269b-4f02-b122-ef5dffb2669d.log 
 | 
即语法为 select xxxx format CSV
重命名表
| 
 1 
 | 
 rename table tbl1 to btl2; 
 | 
删除表
| 
 1 
 | 
 drop table tbl; 
 | 
添加列
| 
 1 
 | 
 alter table dsp_statis add column cost UInt32 default 0; 
 | 
查看表结构
| 
 1 
 | 
 desc tbl; 
 | 
更多语法, 参考官方文档. https://clickhouse.yandex/docs/en/query_language/queries/
MergeTree 引擎中删除分区
注意, 默认情况下 mergeTree 引擎是按月分区的, 删除分区的格式为
201808
如果想修改为按日分区, 则在建表时加上:
| 
 1 
2 
3 
 | 
 ENGINE = MergeTree PARTITION BY eventDate ORDER BY imp_id SETTINGS index_granularity = 8192; 
然后就可以: 
alter table xxx drop partition '2018-08-08'; 
 | 
默认情况下, Clickhouse 不允许删除分区或表的大小大于 50GB 的分区或表. 可以通过修改server的配置文件来永久配置. 也可以临时设置一下来删除而不用重启服务.
永久配置
| 
 1 
2 
3 
4 
5 
6 
7 
8 
 | 
 sudo vim /etc/clickhouse-server/config.xml 
然后注释掉下面两行 
<!-- <max_table_size_to_drop>0</max_table_size_to_drop> --> 
<!-- <max_partition_size_to_drop>0</max_partition_size_to_drop> --> 
0表示不限制. 或者你可以设置为你想限制的最大的大小. 
 | 
临时设置
创建个标志文件:
| 
 1 
 | 
 sudo touch '/home/username/clickhouse/flags/force_drop_table' && sudo chmod 666 '/home/username/clickhouse/flags/force_drop_table' 
 | 
创建好之后, 就可以执行上面的删除分区或表的命令了.
查看表大小
| 
 1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
 | 
 SELECT 
database, 
table, 
formatReadableSize(size) AS size, 
formatReadableSize(bytes_on_disk) AS bytes_on_disk, 
formatReadableSize(data_uncompressed_bytes) AS data_uncompressed_bytes, 
formatReadableSize(data_compressed_bytes) AS data_compressed_bytes, 
compress_rate, 
rows, 
days, 
formatReadableSize(avgDaySize) AS avgDaySize 
FROM 
( 
SELECT 
database, 
table, 
sum(bytes) AS size, 
sum(rows) AS rows, 
min(min_date) AS min_date, 
max(max_date) AS max_date, 
sum(bytes_on_disk) AS bytes_on_disk, 
sum(data_uncompressed_bytes) AS data_uncompressed_bytes, 
sum(data_compressed_bytes) AS data_compressed_bytes, 
(data_compressed_bytes / data_uncompressed_bytes) * 100 AS compress_rate, 
max_date - min_date AS days, 
size / (max_date - min_date) AS avgDaySize 
FROM system.parts 
WHERE active 
GROUP BY 
database, 
table 
ORDER BY 
database ASC, 
size DESC 
) 
 | 
执行 SQL 文件
| 
 1 
 | 
 clickhouse-client -d 数据库 --multiquery < /tmp/your.sql.file 
 | 
查看分区信息
| 
 1 
 | 
 select partition, name, active from system.parts WHERE table = 'visits' 
 | 
性能相关收集
join 表性能
切记, 要用大表 join 小表. (不知道具体为什么, 从经验上看, 用大表作为驱动表, 性能远远快于用小表作为驱动表). (MySQL 里的话, 则是小表驱动大表).
优化 distinct count
之前
| 
 1 
 | 
 select yob, count(), count(distinct uid, idfa, imei) from nginx_bid_log where eventDate='2018-9-1' group by yob; 
 | 
之后
| 
 1 
 | 
 select yob, count(), count(distinct(sipHash64(concat(uid, idfa, imei)))) from nginx_bid_log where eventDate='2018-9-1' group by yob; 
 | 
查看数据分布
| 
 1 
 | 
 select histogram(100)(upstream_resp_time) from (select upstream_resp_time from nginx_bid_log where eventDate = '2018-12-13') format CSV; 
 | 
histogram(100) 表示组距100 (即分成100等份的的分布) , 后面的
upstream_resp_time是你的列名, 即按这个列的数据来进行统计.
bar
| 
 1 
 | 
 select upstream_resp_time, bar(列名, 最小值, 最大, step) from tableXX; 
 | 
显示简单的图形.
hex 十六进制 转换为 十进制
| 
 1 
 | 
 SELECT reinterpretAsInt64(reverse(unhex('123'))); 
 | 
md5 分区
| 
 1 
2 
3 
4 
5 
 | 
 # 一 
SELECT reinterpretAsInt64(reverse(unhex(substring(md5_field, 1, 1)))); 
# 二, md5 => hex => 十进制 => 取模 
SELECT modulo(reinterpretAsInt64(reverse(unhex(substring(md5_field, 1, 1)))), 5); 
 | 
参考资料
ClickHouse基本操作(一)的更多相关文章
- ClickHouse基本操作(二)
		
一.先来说一下,ClickHouse为啥快 MySQL单条SQL是单线程的,只能跑满一个core,ClickHouse相反,有多少CPU,吃多少资源,所以飞快: ClickHouse不支持事务,不存在 ...
 - clickhouse基本操作一
		
常用SQL 创建表 1 2 3 4 5 6 7 CREATE TABLE b6logs( eventDate Date, impid UInt64, uid String, idfa String, ...
 - clickhouse分布式集群
		
一.环境准备: 主机 系统 应用 ip ckh-01 centos 8 jdk,zookeeper,clickhouse 192.168.205.190 ckh-02 centos 8 jdk,zoo ...
 - 列式数据库~clickhouse 场景以及安装
		
一 简介:列式数据库clickhouse的安装与基本操作二 基本介绍:ClickHouse来自俄罗斯,是一款列式数据库三 适用场景: 简单类型的大数据统计四 限制 1 不支持更新操作,不支持事 ...
 - Key/Value之王Memcached初探:二、Memcached在.Net中的基本操作
		
一.Memcached ClientLib For .Net 首先,不得不说,许多语言都实现了连接Memcached的客户端,其中以Perl.PHP为主. 仅仅memcached网站上列出的语言就有: ...
 - Android Notification 详解(一)——基本操作
		
Android Notification 详解(一)--基本操作 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/Notification 文中如有纰 ...
 - Android Notification 详解——基本操作
		
Android Notification 详解 版权声明:本文为博主原创文章,未经博主允许不得转载. 前几天项目中有用到 Android 通知相关的内容,索性把 Android Notificatio ...
 - 三、Redis基本操作——List
		
小喵的唠叨话:前面我们介绍了Redis的string的数据结构的原理和操作.当时我们提到Redis的键值对不仅仅是字符串.而这次我们就要介绍Redis的第二个数据结构了,List(链表).由于List ...
 - 二、Redis基本操作——String(实战篇)
		
小喵万万没想到,上一篇博客,居然已经被阅读600次了!!!让小喵感觉压力颇大.万一有写错的地方,岂不是会误导很多筒子们.所以,恳请大家,如果看到小喵的博客有什么不对的地方,请尽快指正!谢谢! 小喵的唠 ...
 
随机推荐
- PC端软件配置
			
一,cmder软件安装 二,Snipaste软件安装 三,vwmare虚拟机安装 四,sublime安装 五,notepad++安装 六,Python环境 anaconda navigator安装 七 ...
 - webpack从零的实践(新手良药)
			
1. 什么是webpack? 本质上,webpack是一个现代javascript应用程序的静态模块打包器.webpack处理应用程序时,它会递归地构建一个依赖关系图(dependency graph ...
 - IP协议及其它的小弟 ,我保证没人会看的
			
IP协议及其它的小弟 IP协议:127.0.0.1就一个32位的标识符.实际上: 类似这样的: 精神小伙慢慢看吧.我赌一包辣条你是不会认真看完的. IP协议的构成 地址解析协议 ARP 前面的叙述中我 ...
 - Sentinel源码解析三(滑动窗口流量统计)
			
前言 Sentinel的核心功能之一是流量统计,例如我们常用的指标QPS,当前线程数等.上一篇文章中我们已经大致提到了提供数据统计功能的Slot(StatisticSlot),StatisticSlo ...
 - 用C++验证三门问题
			
三门问题(换门): #include <iostream> #include <cstdlib> #include <ctime> #define random(a ...
 - 在php文件中xml格式
			
本人是小白,有错误的地方请指正,勿喷! 在写一个调查问卷的过程中用到了xml文件,如想要了解,可以通过以下链接简单学习:http://www.w3school.com.cn/xml/ 所用工具:php ...
 - Apache Module mod_reqtimeout
			
Apache Module mod_reqtimeout Available Languages: en Description: Set timeout and minimum data rate ...
 - CF834D
			
题目链接:http://codeforces.com/contest/834/problem/D 题目大意:将一个有n个数的数列分成k段,每段的价值为该段中不同数字的个数,求k段的最大总价值. 解题思 ...
 - CentOS7初始化服务器开发环境——根据个人习惯而定
			
目录 修改hostname 创建个人账户和组 修改hostname 编辑主机名称,注意:执行以下指令,无需重启服务器,因为此指令实时写入linux 内核 hostnamectl --static se ...
 - 【JUC】CyclicBarrier和Semaphore的使用
			
CyclicBarrier的使用 CyclicBarrier:可以让一组检测到一个屏障时被阻塞,直到最后一个线程到达屏障时,屏障才会开门,所有的屏障拦截的线程才会继续执行,线程进入屏障通过Cyclic ...