.Net轻松处理亿级数据--ClickHouse数据操作

该篇内容由个人博客点击跳转同步更新！转载请注明出处！

我不喜欢拿一堆数据的运行耗时来对比各个解决方案的性能等，有时候看一些测评长篇大论写耗时的一些对比，有时就差个几百毫秒我觉得也没啥必要，关键是好用就行，一切从简，我写博客也喜欢一切从简。

.Net操作Clickhouse的库比较少，大多数都是基于ClickHouse.ADO的一个封装，下面也主要介绍一下ClickHouse.ADO的使用，以及自己封装的一个库的使用。

前言

Clickhouse适用于大数据量分析，我的应用场景是每十秒从公交轨迹中取固定时间段数据分析一些情况，电脑配置就是普通的开发配置，总体数据轨迹量在3亿左右，处理的数据时间段在一天以内，取出的数据量在2.3万条左右。大家可以当个借鉴！

具体操作

一、简单的查询和新增以及批量新增（Clickhouse不推荐数据的编辑和删除此处就不再举例）

public class Demo

{

        private ClickHouseConnection GetConnection(string cstr= "Compress=True;CheckCompressedHash=False;Compressor=lz4;Host=ch-test.flippingbook.com;Port=9000;Database=default;User=andreya;Password=123")

        {

            var settings = new ClickHouseConnectionSettings(cstr);

            var cnn = new ClickHouseConnection(settings);

            cnn.Open();

            return cnn;

        }

        /*查询*/

        public void Select()

        {

            using (var cnn = GetConnection())

            {

                var reader = cnn.CreateCommand("SELECT * FROM test").ExecuteReader()

                ......省略

            }

        }

        /*增加*/

        public void Insert()

        {

            using (var cnn = GetConnection())

            {

                var cmd = cnn.CreateCommand("INSERT INTO test (date,x, arr)values ('2017-01-01',1,['a','b','c'])");

                cmd.ExecuteNonQuery();

            }

        }

        /*批量新增*/

        public void InsertBulk()

        {

            using (var cnn = GetConnection())

            {

                var cmd = cnn.CreateCommand("INSERT INTO test (date,x, values.name,values.value)values @bulk;");

                cmd.Parameters.Add(new ClickHouseParameter

                {

                    DbType = DbType.Object,

                    ParameterName = "bulk",

                    Value = new[]

                    {

                        new object[] {DateTime.Now, 1, new[] {"aaaa@bbb.com", "awdasdas"}, new[] {"dsdsds", "dsfdsds"}},

                        new object[] {DateTime.Now.AddHours(-1), 2, new string[0], new string[0]},

                    }

                });

                cmd.ExecuteNonQuery();

            }

        }

}

二、鉴于使用原始方法读取数据后转换的方式太麻烦，分页等也需要自己实现，所以写了一个帮助类，方便操作Clickhouse，点击跳转

使用方式也很简单，如下：

public HistoryModel GetHistories(string busid, string begindt, string enddt)

        {

            using (var helper = new ClickHouseHelper())

            {

                try

                {

                    HistoryModel historyModel = new HistoryModel();

                    historyModel.Histories = helper .ExecuteList<HistoriesModel>($"select mile,speed,lon,lat,direct,termtime from its.gps_MergeTree where termtime >='{begindt}' and termtime<='{enddt}' and busid={busid} order by termtime");

                    historyModel.Inouts = helper .ExecuteList<InoutModel>($"SELECT * FROM its.inout_t WHERE Adtime>='{begindt}' and Adtime<='{enddt}' and Busid={busid} order by Recvtime");

                    //clickhouse中取出来的时间默认会有时区的问题，这里需要手动转下本地的时区

                    historyModel.Histories.ForEach(u => u.termtime = DateTime.Parse(u.termtime).ToLocalTime().ToString("yyyy-MM-dd HH:mm:ss"));

                    historyModel.Inouts.ForEach(u => u.Recvtime = u.Recvtime.ToLocalTime());

                    return historyModel;

                }

                catch (Exception e)

                {

                    ckhelper.Dispose();

                    Console.WriteLine(e);

                    throw;

                }

            }

        }

三、一些小问题记录

时区问题

Clickhosue中取出来的时候会多8个小时，之前一度怀疑安装时服务器时区不对，但实际上都是正确的，只能手动将时间通过ToLocalTime转成本地时区
批量插数据

批量插数据的时候如果传入一个List的话，对应的类需要增加GetEnumerator方法，就像这样

public class Demo

{

     public string obu { get; set; }

     public int busid { get; set; }

     public string buscode { get; set; }

     public IEnumerator GetEnumerator()

        {

            yield return obu;

            yield return busid;

            yield return buscode;

            .....

        }

}

类型统一问题

具体参考我的这篇文章点击跳转

微信关注我哦！(转载注明出处)

.Net轻松处理亿级数据--ClickHouse数据操作的更多相关文章

.Net轻松处理亿级数据--clickhouse及可视化界面安装介绍
该篇内容由个人博客点击跳转同步更新!转载请注明出处! 前言我是在17年就听说过Clickhouse,那时还未接触过亿数据的运算,那时我在的小公司对于千万数据的解决方案还停留在分库分表,最好的也是使用 ...
超实用的mysql分库分表策略，轻松解决亿级数据问题
一.分库分表的背景在数据爆炸的年代,单表数据达到千万级别,甚至过亿的量,都是很常见的情景.这时候再对数据库进行操作就是非常吃力的事情了,select个半天都出不来数据,这时候业务已经难以维系.不得已 ...
NEO4J亿级数据导入导出以及数据更新
1.添加配置 apoc.export.file.enabled=true apoc.import.file.enabled=true dbms.directories.import=import db ...
基于Mysql数据库亿级数据下的分库分表方案
移动互联网时代,海量的用户数据每天都在产生,基于用户使用数据的用户行为分析等这样的分析,都需要依靠数据都统计和分析,当数据量小时,问题没有暴露出来,数据库方面的优化显得不太重要,一旦数据量越来越大时, ...
基于腾讯云存储COS的ClickHouse数据冷热分层方案
一.ClickHouse简介 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),支持PB级数据量的交互式分析,ClickHouse最初是为YandexMetrica ...
挑战海量数据：基于Apache DolphinScheduler对千亿级数据应用实践
点亮 ️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler 精彩回顾近期,初灵科技的大数据开发工程师钟霈合在社区活动的线 ...
MySQL使用pt-online-change-schema工具在线修改1.6亿级数据表结构
摘要:本文阐述了MySQL DDL 的问题现状.pt-online-schema-change的工作原理,并实际利用pt-online-schema-change工具在线修改生产环境下1.6亿级数 ...
通用技术 mysql 亿级数据优化
通用技术 mysql 亿级数据优化一定要正确设计索引一定要避免SQL语句全表扫描,所以SQL一定要走索引(如:一切的 > < != 等等之类的写法都会导致全表扫描) 一定要避免 lim ...
不停机不停服务，MYSQL可以这样修改亿级数据表结构
摘要:本文阐述了MySQL DDL 的问题现状.pt-online-schema-change的工作原理,并实际利用pt-online-schema-change工具在线修改生产环境下1.6亿级数 ...

随机推荐

Kubernetes容器日志收集
日志采集方式日志从传统方式演进到容器方式的过程就不详细讲了,可以参考一下这篇文章Docker日志收集最佳实践,由于容器的漂移.自动伸缩等特性,日志收集也就必须使用新的方式来实现,Kubernetes ...
docker安装完报错：Failed to start docker.service: Unit docker.service is masked
执行 systemctl start docker 报错 Failed to start docker.service: Unit docker.service is masked. 解决 syste ...
pycharm 取消连按两下shift出现的全局搜索
在来回切换中英文输入法的时候连按两下shift总是会蹦出来全局搜索框真的很是麻烦,现在是把这个框给禁用掉 1.按ctrl+shift+a,弹出搜索框2.输入registry,然后按回车3.找到“id ...
JDK1.8新特性——使用新的方式遍历集合
JDK1.8新特性——使用新的方式遍历集合摘要:本文主要学习了在JDK1.8中新增的遍历集合的方式. 遍历List 方法: default void forEach(Consumer<? su ...
vue学习笔记（二）：添加 element ui 插件
一.加载 ui element vue add element 加载过程及成功结果如下 > vue add element>
Jquery选择器个人总结
1.选择第一级子节点通过> 或者children方法实现 $('#XtraTabPage8>.datagrid-ftable') $('#XtraTabPage8').children( ...
依赖弹出框lhdaiglog的基于WebUploader批量上传图片
初始上传界面 //链接添加弹窗 html代码段↓ var msgcontent = ""; msgcontent += '<ul class="linkAddBox ...
[b0006] Spark 2.0.1 伪分布式搭建练手
环境: 已经安装好: hadoop 2.6.4 yarn 参考: [b0001] 伪分布式 hadoop 2.6.4 准备: spark-2.0.1-bin-hadoop2.6.tgz 下载地址: ...
02-Django项目创建
第一.Django项目创建 django-admin startproject 项目名 # 注意如果使用虚拟环境,创建应用必须先进入虚拟环境进入项目目录,tree看项目结构(此时提示tree com ...
v-bind是是否需要绑定某一个类名
v-bind 结合 css样式结合标签显示是否要显示出某个样式 <p :class="['bg','dx', {'lin':falg}]">{{ msg }}< ...

.Net轻松处理亿级数据--ClickHouse数据操作

前言

具体操作

微信关注我哦！(转载注明出处)

.Net轻松处理亿级数据--ClickHouse数据操作的更多相关文章

随机推荐

热门专题