.Net轻松处理亿级数据--ClickHouse数据操作

该篇内容由个人博客点击跳转同步更新！转载请注明出处！

我不喜欢拿一堆数据的运行耗时来对比各个解决方案的性能等，有时候看一些测评长篇大论写耗时的一些对比，有时就差个几百毫秒我觉得也没啥必要，关键是好用就行，一切从简，我写博客也喜欢一切从简。

.Net操作Clickhouse的库比较少，大多数都是基于ClickHouse.ADO的一个封装，下面也主要介绍一下ClickHouse.ADO的使用，以及自己封装的一个库的使用。

前言

Clickhouse适用于大数据量分析，我的应用场景是每十秒从公交轨迹中取固定时间段数据分析一些情况，电脑配置就是普通的开发配置，总体数据轨迹量在3亿左右，处理的数据时间段在一天以内，取出的数据量在2.3万条左右。大家可以当个借鉴！

具体操作

一、简单的查询和新增以及批量新增（Clickhouse不推荐数据的编辑和删除此处就不再举例）

public class Demo

{

        private ClickHouseConnection GetConnection(string cstr= "Compress=True;CheckCompressedHash=False;Compressor=lz4;Host=ch-test.flippingbook.com;Port=9000;Database=default;User=andreya;Password=123")

        {

            var settings = new ClickHouseConnectionSettings(cstr);

            var cnn = new ClickHouseConnection(settings);

            cnn.Open();

            return cnn;

        }

        /*查询*/

        public void Select()

        {

            using (var cnn = GetConnection())

            {

                var reader = cnn.CreateCommand("SELECT * FROM test").ExecuteReader()

                ......省略

            }

        }

        /*增加*/

        public void Insert()

        {

            using (var cnn = GetConnection())

            {

                var cmd = cnn.CreateCommand("INSERT INTO test (date,x, arr)values ('2017-01-01',1,['a','b','c'])");

                cmd.ExecuteNonQuery();

            }

        }

        /*批量新增*/

        public void InsertBulk()

        {

            using (var cnn = GetConnection())

            {

                var cmd = cnn.CreateCommand("INSERT INTO test (date,x, values.name,values.value)values @bulk;");

                cmd.Parameters.Add(new ClickHouseParameter

                {

                    DbType = DbType.Object,

                    ParameterName = "bulk",

                    Value = new[]

                    {

                        new object[] {DateTime.Now, 1, new[] {"aaaa@bbb.com", "awdasdas"}, new[] {"dsdsds", "dsfdsds"}},

                        new object[] {DateTime.Now.AddHours(-1), 2, new string[0], new string[0]},

                    }

                });

                cmd.ExecuteNonQuery();

            }

        }

}

二、鉴于使用原始方法读取数据后转换的方式太麻烦，分页等也需要自己实现，所以写了一个帮助类，方便操作Clickhouse，点击跳转

使用方式也很简单，如下：

public HistoryModel GetHistories(string busid, string begindt, string enddt)

        {

            using (var helper = new ClickHouseHelper())

            {

                try

                {

                    HistoryModel historyModel = new HistoryModel();

                    historyModel.Histories = helper .ExecuteList<HistoriesModel>($"select mile,speed,lon,lat,direct,termtime from its.gps_MergeTree where termtime >='{begindt}' and termtime<='{enddt}' and busid={busid} order by termtime");

                    historyModel.Inouts = helper .ExecuteList<InoutModel>($"SELECT * FROM its.inout_t WHERE Adtime>='{begindt}' and Adtime<='{enddt}' and Busid={busid} order by Recvtime");

                    //clickhouse中取出来的时间默认会有时区的问题，这里需要手动转下本地的时区

                    historyModel.Histories.ForEach(u => u.termtime = DateTime.Parse(u.termtime).ToLocalTime().ToString("yyyy-MM-dd HH:mm:ss"));

                    historyModel.Inouts.ForEach(u => u.Recvtime = u.Recvtime.ToLocalTime());

                    return historyModel;

                }

                catch (Exception e)

                {

                    ckhelper.Dispose();

                    Console.WriteLine(e);

                    throw;

                }

            }

        }

三、一些小问题记录

时区问题

Clickhosue中取出来的时候会多8个小时，之前一度怀疑安装时服务器时区不对，但实际上都是正确的，只能手动将时间通过ToLocalTime转成本地时区
批量插数据

批量插数据的时候如果传入一个List的话，对应的类需要增加GetEnumerator方法，就像这样

public class Demo

{

     public string obu { get; set; }

     public int busid { get; set; }

     public string buscode { get; set; }

     public IEnumerator GetEnumerator()

        {

            yield return obu;

            yield return busid;

            yield return buscode;

            .....

        }

}

类型统一问题

具体参考我的这篇文章点击跳转

微信关注我哦！(转载注明出处)

.Net轻松处理亿级数据--ClickHouse数据操作的更多相关文章

.Net轻松处理亿级数据--clickhouse及可视化界面安装介绍
该篇内容由个人博客点击跳转同步更新!转载请注明出处! 前言我是在17年就听说过Clickhouse,那时还未接触过亿数据的运算,那时我在的小公司对于千万数据的解决方案还停留在分库分表,最好的也是使用 ...
超实用的mysql分库分表策略，轻松解决亿级数据问题
一.分库分表的背景在数据爆炸的年代,单表数据达到千万级别,甚至过亿的量,都是很常见的情景.这时候再对数据库进行操作就是非常吃力的事情了,select个半天都出不来数据,这时候业务已经难以维系.不得已 ...
NEO4J亿级数据导入导出以及数据更新
1.添加配置 apoc.export.file.enabled=true apoc.import.file.enabled=true dbms.directories.import=import db ...
基于Mysql数据库亿级数据下的分库分表方案
移动互联网时代,海量的用户数据每天都在产生,基于用户使用数据的用户行为分析等这样的分析,都需要依靠数据都统计和分析,当数据量小时,问题没有暴露出来,数据库方面的优化显得不太重要,一旦数据量越来越大时, ...
基于腾讯云存储COS的ClickHouse数据冷热分层方案
一.ClickHouse简介 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),支持PB级数据量的交互式分析,ClickHouse最初是为YandexMetrica ...
挑战海量数据：基于Apache DolphinScheduler对千亿级数据应用实践
点亮 ️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler 精彩回顾近期,初灵科技的大数据开发工程师钟霈合在社区活动的线 ...
MySQL使用pt-online-change-schema工具在线修改1.6亿级数据表结构
摘要:本文阐述了MySQL DDL 的问题现状.pt-online-schema-change的工作原理,并实际利用pt-online-schema-change工具在线修改生产环境下1.6亿级数 ...
通用技术 mysql 亿级数据优化
通用技术 mysql 亿级数据优化一定要正确设计索引一定要避免SQL语句全表扫描,所以SQL一定要走索引(如:一切的 > < != 等等之类的写法都会导致全表扫描) 一定要避免 lim ...
不停机不停服务，MYSQL可以这样修改亿级数据表结构
摘要:本文阐述了MySQL DDL 的问题现状.pt-online-schema-change的工作原理,并实际利用pt-online-schema-change工具在线修改生产环境下1.6亿级数 ...

随机推荐

Docker - 创建镜像(二)
实际工作中,我们可能需要自己去创建一个docker镜像,下面给大家介绍如何创建docker镜像 1. 创建一个最简单的镜像准备Dockerfile文件 [root@dockhost ~]# mkdi ...
Spring Boot 启动以后然后再加载缓存数据 CommandLineRunner
实际应用中,我们会有在项目服务启动完成以后去加载一些数据或做一些事情(比如缓存)这样的需求. 为了解决这样的问题,Spring Boot 为我们提供了一个方法,通过实现接口 CommandLineRu ...
关于python的十一道练习
关于python的十一道练习 1.编写程序,输入一个自然数字符串,然后输出各位数字之和.例如,输入字符串1234,输出10. def sums1(): #第一题 strs=input('请输入一个自然 ...
WCF通信简单学习实例
最近在学习WCF通信,自己简单做个实例分享一下,环境是VS2015,使用的项目都是WPF的项目,其实大家用Winform或者Web项目也可以,都可以用的. 一.服务器端 1.创建WCF服务服务名为W ...
JQ中的Ajax的封装
1.认识JQ中ajax的封装 jQ 对于ajax的封装有两层实现:$.ajax 为底层封装实现:基于 $.ajax ,分别实现了$.get 与$.post 的高层封装实现: 2.Ajax的底 ...
linux tmux用法
1. 安装工具 Centos : yum install tmux 2. 基本操作新建会话:tmux new -s session-name 查看会话:tmux ls 进入会话:tmux a -t ...
ping、网络抖动与丢包
基本概念: ping: PING指一个数据包从用户的设备发送到测速点,然后再立即从测速点返回用户设备的来回时间.也就是俗称的“网络延迟” 一般以毫秒(ms)计算一般PING在0~100ms都 ...
sqlserver 问题来了，视图不会自动更新，如果是用*创建的
奇葩问题一个 create view时候用的select * 关联了几个表创建的. 后修改select * 的表,结果悲剧了. select * from 视图得到的结果绝对让你想哭.不报错,不提示 ...
Bitbucket与git上传源码的使用方法
本文链接:https://blog.csdn.net/nomisshe/article/details/19625555 Bitbucket使用方法一.软件及SSH keys: 由于我的Bitb ...
JDBC API浅析
使用java开发数据库应用程序一般都需要用到四个接口:Driver.Connection.Statement.ResultSet 1.Driver接口用于加载驱动程序 2.Connection接口用于 ...

.Net轻松处理亿级数据--ClickHouse数据操作

前言

具体操作

微信关注我哦！(转载注明出处)

.Net轻松处理亿级数据--ClickHouse数据操作的更多相关文章

随机推荐

热门专题