CarbonData】的更多相关文章

在滴滴的两年一直在加班,人也变懒了,就很少再写博客了,最近在进行Carbondata和hive集成方面的工作,于是乎需要对Carbondata进行深入的研究. 于是新开一个系列,记录自己学习Carbondata的点点滴滴,希望对大家也有所帮助. 1.环境准备 当前版本是1.2.0-SNAPSHOT git clone https://github.com/apache/carbondata.git 先用IDEA打开carbondata的代码,点击上方的View -> Tool Windows -…
在上一章当中,写了文件的生成过程.这一章主要讲解文件格式(V3版本)的具体细节. 1.字典文件格式详解 字典文件的作用是在存储的时候将字符串等类型转换为int类型,好处主要有两点: 1.减少存储占用空间 2.用在需要group by的字段上比较合适,可以减少计算时的shuffle的数据量. 每一个字典列都有对应的三种文件.dict, .sortindex, .dictmeta文件,输出格式都是thrift格式 1.1 .dict文件 字典的值每满1000就作为一个chunk输出一次,具体的类是C…
关键词:carbondata spark thrift 数据仓库 [Install thrift 0.9.3] 注意 要装thrift-java必须先装ant . 有人说要装boost,我在centos6上没有装一样可以运行,猜测可能是c/cpp需要,java/python的不需要 thrift安装包可以在thrift官网下载,注意版本,手动下载地址:http://www.apache.org/dyn/closer.cgi?path=/thrift/0.9.3. sudo yum -y inst…
连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的"黑科技".华为公司在2016年开源了类parquet的列存格式:CarbonData,并且贡献给了Apache社区.CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目,CarbonData是首个由华人公司主导的Apache顶级项目,(来源自eBay的Kylin算是首个由华人主导的顶级开源项目)笔者这里还是要向华为的小伙伴们致敬,能够完成这样一个从0到1的突破. 本…
 前言 前段时间有幸接触到Apache Carbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题.然后在社区群里反映了下,负责人问愿不愿意提个JIRA,PR,然后我在没有任何开源项目PR过的情况下竟然欣然答应了.(可能跟ZB心有关吧o(╥﹏╥)o)然后来说说这段美妙而又酸爽的经历吧[学习到了很多]! 简介 CarbonData是首个由中国公司发起并捐献给Apache基金会的开源项目,于2017年4月正式成为Apache顶级项目,由华为开源并支持Hadoop的高性能列式存储文…
原文连接 http://xiguada.org/carbondata_compile/ CarbonData是啥? CarbonData is a fully indexed columnar and Hadoop native data-store for processing heavy analytical workloads and detailed queries on big data. In customer benchmarks, CarbonData has proven to…
CarbonData http://carbondata.apache.org/ Apache顶级项目CarbonData应用实践与2.0新技术规划介绍_搜狐科技_搜狐网 https://www.sohu.com/a/193921606_470008…
[摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打造新一代数仓引擎. 金融领域随着数据与日俱增(如国内某大行,平均3亿笔业务/天,峰值6亿/天):业务驱动下的数据分析灵活性要求越来越高,不同业务的数据分系统构建,导致冗余严重,缺乏高效.统一的融合数仓,阻碍企业快速转型.如何对浪涌式的数据进行整合分析,发挥最大价值,金融机构对数据的处理提出了相应诉求…
深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应   Tina 阅读数:146012016 年 7 月 13 日 19:00   华为宣布开源了 CarbonData 项目,该项目于 6 月 3 日通过 Apache 社区投票,成功进入 Apache 孵化器.CarbonData 是一种低时延查询.存储和计算分离的轻量化文件存储格式.那么相比 SQL on Hadoop 方案.传统 NoSQL 或相对 ElasticSearch 等搜索系统,CarbonData…
  深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应   Tina 阅读数:145842016 年 7 月 13 日 19:00   华为宣布开源了 CarbonData 项目,该项目于 6 月 3 日通过 Apache 社区投票,成功进入 Apache 孵化器.CarbonData 是一种低时延查询.存储和计算分离的轻量化文件存储格式.那么相比 SQL on Hadoop 方案.传统 NoSQL 或相对 ElasticSearch 等搜索系统,CarbonDa…
[背景介绍] 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差. 在使用Impala过程中,遇到很多性能问题(比如catalog元数据膨胀导致元数据同步慢等),并发查询性能差等. Impala属于MPP架构,只能做到百节点级,一般并发查询个数达到20左右时,整个系…
摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData.Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型. 背景 我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的能力.在数据湖中,用户基于一组数据生成报告是非常常见的.随着各种类型的数据汇入数据湖,数据的状态不会一层不变.需要改变各种数据的用例包括随时间变化的时序数据.延迟到达的时延数据.平衡实时可用性和回填.状态变化的数据(如CDC).数据…
摘要:CarbonData 在 Apache Spark 和存储系统之间起到中介服务的作用,为 Spark 提供的4个重要功能. 本文分享自华为云社区<Make Apache Spark better with CarbonData>,原文作者:大数据修行者 . Spark 无疑是一个强大的处理引擎和一个用于更快处理的分布式集群计算框架.不幸的是,Spark在一些方面也存在不足.如果我们将 Apache Spark 与 Apache CarbonData 结合使用,它可以克服这些不足: 1.…
摘要:作为IOT最底层的无线通信网络生成大量与位置相关的数据,用于无线通信网络规划和优化,帮助电信运营商建设更好体验的精品网络,构建万物互联的信息社会. 本文分享自华为云社区<基于CarbonData的电信时空大数据探索>,作者: 张军.龚云骏 . 1使用场景 随着万物互联的时代到来,以及智慧终端普及,现实世界超过80%的数据与地理位置相关,比如日常使用的社交.支付.出行相关APP.作为IOT最底层的无线通信网络也会生成大量与位置相关的数据,用于无线通信网络规划和优化,帮助电信运营商建设更好体…
序言 今年的双十一对阿里巴巴中间件消息团队来说,注定是个不平凡的日子.在这一天,稳定性小组重点攻克的低延迟存储解决方案成功地经受住了大考.整个大促期间,99.996%的延迟落在了10ms以内,极个别由于GC引发的停顿在50ms以内,对于读写比例几乎均衡的分布式消息引擎来说,这一结果无不令人兴奋.甚至可以毫不夸张地讲,即便拿到明年的Java one大会上,也必定是场非常吸睛的技术干货分享.接下来,团队同学会把相关的经验提炼总结出来,期待能在接下来全球Qcon大会上为小伙伴们带去尽可能多的干货分享.…
转行做数据相关的工作有近两年时间,除了具体技术,还有许多其它思考. 数据的价值 在涉及具体的技术前,先想一想为什么需要OLAP这样的系统,它有什么价值或者说在公司或部门这是不可取代的么? 可以带来哪些价值,是直接变现还是间接变现. 如果不能回答或回答不了,那么就是一个很大的问题,这其实意味着数据的质量存在问题.没有质量的数据,体量再大也毫无价值. 数据存储 假设已经有很好的oltp系统,那么oltp系统在数据量不大的情况下,继续扮演olap角色也还可以.一旦业务红火,那么oltp中的analyz…
主从模式 主节点有单点故障问题:没有主从自动切换,没有failover,主机down掉了的话,整个数据变成只读.并且需要一台机单独做索引,浪费资源,所有数据都需要在这台机器上单独存在一份,索引变化较大的时候同步会占用很大的带宽和资源. 配置文件改动:改动了solrconfig.xml最终还是要手动上传至从机,而且没有做xml相关的有效性验证,上传后有可能配置出错就直接覆盖原来的配置了,而且也没有提示. 1.索引 一条数据到分发到哪个shard->具体的replica->shard大到一定程度之…
作为推送行业领导者,截止目前个推SDK累计安装覆盖量达100亿(含海外),接入应用超过43万,独立终端覆盖超过10亿 (含海外).个推系统每天会产生大量的日志和数据,面临许多数据处理方面的挑战. 首先数据存储方面,个推每天产生10TB以上的数据,并且累积数据已在PB级别.其次,作为推送技术服务商,个推有很多来自客户和公司各部门的数据分析和统计需求,例如:消息推送和数据报表.虽然部分数据分析工作是离线模式,但开源数据处理系统稳定性并不很高,保障数据分析服务的高可用性也是一个挑战.另外,推送业务并不…
什么是rowkey Hbase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. Hbase是采用K,V存储的,那Rowkey就是KeyValue的Key了,Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义.数据加载时,一般也是根据Rowkey的二进制序由小到大进行的. HBase是根据Rowkey来进行检索的,系统通过找到某个Rowkey (或者某个 Rowkey 范围)所…
为什么Rowkey这么重要 RowKey 到底是什么 我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好.可见 RowKey 在 HBase 中的地位.那么 RowKey 到底是什么?RowKey 的特点如下: 类似于 MySQL.Oracle中的主键,用于标示唯一的行: 完全是由用户指定的一串不重复的字符串: HBase 中的数据永远是根据 Rowkey 的字典排序来排序的. RowKey的作用 读写数据时通过 RowKey 找到对应的 Region: MemSt…
package Core是carbondata的核心代码. 照例,先看Test类.CarbonPropertiesValidationTest…
最近公司需要对CarbonData进一步应用,或许封装进产品,或许是为了解析CarbonData元数据,于是开始预研CarbonData,下面将保持每天一篇以上的阅读CarbonData源码博客,由于自己基础薄弱,会记录自己所有觉得有价值的点,内容或旁杂或简单,海涵. 阅读方式以example或test类为入口,后期熟悉整体项目后将走完整流程,并与parquet进行对比. 源码整体结构如下: 第一篇 common package 一:首先浏览Test类LoggingServiceTest_FT,…
源码 http://www.zhuyongpeng.cn/1699.html 融合数据白皮书:Apache CarbonData成为主流融合存储技术 http://cloud.yesky.com/466/471447966.shtml Apache官网 http://carbondata.apache.org/index.html Apache CarbonData :一种为更加快速数据分析而生的新Hadoop文件版式 https://blog.csdn.net/u011239443/artic…
big-data (49):  Apache Accumulo  Apache Airavata  Apache Ambari  Apache Apex  Apache Avro  Apache Beam  Apache Bigtop  Apache BookKeeper  Apache Calcite  Apache CarbonData  Apache CouchDB  Apache Crunch  Apache Daffodil (Incubating)  Apache DataFu (I…
cncf landscape CNCF Cloud Native Interactive Landscape 1. App Definition and Development 1. Database Vitess:itess is a database clustering system for horizontal scaling of MySQL. Apache CarbonData:Apache CarbonData is an indexed columnar data format…
现在已经名满天下的 Apache Kylin,是 Hadoop 大数据生态系统不可或缺的一部分,要知道在 Kylin 项目早期,可是以华人为主的开源团队,一路披荆斩棘经过几年的奋斗,才在 Apache 基金会牢牢的巩固了自己的位置.作为本土第一个进入到世界顶级基金会的项目,Kylin 的经验是值得大家学习的. 以下内容根据 COSCon'17讲师史少锋(Apache Kylin PMC&Committer .Kyligence 技术合伙人兼高级架构师)的演讲速记所整理. 演讲实录 今天我主要介绍…
终于又切回HBase模式了,之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件(诸如Parquet.Carbondata.Hive.SparkSQL.TPC-DS/TPC-H等),虽然只是走马观花,但也受益良多.对视野.思维模式都有极其重要的作用,至少,扩展了大数据领域的对话圈. 这里也斗胆建议朋友能在深入研究一门学问的同时博览周边学问,相信必然会大有裨益. 来说正题,操作系统这个话题其实很早就想拿出来和大家分享,拖到现在一方面是因为对其中各种理论理解并不十分透彻,怕讲不好:另…
前面的一篇文章<微软.谷歌.亚马逊.Facebook等硅谷大厂91个开源软件盘点(附下载地址)>列举了国外8个互联网公司(包括微软.Google.亚马逊.IBM.Facebook.Twitter.eBay.VMware)的开源软件项目,今天我们来盘点一下国内几个体量较大的互联网大厂(腾讯.百度.阿里.美团点评.华为)都有哪些开源软件.快点Mark起来并转发给需要的人吧.   百度开源软件    1.ECharts:JavaScript 图表库  ECharts是一款由百度前端技术部开发的,基于…
一. 功能综述 OLAP引擎为存储和计算二合一的引擎,自身内部涵盖了对数据的管理以及提供查询能力.底层数据完全规划在引擎内部,外部系统不允许直接操作底层数据,而是需要通过暴露出来的接口来读写引擎内部数据. 目前整体来说OLAP功能由两部分组成:数据管理,查询引擎. 1.1 数据管理 引擎中数据核心概念包括:事实表,维度表,模型表,加速表,其中事实表和维度表统称为Dataset表.数据操作包括以下几点: 事实表创建.定时导入.清理.补数. 维度表创建.定时导入.清理.补数: 模型表创建.删除: 加…
Druid0.15.0安装文档 1 集群规划 Master包含Coordinator和Overlord,4核16G*2: data包含Historical和MiddleManager,16核64G*3: query包含Broker和Router,4核16G*1. 1.1 Hadoop配置文件设置 本次安装使用HDFS作为存储,进入3个data节点,/data1/druid/druid-0.15.0/conf/druid/cluster/_common目录,软链到对应hadoop的配置文件目录,此…