Hadoop生态新增列式存储系统Kudu

Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？有人尝试修改HBase内核构造这样的系统，即保留HBase的数据模型，而将其底层存储部分改为纯列式存储（目前HBase只能算是列簇式存储引擎），但这种修改难度较大。Kudu的出现有望解决这一难题。

想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

Kudu是Cloudera开源的列式存储引擎，具有以下几个特点：

C++语言开发
高效处理类OLAP负载
与MapReduce，Spark以及Hadoop生态系统中其他组件进行友好集成
可与Cloudera Impala集成，替代目前Impala常用的HDFS+Parquet组合
灵活的一致性模型
顺序写和随机写并存的场景下，仍能达到良好的性能
高可用，使用Raft协议保证数据高可靠存储
结构化数据模型

Kudu的出现，有望解决目前Hadoop生态系统难以解决的一大类问题，比如：

流式实时计算结果的更新
时间序列相关应用，具体要求有：

- 查询海量历史数据
- 查询个体数据，并要求快速返回

预测模型中，周期性更新模型，并根据历史数据快速做出决策

Kudu架构如下图所示：

目前Kudu处于beta版，仍在不断开发迭代中，不久将提交并成为Apache Software Foundation incubator，据有关资料介绍，国内小米参与了kudu的开发，并做出不少贡献。据小米首席架构师崔宝秋介绍：“作为 Hadoop 生态系统的长期用户和贡献者，小米在 Kudu 项目初期就开始了和 Cloudera 的合作开发，并已经将 Kudu 独特的实时数据分析功能用到了小米业务中。”

Hadoop生态新增列式存储系统Kudu的更多相关文章

hadoop生态圈列式存储系统--kudu
介绍 Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器.Kudu 共享 Hadoop 生态系统应用的常见技术特性: 它在 commodity hardware(商品硬件)上 ...
hadoop生态圈列式存储系统--kudu介绍及安装配置
介绍 Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器.Kudu 共享 Hadoop 生态系统应用的常见技术特性: 它在 commodity hardware(商品硬件)上 ...
ClickHouse源码笔记6:探究列式存储系统的排序
分析完成了聚合以及向量化过滤,向量化的函数计算之后.本篇,笔者将分析数据库的一个重要算子:排序.让我们从源码的角度来剖析ClickHouse作为列式存储系统是如何实现排序的. 本系列文章的源码分析基于 ...
Hadoop-No.4之列式存储格式
列式系统可提供的优势对于查询内容之外的列,不必执行I/O和解压(若适用)操作非常适合仅访问小部分列的查询.如果访问的列很多,则行存格式更为合适相比由多行构成的数据块,列内的信息熵更低,所以从压缩 ...
Hadoop IO基于文件的数据结构详解【列式和行式数据结构的存储策略】
Charles所有关于hadoop的文章参考自hadoop权威指南第四版预览版大家可以去safari免费阅读其英文预览版.本人也上传了PDF版本在我的资源中可以免费下载,不需要C币,点击这里下载. ...
Hadoop HBase概念学习系列之HBase里的列式数据库（十七）
列式数据库,从数据存储方式上有别于行式数据库,所有数据按列存取. 行式数据库在做一些列分析时,必须将所有列的信息全部读取出来而列式数据库由于其是按列存取,因此只需在特定列做I/O即可完成查询与分析, ...
分布式存储系统Kudu与HBase的简要分析与对比
本文来自网易云社区作者:闽涛背景 Cloudera在2016年发布了新型的分布式存储系统——kudu,kudu目前也是apache下面的开源项目.Hadoop生态圈中的技术繁多,HDFS作为底层数 ...
分布式结构化存储系统-Kudu简介
分布式结构化存储系统-Kudu简介作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破. ...
如何看待yandex开源clickhouse这个列式文档数据库?
如何看待yandex开源clickhouse这个列式文档数据库? 大数据云计算 water 5天前 24℃ 0评论欧阳辰<Druid实时大数据分析>作者,”互联居”作者编辑推荐1 ...

随机推荐

VS2013 添加 ILDasm
1.找到ILDasm.exe文件: 打开C:\Program Files\Microsoft SDKs\Windows\v8.1A\bin\NETFX 4.5.1 Tools 2.vs外部工具添加工 ...
Linux 下Discuz论坛的搭建
Discuz论坛的搭建[基于LNMP环境搭建成功后] ##创建BBS数据库在本地/远程服务器 mysql -uroot -proot create database bbs; show databas ...
oracle sql练习菜鸟入门！
进入公司 ,首先是进行SQL培训一下是针对oracle的emp与dept表进行的基础查询 --1.选择部门30中的所有员工: ; --2.列出所有办事员(CLERK)的姓名,编号和部门编号: sel ...
iOS开发之UIView
在iPhone里你能看到的.摸到的,都是UIView. 视图坐标系统: UIKit中的坐标都是基于这样的坐标系统:以左上角为坐标的原点,原点向下和向右为坐标轴方向. 坐标值由浮点数来表示,内容的布局和 ...
[BZOJ 3992][SDOI2015]序列统计
3992: [SDOI2015]序列统计 Time Limit: 30 Sec Memory Limit: 128 MBSubmit: 2275 Solved: 1090[Submit][Stat ...
java中形参的可变参数的定义(如String... args) .
如果有下面的一个笔试题: 已知我们有如下的调用关系 logIt(”log message 1 “); logIt(”log message2”, " log message3”); logI ...
在Eclipse中通过build.xml导入工程
http://www.zihou.me/html/2012/10/18/7868.html
[T-ARA][TIAMO]
歌词来源:http://music.163.com/#/song?id=439915067 改了一版格式,先尝试一下,考虑到总不能永远只看着拼音读,所以想把发音按照韩文字来写,以后争取看着韩文字唱. ...
java多态-向上转型和向下转型
向上转型:符合“is a”,是安全的,子类向上到父类,多余的属性和方法会丢弃向下转型:不安全的,用instanceof提前判断一下,以免抛出异常 instanceof用法: result = obj ...
jersey之get，put，post，delete简单使用
要使用jersey首先要有相应的依赖包,获取方法有很多,本地下载依赖文件或maven获取,这里假设你的环境已经搭建好了.要使用jersey首先要初始化一个client客户端,下面是最简单的一个get请 ...

Hadoop生态新增列式存储系统Kudu

Hadoop生态新增列式存储系统Kudu的更多相关文章

随机推荐

热门专题