HBase查询优化】的更多相关文章

1.概述 在<HBase查询优化>一文中,介绍了基于HBase层面的读取优化.由于HBase的实际数据是以HFile的形式,存储在HDFS上.那么,HDFS层面也有它自己的优化点,即:Short-Circuit Local Reads.本篇博客笔者将从HDFS层面来进行优化,从而间接的提升HBase的查询性能. 2.内容 Hadoop系统在设计之初,遵循一个原则,那就是移动计算的代价比移动数据要小.故Hadoop在做计算的时候,通常是在本地节点上的数据中进行计算.即计算和数据本地化.流程如下图…
1.概述 HBase是一个实时的非关系型数据库,用来存储海量数据.但是,在实际使用场景中,在使用HBase API查询HBase中的数据时,有时会发现数据查询会很慢.本篇博客将从客户端优化和服务端优化两个方面来介绍,如何提高查询HBase的效率. 2.内容 这里,我们先给大家介绍如何从客户端优化查询速度. 2.1 客户端优化 客户端查询HBase,均通过HBase API的来获取数据,如果在实现代码逻辑时使用API不当,也会造成读取耗时严重的情况. 2.1.1 Scan优化 在使用HBase的S…
Scan:setBatch,setCaching,setCacheBlocks public void setBatch(int batch) public void setCaching(int caching) public void setCacheBlocks(boolean cacheBlocks) setBatch:为设置获取记录的列个数,默认无限制,也就是返回所有的列 setCaching:每次从服务器端读取的行数,默认为配置文件中设置的值 <property> <name…
1 背景知识 1.1 解决问题 解决HDFS不支持单条记录的快速查找和更新的问题. 1.2 适用情况 存在亿万条记录的数据库,只有千万或者百万条记录使用RDBMS更加合适 确保你的应用不需要使用RDBMS的高级特性(第二索引,事务机制,高级查询语言等) 足够的硬件配置,即节点数,HDFS在少于5个节点时并不会表现得很好,HBase也存在相同情况. 2 设计理念 2.1 概述 2.1.1 简介 使用Java语言开发的NoSQL类型的分布式数据库 不支持RDBMS的一些高级特性,如事务机制,第二索引…
最近小组准备启动一个 node 开源项目,从前端亲和力.大数据下的IO性能.可扩展性几点入手挑选了 NoSql 数据库,但具体使用哪一款产品还需要做一次选型. 我们最终把选项范围缩窄在 HBase.Redis.MongoDB.Couchbase.LevelDB 五款较主流的数据库产品中,本文将主要对它们进行分析对比. 鉴于缺乏项目中的实战经验沉淀,本文内容和观点主要还是从各平台资料搜罗汇总,也不会有太多深入或底层原理探讨. 本文所引用的资料来源将示于本文尾部.所汇总的内容仅供参考,若有异议望指正…
关于如何设定数据块的大小,我们应用一段HFile源码中的注释: 我们推荐将数据块的大小设置为8KB至1MB.大的数据块比较适合顺序的查询(比如Scan),但不适合随机查询,想想看,每一次随机查询可能都需要你去解压缩一个大的数据块.小的数据块适合随机的查询,但是需要更多的内存来保存数据块的索引(Data Index),而且创建文件的时候也可能比较慢,因为在每个数据块的结尾我们都要把压缩的数据流Flush到文件中去(引起更多的Flush操作).并且由于压缩器内部还需要一定的缓存,最小的数据块大小应该…
HBase是一个高性能.面向列.可伸缩的开源分布式NoSQL数据库,是Google Bigtable的开源实现. HBase的思想和应用和传统的RDBMS,NoSQL等有比较大的区别,这篇文章从HBase的架构和关键的Rowkey设计入手,快速学习相关应用. 一. HBase设计特性 HBase概述 HBase是一个构建在HDFS上的分布式列存储系统,将数据按照表.行和列进行存储,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力. HBase…
Hbase架构与原理 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统".就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力.HBase是Apache的Hadoop项目的子项目.HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBas…
转载自http://www.csdn.net/article/2010-11-29/282698 我的团队近来正在忙于一个全新的产品——即将发布的网络游戏www.FightMyMonster.com.这让我们得以奢侈地去构建一个全新的NOSQL数据库,也就是说,我们可以把恐怖的MySQL sharding和昂贵的可伸缩性抛在脑后了.最近有很多人一直在问,为什么我们要把注意力从HBase上转移到Cassandra上去.我确认,确实有这样的变化,实际上我们基本上已经把代码移植到了Cassandra上…
本课主题 NoSQL 数据库介绍 HBase 基本操作 HBase 集群架构与设计介紹 HBase 与HDFS的关系 HBase 数据拆分和紧缩 引言 介绍什么是 NoSQL,NoSQL 和 RDBMS 之间有什么区别,有什么埸景下需要用 NoSQL 数据库,NoSQL 数据的优点和缺点:谈谈 NoSQL 一些基本的背景之后,这章会重点深入谈讨 HBase 数据库,HBase 的原理,交换 Shell 的基本更删改查操作,HBase 集群体系的结构,还会谈谈 HBase 与 HDFS 之间的关系…