HBase in 2013】的更多相关文章

2013年马上就要过去了,总结下这一年HBase在这么一年中发生的主要变化.影响最大的事件就是HBase 0.96的发布,代码结构已经按照模块化release了,而且提供了许多大家迫切需求的特点.这些特点大多在Yahoo/Facebook/淘宝/小米 等公司内部的集群中跑了挺长时间了,可以算是比较稳定可用了. 1,Compaction优化 HBase的Compaction是长期以来广受诟病的一个feature,很多人吐槽 HBase也是因为这个特征.不过我们不能因为HBase有这样一个缺点就把它…
0,HBase简介 HBase是Apache Hadoop中的一个子项目,是一个HBase是一个开源的.分布式的.多版本的.面向列的.非关系(NoSQL)的.可伸缩性分布式数据存储模型,Hbase依托于Hadoop的HDFS作为最基本存储基础单元.HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion Server群和HMaster Server构成.HMaster Server负责管理所有的HRegion Server,而HBase中的所有Server都是通过Zookeeper…
Hbase+ Phoenix搭建教程 一.Hbase简介 HBase是基于列存储.构建在HDFS上的分布式存储系统,其主要功能是存储海量结构化数据. HBase构建在HDFS之上,因此HBase也是通过增加廉价的PC机提高系统运行和存储的能力. HBase中存储的表有如下特点: 1.大表:一个表可以有数十亿行,上百万列: 2.无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列: 3.面向列:面向列(族)的存储和权限控制,列(族)独立检索:…
1.为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题? 我们先看下 HBase 的写流程: 通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,compact等大量IO操作),并对HBase节点的稳定性造成一定的影响(GC时间过长,响应变慢,导致节点超时退出,…
首先我们到官方网站下载Hbase,而我使用的版本是hbase-0.94.27.tar.gz 解压下来: tar zxvf hbase-.tar.gz 寻找java安装路径 [root@localhost conf]# which java /usr/bin/java 我们找到java的安装路径 /usr/bin/java 所以hbase的配置,如下: vim hbase-env.sh export JAVA_HOME=/usr 启动: [root@localhost bin]# ./start-…
1. 在hbase上建测试表 hbase(main)::> create 'test_hive_over_hbase','f' row(s) in 2.5810 seconds hbase(main)::> put ','f:DATA','2012|shaochen' row(s) in 0.2010 seconds hbase(main)::> put ','f:DATA','2010|dachao' row(s) in 0.0100 seconds hbase(main)::>…
这个问题困扰了我一天多的时间,百度搜索的前几条的答案也是很扯淡的,说什么把/etc/hosts文件下的127.0.1.1改成127.0.0.1就行了,我也只能呵呵了.今天早上起得很晚,中午迪哥请我们去吃完水饺后就一直在解决这个问题,下面的这两篇文章对我帮助很大:  http://www.cnblogs.com/wukenaihe/archive/2013/03/15/2961029.html  http://www.chenyudong.com/archives/linux-ntpdate-ti…
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2013/11/28/hbase-batch-put-performance-analysis-of-single-column-and-multiple-columns.html 针对HBase在单column family单column qualifier和单column family多column qualifier两种…
2013年12月5日-6日参加了为期两天的2013中国大数据技术大会(Big Data Technology Conference, BDTC2013),本期会议主题是:“应用驱动的架构与技术 ”.大数据概念最近真是火得不行,从大会多达7个的“大数据架构与系统”.“大数据技术”.“大数据应用”.“大数据研究与发展”.“大数据基准测试”“智能交通与大数据”以及“传统行业如何驾驭大数据”主题论坛,再到现场爆棚的人群,可见大家拥抱大数据的高涨热情. 在9月份读完了一本<大数据时代>,后面又听大学老师…
本文章只针对“微型集群处理大数据”的场景. 场景描述: 硬件:5个节点,每个节点可用硬盘1块(700G.500G等).8核cpu,实验室环境(有时候还要跑其他程序跟你抢占资源),16G内存. 软件:hadoop-0.20.2-cdh3u2,hbase-0.90.4-cdh3u2. 业务:sina微博12亿转发微博,700w用户信息.bzip压缩后共150G.要求就是将这些数据入库并且恢复关注和粉丝列表,建立userId与昵称映射,找出Message的转发关系等等. 上述业务实际上比描述的复杂,后…