Hbase 配置文件: hbase-site.xml <configuration> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.rootdir</name> <value>hdfs://cdh-master:9…
hbase是bigtable的开源山寨版本.是建立的hdfs之上,提供高可靠性.高性能.列存储.可伸缩.实时读写的数据库系统.它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作).主要用来存储非结构化和半结构化的松散数据.与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力. HBase中的表一般有这样的特点: 1.  大:一个表可以有上亿行…
根据以上图分析得出以下结论: 1. 在上面的hbase配置下,顺序和随机写记录(每条记录1K),每写入86-87M(大小可配)左右数据生成一个磁盘文件(store file). 2. 在上面的hbase配置下,生成4个磁盘文件(store file)后,再生成1个磁盘文件(store file)会触发合并操作(Minor compactions),将4个磁盘文件(store file)合并成一个磁盘文件(store file),同时写入数据生成一个磁盘文件(store file). 3. 在上面…
第二组:文件存储读过程记录 第一组:一个列,四个分区,随机ID 测试列和分区 测试程序或命令 导入文件大小(Mb) 导入文件个数(个) 是否触发flush事件(布尔) 是否触发compact事件(布尔) 触发compact结果 分区一 ./testrand.sh 1310 87 2000000 87 1 是 否 产生一个87M文件. 分区二 产生一个87M文件. 分区三 产生一个87M文件. 分区四 产生一个87M文件. 分区一 ./testrand.sh 1310 87 2000000 (重复…
1.1.1 测试记录 第一组:一个列,一个分区,顺序ID 测试列和分区 测试程序或命令 导入文件大小(Mb) 导入文件个数(个) 是否触发flush事件(布尔) 是否触发compact事件(布尔) 触发compact结果 分区一 ./seqData.sh 130 86 86 1 是 否 产生一个87M文件. 分区一 ./seqData.sh 130 86 ./seqData.sh 131 86 ./seqData.sh 132 86 ./seqData.sh 133 86 ./seqData.s…
启动hbase的时候: -cdh4.5.0/bin$ hbase shell cat: /home/hadoop/hbase--cdh4.5.0/target/cached_classpath.txt: 没有那个文件或目录 // :: WARN conf.Configuration: hadoop.native.lib is deprecated. Instead, use io.native.lib.available HBase Shell; enter 'help<RETURN>' fo…
环境:centos6.2 Hadoop2.2.0 hive0.12 hbase0.94 1>hadoop配好之后,跑任务老失败,yarn失败,报out of memory错误,然后怎么调整内存大小都不行,后来发现是can’t create new thread. 解决:在vi /etc/security/limits.conf 添加 hadoop - nofile 65535 hadoop - nproc  65535 2>yarn运行错误:mapreduce.shuffle set in y…
先安装hadoop1.2.1,见http://blog.csdn.net/jediael_lu/article/details/38926477 1.配置hbase-site.xml <property> <name>hbase.zookeeper.quorum</name> <value>master,slave1,slave2</value> </property> <property> <name>hba…
前面给大家讲了怎么安装Hadoop,肯定会有人还是很迷茫,装完以后原来就是这个样子,但是怎么用,下面,先给大家讲下Hadoop简介:大致理解下就OK了 hadoop是一个平台,提供了庞大的存储和并行计算的能力. Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.Hadoop的核心内容是HDFS和MpReduce.Hadoop项目结构有一下9中: Common:是Hadoop其他子项目提供支持的常用工具. Avro:是用于数据序列化的系统. MapReduce:是一种编程模型,用于…
nutch2.2.1集成HBase0.94.25 (详见:http://duguyiren3476.iteye.com/blog/2085973 ) 1. 修改nutch的hbase配置 //将自己的hbase配置copy到nutch配置中 cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/ 2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中) 原因:(我使用的hb…