[BD] HBase

【[BD] HBase】的更多相关文章

NoSQL数据库关系型数据库:用表格的行-列来保存数据,OLTP,写入多,行式存储非关系型数据库:只用来存储数据,业务逻辑由应用程序处理,OLAP,查询多,列式存储常见NoSQL数据库 Redis:基于内存的NoSQL数据库 MongoDB:基于文档型(BSON)的NoSQl数据库设计一个数据库保存电影信息 Oracle:至少三张表,每张1000行,笛卡尔积1000*1000*1000,性能低 MongoDB:只有1000条记录,查询快(MongoDB 4.0 开始支持事务,支持分布式存…

读取hive文件并将数据导入hbase

package cn.tansun.bd.hbase; import java.io.IOException; import java.net.URI; import java.util.List; import java.util.Map; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; i…

client 如何找到正确的RegionServer(HBase -ROOT-和.META.表)

在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer.什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer.Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭秘这个过程. 在前面的文章“HBase存储架构”中我们已经讨论了HBase基本的存储架构.在此基础上…

Hbase案例分析（一）

Hbase应用场景: 1 随机读或者写 2 大数据上的高并发操作,比如每秒对PB级数据进行上千次操作.(查询,删除等操作) 3 读写均是非常简单的操作,比如没有join操作 Hbase Schema设计 rowkey是设计关键 OpenTSDB:基于Hbase构建分布式,可伸缩的时间序列数据库. 名词解释:时间序列数据,随着时间是连续分布的,比如每个时刻的气温,一台机器的cpu利用率,内存利用率.秒级数据采集所有metrics(度量),支持永久存储,可以做容量规划.可以从大规模的集群(包括集群中…

hbase 性能优化（转载）

一.服务端调优 1.参数配置 1).hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put.使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好. 2).hbase.hregion.max.filesize :配置region大小,0.94.12版本默认是10G,region的大小与集群支持…

【转载】Hadoop 2.7.3 和Hbase 1.2.4安装教程

转载地址:http://blog.csdn.net/napoay/article/details/54136398 目录(?)[+] 一.机器环境系统:MAC OS Hadoop:2.7.3 Hbase:1.2.4 JDK: 1.8.0_112 二.配置SSH免密码登录第一步:打开terminal,进入根目录,运行命令: cd 第二步: 显示隐藏文件,这时还没有.ssh文件夹 ls –a 第三步:生成密钥 ssh-keygen -t rsa -P "" 第四步,进入.ssh文…

Ubuntu16.04下HBase的安装与配置

一.环境 os : Ubuntu 16.04 LTS 64bit jdk : 1.8.0_161 hadoop : mysql : hive : hbase: -hadoop2 安装HBase前,系统要先安装hadoop和hive . 二.安装步骤 1.安装hbase 下载hbase-0.98.22-hadoop2-bin.tar.gz ,使用以下命令解压安装到/usr/local/目录下: ~/下载$ -hadoop2-bin.tar.gz -C /usr/local ~/下载$ cd /us…