cloudera hbase集群简单思路

文章copy link:http://cloudera.iteye.com/blog/889468 链接所有者保留所有权！

http://www.csdn.net/article/2013-05-10/2815222-cloudera-release-impala-1-0 【cloudera impala】

官方doc

https://wiki.cloudera.com/display/DOC/HBase+Installation

首先升级yum：

在 /etc/yum.repos.d/ 下创建cloudera-cdh3.repo 然后把

[cloudera-cdh3]
name=Cloudera's Distribution for Hadoop, Version 3
mirrorlist=http://archive.cloudera.com/redhat/cdh/3/mirrors
gpgkey = http://archive.cloudera.com/redhat/cdh/RPM-GPG-KEY-cloudera
gpgcheck = 0

[cloudera-cdh3]

name=Cloudera's Distribution for Hadoop, Version 3

mirrorlist=http://archive.cloudera.com/redhat/cdh/3/mirrors

gpgkey = http://archive.cloudera.com/redhat/cdh/RPM-GPG-KEY-cloudera

gpgcheck = 0

追加到cloudera-cdh3.repo 里。

然后执行：

yum update yum

参照：

https://wiki.cloudera.com/display/DOC/CDH3+Installation

安装hadoop：

更新好yum 就能通过yum 下载hadoop 了很方便。

在集群中每个节点都下载hadoop

yum install hadoop-0.2X

yum install hadoop-0.2X

然后创建hadoop用户（这里注意，下载了cloudera 的hadoop 后，会自动创建一个hadoop组和两个用户：mapred、hdfs 。用户本人没用）

所以创建用户时必须加上 -g hadoop （吧hadoop 用户也加入hadoop组）

修改hadoop集群配置文件：

vi /etc/hadoop/conf/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/data/datanode</value>
</property>
</configuration>

<configuration>

  <property>

    <name>dfs.replication</name>

    <value>3</value> <!--hdfs 备份最好多做些，防止数据丢失-->

  </property>

  <property>

     <name>dfs.name.dir</name>

     <value>/data/namenode</value>

  </property>

  <property>

     <!-- specify this so that running 'hadoop namenode -format' formats the right dir -->

     <name>dfs.data.dir</name>

     <value>/data/datanode</value>

  </property>

</configuration>

vi /etc/hadoop/conf/mapred-site.xml （因为hbase和mapreduce 没关系，所以这个配置文件没做详细修改）

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hbase150:9001</value>
</property>
<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.FairScheduler</value>
</property>
<property>
<name>mapred.fairscheduler.allocation.file</name>
<value>/etc/hadoop/conf/pools.xml</value>
</property>
<property>
<name>mapred.jobtracker.plugins</name>
<value>org.apache.hadoop.thriftfs.ThriftJobTrackerPlugin</value>
<description>Comma-separated list of jobtracker plug-ins to be activated.
</description>
</property>
<property>
<name>jobtracker.thrift.address</name>
<value>0.0.0.0:9290</value>
</property>
</configuration>

<configuration>

  <property>

    <name>mapred.job.tracker</name>

    <value>hbase150:9001</value>

  </property>

  <!--add fair schedualer -->

  <property>

    <name>mapred.jobtracker.taskScheduler</name>

    <value>org.apache.hadoop.mapred.FairScheduler</value>

  </property>

  <property>

    <name>mapred.fairscheduler.allocation.file</name>

    <value>/etc/hadoop/conf/pools.xml</value>

  </property>

  <!-- Enable Hue plugins -->

  <property>

    <name>mapred.jobtracker.plugins</name>

    <value>org.apache.hadoop.thriftfs.ThriftJobTrackerPlugin</value>

    <description>Comma-separated list of jobtracker plug-ins to be activated.

    </description>

  </property>

  <property>

    <name>jobtracker.thrift.address</name>

    <value>0.0.0.0:9290</value>

  </property>

</configuration>

vi /etc/hadoop/conf/core-site.xml

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hbase150:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/tmp</value>
</property>
</configuration>

<configuration>

  <property>

    <name>fs.default.name</name>

    <value>hdfs://hbase150:9000</value>

  </property>

  <property>

     <name>hadoop.tmp.dir</name>

     <value>/data/tmp</value>

  </property>

</configuration>

各节点之间的hadoop用户ssh无密码登陆以及其它细节这里就不说了，网上多的是，配置文件贴出来是希望分享下，或者接受大家宝贵耳朵建议。

启动hdfs（不用启动mapreduce。）：

执行 /usr/lib/hadoop/bin/start-dfs.sh

注意：启动会遇到用户权限问题。因为cloudera 吧hdfs相关的目录权限设置的是hdfs用户（mapreduce 也是）所以这里就需要用root 把相关目录给hadoop： chown -R hadoop [目录名]

还有启动之前需要对namenode 进行format 这里会问是否真的要format [Y/N] 千万别输入小写的y 要输入大写.. 因为这个我郁闷了好久..

还有namenode 的safemode leave 的时候，出现没有权限的报错，提示大概是：需要更高权限的用户。而我的用户是hadoop 对hdfs来说是最高权限的用户啊。郁闷了很久后发现时namenode 没启动起来导致的。。。

hdfs成功启动后，安装zookeeper （hbase需要zookeeper）

hbase自带有zookeeper 我这里是自己安装zookeeper。

参照

https://wiki.cloudera.com/display/DOC/ZooKeeper+Installation

即可搭建起zookeeper集群

遇到的问题类似，同样是因为用cloudera 的zookeeper时会有目录所属用户问题。把相关目录全chown 给hadoop就行。

还遇到个棘手的问题就是：参照上篇博客：

http://cloudera.iteye.com/blog/902949

还有，这里我没有用cloudera 的命令：

/etc/init.d/hadoop-zookeeper start

因为cloudera 的这个启动文件会自动su 到zookeeper 用户，而我全是用hadoop用户操作的。

所以我是用：

/usr/lib/zookeeper/bin/zkServer.sh start

/usr/lib/zookeeper/bin/zkServer.sh start

启动的。

可用

/usr/lib/zookeeper/bin/zkServer.sh status

/usr/lib/zookeeper/bin/zkServer.sh status

查看状态

用

/usr/lib/zookeeper/bin/zkServer.sh stop

/usr/lib/zookeeper/bin/zkServer.sh stop

停止。

zookeeper集群安装完毕后即可安装hbase

安装hbase：

参照：

https://wiki.cloudera.com/display/DOC/HBase+Installation

我也没用cloudera 的启动，原因同上。

我用：

/usr/lib/hbase/bin/start-hbase.sh

/usr/lib/hbase/bin/start-hbase.sh

启动。这里注意了，需要修改start-hbase.sh的源码。因为hbase会自动启动zookeeper 所以注释掉源码中的zookeeper启动的那行。

stop-hbase.sh亦是。

另外这种启动方式还需要在master中配置/etc/hbase/conf/regionservers

这样只需在master 中执行启动hbase 的命令即可，不用再slaves 中逐一启动regionserver了。

最后，想说下，最好把日志log 都统一管理起来。我吧日志都放到/data/log 下了。 (/data目录是我专门用来放hadoop hbase 的东西的，namenode 和datanode 也全都在/data目录下。)

cloudera hbase集群简单思路的更多相关文章

hbase集群的启动,注意几个问题
1.hbase的改的会影响器他的组件的使用, 故而, 在修改 hadoop的任何组件后, 一定要记得其它的组件也能受到影响, 一下是我在将hadoop的集群改了之后 , 再次运行hbase的时候, 就 ...
HBase集群搭建
HBase集群搭建搭建环境:假设我们的linux环境已经准备好,包括网络.JDK.防火墙.主机名.免密登录等都没有问题,而且一定要有zookeeper.下面我们用3台linux虚拟机来搭建Hbase ...
一条scan查询把HBase集群干趴下
最近在给公司搭建CDH集群,在测试集群性能时,写了一条简单的scan查询语句竟然把hbase集群的所有regionserver干趴下了.这让我云里雾里的飘飘然. 背景介绍 CDH集群,2台主节点.3台 ...
在Azure HDInsight HBase集群中使用Thrift接口
Sun wei Wed, Feb 25 2015 2:17 AM Apache Thrift 是一种可扩展的跨语言服务接口,可以通过内置的代码生成引擎帮助创建跨语言服务类库,Apache HBase ...
Zookeeper管理多个HBase集群
zookeeper是hbase集群的"协调器".由于zookeeper的轻量级特性,因此我们可以将多个hbase集群共用一个zookeeper集群,以节约大量的服务器.多个hbas ...
高可用Hadoop平台－HBase集群搭建
1.概述今天补充一篇HBase集群的搭建,这个是高可用系列遗漏的一篇博客,今天抽时间补上,今天给大家介绍的主要内容目录如下所示: 基础软件的准备 HBase介绍 HBase集群搭建单点问题验证截 ...
基于centos6.5 hbase 集群搭建
注意本章内容是在上一篇文章“基于centos6.5 hadoop 集群搭建”基础上创建的 1.上传hbase安装包 hbase-0.96.2-hadoop2 我的目录存放在/usr/hadoop/hb ...
[How to]HBase集群备份方法
1.简介当HBase数据库中存在非常重要的业务数据的时候为了保护数据的可以对数据进行备份处理.对于HBase来说从备份操作来看可分为离线备份和在线备份. 2. 前准备在测试环境上准备有哦两套HBa ...
HBase集群出现NotServingRegionException问题的排查及解决方法
HBase集群在读写过程中,可能由于Region Split或Region Blance等导致Region的短暂下线,此时客户端与HBase集群进行RPC操作时会抛出NotServingRegionE ...

随机推荐

3、REST风格的URL
1.概述 HTTP协议里面,四个表示操作方式的动词:GET.POST.PUT.DELETE,它们分别对应四种基本的操作,GET用来获取资源,POST用来新建资源,PUT用来更新资源,DELETE用来删 ...
PHP文件下载原理
1.php下载原理图 2.文件下载源码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 <?php $ ...
JUnit4概述
JUnit4是JUnit框架有史以来的最大改进,其主要目标便是利用Java5的Annotation特性简化测试用例的编写. 先简单解释一下什么是Annotation,这个单词一般是翻译成元数据.元数据 ...
LA 3641 (置换循环的分解) Leonardo's Notebook
给出一个26个大写字母的置换B,是否存在A2 = B 每个置换可以看做若干个循环的乘积.我们可以把这些循环看成中UVa 10294的项链, 循环中的数就相当于项链中的珠子. A2就相当于将项链旋转了两 ...
SVN备份及其还原 — dump/load方法
本文中采用最简单的dump/load方法.备份:一个较大的Subsersion版本库想用最少的空间来将它备份下来,用这个命令(请将/repo替换成你的版本库路径)svnadmin dump --del ...
tkprof 解释
使用 tkprof 工具 tkprof orcl_ora_3048_安庆怀宁.trc 安徽安庆怀宁.txt sys=no aggregate=yes sys=no waits=yes sort=fc ...
android Log图文详解(Log.v,Log.d,Log.i,Log.w,Log.e)
在Android群里,经常会有人问我,Android Log是怎么用的,今天我就把从网上以及SDK里东拼西凑过来,让大家先一睹为快,希望对大家入门Android Log有一定的帮助． android. ...
域名下Web项目重定向出现DNS域名解析错误问题
问题: 项目使用的是阿里云的ESC,前几天为IP地址添加了域名发现发送正常请求时跳转没问题,但发送重定向请求时,页面就会出现DNS域名解析错误的情况 1.我在Tomcat的server.xml中配置 ...
【转】iPhone屏幕尺寸、分辨率及适配
原文网址:http://blog.csdn.net/phunxm/article/details/42174937 1.iPhone尺寸规格设备 iPhone 宽 Width 高 Height 对角 ...
TCP/IP详解学习笔记(2)-数据链路层
数据链路层有三个目的: 为IP模块发送和接收IP数据报. 为ARP模块发送ARP请求和接收ARP应答. 为RARP发送RARP请求和接收RARP应答 ip大家都听说过.至于ARP和RARP,ARP ...

cloudera hbase集群简单思路

cloudera hbase集群简单思路的更多相关文章

随机推荐

热门专题