tachyon 集群容错

集群容错就是HA。这次顺带也练一下hadoop的HA

环境：

centos6.5+jdk1.7+hadoop2.2.0+tachyon0.5.0+zookeeper3.4.6

hadoop 192.168.1.107

slave1 192.168.1.108

slave2 192.168.1.109

(全虚拟机)

1. 在三台机器上安装jdk，关闭SELINUX，关闭防火墙，配置SSH免密码登陆（hadoop到其他机器上的和slave1到其他机器上的）,修改 hosts文件

。。。。。。

2. 安装zookeeper

2.1 下载解压

。。。。。。

2.2 在zookeeper目录下创建 data 目录和 logs 目录

mkdir data

mkdir logs

2.3 配置环境变量(root)

vi /etc/profile

export ZOO_HOME=/home/hadoop/zookeeper-3.4.6/

export ZOO_LOG_DIR=/home/hadoop/zookeeper-3.4.6/logs

export PATH=$PAHT:$ZOO_HOME/bin

2.4 配置zoo.cfg(从zoo_sample.cfg复制）

2.4.1 修改dataDir

dataDir=/home/hadoop/zookeeper-3.4.6/data

2.4.2 增加server

server.=hadoop::

server.=slave1::

server.=slave2::

2.5 在/home/hadoop/zookeeper-3.4.6/data 下面新增一个文件myid，内容为1

echo  > /home/hadoop/zookeeper-3.4./data/myid

2.6 把zookeeper 文件夹复制到其他节点
。。。。。。

2.7 把slave1上的myid文件内容改为2，把slave2上的myid文件内容改为3

.。。。。。

2.8 启动测试，查看角色（三个都要启）

zkServer.sh start

zkServer.sh status

3. 安装hadoop2.2.0
3.1 下载解压

。。。。。。

3.2 配置环境变量

。。。。。。

3.3 修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh 文件中的JAVA_HOME变量

。。。。。。

3.4 修改core-site.xml

 <configuration>

    <!-- 指定hdfs的nameservice为ns1 -->

    <property>

       <name>fs.defaultFS</name>

       <value>hdfs://ns1</value>

    </property>

    <!-- 指定hadoop临时目录 -->

    <property>

       <name>hadoop.tmp.dir</name>

       <value>/home/hadoop/hadoop-2.2./tmp</value>

    </property>

    <!-- 指定zookeeper地址 -->

    <property>

      <name>ha.zookeeper.quorum</name>

       <value>hadoop:,slave1:,slave2:</value>

    </property>

 </configuration>

3.5 修改hdfs-site.xml

 <configuration>

    <!--指定hdfs的nameservice为ns1，需要和core-site.xml中的保持一致 -->

    <property>

       <name>dfs.nameservices</name>

       <value>ns1</value>

    </property>

    <!-- ns1下面有两个DataNode，分别是nn1，nn2 -->

    <property>

       <name>dfs.ha.namenodes.ns1</name>

       <value>nn1,nn2</value>

    </property>

    <!-- nn1的RPC通信地址 -->

    <property>

      <name>dfs.namenode.rpc-address.ns1.nn1</name>

       <value>hadoop:</value>

    </property>

    <!-- nn1的http通信地址 -->

    <property>

       <name>dfs.namenode.http-address.ns1.nn1</name>

       <value>hadoop:</value>

    </property>

    <!-- nn2的RPC通信地址 -->

    <property>

      <name>dfs.namenode.rpc-address.ns1.nn2</name>

       <value>slave1:</value>

    </property>

    <!-- nn2的http通信地址 -->

    <property>

      <name>dfs.namenode.http-address.ns1.nn2</name>

       <value>slave1:</value>

    </property>

    <!-- 指定NameNode的元数据在JournalNode上的存放位置 -->

    <property>

      <name>dfs.namenode.shared.edits.dir</name>

       <value>qjournal://hadoop:8485;slave1:8485;slave2:8485/ns1</value>

    </property>

    <!-- 指定JournalNode在本地磁盘存放数据的位置 -->

    <property>

      <name>dfs.journalnode.edits.dir</name>

      <value>/home/hadoop/hadoop-2.2./journal</value>

    </property>

    <!-- 开启NameNode失败自动切换 -->

    <property>

      <name>dfs.ha.automatic-failover.enabled</name>

       <value>true</value>

    </property>

    <!-- 配置失败自动切换实现方式 -->

    <property>

      <name>dfs.client.failover.proxy.provider.ns1</name>

       <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

    </property>

    <!-- 配置隔离机制 -->

    <property>

      <name>dfs.ha.fencing.methods</name>

       <value>sshfence</value>

    </property>

    <!-- 使用隔离机制时需要ssh免登陆 -->

    <property>

      <name>dfs.ha.fencing.ssh.private-key-files</name>

       <value>/home/hadoop/.ssh/id_rsa</value>

    </property>

 </configuration>

3.6 修改slaves

hadoop

slave1

slave2

3.7 修改yarn-site.xml

 <configuration>

    <!-- 指定resourcemanager地址 -->

    <property>

      <name>yarn.resourcemanager.hostname</name>

       <value>hadoop</value>

    </property>

    <!-- 指定nodemanager启动时加载server的方式为shuffle server -->

    <property>

      <name>yarn.nodemanager.aux-services</name>

       <value>mapreduce_shuffle</value>

    </property>

 </configuration>

3.8 修改mapred-site.xml

 <configuration>

    <!-- 指定mr框架为yarn方式 -->

    <property>

      <name>mapreduce.framework.name</name>

       <value>yarn</value>

    </property>

 </configuration>

3.9 把hadoop文件夹复制到其他两个节点
。。。。。。

3.10 启动journalnode进程

sbin/hadoop-daemons.sh start journalnode

3.11 格式化 HDFS

hadoop namenode -format

scp /home/hadoop/hadoop-2.2./tmp/ hadoop@slave1:~/hadoop-2.2./

3.12 格式化 ZK

hdfs zkfc formatZK

3.13 启动 HDFS

sbin/start-dfs.sh

3.14 启动 YARN

sbin/start-yarn.sh

3.15 在 slave1 上启动 namenode

sbin/hadoop-daemon.sh start master

4 安装 tachyon
4.1 下载解压tachyon0.5.0-bin（如果hadoop版本不是2.4，则需要重新编译）

.。。。。。

4.2 配置环境变量

。。。。。。

4.3 修改 tachyon-env.sh

JAVA_HOME=/home/hadoop/jdk1..0_71

export JAVA="$JAVA_HOME/bin/java"

export TACHYON_MASTER_ADDRESS=hadoop

export TACHYON_UNDERFS_ADDRESS=hdfs://hadoop:9000

export TACHYON_WORKER_MEMORY_SIZE=512MB

export TACHYON_UNDERFS_HDFS_IMPL=org.apache.hadoop.hdfs.DistributedFileSystem

CONF_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"

export TACHYON_JAVA_OPTS+="

  -Dlog4j.configuration=file:$CONF_DIR/log4j.properties

  -Dtachyon.debug=false

  -Dtachyon.underfs.address=$TACHYON_UNDERFS_ADDRESS

  -Dtachyon.underfs.hdfs.impl=$TACHYON_UNDERFS_HDFS_IMPL

  -Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data

  -Dtachyon.workers.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/workers

  -Dtachyon.worker.memory.size=$TACHYON_WORKER_MEMORY_SIZE

  -Dtachyon.worker.data.folder=$TACHYON_RAM_FOLDER/tachyonworker/

  -Dtachyon.master.worker.timeout.ms=

  -Dtachyon.master.hostname=$TACHYON_MASTER_ADDRESS

  -Dtachyon.master.journal.folder=$TACHYON_UNDERFS_ADDRESS/tachyon/journal/

  -Dtachyon.master.pinlist=/pinfiles;/pindata

  -Dorg.apache.jasper.compiler.disablejsr199=true

  -Dtachyon.user.default.block.size.byte=

  -Dtachyon.user.file.buffer.bytes=

  -Dtachyon.usezookeeper=true

  -Dtachyon.zookeeper.address=hadoop:,slave1:,slave2:

"

4.4 复制到其他两个节点
。。。。。。

4.5 修改 slave1 的 MASTER 地址

JAVA_HOME=/home/hadoop/jdk1..0_71

export JAVA="$JAVA_HOME/bin/java"

export TACHYON_MASTER_ADDRESS=slave1

export TACHYON_UNDERFS_ADDRESS=hdfs://hadoop:9000

export TACHYON_WORKER_MEMORY_SIZE=512MB

export TACHYON_UNDERFS_HDFS_IMPL=org.apache.hadoop.hdfs.DistributedFileSystem

CONF_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"

export TACHYON_JAVA_OPTS+="

  -Dlog4j.configuration=file:$CONF_DIR/log4j.properties

  -Dtachyon.debug=false

  -Dtachyon.underfs.address=$TACHYON_UNDERFS_ADDRESS

  -Dtachyon.underfs.hdfs.impl=$TACHYON_UNDERFS_HDFS_IMPL

  -Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data

  -Dtachyon.workers.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/workers

  -Dtachyon.worker.memory.size=$TACHYON_WORKER_MEMORY_SIZE

  -Dtachyon.worker.data.folder=$TACHYON_RAM_FOLDER/tachyonworker/

  -Dtachyon.master.worker.timeout.ms=

  -Dtachyon.master.hostname=$TACHYON_MASTER_ADDRESS

  -Dtachyon.master.journal.folder=$TACHYON_UNDERFS_ADDRESS/tachyon/journal/

  -Dtachyon.master.pinlist=/pinfiles;/pindata

  -Dorg.apache.jasper.compiler.disablejsr199=true

  -Dtachyon.user.default.block.size.byte=

  -Dtachyon.user.file.buffer.bytes=

  -Dtachyon.usezookeeper=true

  -Dtachyon.zookeeper.address=hadoop:,slave1:,slave2:

"

4.6 格式化 TACHYON

tachyon format

4.7 启动 TACHYON

tachyon-start.sh all SudoMount

(在其他tachyon的教程中一般命令都是"tachyon-start.sh all Mount" ，那是因为他们都是 root 用户，非 root 用户的话则要使用 “SudoMount” ，而且三个节点上的用户都应该是 sudoer ）

4.8 在 slave1 启动tachyon 的 master 进程

tachyon-start.sh start master

4.9 进程查看

[hadoop@hadoop tachyon-0.5.-bin]$ jps

 DFSZKFailoverController

 JournalNode

 TachyonWorker

 NameNode

 NodeManager

 QuorumPeerMain

 DataNode

 Jps

 ResourceManager

 TachyonMaster

[hadoop@slave1 hadoop-2.2.]$ jps

 QuorumPeerMain

 DataNode

 JournalNode

 TachyonWorker

 TachyonMaster

 DFSZKFailoverController

 NodeManager

 Jps

 NameNode

[hadoop@slave2 bin]$ jps

 Jps

 NodeManager

 QuorumPeerMain

 JournalNode

 DataNode

 TachyonWorker

5 测试 HA

先访问 http://hadoop:19999

杀掉 hadoop 上的 master 进程（kill -9 9106）

过几十秒后查看 http://slave1:19999

SUCCESS

tachyon 集群容错的更多相关文章

Dubbo工作原理，集群容错，负载均衡
Remoting:网络通信框架,实现了sync-over-async和request-response消息机制. RPC:一个远程过程调用的抽象,支持负载均衡.容灾和集群功能. Registry:服务 ...
Dubbo 源码分析 - 集群容错之 LoadBalance
1.简介 LoadBalance 中文意思为负载均衡,它的职责是将网络请求,或者其他形式的负载"均摊"到不同的机器上.避免集群中部分服务器压力过大,而另一些服务器比较空闲的情况.通 ...
Dubbo 源码分析 - 集群容错之 Cluster
1.简介为了避免单点故障,现在的应用至少会部署在两台服务器上.对于一些负载比较高的服务,会部署更多台服务器.这样,同一环境下的服务提供者数量会大于1.对于服务消费者来说,同一环境下出现了多个服务提供 ...
Dubbo 源码分析 - 集群容错之 Router
1. 简介上一篇文章分析了集群容错的第一部分 -- 服务目录 Directory.服务目录在刷新 Invoker 列表的过程中,会通过 Router 进行服务路由.上一篇文章关于服务路由相关逻辑没有 ...
Dubbo 源码分析 - 集群容错之 Directory
1. 简介前面文章分析了服务的导出与引用过程,从本篇文章开始,我将开始分析 Dubbo 集群容错方面的源码.这部分源码包含四个部分,分别是服务目录 Directory.服务路由 Router.集群 ...
dubbo集群容错解决方案
dubbo主要核心部件 Remoting:网络通信框架,实现了sync-over-async和request-response消息机制. RPC:一个远程过程调用的抽象,支持负载均衡.容灾和集群功能. ...
dubbo源码解析五 --- 集群容错架构设计与原理分析
欢迎来我的 Star Followers 后期后继续更新Dubbo别的文章 Dubbo 源码分析系列之一环境搭建博客园 Dubbo 入门之二 --- 项目结构解析博客园 Dubbo 源码分析系列之 ...
Dubbo负载均衡与集群容错机制
1 Dubbo简介 Dubbo是一款高性能.轻量级的开源Java RPC框架,它提供了三大核心能力:面向接口的远程方法调用,智能容错和负载均衡,以及服务自动注册和发现. 作为一个轻量级RPC框架,D ...
dubbo负载均衡策略和集群容错策略都有哪些
dubbo负载均衡策略 random loadbalance 默认情况下,dubbo是random load balance随机调用实现负载均衡,可以对provider不同实例设置不同的权重,会按照权 ...

随机推荐

Dagger2学习资源
文章 Jack Wharton关于Dagger的幻灯片代码用Dagger2改写Jack Wharton的U+2020 我自己写的,包含了dagger2和单元测试 chiuki写的,包含了dagge ...
Win7系统下利用U盘安装Ubuntu14.04麒麟版
转自http://www.360doc.cn/article/14743053_335473181.html 重要提示:在采用u盘安装ubuntu分区时,所有磁盘一定要全部设置成逻辑分区,包括根目录/ ...
Python的高级Git库 Gittle
Gittle是一个高级纯python git 库.构建在dulwich之上,提供了大部分的低层机制 Gittle是一个高级纯python git 库.构建在dulwich之上,提供了大部分的低层机制. ...
python报错ordinal not in range(128)
python编码问题:'ascii' codec can't decode byte 0xb0 in position 1: ordinal not in range(128) 这种问题有三种原因: ...
WinForm控件使用文章收藏整理完成
对C# WinForm开发系列收集的控件使用方面进行整理, 加入了一些文章, 不断补充充实, 完善这方面. 基础 - 常用控件 C# WinForm开发系列 - CheckBox/Button/Lab ...
【Python实战02】共享Python代码到PyPI社区
之前学习了Python的列表,以及编写了一个函数来进行列表的输出,这次我们就继续来学习如何把我们已经编写好的代码共享到PyPI社区,这里以上篇文章中编写的print_lol函数为例. 函数转换为模块 ...
PHP发送邮件。
第三方类库: ①.email.class.php. ②.phpmailer:https://github.com/PHPMailer/PHPMailer. PHPMailer发送邮件”SMTP 错误: ...
从UnitedStack OS 1.0 Preview试用申请问卷调查学习OpenStack
http://www.diaochapai.com/survey/ 您的角色最可能是? * (必填, 多选) OpenStack私有云用户,希望能将OpenStack/UOS用于公司内部私有云云计算 ...
不需要JAVAScript完成分页查询功能
分页查询之前已经说过,现在用另一种方法实现,换汤不换药.但是更简单. view层代码: 控制层代码: 业务逻辑层,主要看一下方法count1()的代码: count1()方法的功能就是控制翻页,如果传 ...
Instant Buy Android API Tutorial
转自:https://developers.google.com/wallet/instant-buy/android/tutorial This tutorial guides you throug ...

tachyon 集群容错

tachyon 集群容错的更多相关文章

随机推荐

热门专题