1 系统环境

Ubuntu 15.10, Java 1.7, Hadoop 2.6.0 HA, Spark-1.4.0

三台机器

spark-1423-0001： Master， Worker

spark-1423-0002： Master， Worker

spark-1423-0003： Worker

2 tachyon下载地址

源码：https://github.com/Alluxio/alluxio

可执行文件：https://github.com/Alluxio/alluxio/releases

我下载的是0.7.0：https://github.com/amplab/tachyon/archive/v0.7.0.zip

自己用Maven编译，当然也可以使用官网编译好的。

mvn -Dhadoop.version=2.6. clean package -DskipTests=true

因为Spark-1.4.0中已经集成了Tachyon（0.6.*），所以这里使用Tachyon-0.7.0是没有问题的。

3 修改配置文件

下面的配置都是在spark-1423-001上进行的。

3.1 修改tachyon-env.sh

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64

if [[ `uname -a` == Darwin* ]]; then

  # Assuming Mac OS X

  export JAVA_HOME=${JAVA_HOME:-$(/usr/libexec/java_home)}

  export TACHYON_RAM_FOLDER=/Volumes/ramdisk

  export TACHYON_JAVA_OPTS="-Djava.security.krb5.realm= -Djava.security.krb5.kdc="

else

  # Assuming Linux

  if [ -z "$JAVA_HOME" ]; then

    if [ -d /usr/lib/jvm/java--oracle ]; then

      export JAVA_HOME=/usr/lib/jvm/java--oracle

    else

      # openjdk will set this

      if [ -d /usr/lib/jvm/jre-1.7. ]; then

        export JAVA_HOME=/usr/lib/jvm/jre-1.7.

      fi

    fi

  fi

  export TACHYON_RAM_FOLDER=/mnt/ramdisk

fi

if [ -z "$JAVA_HOME" ]; then

  export JAVA_HOME="$(dirname $(which java))/.."

fi

export JAVA="$JAVA_HOME/bin/java"

export TACHYON_MASTER_ADDRESS=spark-1423-0001

export TACHYON_UNDERFS_ADDRESS=hdfs://hadoop-cluster

#export TACHYON_UNDERFS_ADDRESS=hdfs://localhost:9000

export TACHYON_WORKER_MEMORY_SIZE=10GB

export TACHYON_UNDERFS_HDFS_IMPL=org.apache.hadoop.hdfs.DistributedFileSystem

export TACHYON_WORKER_MAX_WORKER_THREADS=

export TACHYON_MASTER_MAX_WORKER_THREADS=

export TACHYON_SSH_FOREGROUND="yes"

export TACHYON_WORKER_SLEEP="0.02"

# Prepend Tachyon classes before classes specified by TACHYON_CLASSPATH

# in the Java classpath.  May be necessary if there are jar conflicts

#export TACHYON_PREPEND_TACHYON_CLASSES="yes"

# Where log files are stored. $TACHYON_HOME/logs by default.

#export TACHYON_LOGS_DIR=$TACHYON_HOME/logs

CONF_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"

export TACHYON_JAVA_OPTS+="

  -Dlog4j.configuration=file:$CONF_DIR/log4j.properties

  -Dtachyon.debug=false

  -Dtachyon.worker.tieredstore.level.max=1

  -Dtachyon.worker.tieredstore.level0.alias=MEM

  -Dtachyon.worker.tieredstore.level0.dirs.path=$TACHYON_RAM_FOLDER

  -Dtachyon.worker.tieredstore.level0.dirs.quota=$TACHYON_WORKER_MEMORY_SIZE

  -Dtachyon.underfs.address=$TACHYON_UNDERFS_ADDRESS

  -Dtachyon.underfs.hdfs.impl=$TACHYON_UNDERFS_HDFS_IMPL

  -Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data

  -Dtachyon.worker.max.worker.threads=$TACHYON_WORKER_MAX_WORKER_THREADS

  -Dtachyon.workers.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/workers

  -Dtachyon.worker.memory.size=$TACHYON_WORKER_MEMORY_SIZE

  -Dtachyon.worker.data.folder=/tachyonworker/

  -Dtachyon.master.max.worker.threads=$TACHYON_MASTER_MAX_WORKER_THREADS

  -Dtachyon.master.worker.timeout.ms=60000

  -Dtachyon.master.hostname=$TACHYON_MASTER_ADDRESS

  -Dtachyon.master.journal.folder=$TACHYON_UNDERFS_ADDRESS/tachyon/journal/

  -Dorg.apache.jasper.compiler.disablejsr199=true

  -Djava.net.preferIPv4Stack=true

  -Dtachyon.usezookeeper=true

  -Dtachyon.zookeeper.address=spark-1421-0000:2181,spark-1421-0003:2181,spark-1421-0004:2181,spark-1421-0005:2181,spark-1421-0006:2181

"

# Master specific parameters. Default to TACHYON_JAVA_OPTS.

export TACHYON_MASTER_JAVA_OPTS="$TACHYON_JAVA_OPTS"

# Worker specific parameters that will be shared to all workers. Default to TACHYON_JAVA_OPTS.

export TACHYON_WORKER_JAVA_OPTS="$TACHYON_JAVA_OPTS"

这里需要设置Master IP，Hadoop 地址，我这里Hadoop是高可用的

3.2 修改Worker

spark-1423-0001

spark-1423-0002

spark-1423-0003

配置完成之后，将Tachyon分发到Spark-1421-0002，spark-1423-0003，同时修改spark-1423-0002 tachyon-env.sh中的MasterIP，其他不变

4 系统启动

下面的操作都是在spark-1423-0001上进行的，首次启动前需要格式化

tachyon format

然后启动

tachyon-start.sh all SudoMount

启动Tachyon有了更多的选项：

l./tachyon-start.sh all Mount在启动前自动挂载TachyonWorker所使用的RamFS，然后启动TachyonMaster和所有TachyonWorker。由于直接使用mount命令，所以需要用户为root；

l./tachyon-start.sh all SudoMount在启动前自动挂载TachyonWorker所使用的RamFS，然后启动TachyonMaster和所有TachyonWorker。由于使用sudo mount命令，所以需要用户有sudo权限；

l./tachyon-start.sh all NoMount认为RamFS已经挂载好，不执行挂载操作，只启动TachyonMaster和所有TachyonWorker

因此，如果不想每次启动Tachyon都挂载一次RamFS，可以先使用命令./tachyon-mount.sh Mount workers 或./tachyon-mount.sh SudoMount workers挂载好所有RamFS，然后使用./tachyon-start.sh all NoMount 命令启动Tachyon。

单机和集群式模式的区别就在于节点配置和启动步骤，事实上，也可以在集群模式下只设置一个TachyonWorker，此时就成为伪分布模式。

因为Tachyon设置了高可用，那么在spark-1423-002上需要启动Master

./tachyon-start.sh master

启动之后可以在：http://spark-1423-0001:19999上面看到Tachyon的启动情况

为了验证高可用，可以将spark-1423-0001中的Master进程杀死，系统会自行进行切换，大概需要花15秒

5 Spark on Tachyon

5.1 首先需要在SPARK_HOME/conf中新建core-site.xml，内容如下：

<configuration>

  <property>

    <name>fs.tachyon-ft.impl</name>

    <value>tachyon.hadoop.TFSFT</value>

  </property>

</configuration>

5.2 修改spark_env.conf，添加如下内容：

export SPARK_JAVA_OPTS="

  -Dtachyon.zookeeper.address=spark--:,spark--:,spark--:,spark--:,spark--:

  -Dtachyon.usezookeeper=true

  $SPARK_JAVA_OPTS"

5.3 spark-shell中测试：

val s = sc.textFile("tachyon-ft://spark-1423-0001:19999/X")

s.count()

s.saveAsTextFile("tachyon-ft://spark-1423-0002:19999/Y")

这里需要注意一点，Tachyon读取文件的顺序是先从本机内存中读取，如果本机内存中没有，Tachyon会从集群中其他Worker节点中寻找，如果集群中Worker节点内存中也没有，那么Tachyon会从UnderFS中寻找，例如HDFS中。

在使用Spark-shell测试时，如果是用的Local模式，那么tachyon-ft://spark-1423-0002:19998 只能读取本机内存中的数据，Tachyon集群其他节点中内存的数据都读不到，HDFS中的数据也是读不到。

6 参考文献

http://www.cnblogs.com/shishanyuan/p/4775400.html

http://www.sxt.cn/u/756/blog/5410

http://www.tachyonproject.org/documentation/v0.7.1/Running-Spark-on-Tachyon.html

Ubuntu 15.10 下Tachyon安装的更多相关文章

Ubuntu 15.10下droidbox安装使用
DroidBox是一个动态分析Android代码的的分析工具.其目前的安装环境为:Linux/Unix/MacOSX 下面是安装步骤一. 安装Android SDK 并添加环境变量 export P ...
Ubuntu 15.10 下Redis Cluster使用
1 Redis Standalone安装可以参考这篇博文:http://www.cnblogs.com/_popc/p/3684835.html 2 Redis Cluster安装 2.1 环境介绍 ...
Ubuntu 14.10 下DokuWiki安装
环境说明: Ubuntu 14.10 64位 1 下载DokuWiki:http://download.dokuwiki.org/ 2 解压到 /var/www/html下面 3 如果没有安装Apac ...
Ubuntu 15.10下Qt5的安装实战
写照篇博客的目的就是因为最近要使用Qt,但是由于本人的系统是Ubuntu的,而网上大部分的讲解全是基于Windows的,所以就花费一些时间总结了一下我的安装过程,当然也是也为了能帮助到更多的博友. 第 ...
Ubuntu 15.10下的WebStorm-11.0.3完美破解
由于最新的JetBrains 发布了最新版本的IntelliJ IDEA的各个版本,而且更换了注册机的使用方式,这就导致了之前对WebStorm的破解方法不能在使用了.所以我们就必须另寻他法咯.如题, ...
Ubuntu 15.10 下Scala 操作Redis Cluster
1 前言 Redis Standalone,Redis Cluster的安装在前面介绍过,地址:http://www.cnblogs.com/liuchangchun/p/5063477.html,这 ...
Ubuntu 14.10 下Eclipse安装Hadoop插件
准备环境 1 安装好了Hadoop,之前安装了Hadoop 2.5.0,安装参考http://www.cnblogs.com/liuchangchun/p/4097286.html 2 安装Eclip ...
Ubuntu 15.04 下apt-get安装JDK
[From] http://blog.csdn.net/skykingf/article/details/45250017 1.删除自带的OpenJDK [python] view plain cop ...
求助下 Ubuntu 15.10(64 位)下安装 pyspider 下的问题 - V2EX
https://www.v2ex.com/t/279405 求助下 Ubuntu 15.10(64 位)下安装 pyspider 下的问题 - V2EX pip 更新到最新 sudo apt inst ...

随机推荐

RemindMe
[最新版本:1.0.0.1] [公告:感谢使用!\r\n欢迎访问软件主页:http://www.cnblogs.com/dubuyunjie/p/8895488.html\r\n]
code about led_shake
//write by:cyt //Project Name:Led on/off //Time:2017-2-10 #include<reg51.h> void delay(int c) ...
python super超类方法
super() 函数是用于调用父类(超类)的一个方法. super 是用来解决多重继承问题的,直接用类名调用父类方法在使用单继承的时候没问题,但是如果使用多继承,会涉及到查找顺序(MRO).重复调用( ...
关于实时监听input的值得变化的问题
onchange 关于input的onchange事件其实是有出发条件的并非实时监听的 1.鼠标点击事件或者键盘事件(tab和wins键都可以触发 enter在ie9时不触发,火狐和ch ...
剑指Offer 66. 机器人的运动范围（回溯）
题目描述地上有一个m行和n列的方格.一个机器人从坐标0,0的格子开始移动,每一次只能向左,右,上,下四个方向移动一格,但是不能进入行坐标和列坐标的数位之和大于k的格子. 例如,当k为18时,机器人能 ...
html+jquery实现简单图片裁剪
有了上一篇图片放大镜的铺垫,今天的这个例子是缩小镜,因为裁剪的原图往往很大,不能在工作区域看到全部图片,所以,要有缩小镜来显示,当前裁剪的区域是原图的个部分.按照惯例首先看下效果图: 功能一:载入默认 ...
iOS证书申请及使用详细说明
iOS 证书申请和使用详解(详细版)阅读对于iOS开发者来说,apple开发者账号肯定不会陌生.在开发中我们离不开它.下面我简单的为大家分享一下关于iOS开发中所用的证书相关知识. 第一部分:成 ...
Asp.net中时间格式化的几种方法
1. 数据控件绑定时格式化日期方法:<asp:BoundColumn DataField="AddTime" HeaderText="添加时间" Data ...
Linux安装配置rabbitmq
Step1:安装erlang 1)下载erlang wget http://www.rabbitmq.com/releases/erlang/erlang-19.0.4-1.el7.centos.x8 ...
克拉美罗界（CRB）
转载自:http://www.cnblogs.com/rubbninja/p/4512765.html 各种研究领域(包括无线定位方向)都会碰到参数估计的问题,这时常常会看到克拉美罗界 (Cramér ...

Ubuntu 15.10 下Tachyon安装