准备工作

为了运行Alluxio集群在多个机器上,必须部署Alluxio服务到这些机器上。可以下载伴随特定Hadoop版本的二进制AlLxio包,也可以从Alluxio源码中编译。

当从源码中编译时,Alluxio默认是伴随着Apache HDFS的2.2.0版本编译的。为了编译其他的Hadoop版本,需要配置正确的Hadoop选项,在Alluxio安装目录下执行一下命令

mvn install -P<YOUR_HADOOP_PROFILE> -D<HADOOP_VERSION> -DskipTests

Alluxio提供预定义的构建配置包含hadoop-1,hadoo-2(默认开启),hadoop-3分别对应Hadoop的1.x,2.x,3.x版本,如果你想构建Alluxio伴随着特定的Hadoop版本,你可以在命令中配置版本,例如:

mvn install -Phadoop-2 -Dhadoop.version=2.7.1 -DskipTests
mvn install -Phadoop-3 -Dhadoop.version=3.0.0 -DskipTests

如果构建成功,应该能够在${ALLUXIO_HOME}/assembly/server/target目录中看到alluxio-assembly-server-1.8.1-jar-with-dependencies.jar。

基本安装

为了配置Alluxio使用HDFS作为底层的存储,你需要修改conf/alluxio-site.properties。如果文件不存在,从模板中创建这个配置文件

cp conf/alluxio-site.properties.template conf/alluxio-site.properties

编辑conf/alluxio-site.properties,设置底层的存储地址为HDFS namenode地址和你想要挂在到Alluxio的HDFS目录,例如,如果你想要映射HDFS根目录到Alluxio中,可以设置存储地址为hdfs://node-master:9000;如果你仅仅想挂载HDFS的/alluxio/data目录到Alluxio,可以设置存储地址为hdfs://node-master:9000/alluxio/data

运行伴随着HDFS的本地Alluxio

首先确保你的HDFS集群正在运行,映射到Alluxio的目录存在,开启Alluxio服务

bin/alluxio format
bin/alluxio-start.sh local

如果你的ramdisk还没有挂载,可能是因为你是第一次运行Alluxio,可能需要添加SudoMount选项。

bin/alluxio-start.sh local SudoMount

将会在本地开启一个Alluxio master和一个Alluxio worker。你可以通过http://localhost:19999 进行访问

一定要在alluxio-site.properties文件中解开alluxio.master.hostname的注释,要不然启动不了Alluxio worker

运行一个简单的例子程序

bin/alluxio runTests

如果伴随着权限错误的测试失败,确保当前用户有挂载到Alluxio的HDFS目录的读写权限,默认登录用户是当前用户,为了修改用户,可以在conf/alluxio-site.properties文件中设置alluxio.security.login.username的值。

当运行例子成功之后,你可以访问http://localhost:50070 来验证由Alluxio创建的文件和目录,在这个测试中,将会看到/default_tests_files/BASIC_CACHE_THROUGH的文件。

关闭Alluxio

bin/alluxio-stop.sh local

高级的设置

指定HDFS配置文件位置

当HDFS没有默认的配置,你需要配置Alluxio服务能够访问正确的HDFS配置文件,只要这个被设置,使用Alluxio客户端的应用不需要进行特定的配置了。

有两种方法可以实现:

  • 复制或者做象征性链接从Hadoop安装目录中的hdfs-site.xml,core-site.xml到${ALLUXIO_HOME}/conf,确保这个设置是在所有运行Alluxio服务的机器上。
  • 可以在conf/alluxio-site.properties文件中设置alluxio.underfs.hdfs.configuration的值来指向hdfs-site.xml,core-site.xml。确保这个设置是在所有运行Alluxio服务的机器上。
alluxio.underfs.hdfs.configuration=/path/to/hdfs/conf/core-site.xml:/path/to/hdfs/conf/hdfs-site.xml

HDFS Namenode的高可用模式

为了配置Alluxio工作在HDFS namenodes的高可用模式下,首先指定HDFS配置文件位置

除此之外,设置底层的存储地址是hdfs://nameservice(nameservice是在core-site.xml中设置的HDFS服务名字)。为了挂载HDFS的子目录到Alluxio,而不是整个HDFS根目录,修改底层的存储地址为:hdfs://nameservice/alluxio/data.

alluxio.master.mount.table.root.ufs=hdfs://nameservice/

用户权限映射

Alluxio支持POSIX-like文件的用户和权限检测,为了确保在HDFS上目录,文件的权限和Alluxio保持一致(例如,在Alluxio,Foo用户创建了一个文件,那么持久化到HDFS上,拥有者也是Foo)。开启Alluxio master和worker进程的用户必须满足以下条件之一

  • HDFS super user: 那即是,使用开启HDFS namenode进程的用户来开启Alluxio master和worker进程
  • 一个HDFS superuser group的成员,编辑hdfs-site.xml文件,检查dfs.permissions.superusergroup的值,如果这个属性被设置(例如,hdfs),添加开启alluxio进程的用户到这个组(hdfs),如果这个属性没有设置,添加一个group到这个属性,运行Alluxio的用户添加到这个新增的group。

    上面的用户设置仅仅用来标识开启Alluxio master和worker进程。只要Alluxio服务开启,没有必要使用这个用户来运行Alluxio客户端应用。

挂载特定版本的HDFS

有许多方法可以挂载特定版本的HDFS到Alluxio。在挂载特定HDFS版本之前,确保你构建了那个特定HDFS版本的客户端,你可以在Alluxio安装目录中的lib下看是否存在对应的客户端。

如果你从源码中构建Alluxio,可以构建额外的客户端jar包,通过在Alluxio源码中的underfs目录下执行mvn命令。例如执行下面的命令可以构建2.6.0版本的客户端。

 mvn -T 4C clean install -Dmaven.javadoc.skip=true -DskipTests \
-Dlicense.skip=true -Dcheckstyle.skip=true -Dfindbugs.skip=true \
-Pufs-hadoop-2 -Dufs.hadoop.version=2.6.0

使用Mount命令

当使用mount Alluxio shell命令时,通过传递alluxio.underfs.version参数来指定挂载的HDFS版本,如果没有版本被设置,默认Alluxio当做HDFS2.2版本。

例如,下面的命令可以挂载两个HDFS部署,一个是HDFS1.2,另一个是HDFS2.7.分别挂载到/mnt/hdfs12和/mnt/hdfs27下面。

./bin/alluxio fs mount \
--option alluxio.underfs.version=1.2 \
/mnt/hdfs12 hdfs://namenode1:8020/
./bin/alluxio fs mount \
--option alluxio.underfs.version=2.7 \
/mnt/hdfs27 hdfs://namenode2:8020/

使用alluxio-site.properties

当挂载Alluxio的根目录存储为特定的HDFS版本,可以添加下面的行到alluxio-site.properties文件

alluxio.master.mount.table.root.ufs=hdfs://namenode1:8020
alluxio.master.mount.table.root.option.alluxio.underfs.version=1.2

支持的HDFS版本号

Alluxio v1.8.1支持下面的HDFS版本作为alluxio.underfs.version参数的值

Apache Hadoop: 1.0, 1.2, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1

Alluxio集成Hadoop的更多相关文章

  1. Eclipse集成Hadoop插件

    一.Eclipse集成Hadoop插件 1.在这之前我们需要配置真机上的hadoop环境变量 注:在解压tar包的时候普通解压会出现缺文件的现象,所以在这里我们需要用管理员的方式启动我们的解压软件(我 ...

  2. 【读书笔记】Elasticsearch集成Hadoop最佳实践

    前言 本文记录[Elasticsearch集成Hadoop最佳实战]读书笔记 本书总计209页,共7章节,计划时间:20180712-20180717 (每天至少40页) 本文代码地址: https: ...

  3. Hue集成Hadoop和Hive

    一.环境准备 1.下载Hue:https://dl.dropboxusercontent.com/u/730827/hue/releases/3.12.0/hue-3.12.0.tgz 2.安装依赖 ...

  4. Elasticsearch集成Hadoop最佳实践.pdf(内含目录)

    Elasticsearch服务器开发(第2版) 介绍: ElasticSearch是一个开源的分布式搜索引擎,具有高可靠性,支持非常多的企业级搜索用例.ElasticsearchHadoop作为一个完 ...

  5. eclipse中集成hadoop插件

    1.下载并安装eclipse2.https://github.com/winghc/hadoop2x-eclipse-plugin3.下载插件到eclipse的插件目录 4.配置hadoop安装目录  ...

  6. cdh版本的hue安装配置部署以及集成hadoop hbase hive mysql等权威指南

    hue下载地址:https://github.com/cloudera/hue hue学习文档地址:http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-c ...

  7. Alluxio+HDFS+MapReduce集成及测试

    目录 1.在 HDFS 上配置 Alluxio 1.1.节点角色 1.2.软件版本 1.3.准备工作 1.3.1.设置 SSH 免密登录 1.3.2.安装 JDK 1.3.3.安装 Hadoop 1. ...

  8. Hadoop集成

    Hadoop集成   长期以来,我每开个系列,只有兴趣写一篇,很难持之与恒.为了克服这个长久以来的性格弱点,以及梳理工作半年的积累.最近一个月会写两篇关于Mongo在地理大数据方面的实践和应用,一篇关 ...

  9. MongoDB集群与LBS应用系列(二)--与Hadoop集成

    长期以来,我每开个系列,只有兴趣写一篇,很难持之与恒.为了克服这个长久以来的性格弱点,以及梳理工作半年的积累.最近一个月会写两篇关于Mongo在地理大数据方面的实践和应用,一篇关于推荐系统的初期准备过 ...

随机推荐

  1. JSTL-标准标签库

    JSTL1.2中的标签库可以分成5类区域      核心:uri="http://java.sun.com/jsp/jstl/core"  prefix=“c”      XML: ...

  2. 在虚拟机中的搭建Web服务器(CentOS)

    1.制作本地yum源 相关可查看:http://www.cnblogs.com/xiaomingzaixian/p/8424290.html 2.安装JDK 上传上传jdk-7u45-linux-x6 ...

  3. 简单安装与配置mysql数据库(绿色版)

    目录 绿色版下载 mysql绿色版(5.7版本的安装与配置) 绿色版下载: mysql官网下载地址:https://www.oracle.com/index.html mysql绿色版(5.7版本的安 ...

  4. mysql创建索引时报错1170

    MySQL只能将BLOB/TEXT类型字段设置索引为BLOB/TEXT数据的前N个字符. 索引指定下col2的长度就可以了 :alter table foo add index col_2 (col2 ...

  5. Ta-lib K线模式识别

    1, CDL2CROWS (Two Crows 两只乌鸦) 简介:三日K线模式,第一天长阳,第二天高开收阴,第三天再次高开继续收阴,收盘比前一日收盘价低,预示股价下跌. 例子:integer = CD ...

  6. Python并行编程(一):基本概念

    1.线程和进程 进程是应用程序的一个执行实例,比如,在桌面上双击浏览器将会运行一个浏览器.线程是一个控制流程,可以在进程内与其他活跃的线程同时执行.控制流程指的是顺序执行一些机器指令.进程可以包含多个 ...

  7. java7(2)——使用mutilcatch注意事项

    从java7推出mutilcatch后,到现在都少有看到人使用,可能是这个功能真正用起来,比起多个catch并不快多少,而且现在的工IDE具太厉害了,什么都有快捷键!说是这么说,我们还是得了解一下如何 ...

  8. python3.6.1 安装PyQt5,以及配置QTDesigner,PyUIC

    本人主机win10 64,python版本是3.6.1 64 注意python版本一定得是3.6.1 64位的,我原来电脑是安装的32位的,浪费了好长时间 (MMP) 第一步:安装python,自己官 ...

  9. java-mybaits-00503-延迟加载

    1.什么是延迟加载 resultMap可以实现高级映射(使用association.collection实现一对一及一对多映射),association.collection具备延迟加载功能. 需求: ...

  10. APIENTRY

    1.在widnows编程中int APIENTRY WinMain中APIENTRY是什么意思,其什么作用? winapi表示此函数是普通的winapi函数调用方式,apientry则表明此函数是应用 ...