Alluxio集成Hadoop

准备工作

为了运行Alluxio集群在多个机器上，必须部署Alluxio服务到这些机器上。可以下载伴随特定Hadoop版本的二进制AlLxio包，也可以从Alluxio源码中编译。

当从源码中编译时，Alluxio默认是伴随着Apache HDFS的2.2.0版本编译的。为了编译其他的Hadoop版本，需要配置正确的Hadoop选项，在Alluxio安装目录下执行一下命令

mvn install -P<YOUR_HADOOP_PROFILE> -D<HADOOP_VERSION> -DskipTests

Alluxio提供预定义的构建配置包含hadoop-1,hadoo-2(默认开启),hadoop-3分别对应Hadoop的1.x，2.x，3.x版本，如果你想构建Alluxio伴随着特定的Hadoop版本，你可以在命令中配置版本，例如：

mvn install -Phadoop-2 -Dhadoop.version=2.7.1 -DskipTests

mvn install -Phadoop-3 -Dhadoop.version=3.0.0 -DskipTests

如果构建成功，应该能够在${ALLUXIO_HOME}/assembly/server/target目录中看到alluxio-assembly-server-1.8.1-jar-with-dependencies.jar。

基本安装

为了配置Alluxio使用HDFS作为底层的存储，你需要修改conf/alluxio-site.properties。如果文件不存在，从模板中创建这个配置文件

cp conf/alluxio-site.properties.template conf/alluxio-site.properties

编辑conf/alluxio-site.properties，设置底层的存储地址为HDFS namenode地址和你想要挂在到Alluxio的HDFS目录，例如，如果你想要映射HDFS根目录到Alluxio中，可以设置存储地址为hdfs://node-master:9000；如果你仅仅想挂载HDFS的/alluxio/data目录到Alluxio，可以设置存储地址为hdfs://node-master:9000/alluxio/data

运行伴随着HDFS的本地Alluxio

首先确保你的HDFS集群正在运行，映射到Alluxio的目录存在，开启Alluxio服务

bin/alluxio format

bin/alluxio-start.sh local

如果你的ramdisk还没有挂载，可能是因为你是第一次运行Alluxio，可能需要添加SudoMount选项。

bin/alluxio-start.sh local SudoMount

将会在本地开启一个Alluxio master和一个Alluxio worker。你可以通过http://localhost:19999 进行访问

一定要在alluxio-site.properties文件中解开alluxio.master.hostname的注释，要不然启动不了Alluxio worker

运行一个简单的例子程序

bin/alluxio runTests

如果伴随着权限错误的测试失败，确保当前用户有挂载到Alluxio的HDFS目录的读写权限，默认登录用户是当前用户，为了修改用户，可以在conf/alluxio-site.properties文件中设置alluxio.security.login.username的值。

当运行例子成功之后，你可以访问http://localhost:50070 来验证由Alluxio创建的文件和目录，在这个测试中，将会看到/default_tests_files/BASIC_CACHE_THROUGH的文件。

关闭Alluxio

bin/alluxio-stop.sh local

高级的设置

指定HDFS配置文件位置

当HDFS没有默认的配置，你需要配置Alluxio服务能够访问正确的HDFS配置文件，只要这个被设置，使用Alluxio客户端的应用不需要进行特定的配置了。

有两种方法可以实现：

复制或者做象征性链接从Hadoop安装目录中的hdfs-site.xml，core-site.xml到${ALLUXIO_HOME}/conf，确保这个设置是在所有运行Alluxio服务的机器上。
可以在conf/alluxio-site.properties文件中设置alluxio.underfs.hdfs.configuration的值来指向hdfs-site.xml，core-site.xml。确保这个设置是在所有运行Alluxio服务的机器上。

alluxio.underfs.hdfs.configuration=/path/to/hdfs/conf/core-site.xml:/path/to/hdfs/conf/hdfs-site.xml

HDFS Namenode的高可用模式

为了配置Alluxio工作在HDFS namenodes的高可用模式下，首先指定HDFS配置文件位置。

除此之外，设置底层的存储地址是hdfs://nameservice(nameservice是在core-site.xml中设置的HDFS服务名字)。为了挂载HDFS的子目录到Alluxio，而不是整个HDFS根目录，修改底层的存储地址为：hdfs://nameservice/alluxio/data.

alluxio.master.mount.table.root.ufs=hdfs://nameservice/

用户权限映射

Alluxio支持POSIX-like文件的用户和权限检测，为了确保在HDFS上目录，文件的权限和Alluxio保持一致(例如，在Alluxio，Foo用户创建了一个文件，那么持久化到HDFS上，拥有者也是Foo)。开启Alluxio master和worker进程的用户必须满足以下条件之一

HDFS super user: 那即是，使用开启HDFS namenode进程的用户来开启Alluxio master和worker进程
一个HDFS superuser group的成员,编辑hdfs-site.xml文件，检查dfs.permissions.superusergroup的值，如果这个属性被设置(例如，hdfs),添加开启alluxio进程的用户到这个组(hdfs)，如果这个属性没有设置，添加一个group到这个属性，运行Alluxio的用户添加到这个新增的group。

上面的用户设置仅仅用来标识开启Alluxio master和worker进程。只要Alluxio服务开启，没有必要使用这个用户来运行Alluxio客户端应用。

挂载特定版本的HDFS

有许多方法可以挂载特定版本的HDFS到Alluxio。在挂载特定HDFS版本之前，确保你构建了那个特定HDFS版本的客户端，你可以在Alluxio安装目录中的lib下看是否存在对应的客户端。

如果你从源码中构建Alluxio，可以构建额外的客户端jar包，通过在Alluxio源码中的underfs目录下执行mvn命令。例如执行下面的命令可以构建2.6.0版本的客户端。

 mvn -T 4C clean install -Dmaven.javadoc.skip=true -DskipTests \

-Dlicense.skip=true -Dcheckstyle.skip=true -Dfindbugs.skip=true \

-Pufs-hadoop-2 -Dufs.hadoop.version=2.6.0

使用Mount命令

当使用mount Alluxio shell命令时，通过传递alluxio.underfs.version参数来指定挂载的HDFS版本，如果没有版本被设置，默认Alluxio当做HDFS2.2版本。

例如，下面的命令可以挂载两个HDFS部署，一个是HDFS1.2，另一个是HDFS2.7.分别挂载到/mnt/hdfs12和/mnt/hdfs27下面。

./bin/alluxio fs mount \

--option alluxio.underfs.version=1.2 \

/mnt/hdfs12 hdfs://namenode1:8020/

./bin/alluxio fs mount \

--option alluxio.underfs.version=2.7 \

/mnt/hdfs27 hdfs://namenode2:8020/

使用alluxio-site.properties

当挂载Alluxio的根目录存储为特定的HDFS版本，可以添加下面的行到alluxio-site.properties文件

alluxio.master.mount.table.root.ufs=hdfs://namenode1:8020

alluxio.master.mount.table.root.option.alluxio.underfs.version=1.2

支持的HDFS版本号

Alluxio v1.8.1支持下面的HDFS版本作为alluxio.underfs.version参数的值

Apache Hadoop: 1.0, 1.2, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1