实验目标

配置环境的主要目的是得到HDFS的客户端fuse-dfs的IO性能。本来的服务器上没有任何环境，因此安装均是从无到有的。系统是Ubuntu server 14.04 amd64。整个过程参考了很多网上的博客，但是由于JAVA版本、hadoop版本、HDFS版本以及fuse-dfs版本的原因，网上各种解决方案在本机的运行上有点问题，需要进行一些变通才能保证各步骤的成功运行，所以写个随笔记录一下，方便自己以后参考。

整体步骤

完成测试的步骤包括如下步骤：

（1）安装JAVA环境：hadoop是基于java的，所以必须得安装java环境才能运行hadoop。

（2）下载hadoop源码：我下载的hadoop-2.8.5-src。这部分的源码其实我需要的只是fuse-dfs这一部分的代码。下载hadoop的二进制文件：由于其余的代码我并没有编译，所以我直接下载了同样版本的可执行二进制文件。

（3）编译fuse-dfs的代码。

（4）配置hadoop伪分布环境，单namenode与单datanode。

（5）挂载fuse-dfs，进行测试。

接下来进行步骤详解：

（1）（2）安装JAVA环境和hadoop的源码下载这部分就不详细描述了，网上大把教程，直接从第三部分开始。

（3）编译fuse-dfs的代码。

首先我们找到fuse-dfs的代码，他放在hadoop源码根目录下面的 hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native/fuse-dfs/下面。为了方便，我选择将这个文件夹拷出来单独编译。

首先我们将CMakeLists打开，将该文件最后的部分注释掉。（我已经注释掉了，原来的是没有前面的#号的）。

#add_executable(test_fuse_dfs

#    test/test_fuse_dfs.c

#    test/fuse_workload.c

#    util/posix_util.c

#)

#target_link_libraries(test_fuse_dfs

#    ${FUSE_LIBRARIES}

#    native_mini_dfs

#    ${JAVA_JVM_LIBRARY}

#    pthread

#)

然后执行cmake，系统会生成自动化的makefile文件，然后执行make会产生很多报错，首先是缺乏头文件hdfs.h和config.h。hdfs.h可以在hadoop-2.8.5-src/hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native/libhdfs/include/hdfs中找到，而config.h则在hadoop-2.8.5-src/hadoop-hdfs-project/hadoop-hdfs-native-client/src 执行cmake即可生成。将config.h拷贝到fuse-dfs目录下，将hdfs.h拷贝到fuse-dfs/hdfs目录下。完成这两个操作之后，编译应该不会报错了，但是链接是会报错的：

一个是

Please add -D_FILE_OFFSET_BITS=64 to your compile flags!

针对这个错误，需要在fuse-dfs/CMakeFiles/fuse_dfs.dir/中的flags.make中增加一行。

C_FLAGS += -D_FILE_OFFSET_BITS=64

这个问题就可以解决了。然后是缺乏库的问题，需要将hadoop源码中的libhdfs.so拷入到/usr/lib中即可，编译连接就可以通过了。

（4）配置伪分布环境

这一部分的配置在hadoop-2.8.5的可执行文件目录完成。首先我们需要将hadoop-2.8.5/etc/hadoop/hadoop-env.sh文件中指定JAVA_HOME的一行修改为如下

export JAVA_HOME=/mnt/data/code/jdk1.8.0_191（根据自己的java_home目录自行替换）

然后进入etc/hadoop目录修改配置文件，首先修改core-site.xml,修改为如下即可，其中tmp目录根据自己的实际情况进行修改，如果不填这部分默认tmp目录为/tmp：

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

    <property>

        <name>io.file.buffer.size</name>

        <value>131072</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>file:/mnt/data/code/hdfs/hadoop/tmp</value>

        <description>A basefor other temporary directories.</description>

    </property>

    <property>

        <name>hadoop.proxyuser.spark.hosts</name>

        <value>*</value>

    </property>

    <property>

        <name>hadoop.proxyuser.spark.groups</name>

        <value>*</value>

    </property>

</configuration>

接下来修改hdfs-site.xml,分别指定namenode和datanode的位置以及副本数量。

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/mnt/data/code/hdfs/hadoop/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/mnt/data/code/hdfs/hadoop/data</value>

    </property>

    <property>

        <name>dfs.webhdfs.enabled</name>

        <value>true</value>

    </property>

</configuration>

这些都完成之后就可以运行HDFS了，,切换到hadoop的二进制文件目录hadoop-2.8.5,首先对namenode进行格式化

./bin/hdfs namenode -format

然后可以启动和停止hdfs，通过如下命令。

./sbin/start-dfs.sh

./sbin/stop-dfs.sh

执行启动命令后，可以通过jps命令查看是否在运行。准确结果如下：

root@opstor:/mnt/data/code/hadoop-2.8.5/sbin# jps

1986 Jps

31862 DataNode

31642 NameNode

32143 SecondaryNameNode

也可以通过网页端查看，http://localhost:50070查看。

（5）挂载fuse-dfs

这一步涉及到fuse代码中的C语言代码调用hdfs中用java实现的IO操作，所以需要将运行环境配置好才行，为此fuse-dfs也提供了fuse_dfs_wrapper.sh来保证这一点，但是由于hadoop的一些库的位置变化，这个文件需要进行调整才能保证fuse-dfs的成功挂载。

修改后的fuse_dfs_wrapper.sh文件如下,其中HADOOP_PREFIX根据自己的hadoop二进制可执行文件目录自行修改。

export HADOOP_PREFIX="/mnt/data/code/hadoop-2.8.5/share/hadoop"

if [ "$HADOOP_PREFIX" = "" ]; then

  echo "HADOOP_PREFIX is empty. Set it to the root directory of Hadoop source code"

  exit 1

fi

#export FUSEDFS_PATH="$HADOOP_PREFIX/hadoop-hdfs-project/hadoop-hdfs-native-client/target/main/native/fuse-dfs"

#export LIBHDFS_PATH="$HADOOP_PREFIX/hadoop-hdfs-project/hadoop-hdfs-native-client/target/usr/local/lib"

export FUSEDFS_PATH="/mnt/data/code/fuse-dfs"

export LIBHDFS_PATH="/usr/lib"

if [ "$OS_ARCH" = "" ]; then

export OS_ARCH=amd64

fi

if [ "$JAVA_HOME" = "" ]; then

export  JAVA_HOME=/usr/local/java

fi

if [ "$LD_LIBRARY_PATH" = "" ]; then

export LD_LIBRARY_PATH=$JAVA_HOME/jre/lib/$OS_ARCH/server:/usr/local/lib

fi

while IFS= read -r -d '' file

do

  export CLASSPATH=$CLASSPATH:$file

done < <(find "$HADOOP_PREFIX/hdfs" -name "*.jar" -print0)

while IFS= read -r -d '' file

do

  export CLASSPATH=$CLASSPATH:$file

done < <(find "$HADOOP_PREFIX/hdfs//lib" -name "*.jar" -print0)

while IFS= read -r -d '' file

do

  export CLASSPATH=$CLASSPATH:$file

done < <(find "$HADOOP_PREFIX/tools" -name "*.jar" -print0)

while IFS= read -r -d '' file

do

  export CLASSPATH=$CLASSPATH:$file

done < <(find "$HADOOP_PREFIX/tools/lib" -name "*.jar" -print0)

while IFS= read -r -d '' file

do

  export CLASSPATH=$CLASSPATH:$file

done < <(find "$HADOOP_PREFIX/common" -name "*.jar" -print0)

while IFS= read -r -d '' file

do

  export CLASSPATH=$CLASSPATH:$file

done < <(find "$HADOOP_PREFIX/common/lib" -name "*.jar" -print0)

export CLASSPATH=$HADOOP_CONF_DIR:$CLASSPATH

export PATH=$FUSEDFS_PATH:$PATH

export LD_LIBRARY_PATH=$LIBHDFS_PATH:$JAVA_HOME/jre/lib/$OS_ARCH/server

fuse_dfs "$@"

其实这个脚本的主要目的就是在挂载fuse-dfs之前保证java的库都能准确定位。修改完成之后即可采用进行fuse-dfs的挂载。后续测试即可顺利进行。

./fuse_dfs_wrapper.sh dfs://localhost:9000/ mnt/dfs

END！

配置伪分布模式下的hadoop以及采用fuse-dfs来访问HDFS的更多相关文章

伪分布式下的hadoop简单配置
今天大概尝试了一下伪分布式下的hadoop部署,简单的来总结一下首先我们需要下载hadoop的压缩包文件:http://hadoop.apache.org/releases.html这里是hadoo ...
伪分布模式下使用java接口，访问hdfs
package com.bq.pro; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import ...
云计算课程实验之安装Hadoop及配置伪分布式模式的Hadoop
一．实验目的 1. 掌握Linux虚拟机的安装方法. 2. 掌握Hadoop的伪分布式安装方法. 二．实验内容 (一)Linux基本操作命令 Linux常用基本命令包括: ls,cd,mkdir,rm ...
配置正确情况下，hadoop 没有namenode的一个解决方法
将hdfs里name与data清空,和将tmp清空然后在hadoop目录下运行 hadoop namenode -format 启动 sbin/start-all.sh
Hadoop（八）Java程序访问HDFS集群中数据块与查看文件系统
前言我们知道HDFS集群中,所有的文件都是存放在DN的数据块中的.那我们该怎么去查看数据块的相关属性的呢?这就是我今天分享的内容了一.HDFS中数据块概述 1.1.HDFS集群中数据块存放位置我 ...
Hadoop通过路径和和链接访问HDFS
如果既想在Hadoop服务器本地可以通过绝对路径如"/user/hadoop"方式访问hdfs,也想通过"hdfs://local host:9000/user/hado ...
hadoop安装配置——伪分布模式
1. 安装这里以安装hadoop-0.20.2为例先安装java,参考这个去着下载hadoop 解压 2. 配置修改环境变量 vim ~/.bashrc export HADOOP_HOME= ...
伪分布模式下执行wordcount实例时报错解决办法
问题1.不能分配内存,错误提示如下: FAILEDjava.lang.RuntimeException: Error while running command to get file permiss ...
hadoop1.2.1伪分布模式配置
1.修改core-site.xml,配置hdfs <configuration> <property> <name>fs.default.name</name ...

随机推荐

Spring框架——事务管理方式搭建一个小的项目
学习Spring框架,通过事务管理的方式搭建一个小的项目,该项目可以查询对数据库中的图书库存数量进行修改. 首先,使用MVC分层的设计模式思想搭建项目目录结构. 此部分代码源码之中都有相关注释,所以尽 ...
HBase，以及GeoMesa设计基于HBase的设计分析，从数据模型到典型查询场景，最后进行RowKey设计
GeoMesa设计基于HBase的设计分析,从数据模型到典型查询场景,最后进行RowKey设计一.HBase 基本概念理解KeyValue KeyValue多版本列定义(1) 列定义(2) Co ...
js文字颜色闪烁
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
OSPF特殊区域和LSA
OSPF路由计算优选次序: (1) 直连路由:本路由器发起的LSA 1.2: (2) 区域内路由:O: LSA 1.2: (3) 区域间路由:O IA: LSA 3: (4) 1类外部路由:O E1: ...
一次小模块的使用过程-LC12S无线模块介绍
前言: 最近帮人做了个小设备,使用了无线模块.触摸芯片,主要功能就是把触摸按键的信号无线传到控制继电器输出,MCU是STM8系列的芯片,其中使用过程中调试无线模块LC21S觉得挺好用的,就写了这篇文章 ...
国产App为什么如此“臃肿”？！
引言 App是Application的简称,正是因为有了丰富多彩的各类App,人们就可以通过它们来最大限度地发挥手中设备的功能.本文主要讨论手机上的App,因为手机的硬件和软件与十余年前相比早已有了巨 ...
2019牛客暑期多校训练营（第一场）A - Equivalent Prefixes（单调栈）
题意给定两个$n$个元素的数组$a,b$,它们的前$p$个元素构成的数组是"等价"的,求$p$的最大值."等价"的意思是在其任意一个子区间内的最小值相同. $ ...
HDOJ 1848(SG函数)
对于SG函数来说,sg[y]=x的意义为,x与y的输赢状态是相同的 sg[y]=mex(y)的定义与n.p点的定义是相同的 #include<iostream>#include<cs ...
C#之Dispose
前言谈到Dispose,首先需要理解C#的资源资源类型托管资源:由CLR创建和释放非托管资源:资源的创建和释放不由CLR管理.比如IO.网络连接.数据库连接等等.需要开发人员手动释放. 如何释 ...
oslab oranges 一个操作系统的实现实验三认识保护模式（二）：分页
实验目的: 掌握内存分页机制对应章节:3.3 实验内容: 1.认真阅读章节资料,掌握什么是分页机制 2. 调试代码,掌握分页机制基本方法与思路 – 代码3.22中,212行---237行,设置断点调 ...

配置伪分布模式下的hadoop以及采用fuse-dfs来访问HDFS

实验目标

整体步骤

（1）（2）安装JAVA环境和hadoop的源码下载这部分就不详细描述了，网上大把教程，直接从第三部分开始。

（3）编译fuse-dfs的代码。

（4）配置伪分布环境

（5）挂载fuse-dfs

END！

配置伪分布模式下的hadoop以及采用fuse-dfs来访问HDFS的更多相关文章

随机推荐

热门专题