Hadoop的学习--安装配置与使用

安装配置

系统：Ubuntu14.04

java：1.7.0_75

安装

我们需要关闭掉防火墙，命令如下：

sudo ufw disable

下载2.6.5的版本，将下载的Hadooop的压缩包解压到相应的目录，我这里解压到/opt/hadoop-2.6.5文件夹下。

配置

修改/opt/hadoop-2.6.5/etc/hadoop/hadoop-env.sh文件，将JAVA_HOME直接写地址，默认的方式可能取不到

export JAVA_HOME=/usr/lib/jvm/default-java

修改/opt/hadoop-2.6.5/etc/hadoop/core-site.xml文件，将configuration中的内容配置如下：

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://linux01:9000/</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/var/data</value>

    </property>

</configuration>

这里定义了HDFS文件访问路径以及其真正的存储路径，其中的linux01是在/etc/hosts文件中配置的域名，其实就是本地IP 127.0.0.1

修改/opt/hadoop-2.6.5/etc/hadoop/hdfs-site.xml文件，将configuration中的内容配置如下：

<configuration>

    <property>

        <!-- 副本数 -->

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

这里定义了HDFS的副本数，默认是3，我这里只有一台机器，就配置成1了。如果是多台且配置了多个副本，可以避免因一台机器故障而造成的数据丢失。

修改/opt/hadoop-2.6.5/etc/hadoop/mapred-site.xml文件，将configuration中的内容配置如下：

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

这里定义了处理MapReduce的框架是yarn。

修改/opt/hadoop-2.6.5/etc/hadoop/yarn-site.xml文件，将configuration中的内容配置如下：

<configuration>

<!-- Site specific YARN configuration properties -->

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>linux01</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

</configuration>

然后需要配置一下Hadoop的环境变量，我配置在/etc/profile中：

# Hadoop config

export HADOOP_HOME=/opt/hadoop-2.6.5

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

这就就可以在任意目录，直接使用hadoop的命令了。

简单使用

先格式化HDFS的磁盘，再启动HDFS，命令如下

// 格式化HDFS的磁盘

hdfs namenode -format

// 启动HDFS

start-dfs.sh

如果启动时报错如下：

Error: JAVA_HOME is not set and could not be found.

其解决办法如下：

修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。使用绝对路径。

export JAVA_HOME=$JAVA_HOME                  // 错误，不能这么改

export JAVA_HOME=/usr/java/jdk1.6.0_45        // 正确，应该这么改

这是我们就可以使用HDFS了，可以使用如下命令操作

// 查看文件列表

hadoop fs -ls hdfs://linux01:9000/

hadoop fs -ls /

// 添加文件

hdfs dfs -put localfile /user/hadoop/hadoopfile

hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir

hdfs dfs -put localfile hdfs://linux01:9000/hadoop/hadoopfile

// 获取文件

hdfs dfs -get /user/hadoop/file localfile

hdfs dfs -get hdfs://linux01:9000/user/hadoop/file localfile

// 删除文件

hdfs dfs -rm hdfs://linux01:9000/hadoop/hadoopfile /user/hadoop/emptydir

更多操作可以查看2.6.5的官方文档FileSystem Shell

可以通过jps命令查看，其结果如下

18069 SecondaryNameNode

17879 DataNode

17760 NameNode

6547 Jps

16316 ResourceManager

16667 NodeManager

可以通过start-yarn.sh命令启动yarn，也可以通过start-all.sh启动所有。