附录A 编译安装Hadoop

A.1 编译Hadoop

A.1.1 搭建环境

第一步安装并设置maven

1. 下载maven安装包

建议安装3.0以上版本（由于Spark2.0编译要求Maven3.3.9及以上版本），本次安装选择的是maven3.3.9的二进制包，下载地址如下：

http://mirror.bit.edu.cn/apache/maven/maven-3/

2. 上传git并解压缩

把下载的maven安装包上传到/home/spark/work目录,使用如下命令解压缩并把文件夹移动到/app/soft目录下：

$cd /home/spark/work

$tar -zxf apache-maven-3.3.9-bin.tar.gz

$mv maven-3.3.9 /app/soft

$ll /app/soft

3. 编译安装

在/etc/profile配置文件中加入如下设置：

export PATH=/app/soft/maven-3.3.9/bin:$PATH

修改/etc/profile配置文件并验证配置是否成功：

$source /etc/profile

$mvn -version

查看Maven是否安装成功

第二步使用yum安装必要软件

以root用户使用yum安装svn、gcc等编译所需要的软件：

#yum install svn

#yum install autoconf automake libtool cmake

#yum install ncurses-devel

#yum install openssl-devel

#yum install gcc*

第三步安装并设置protobuf

注：该程序包需要在gcc安装完毕后才能安装，否则提示无法找到gcc编译器。

1. 下载protobuf安装包

下载链接为https://code.google.com/p/protobuf/downloads/list

图附录A‑2 Protobuf下载页面

2. 解压安装包并移动目录

把protobuf-2.5.0.tar.gz安装包上传到/home/spark/work目录，通过如下命令把该安装包解压并移动到/app/soft目录中

$tar -zxf protobuf-2.5.0.tar.gz

$mv protobuf-2.5.0 /app/soft

$ll /app/soft

3. 编译安装

进入目录以root用户运行如下命令对protobuf进行编译安装，该过程比较慢，需要花费十几分钟时间：

#cd /app/soft/protobuf-2.5.0

#./configure

#make

#make check

#make install

4. 验证是否安装成功

编译安装成功之后，通过如下方式来验证是否安装成功：

#protoc

图附录A‑3 确认Protobuf是否安装成功

A.1.2 编译Hadoop

第一步下载Hadoop源代码并解压

可以在apache官网或者镜像站点下载hadoop源代码包，比如在下面地址中选择下载hadoop-2.7.2-src.tar.gz源代码包：

http://apache.fayea.com/hadoop/common/hadoop-2.7.2/

下载后把源代码包上传到/home/spark/work目录中解压，然后移动到/app/compile目录：

$cd /home/spark/work

$tar -zxf hadoop-2.7.2-src.tar.gz

$mv hadoop-2.7.2-src /app/compile

$ll /app/complie

第二步编译Hadoop源代码

在Hadoop源代码的根目录执行如下命令：

$cd /app/compile/hadoop-2.7.2-src

$mvn package -Pdist,native -DskipTests –Dtar

任务进行编译，耗费的时间较长，在编译过程需要联网，从网络中下载所需要依赖包。由于依赖包速度较慢，可以打开新的命令终端使用$du -sh查看整个目录或$du -sh *子目录大小变化，该过程井场卡死或出现异常，这种情况下可以中断编译过程，重新执行命令进行编译，编译完成后截图如下：

图附录A‑4 Hadoop编译结果

第三步验证编译是否成功

位，如下图所示。其中打包好的hadoop-2.7.2.tar.gz文件存在hadoop-dist/target目录中，作为后续部署的安装包。

图附录A‑5 验证Hadoop编译是否成功

A.2 安装Hadoop

由于在实战过程中，需要使用HDFS文件系统，以及在介绍运行架构使用需要使用YARN调度框架需要安装Hadoop，这里使用的是Hadoop2.7.2版本。

A.2.1 修改配置文件

第一步上传并解压Hadoop安装包

使用前面编译好的hadoop-2.7.2安装包，或者从apache网站上下载，上传到master节点的/home/spark/work目录下，解压缩并移动到/app/spark目录下：

$cd /home/spark/work

$tar -zxf hadoop-2.7.2.tar.gz

$mv hadoop-2.7.2 /app/spark

$ll /app/spark

第二步在Hadoop目录下创建子目录

以hadoop用户登录在/app/spark/hadoop-2.7.2目录下创建tmp、name和data目录

$cd /app/spark/hadoop-2.7.2

$mkdir tmp

$mkdir name

$mkdir data

$ll

第三步配置hadoop-env.sh

使用如下命令打开配置文件hadoop-env.sh：

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi hadoop-env.sh

加入如下配置内容，设置JAVA_HOME和PATH路径：

export JAVA_HOME=/app/soft/jdk1.7.0_55

export PATH=$PATH:/app/spark/hadoop-2.7.2/bin

export HADOOP_CONF_DIR=/app/spark/hadoop-2.7.2/etc/hadoop

编译配置文件hadoop-env.sh，并确认生效

$source hadoop-env.sh

$hadoop version

图附录A‑6 验证Hadoop部署是否正确

第四步配置yarn-env.sh

在/app/spark/hadoop-2.7.2/etc/hadoop打开配置文件yarn-env.sh

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi yarn-env.sh

加入配置内容，设置JAVA_HOME路径

export JAVA_HOME=/app/soft/jdk1.7.0_55

使用如下命令编译配置文件yarn-env.sh，使其生效：

$source yarn-env.sh

第五步配置core-site.xml

使用如下命令打开core-site.xml配置文件

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi core-site.xml

在配置文件中，按照如下内容进行配置

<name>fs.default.name</name>

<value>hdfs://master:9000</value>

</property>

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/app/spark/hadoop-2.7.2/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<name>hadoop.proxyuser.hduser.hosts</name>

</property>

<name>hadoop.proxyuser.hduser.groups</name>

</property>

</configuration>

第六步配置hdfs-site.xml

使用如下命令打开hdfs-site.xml配置文件：

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi hdfs-site.xml

在配置文件中，按照如下内容进行配置

<name>dfs.namenode.secondary.http-address</name>

<value>master:9001</value>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/app/spark/hadoop-2.7.2/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/app/spark/hadoop-2.7.2/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

第七步配置mapred-site.xml

默认情况下不存在mapred-site.xml文件，可以从模板拷贝一份，并打开该配置文件：

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$cp mapred-site.xml.template mapred-site.xml

$sudo vi mapred-site.xml

在配置文件中，按照如下内容进行配置

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

</configuration>

第八步配置yarn-site.xml

使用如下命令打开yarn-site.xml配置文件

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi yarn-site.xml

在配置文件中，按照如下内容进行配置

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

</configuration>

第九步配置Slaves文件

使用$sudo vi slaves打开从节点配置文件，在文件中加入master、slave1和slave2节点作为数据节点（DataNode）：

master

slave1

slave2

第十步向各节点分发Hadoop程序

确认slave1和slave2节点/app/spark所属组和用户均为spark，然后进入mater节点/app/spark目录，使用如下命令把hadoop-2.7.2文件夹复制到slave1和slave2节点：

$cd /app/spark

$scp -r hadoop-2.7.2 spark@slave1:/app/spark/

$scp -r hadoop-2.7.2 spark@slave2:/app/spark/

A.2.2 启动并验证部署

第一步格式化NameNode

$cd /app/spark/hadoop-2.7.2/

$./bin/hdfs namenode -format

图附录A‑7 格式化NameNode

第二步启动并验证HDFS

使用如下命令启动HDFS：

$cd /app/spark/hadoop-2.7.2/sbin

$./start-dfs.sh

此时在master上面运行的进程有：NameNode、SecondaryNameNode和DataNode，而slave1和slave2上面运行的进程有：NameNode和DataNode

第三步启动并验证YARN

使用如下命令启动YARN：

$cd /app/spark/hadoop-2.7.2/sbin

$./start-yarn.sh

此时在master上运行的进程有：NameNode、SecondaryNameNode、DataNode、NodeManager和ResourceManager，而slave1和slave2上面运行的进程有：NameNode、DataNode和NodeManager。

附录A 编译安装Hadoop的更多相关文章

Ubuntu13.04 Eclipse下编译安装Hadoop插件及使用小例
Ubuntu13.04 Eclipse下编译安装Hadoop插件及使用小例一.在Eclipse下编译安装Hadoop插件 Hadoop的Eclipse插件现在已经没有二进制版直接提供,只能自己编译. ...
Hadoop集群搭建-03编译安装hadoop
Hadoop集群搭建-05安装配置YARN Hadoop集群搭建-04安装配置HDFS Hadoop集群搭建-03编译安装hadoop Hadoop集群搭建-02安装配置Zookeeper Hado ...
附录C 编译安装Hive
如果需要直接安装Hive,可以跳过编译步骤,从Hive的官网下载编译好的安装包,下载地址为http://hive.apache.org/downloads.html . C.1 编译Hive C.1 ...
[大牛翻译系列]Hadoop（20）附录A.10 压缩格式LZOP编译安装配置
附录A.10 LZOP LZOP是一种压缩解码器,在MapReduce中可以支持可分块的压缩.第5章中有一节介绍了如何应用LZOP.在这一节中,将介绍如何编译LZOP,在集群做相应配置. A.10.1 ...
Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
Hadoop第3周练习--Hadoop2.X编译安装和实验
作业题目位系统下进行本地编译的安装方式选2 (1) 能否给web监控界面加上安全机制,怎样实现?抓图过程 (2)模拟namenode崩溃,例如将name目录的内容全部删除,然后通过secondar ...
CentOS7 Hadoop 3.1.0 编译安装
1.配置环境变量 JAVA_HOME=/jdk1..0_131 ANT_HOME=/apache-ant- MAVEN_HOME=/apache-maven- FINDBUGS_HOME=/findb ...
基于cdh5.10.x hadoop版本的apache源码编译安装spark
参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进 ...
Hadoop学习笔记（一）——编译安装和配置
近期工作调动.打算补一下大数据处理的知识.可能会陆续涉及hadoop.mongodb.ddbs等. 首先Apache提供二进制的Hadoop版本号是32位的.在启动时总是有警告,所以想自己编译一遍.部 ...

随机推荐

安装wampserver遇到，无法启动此程序，丢失MSVCR110.dll
这个问题遇到多次了,根据网上的解决办法,下载这个动态链接库文件,安装到指定位置重启系统后还是解决不了,其实这个文件有时候是存在的也会出现这个问题.问题截图如下其实这个我认为是系统缺少了相关组组件的安 ...
如果你想真正了解Struts2,不妨可以进来看看
首先我们就一起来认识认识Struts2到底是什么?作为框架,它又是用来处理哪些问题的呢?正所谓脚踏实地走,即时离梦想会远一点,但却很真实,那我们就一步一步的来了解Struts2吧! 一.既然 ...
Linux 安装PHP PECL 百分百成功
1. 下载需要安装的组件 http://pecl.php.net/packages.php 2. 解压 tar zxf 你的扩展包路径 3. 进入你解压的扩展包路径后访问 /usr/bin ...
eclipse插件开发入门
2016-09-09 17:11:50 1. 概述 1.1 SWT/JFace 是Eclipse 的基础,Eclipse 的 Workbench 就是建立在 SWT/JFace 之上的.另外,JFac ...
[转]Tesseract 3.02中文字库训练
下载chi_sim.traindata字库下载tesseract-ocr-setup-3.02.02.exe 下载地址:http://code.google.com/p/tesseract-ocr/d ...
SQL Server出现错误: 4014
SQL Server出现错误: 4014 线下的测试机器老是报错,从errorlog里看到大量的4014错误 A fatal error occurred , output error: ). 错误: ...
Java NIO4：Socket通道
Socket通道上文讲述了通道.文件通道,这篇文章来讲述一下Socket通道,Socket通道与文件通道有着不一样的特征,分三点说: 1.NIO的Socket通道类可以运行于非阻塞模式并且是可选择的 ...
[转] Agile Software Development 敏捷软件开发
原文作者:kkun 原文地址:http://www.cnblogs.com/kkun/archive/2011/07/06/agile_software_development.html 敏捷是什么 ...
C#设计模式之命令
IronMan之命令在本篇中还是围绕着“IronMan”来讲,在上一篇“外观”中我们说到过“控制中心”.它是负责IronMan的核心,所有能想象到的功能都跟它有关系,就在使用它的时候,发现了一些问题 ...
C#设计模式-模板方法模式
提到模板,大家肯定不免想到生活中的“简历模板”.“论文模板”.“Word中模版文件”等,在现实生活中,模板的概念就是——有一个规定的格式,然后每个人都可以根据自己的需求或情况去更新它,例如简历模板,下 ...

附录A 编译安装Hadoop

附录A 编译安装Hadoop的更多相关文章

随机推荐

热门专题