1 Hadoop的三种创建模式

  单机模式操作是Hadoop的默认操作模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,会保守地选择最小配置,即单机模式。该模式主要用于开发调试MapReduce程序的应用逻辑,而不会和守护进程交互,避免增加额外的复杂性。

  伪分布模式操作是指在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式操作之上多了代码调试功能,可以查阅内存的使用情况、HDFS的输入输出以及守护进程之间的交互。

  全分布模式操作是指一种实际意义上的Hadoop集群,其规模可从几个节点的小集群到成百上千个节点的大集群,甚至是成千上万的超大集群。

  本文只限于介绍单机模式,伪分布模式需要在自己的Ubuntu系统下额外建立虚拟的系统,而全分布模式需要搭建集群的硬件设施。

2 创建Hadoop用户组和Hadoop用户

  Step1:创建Hadoop用户组:

    ~$ sudo addgroup hadoop

  Step2:创建Hadoop用户:

    ~$ sudo adduser -ingroup hadoop hadoop

  回车后会提示输入密码,这是新建Hadoop的密码,输入两次密码敲回车即可。如下图所示: 

 

  Step3:为Hadoop用户添加权限:

  ~$ sudo gedit /etc/sudoers

  点击回车后,打开sudoers文件,在

  root    ALL=(ALL:ALL) ALL

  后添加:

  hadoop   ALL=(ALL:ALL) ALL

  注意:“hadoop” 后为"\t",而不是一个空格,一旦sudoers修改错误会引起很严重的后果(比如导致sudo命令无法正常使用,这时候只能通过root权限进行复原)。修改后的sudoers文件如下图所示:

  

3 用新增hadoop用户名登陆Ubuntu系统

  ~$ su - hadoop

  输入密码即可。

4 安装SSH

  Step4:安装Hadoop通信需要的SSH:

    ~$ sudo apt-get install openssh-server

  安装完以后,启动服务:

    ~$ sudo /etc/init.d/ssh start

  启动后,可以通过如下命令来确认服务是否正确启动:

    ~$ ps -e | grep ss

  如下图所示:

  作为一个安全通信协议,使用时需要密码,因此我们要设置成免密码登录,生成私钥和公钥:

    ~$ ssh-keygen -t rsa -P ""

  如下图所示:

  此时会在/home/hadoop/.ssh下生成两个文件:id_rsa和id_rsa.pub,前者为私钥,后者为公钥。现在我们将公钥追加到authorized_keys中(authorized_keys用于保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容):

    ~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

  现在可以登入ssh确认以后登录时不用输入密码:

    ~$ ssh localhost

  退出:

    ~$ exit

5 安装Java

  Step5:安装Java:

    ~$ sudo apt-get install openjdk-6-jdk

  安装完后,可以输入如下指令查看Java的版本:  

    ~$ java -version

6 安装和配置Hadoop

  Step6:安装Hadoop:

  1)下载:

    目前最新版本为2.7.0,可以根据自己的需要,安装不同版本的Hadoop,下载地址:请点击这里

  2)解压:

    ~$ sudo tar xzf hadoop-2.7.0.tar.gz

  3)将hadoop移动到 /usr/local/hadoop目录下:

    ~$ sudo mv hadoop-1.0.2 /usr/local/hadoop

  4)要确保所有的操作都是在用户hadoop下完成的:

    ~$ sudo chown -R hadoop:hadoop /usr/local/hadoop

  Step7:配置Hadoop:

  1)配置.bashrc:

配置该文件,需要知道Java的安装路径,可以通过下面的代码查看:

    ~$ update-alternatives - -config java

执行结果如下:

    

  完整的路径为:/usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java,我们只取前面的部分 /usr/lib/jvm/java-7-openjdk-amd64。

 修改.bashrc文件:

   ~$ sudo gedit ~/.bashrc

  该命令会打开该文件的编辑窗口,在文件末尾追加下面内容,然后保存,关闭编辑窗口。

#HADOOP VARIABLES START

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

export HADOOP_INSTALL=/usr/local/hadoop

export PATH=$PATH:$HADOOP_INSTALL/bin

export PATH=$PATH:$HADOOP_INSTALL/sbin

export HADOOP_MAPRED_HOME=$HADOOP_INSTALL

export HADOOP_COMMON_HOME=$HADOOP_INSTALL

export HADOOP_HDFS_HOME=$HADOOP_INSTALL

export YARN_HOME=$HADOOP_INSTALL

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"

#HADOOP VARIABLES END

  使添加的环境变量生效:

  ~$ source ~/.bashrc

  2)配置hadoop-env.sh

  打开hadoop-env.sh文件:

  ~$ sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh

  找到JAVA_HOME变量,按如下进行修改:

  ~$ export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

修改后的hadoop-env.sh文件如下所示:

  使配置生效:

    ~$ source /usr/local/hadoop/conf/hadoop-env.sh

  到这里,单机模式的hadoop就全部安装完毕了。

7 Hadoop测试

  为了测试Hadoop安装在正确性,我们可以用在带的例子(比如WordCount)进行测试。

  1) 在/usr/local/hadoop路径下创建input文件夹

    ~$ mkdir input

  2)拷贝 README.txt 到 input 文件夹

    ~$ cp README.txt input

  3)执行WordCount程序实例

   ~$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.0-sources.jar org.apache.hadoop.examples.WordCount input output

  如果看到这些内容,那么恭喜你,这说明你的Hadoop已经安装成功了。

8 结语

  从Ubuntu上安装Hadoop的过程上可以看出,以前你觉得很困难,一直不敢尝试的东西,其实可能它很简单。只要你自己想学,就一步步地来,问题总能找到办法来解决,在此与大家共勉。

9 参考内容

  [1] Ubuntu 14.04下安装Hadoop2.4.0(单机模式)

  [2] Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

[Hadoop] 在Ubuntu系统上一步步搭建Hadoop(单机模式)的更多相关文章

  1. Hadoop 在ubuntu系统上的搭建[图解]

    前言 本文介绍如何在Ubuntu Kylin操作系统上搭建Hadoop平台. 配置 1. 操作系统: Ubuntu Kylin 14.04 2. 编程语言: JDK 1.8 3. 通信协议: SSH ...

  2. 在Ubuntu系统上搭建Hadoop 2.x(2.6.2)

    官方的中文版的Hadoop快速入门教程已经是很老的版本了,新版的Hadoop目录结构发生了变化,因此一些配置文件的位置也略微调整了,例如新版的hadoop中找不到快速入门中提到的conf目录,另外,网 ...

  3. 如何在一个ubuntu系统上搭建SVN版本控制工具

    有话说,由于公司项目部署需要,将Windows工程迁移到Linux,通过调查确定使用Ubuntu的Linux操作系统.那么如何快速搭建和Windows一样快捷方便的开发环境就很重要了.本文讲述如何在一 ...

  4. linux/Ubuntu系统上安装mysql数据库(附图详解)

    在前面的文章中,我已经分享了如何在Ubuntu系统中安装以及搭建java开发环境,那么当我们需要跟数据打交道的时候,那么就需要在ubuntu系统中安装一个数据库了,那么废话就不多说了,我们这里主要是分 ...

  5. 64位的Ubuntu系统上使用汇编nasm和C语言

    64位的Ubuntu系统上使用汇编nasm和C语言 $ nasm -f elf foo.asm -o foo.o$ gcc -c bar.c -o bar.o$ ld -s  foo.o bar.o ...

  6. 在64位Ubuntu系统上安装32位程序包

    在64位Ubuntu系统上安装32位的程序包 $sudo apt-get install package_name:i386 例如: $sudo apt-get install openjdk-7-j ...

  7. Nginx: ubuntu系统上查找nginx.conf配置文件的路径

    问题描述:在ubuntu系统上,找到nginx.conf文件的位置. 解决方法:在终端窗口中,输入命令:nginx -t 回显中就可以看到nginx.conf文件的路径了. 参考:https://bl ...

  8. Nginx: ubuntu系统上如何判断是否安装了Nginx?

    问题描述:ubuntu系统上,如何查看是否安装了Nginx? 解决方法:输入命令行:ps -ef | grep nginx master process后面就是Nginx的安装目录. 延伸:1. 如何 ...

  9. 十分钟内在Ubuntu系统上搭建Mono开发环境(Mono软件Ubuntu系统国内镜像源、Mono国内镜像源)

    Mono软件Ubuntu系统国内镜像源.Mono国内镜像源 http://download.githall.cn/repo 替换为国内源(非官方)有利于加快mono的安装速度,一般情况下,完成mono ...

随机推荐

  1. Neutron 理解 (4): Neutron OVS OpenFlow 流表 和 L2 Population [Netruon OVS OpenFlow tables + L2 Population]

    学习 Neutron 系列文章: (1)Neutron 所实现的虚拟化网络 (2)Neutron OpenvSwitch + VLAN 虚拟网络 (3)Neutron OpenvSwitch + GR ...

  2. 《InsideUE4》-4-GamePlay架构(三)WorldContext,GameInstance,Engine

    Tags: InsideUE4 UE4深入学习QQ群: 456247757 引言 前文提到说一个World管理多个Level,并负责它们的加载释放.那么,问题来了,一个游戏里是只有一个World吗? ...

  3. 匈牙利算法 cogs 886. [USACO 4.2] 完美的牛栏

    886. [USACO 4.2] 完美的牛栏 ★★☆   输入文件:stall4.in   输出文件:stall4.out   简单对比时间限制:1 s   内存限制:128 MB USACO/sta ...

  4. flex引起height:100%失效

    <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...

  5. C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 忘记密码功能改进、手机短信、电子邮件

    由于我们的系统接近有100000个用户账户,经常会有忘记密码的时候,用户多了,很小的一个功能,每天都会有很多人在用,每个功能都非常友善,会提高提系统的效率,提高用户体验. 一天最多能返回3次手机短信, ...

  6. [转载]一张图看懂开源许可协议,开源许可证GPL、BSD、MIT、Mozilla、Apache和LGPL的区别

    本文转载自:http://blog.csdn.net/testcs_dn/article/details/38496107 开源许可证GPL.BSD.MIT.Mozilla.Apache和LGPL的区 ...

  7. 物联网平台设计心得:管中窥豹之HeartBeat

    前言 在写这篇文章之前,我曾对HeartBeat做过诸多的研究,也做过诸多的项目,在这些项目中,有客户端为了维持状态,而定时向服务端发送的HeartBeat:有服务端为了维持客户端连接状态而处理Hea ...

  8. sql server cross/outer apply 用法

    这是 sql server 帮助文档关于apply的描述: 使用 APPLY 运算符(2005或以上版本)可以为实现查询操作的外部表表达式返回的每个行调用表值函数.表值函数作为右输入,外部表表达式作为 ...

  9. 分享一个自制的 .net线程池

    扯淡 由于项目需求,需要开发一些程序去爬取一些网站的信息,算是小爬虫程序吧.爬网页这东西是要经过网络传输,如果程序运行起来串行执行请求爬取,会很慢,我想没人会这样做.为了提高爬取效率,必须使用多线程并 ...

  10. 基于SuperSocket的IIS主动推送消息给android客户端

    在上一篇文章<基于mina框架的GPS设备与服务器之间的交互>中,提到之前一直使用superwebsocket框架做为IIS和APP通信的媒介,经常出现无法通信的问题,必须一天几次的手动回 ...