ubuntu14.04搭建Hadoop2.9.0伪分布式环境

本文主要参考给力星的博文——Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

一些准备工作的基本步骤和步骤具体说明本文不再列出，文章中提到的“见参考”均指以上这篇博文，如有其他参考，会另外给出链接

一、创建Hadoop用户

见参考

二、更新apt

见参考

三、安装配置SSH

见参考

四、搭建Java环境

本人采用的是通过ppa源安装的方式，具体操作见：http://www.cnblogs.com/a2211009/p/4265225.html

采用这种方式时可能会出现错误error processing package oracle-java8-installer

解决方法见本人另一篇博文：http://www.cnblogs.com/VeryGoodVeryGood/p/8318105.html

通过ppa安装jdk时，会自动配置5个环境变量，包括JAVA_HOME，关于这5个环境变量的说明，详见博文：Ubuntu安装Oracle Java8以及环境变量的正确设置方法

再在~/.bashrc中添加如下环境变量

export JRE_HOME=$J2REDIR

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

让以上环境变量生效

$ source ~/.bashrc

五、安装 Hadoop

见参考

在~/.bashrc中添加如下环境变量

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

让以上环境变量生效

$ source ~/.bashrc

六、配置Hadoop伪分布式

我下载的是2.9.0版本，配置文件在目录/usr/local/hadoop/etc/hadoop/下

hadoop-env.sh

#export JAVA_HOME=${JAVA_HOME}

#将上面的行注释掉，用下面的行替代：

export JAVA_HOME=/usr/lib/jvm/java--oracle

#这样做是避免，Hadoop配置文件中读不到$JAVA_HOME而报错

core-site.xml，详细说明见：http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-common/core-default.xml

<configuration>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>file:/usr/local/hadoop/tmp</value>

                <description>Hadoop重要临时文件存放目录</description>

        </property>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://localhost:9000</value>

                <description>一种方案和权限决定文件系统实现的URI</description>

        </property>

</configuration>

hdfs-site.xml，详细说明见：http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

<configuration>

        <property>

                <name>dfs.replication</name>

                <value>1</value>

                <description>复制的块的数量</description>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>file:/usr/local/hadoop/tmp/dfs/name</value>

                <description>DFS管理节点的本地存储路径</description>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>file:/usr/local/hadoop/tmp/dfs/data</value>

                <description>DFS数据节点的本地存储路径</description>

        </property>

</configuration>

mapred-site.xml，详细说明见：http://hadoop.apache.org/docs/r2.9.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

先重命名

$ mv mapred-site.xml.template mapred-site.xml

再配置

<configuration>

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

                <description>执行MapReduce作业时运行的框架</description>

        </property>

</configuration>

yarn-site.xml，详细说明见：http://hadoop.apache.org/docs/r2.9.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

<configuration>

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

                <description>NodeManager的辅助服务</description>

        </property>

</configuration>

七、启动和关闭Hadoop

0. 格式化NameNode（更改配置后才执行这一步）

hdfs namenode -format

下面步骤中运行的脚本均在目录/usr/local/hadoop/sbin/中，因为在环境变量PATH里增加了该路径，所以在运行时不必指定脚本路径

1. 开启NameNode和DataNode守护进程

$ start-dfs.sh

2. 启动YARN

$ start-yarn.sh

3. 判断是否成功启动

$ jps

若成功启动会看见6个进程，分别是：Jps、DataNode、NameNode、SecondaryNameNode、NodeManager、ResourceManager

若未配置YARN，则会看见4个进程，分别是：Jps、DataNode、NameNode、SecondaryNameNode

成功启动后，可以访问Web界面http://localhost:50070/查看NameNode和DataNode的信息以及在线查看HDFS中的文件

4. 关闭Hadoop

$ stop-dfs.sh

$ stop-yarn.sh

第1、2步替代

$ start-all.sh

第4步替代

$ stop-all.sh

八、伪分布式实例

1. 在HDFS中创建用户目录

$ hdfs dfs -mkdir -p /user/hadoop

2. 创建input目录

$ hdfs dfs -mkdir input

3. 将本地文件复制到input里

$ hdfs dfs -put ./etc/hadoop/*.xml input

4. 查看文件列表

$ hdfs dfs -ls input

5. 操作

$ hdfs dfs -rm -r output #Hadoop运行程序时，输出目录不能存在，否则会提示错误

$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

6. 查看运行结果

$ hdfs dfs -cat output/*

7. 将运行结果取回本地

$ rm -r ./output #先删除本地output目录

$ hdfs dfs -get output ./output

$ cat ./output/*

8. 删除output目录

$ hdfs dfs -rm -r output

$ rm -r ./output

以上

ubuntu14.04搭建Hadoop2.9.0伪分布式环境的更多相关文章

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境
近几年大数据越来越火热.由于工作需要以及个人兴趣,最近开始学习大数据相关技术.学习过程中的一些经验教训希望能通过博文沉淀下来,与网友分享讨论,作为个人备忘. 第一篇,在win7虚拟机下搭建hadoop ...
ubuntu14.04搭建Hadoop2.9.0集群(分布式)环境
本文进行操作的虚拟机是在伪分布式配置的基础上进行的,具体配置本文不再赘述,请参考本人博文:ubuntu14.04搭建Hadoop2.9.0伪分布式环境本文主要参考给力星的博文——Hadoop集群安 ...
Hadoop2.5.0伪分布式环境搭建
本章主要介绍下在Linux系统下的Hadoop2.5.0伪分布式环境搭建步骤.首先要搭建Hadoop伪分布式环境,需要完成一些前置依赖工作,包括创建用户.安装JDK.关闭防火墙等. 一.创建hadoo ...
32位Ubuntu12.04搭建Hadoop2.5.1完全分布式环境
准备工作 1.准备安装环境: 4台PC,均安装32位Ubuntu12.04操作系统,统一用户名和密码交换机1台网线5根,4根分别用于PC与交换机相连,1根网线连接交换机和实验室网口 2.使用ifc ...
CentOS5.4 搭建Hadoop2.5.2伪分布式环境
简介: Hadoop是处理大数据的主要工具,其核心部分是HDFS.MapReduce.为了学习的方便,我在虚拟机上搭建了一个伪分布式环境,来进行开发学习. 一.安装前准备: 1)linux服务器:Vm ...
Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验
Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布.参考的资料主要是http://www.powerxing.com/install-hadoop-clus ...
安装hadoop2.6.0伪分布式环境
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
安装hadoop2.6.0伪分布式环境分类： A1_HADOOP 2015-04-27 18:59 409人阅读评论(0) 收藏
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
centos7.2+jdk7.9搭建haddoop2.7.0伪分布式环境（亲测成功）
最近想研究下hadoop,玩一玩大数据,废话不多说,就此开始! 所用环境: xshell 5.0(ssh连接工具,支持ftp,可向虚拟机传文件) CentOS-7-x86_64-DVD-1511. ...

随机推荐

SQL中的函数 •Aggregate 函数 •Scalar 函数
合计函数 :Aggregate是针对一系列值的操作,返回一个单一的值 Scalar 函数是针对一个单一的值的操作,返回基于输入值的一个单一值合计函数: AVG()返回某列的平均值:COUNT()返 ...
sql中in和exists的区别
in 和exists in是把外表和内表作hash 连接,而exists 是对外表作loop 循环,每次loop 循环再对内表进行查询. 一直以来认为exists 比in 效率高的说法是不准确的.如果 ...
Scrapy(爬虫)基本运行机制
Scrapy(爬虫)基本运行机制
Django - 权限（1）
一.权限表结构设计 1.认识权限生活中处处有权限,比如,腾讯视频开会员才有观看某个最新电影的权限,你有房间钥匙就有了进入这个房间的权限,等等.同样,程序开发过程中也有权限,我们今天说的权限指的是we ...
Part1.2 、RabbitMQ -- Publish/Subscribe 【发布和订阅】
python 目录 (一).交换 (Exchanges) -- 1.1 武sir 经典 Exchanges 案例展示. (二).临时队列( Temporary queues ) (三).绑定(Bind ...
nginx灰度环境
1.nginx.conf split_clients "${remote_addr}AAA" $request_type { 25% "abtest"; * & ...
day4-迭代器、生成器yield
一.迭代器迭代器是访问集合元素的一种方式.迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束.迭代器只能往前不会后退,不过这也没什么,因为人们很少在迭代途中往后退.另外,迭代器的一大优 ...
OpenFileDialog.Filter 属性
如果 Filter 属性为 Empty,将显示所有文件. 始终显示文件夹. Filter 由以下部分组成:筛选器说明,后跟竖线 (|) 和筛选模式. 筛选器可以指定一个或多个文件类型. 说明描述了对话 ...
smarty内置函数
1.{append} 追加 2.{assign} 赋值 3.{block} 块 4.{call} 调用 5.{capture}捕获 6.{config_load}用来从配置文件中加载config变 ...
TP框架基础2
---恢复内容开始--- [空操作和空控制器处理] 空操作:就没有指定的操作方法空控制器:没有指定控制器 http://网址/index.php/Home/User/login http://网址/ ...

ubuntu14.04搭建Hadoop2.9.0伪分布式环境

ubuntu14.04搭建Hadoop2.9.0伪分布式环境的更多相关文章

随机推荐

热门专题