ubuntu14.04搭建Hadoop2.9.0伪分布式环境
本文主要参考 给力星的博文——Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
一些准备工作的基本步骤和步骤具体说明本文不再列出,文章中提到的“见参考”均指以上这篇博文,如有其他参考,会另外给出链接
一、创建Hadoop用户
见参考
二、更新apt
见参考
三、安装配置SSH
见参考
四、搭建Java环境
本人采用的是通过ppa源安装的方式,具体操作见:http://www.cnblogs.com/a2211009/p/4265225.html
采用这种方式时可能会出现错误error processing package oracle-java8-installer
解决方法见本人另一篇博文:http://www.cnblogs.com/VeryGoodVeryGood/p/8318105.html
通过ppa安装jdk时,会自动配置5个环境变量,包括JAVA_HOME,关于这5个环境变量的说明,详见博文:Ubuntu安装Oracle Java8以及环境变量的正确设置方法
再在~/.bashrc中添加如下环境变量
export JRE_HOME=$J2REDIR
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
让以上环境变量生效
$ source ~/.bashrc
五、安装 Hadoop
见参考
在~/.bashrc中添加如下环境变量
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
让以上环境变量生效
$ source ~/.bashrc
六、配置Hadoop伪分布式
我下载的是2.9.0版本,配置文件在目录/usr/local/hadoop/etc/hadoop/下
hadoop-env.sh
#export JAVA_HOME=${JAVA_HOME}
#将上面的行注释掉,用下面的行替代:
export JAVA_HOME=/usr/lib/jvm/java--oracle
#这样做是避免,Hadoop配置文件中读不到$JAVA_HOME而报错
core-site.xml,详细说明见:http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-common/core-default.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Hadoop重要临时文件存放目录</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
<description>一种方案和权限决定文件系统实现的URI</description>
</property>
</configuration>
hdfs-site.xml,详细说明见:http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>复制的块的数量</description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
<description>DFS管理节点的本地存储路径</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
<description>DFS数据节点的本地存储路径</description>
</property>
</configuration>
mapred-site.xml,详细说明见:http://hadoop.apache.org/docs/r2.9.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
先重命名
$ mv mapred-site.xml.template mapred-site.xml
再配置
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>执行MapReduce作业时运行的框架</description>
</property>
</configuration>
yarn-site.xml,详细说明见:http://hadoop.apache.org/docs/r2.9.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<description>NodeManager的辅助服务</description>
</property>
</configuration>
七、启动和关闭Hadoop
0. 格式化NameNode(更改配置后才执行这一步)
hdfs namenode -format
下面步骤中运行的脚本均在目录/usr/local/hadoop/sbin/中,因为在环境变量PATH里增加了该路径,所以在运行时不必指定脚本路径
1. 开启NameNode和DataNode守护进程
$ start-dfs.sh
2. 启动YARN
$ start-yarn.sh
3. 判断是否成功启动
$ jps
若成功启动会看见6个进程,分别是:Jps、DataNode、NameNode、SecondaryNameNode、NodeManager、ResourceManager
若未配置YARN,则会看见4个进程,分别是:Jps、DataNode、NameNode、SecondaryNameNode
成功启动后,可以访问Web界面http://localhost:50070/查看NameNode和DataNode的信息以及在线查看HDFS中的文件
4. 关闭Hadoop
$ stop-dfs.sh
$ stop-yarn.sh
第1、2步替代
$ start-all.sh
第4步替代
$ stop-all.sh
八、伪分布式实例
1. 在HDFS中创建用户目录
$ hdfs dfs -mkdir -p /user/hadoop
2. 创建input目录
$ hdfs dfs -mkdir input
3. 将本地文件复制到input里
$ hdfs dfs -put ./etc/hadoop/*.xml input
4. 查看文件列表
$ hdfs dfs -ls input
5. 操作
$ hdfs dfs -rm -r output #Hadoop运行程序时,输出目录不能存在,否则会提示错误
$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'
6. 查看运行结果
$ hdfs dfs -cat output/*
7. 将运行结果取回本地
$ rm -r ./output #先删除本地output目录
$ hdfs dfs -get output ./output
$ cat ./output/*
8. 删除output目录
$ hdfs dfs -rm -r output
$ rm -r ./output
以上
ubuntu14.04搭建Hadoop2.9.0伪分布式环境的更多相关文章
- 在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境
近几年大数据越来越火热.由于工作需要以及个人兴趣,最近开始学习大数据相关技术.学习过程中的一些经验教训希望能通过博文沉淀下来,与网友分享讨论,作为个人备忘. 第一篇,在win7虚拟机下搭建hadoop ...
- ubuntu14.04搭建Hadoop2.9.0集群(分布式)环境
本文进行操作的虚拟机是在伪分布式配置的基础上进行的,具体配置本文不再赘述,请参考本人博文:ubuntu14.04搭建Hadoop2.9.0伪分布式环境 本文主要参考 给力星的博文——Hadoop集群安 ...
- Hadoop2.5.0伪分布式环境搭建
本章主要介绍下在Linux系统下的Hadoop2.5.0伪分布式环境搭建步骤.首先要搭建Hadoop伪分布式环境,需要完成一些前置依赖工作,包括创建用户.安装JDK.关闭防火墙等. 一.创建hadoo ...
- 32位Ubuntu12.04搭建Hadoop2.5.1完全分布式环境
准备工作 1.准备安装环境: 4台PC,均安装32位Ubuntu12.04操作系统,统一用户名和密码 交换机1台 网线5根,4根分别用于PC与交换机相连,1根网线连接交换机和实验室网口 2.使用ifc ...
- CentOS5.4 搭建Hadoop2.5.2伪分布式环境
简介: Hadoop是处理大数据的主要工具,其核心部分是HDFS.MapReduce.为了学习的方便,我在虚拟机上搭建了一个伪分布式环境,来进行开发学习. 一.安装前准备: 1)linux服务器:Vm ...
- Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验
Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布.参考的资料主要是http://www.powerxing.com/install-hadoop-clus ...
- 安装hadoop2.6.0伪分布式环境
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
- 安装hadoop2.6.0伪分布式环境 分类: A1_HADOOP 2015-04-27 18:59 409人阅读 评论(0) 收藏
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
- centos7.2+jdk7.9搭建haddoop2.7.0伪分布式环境(亲测成功)
最近想研究下hadoop,玩一玩大数据,废话不多说,就此开始! 所用环境: xshell 5.0(ssh连接工具,支持ftp,可向虚拟机传文件) CentOS-7-x86_64-DVD-1511. ...
随机推荐
- 《深入理解Linux内核》阅读笔记 --- 第四章 中断和异常
1.中断的作用:中断信号提供了一种方式,使处理器转而去运行正常控制流之外的代码.当一个中断信号到达时,CPU必须停止它当前所做的事,并切换到一个新的活动.为了做到这一点,就要在内核态堆栈保存程序计数器 ...
- MongoDB-6: MongoDB索引
一.简介 在MongoDB建立索引能提高查询效率,只需要扫描索引只存储的这个集合的一小部分,并只把这小部分加载到内存中,效率大大的提高,如果没有建立索引,在查询时,MongoDB必须执行全表扫描,在数 ...
- 流畅的python 闭包
闭包 人们有时会把闭包和匿名函数弄混.这是有历史原因的:在函数内部定义函数不常见,直到开始使用匿名函数才会这样做.而且,只有涉及嵌套函数时才有闭包问题.因此,很多人是同时知道这两个概念的.其实,闭包指 ...
- django模板之导入与继承
组件 母版 子模板继承 2.静态文件相关 {% load static %} <link rel=-dist/css/bootstrap.css %}> <link rel=&quo ...
- 0505-Hystrix保护应用-Turbine集群状态监控
https://cloud.spring.io/spring-cloud-static/Edgware.SR3/single/spring-cloud.html#_turbine
- JVM虚拟机—JVM内存
JVM在运行时将数据划分为了5个区域来存储,这5个区域图示如下: 其中方法区和堆对是所有线程共享的内存区域:而java栈.本地方法栈和程序员计数器是运行时线程私有的内存区域. 首先我们熟悉一下一个 J ...
- Tornado模块分类
Tornado模块分类 1. Core web framework tornado.web — 包含web框架的大部分主要功能,包含RequestHandler和Application两个重要的类 t ...
- linux网络基础设置 以及 软件安装
ifconfig #查看所有已激活的网卡信息 临时配置 #yum install net-tools -y 默认ifconfig是没有安装的,可能需要安装 ifconfig eth0 #查看单独一块网 ...
- Linux Shell编程第4章——sed和awk
目录 sed命令基本用法 sed命令实例 命令选项 文本定位 编辑命令 awk编程模型 awk编程实例 1.awk模式匹配 2.记录和域 3.关系和布尔运算符 4.表达式 5.系统变量 6.格式化输出 ...
- spring boot Rabbitmq集成,延时消息队列实现
本篇主要记录Spring boot 集成Rabbitmq,分为两部分, 第一部分为创建普通消息队列, 第二部分为延时消息队列实现: spring boot提供对mq消息队列支持amqp相关包,引入即可 ...