在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

近几年大数据越来越火热。由于工作需要以及个人兴趣，最近开始学习大数据相关技术。学习过程中的一些经验教训希望能通过博文沉淀下来，与网友分享讨论，作为个人备忘。

第一篇，在win7虚拟机下搭建hadoop2.6.0伪分布式环境。

1. 所需要的软件

使用Vmware 11.0搭建虚拟机，安装Ubuntu 14.04.2系统。

Jdk 1.7.0_80

Hadoop 2.6.0

2. 安装vmware和ubuntu

略

3. 在ubuntu中安装JDK

将jdk解压缩到目录：/home/vm/tools/jdk

在~/.bash_profile中配置环境变量，并通过source ~/.bash_profile生效。

#java

export JAVA_HOME=/home/vm/tools/jdk

export JRE_HOME=/home/vm/tools/jdk/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

检验jdk安装是否成功。

4. 配置ssh信任关系，实现无密码登录

4.1 安装ssh

Ubuntu默认安装了ssh客户端，但没有安装ssh服务端，因此可以通过apt-get安装。

安装ssh-server：sudo apt-get install openssh-server

如果没有ssh客户端，也可以通过apt-get安装。

安装ssh-client：sudo apt-get install openssh-client

启动ssh-server：sudo service ssh start

启动以后，通过ps –aux | grep sshd查看ssh服务器是否安装成功。

4.2 配置ssh信任关系

生成机器A的公私密钥对：ssh-keygen -t rsa，之后一路回车。在~/.ssh目录下生成公钥id_rsa.pub，私钥id_ras。

拷贝机器A的id_rsa.pub到机器B的认证文件中：

cat id_rsa.pub >> ~/.ssh/authorized_keys

这时候机器A到机器B的信任关系就建立好了，此时在机器A可以不需要密码直接ssh登录机器B了。

本例中机器A和B是同一台机器，配置ssh信任关系以后可以使用ssh localhost或者ssh 机器IP地址来验证。

5. 安装hadoop2.6.0

5.1 解压hadoop2.6.0

从官网下载hadoop-2.6.0.tar.gz，解压到目录/home/vm/tools/hadoop，并配置~/.bash_profile环境变量。通过source ~/.bash_profile生效。

#hadoop

export HADOOP_HOME=/home/vm/tools/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

5.2 修改配置文件

修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh和yarn-evn.sh，配置JAVA_HOME路径：

修改$HADOOP_HOME/etc/hadoop/slaves，增加本机IP地址：

cat "192.168.62.129" >> slaves

修改$HADOOP_HOME/etc/hadoop/下的几个重要的*-site.xml：

core-site.xml 192.168.62.129是我虚拟机的IP地址

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/vm/app/hadoop/tmp</value>

<description>a base for other temporary directories.</description>

</property>

</configuration>

hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/vm/app/hadoop/dfs/nn</value>

</property>

<name>dfs.namenode.data.dir</name>

<value>file:/home/vm/app/hadoop/dfs/dn</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

permission checking is turned off

</description>

</property>

</configuration>

mapred-site.xml

<name>mapred.job.tracker</name>

</property>

<name>mapreduce.framework.name</name>

</property>

</configuration>

yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

5.3 格式化文件系统

在$HADOOP_HOME下执行bin/hdfs namenode –format格式化文件系统

5.4 启停

在$HADOOP_HOME下执行sbin/start-dfs.sh和sbin/start-yarn.sh启动hadoop集群，执行sbin/stop-dfs.sh和sbin/stop-yarn.sh停止hadoop集群。

启动过程例如：

启动完毕进程如下：

6. 查询集群信息

8088端口，查看All Applications信息：

50070端口，查看hdfs信息：

7. 验证hadoop环境搭建是否成功

7.1 验证hdfs是否正常

可以使用各种hdfs命令测试。例如：

hdfs dfs -ls ./

hdfs dfs -put file.1 ./

hdfs dfs -get ./file1

hdfs dfs -rm -f ./file.1

hdfs dfs -cat ./file1

hdfs dfs -df -h

7.2 验证map/reduce计算框架是否正常

在$HADOOP_HOME目录下执行：bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount ./count_in/ ./count_out/

其中./count_in/提前在hdfs集群创建，统计该目录下所有文件的单词数量，输出到./count_out/目录。

执行过程示例如下：

执行完毕生成结果：

至此，Hadoop2.6.0的伪分布式环境搭建完成。

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境的更多相关文章

在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境
Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境. 本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境. 1. 软件准备 ...
ubuntu14.04搭建Hadoop2.9.0伪分布式环境
本文主要参考给力星的博文——Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 一些准备工作的基本步骤和步骤具体说明本文不再列出,文章中提到的“见参考”均指以上 ...
Hadoop2.5.0伪分布式环境搭建
本章主要介绍下在Linux系统下的Hadoop2.5.0伪分布式环境搭建步骤.首先要搭建Hadoop伪分布式环境,需要完成一些前置依赖工作,包括创建用户.安装JDK.关闭防火墙等. 一.创建hadoo ...
Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验
Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布.参考的资料主要是http://www.powerxing.com/install-hadoop-clus ...
CentOS5.4 搭建Hadoop2.5.2伪分布式环境
简介: Hadoop是处理大数据的主要工具,其核心部分是HDFS.MapReduce.为了学习的方便,我在虚拟机上搭建了一个伪分布式环境,来进行开发学习. 一.安装前准备: 1)linux服务器:Vm ...
OS X Yosemite下安装Hadoop2.5.1伪分布式环境
最近开始学习Hadoop,一直使用的是公司配好的环境.用了一段时间后发现对Hadoop还是一知半解,故决定动手在本机上安装一个供学习研究使用.正好自己用的是mac,所以没啥说的,直接安装. 总体流程 ...
centos7.2+jdk7.9搭建haddoop2.7.0伪分布式环境（亲测成功）
最近想研究下hadoop,玩一玩大数据,废话不多说,就此开始! 所用环境: xshell 5.0(ssh连接工具,支持ftp,可向虚拟机传文件) CentOS-7-x86_64-DVD-1511. ...
安装hadoop2.6.0伪分布式环境
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
安装hadoop2.6.0伪分布式环境分类： A1_HADOOP 2015-04-27 18:59 409人阅读评论(0) 收藏
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...

随机推荐

移动端H5页面注意事项
1. 单个页面内容不能过多设计常用尺寸:7501334 / 6401134,包含了手机顶部信号栏的高度. 移动端H5活动页面常常需要能够分享到各种社交App中,常用的有微信.QQ等. 使用移动设备查 ...
spring mvc 外键允许Null
spring mvc 定义模型外键时允许为Null 新手记录,习惯定义模型时将外键的数据类型为long,基本类型. 这样生成的外键是不允许为Null,但是可以通过设置字段的Column注解,使之允许为 ...
修改ThinkPHP的验证码类
今天用ThinkPHP重新开发一个系统,用到了ThinkPHP的验证码类,由于我希望验证码别太复杂,希望验证码里边只有数字,却发现该Verify类并未提供设置验证码中使用的字符的配置的方法,于是查看源 ...
linq之Capacity（转载）
出处:博客园作者:mumuliang 连接:http://www.cnblogs.com/mumuliang/p/3914425.html Capacity 在.NET中List的容量应该只是受到硬 ...
MySQL远程连接：Host 'x' is not allowed to connect to this MySQL server
远程连接MySQL时发现如下错误: java.sql.SQLException: null, message from server: "Host '192.168.30.23' is no ...
JSP初学者3
reponse代表服务器对客户端的响应.大部分时候,程序无须使用response来响应客户端请求,因为有更简单的响应对象——out,它代表页面输出流. 但out无法响应生成非字符内容(out是JspW ...
基于 Azure 托管磁盘配置高可用共享文件系统
背景介绍在当下,共享这个概念融入到了人们的生活中,共享单车,共享宝马,共享床铺等等.其实在 IT 界,共享这个概念很早就出现了,通过 SMB 协议的 Windows 共享目录,NFS 协议的网络文件 ...
UML视频
https://www.bilibili.com/video/av34973179/?p=1 北京圣思园 UML视频
February 24 2017 Week 8 Friday
If you fail, don't forget to learn your lesson. 如果你失败了,千万别忘了汲取教训. Frankly speaking, it is easy to ta ...
March 11 2017 Week 10 Saturday
Wisdom outweighs any wealth. 智慧比财富更有价值. Wisdom can create wealth if used in proper ways, it can help ...

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境的更多相关文章

随机推荐

热门专题