在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

近几年大数据越来越火热。由于工作需要以及个人兴趣，最近开始学习大数据相关技术。学习过程中的一些经验教训希望能通过博文沉淀下来，与网友分享讨论，作为个人备忘。

第一篇，在win7虚拟机下搭建hadoop2.6.0伪分布式环境。

1. 所需要的软件

使用Vmware 11.0搭建虚拟机，安装Ubuntu 14.04.2系统。

Jdk 1.7.0_80

Hadoop 2.6.0

2. 安装vmware和ubuntu

略

3. 在ubuntu中安装JDK

将jdk解压缩到目录：/home/vm/tools/jdk

在~/.bash_profile中配置环境变量，并通过source ~/.bash_profile生效。

#java

export JAVA_HOME=/home/vm/tools/jdk

export JRE_HOME=/home/vm/tools/jdk/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

检验jdk安装是否成功。

4. 配置ssh信任关系，实现无密码登录

4.1 安装ssh

Ubuntu默认安装了ssh客户端，但没有安装ssh服务端，因此可以通过apt-get安装。

安装ssh-server：sudo apt-get install openssh-server

如果没有ssh客户端，也可以通过apt-get安装。

安装ssh-client：sudo apt-get install openssh-client

启动ssh-server：sudo service ssh start

启动以后，通过ps –aux | grep sshd查看ssh服务器是否安装成功。

4.2 配置ssh信任关系

生成机器A的公私密钥对：ssh-keygen -t rsa，之后一路回车。在~/.ssh目录下生成公钥id_rsa.pub，私钥id_ras。

拷贝机器A的id_rsa.pub到机器B的认证文件中：

cat id_rsa.pub >> ~/.ssh/authorized_keys

这时候机器A到机器B的信任关系就建立好了，此时在机器A可以不需要密码直接ssh登录机器B了。

本例中机器A和B是同一台机器，配置ssh信任关系以后可以使用ssh localhost或者ssh 机器IP地址来验证。

5. 安装hadoop2.6.0

5.1 解压hadoop2.6.0

从官网下载hadoop-2.6.0.tar.gz，解压到目录/home/vm/tools/hadoop，并配置~/.bash_profile环境变量。通过source ~/.bash_profile生效。

#hadoop

export HADOOP_HOME=/home/vm/tools/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

5.2 修改配置文件

修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh和yarn-evn.sh，配置JAVA_HOME路径：

修改$HADOOP_HOME/etc/hadoop/slaves，增加本机IP地址：

cat "192.168.62.129" >> slaves

修改$HADOOP_HOME/etc/hadoop/下的几个重要的*-site.xml：

core-site.xml 192.168.62.129是我虚拟机的IP地址

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/vm/app/hadoop/tmp</value>

<description>a base for other temporary directories.</description>

</property>

</configuration>

hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/vm/app/hadoop/dfs/nn</value>

</property>

<name>dfs.namenode.data.dir</name>

<value>file:/home/vm/app/hadoop/dfs/dn</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

permission checking is turned off

</description>

</property>

</configuration>

mapred-site.xml

<name>mapred.job.tracker</name>

</property>

<name>mapreduce.framework.name</name>

</property>

</configuration>

yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

5.3 格式化文件系统

在$HADOOP_HOME下执行bin/hdfs namenode –format格式化文件系统

5.4 启停

在$HADOOP_HOME下执行sbin/start-dfs.sh和sbin/start-yarn.sh启动hadoop集群，执行sbin/stop-dfs.sh和sbin/stop-yarn.sh停止hadoop集群。

启动过程例如：

启动完毕进程如下：

6. 查询集群信息

8088端口，查看All Applications信息：

50070端口，查看hdfs信息：

7. 验证hadoop环境搭建是否成功

7.1 验证hdfs是否正常

可以使用各种hdfs命令测试。例如：

hdfs dfs -ls ./

hdfs dfs -put file.1 ./

hdfs dfs -get ./file1

hdfs dfs -rm -f ./file.1

hdfs dfs -cat ./file1

hdfs dfs -df -h

7.2 验证map/reduce计算框架是否正常

在$HADOOP_HOME目录下执行：bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount ./count_in/ ./count_out/

其中./count_in/提前在hdfs集群创建，统计该目录下所有文件的单词数量，输出到./count_out/目录。

执行过程示例如下：

执行完毕生成结果：

至此，Hadoop2.6.0的伪分布式环境搭建完成。

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境的更多相关文章

在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境
Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境. 本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境. 1. 软件准备 ...
ubuntu14.04搭建Hadoop2.9.0伪分布式环境
本文主要参考给力星的博文——Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 一些准备工作的基本步骤和步骤具体说明本文不再列出,文章中提到的“见参考”均指以上 ...
Hadoop2.5.0伪分布式环境搭建
本章主要介绍下在Linux系统下的Hadoop2.5.0伪分布式环境搭建步骤.首先要搭建Hadoop伪分布式环境,需要完成一些前置依赖工作,包括创建用户.安装JDK.关闭防火墙等. 一.创建hadoo ...
Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验
Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布.参考的资料主要是http://www.powerxing.com/install-hadoop-clus ...
CentOS5.4 搭建Hadoop2.5.2伪分布式环境
简介: Hadoop是处理大数据的主要工具,其核心部分是HDFS.MapReduce.为了学习的方便,我在虚拟机上搭建了一个伪分布式环境,来进行开发学习. 一.安装前准备: 1)linux服务器:Vm ...
OS X Yosemite下安装Hadoop2.5.1伪分布式环境
最近开始学习Hadoop,一直使用的是公司配好的环境.用了一段时间后发现对Hadoop还是一知半解,故决定动手在本机上安装一个供学习研究使用.正好自己用的是mac,所以没啥说的,直接安装. 总体流程 ...
centos7.2+jdk7.9搭建haddoop2.7.0伪分布式环境（亲测成功）
最近想研究下hadoop,玩一玩大数据,废话不多说,就此开始! 所用环境: xshell 5.0(ssh连接工具,支持ftp,可向虚拟机传文件) CentOS-7-x86_64-DVD-1511. ...
安装hadoop2.6.0伪分布式环境
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
安装hadoop2.6.0伪分布式环境分类： A1_HADOOP 2015-04-27 18:59 409人阅读评论(0) 收藏
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...

随机推荐

事件代理总结：已经有一些使用主流类库的事件代理示例出现了，比如说jQuery、Prototype以及Yahoo! UI。你也可以找到那些不用任何类库的例子，比如说Usable Type blog上的这一个。一旦需要的话，事件代理将是你工具箱里的一件得心应手的工具，而且它很容易实现。
如果你想给网页添加点JavaScript的交互性,也许你已经听过JavaScript的事件代理(event delegation),并且觉得这是那些发烧友级别的JavaScript程序员才会关心的什么 ...
unity3D使用C#遍历场景内所有元素进行操作
最近入门Unity3D,跟着教程做完了survival射击游戏,就想加一个功能,就是按一个按钮屏幕上的怪物都清空. 如图右下角所示. 我的方法是赋予所有怪物一个标签Tag,然后根据标签销毁Gameob ...
正则表达式把所有Paul替换成Ringo:Paul Puala Pualine paul Paul
代码实现如下: <!DOCTYPE html><html><body> <h2>JavaScript Regular Expressions</h ...
数据分析核心包——pandas
一.pandas简介 pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. 1.pandas的主要功能 (1)具备对其功能的数据结构DataFrame.Series (2)集 ...
在windows环境下运行compass文件出现的错误提示解决方案
在windows环境下运行compass文件出现的错误提示解决方案例如:经常在项目中运行grunt命令编译scss文件的时候,会出现下面的错误提示 (Encoding::CompatibilityE ...
javascript实现数据结构：树和二叉树的应用--最优二叉树（赫夫曼树），回溯法与树的遍历--求集合幂集及八皇后问题
赫夫曼树及其应用赫夫曼(Huffman)树又称最优树,是一类带权路径长度最短的树,有着广泛的应用. 最优二叉树(Huffman树) 1 基本概念 ① 结点路径:从树中一个结点到另一个结点的之间的分支 ...
Kafka监控利器
开发过程中,kafka几乎是标配的Mq,如果有一个kafka的监控助手,哪就更完美了,常用的kafka监控工具有 KafkaOffsetMonitor .Kafka Manager.Capillary ...
AngularJS Toaster的简单介绍
github地址: https://github.com/jirikavi/AngularJS-Toaster 参考博客: https://www.cnblogs.com/youzhuxiaoyao/ ...
Selenium2学习（十二）-- alert\confirm\prompt
前言不是所有的弹出框都叫alert,在使用alert方法前,先要识别出到底是不是alert.先认清楚alert长什么样子,下次碰到了,就可以用对应方法解决. alert\confirm\prompt ...
ORA-01795: 列表中的最大表达式数为1000的解决方法
IN中的数据量不能超过1000条. 解决方案:把条件分成多个少于1000的IN即: DELETEFROMT_MM_SECTION_SITE_UPDATEWHERE T.T_MM_SECTION_SL_ ...

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境的更多相关文章

随机推荐

热门专题