1：软件环境准备

1.1Hadoop：

我们使用hadoop Release 1.2.1(stable)版本，下载链接：

http://mirrors.ustc.edu.cn/apache/hadoop/common/hadoop-1.2.1/

我们选择hadoop-1.2.1-bin.tar.gz文件下载。

1.2Java:

Java在这里使用的是jdk1.7版本的，当然也可以使用1.6的，下载链接：

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

我们选择Linux x86的jdk-7u40-linux-i586.tar.gz版本下载，因为我的Linux机器是32位的；如果Linux机器是64的就必须选择64位的下载，可以选择jdk-7u40-linux-x64.tar.gz；这个步骤非常重要，不同的机器必须要配置不同的jdk版本。

2：安装到Linux中

2.1创建目录：

首先我们创建一个目录：

mkdir /data/installation,该目录存储下载好的的两个安装文件包。

mkdir /data/software/hadoop,该目录存储hadoop程序文件。

mkdir /data/software/java,该目录存储jdk的文件。

mkdir /data/software/eclipse,该目录存储eclipse的文件。

注意：在实际安装的时候我们最好单独为运行hadoop程序建立一个账号，并赋予相关权限。在这里我直接以root身份安装。

2.2解压安装包文件：

把刚刚下载好的文件都放到/data/installation/目录下。

首先解压java安装包文件，运行以下命令：

tar -xzvf /data/installation/jdk-7u40-linux-x64.tar.gz -C /data/software/java/

然后解压hadoop安装包文件，运行以下命令：

tar -xzvf /data/installation/hadoop-1.2.1-bin.tar.gz -C /data/software/hadoop/

最后解压eclipse安装包文件，运行以下命令：

tar -xzvf /data/installation/eclipse-standard-kepler-SR1-linux-gtk.tar.gz -C /data/software/eclipse/

3：配置Hadoop

Hadoop环境的配置关重要，首先必须要配置java运行环境。

3.1配置java环境：

添加JAVA_HOME,CLASSPATH环境变量：

使用vi /etc/profile命令编辑profile文件，在文件末尾加上以下内容：

HADOOP_INSTALL=/data/software/hadoop/hadoop-1.2.1/

JAVA_HOME=/data/software/java/jdk1.7.0_40

PATH=$JAVA_HOME/bin:$HADOOP_INSTALL/bin:$PATH

CLASSPATH=$JAVA_HOME/lib

export JAVA_HOME PATH CLASSPATH HADOOP_INSTALL

然后保存，退出，使用source /etc/profile使刚刚的更改立即生效。

然后使用java –version命令，查看是否配置成功，如果成功会出现以下信息：

java version "1.7.0_40"

Java(TM) SE Runtime Environment (build 1.7.0_40-b43)

Java HotSpot(TM) Client VM (build 24.0-b56, mixed mode)

3.2配置ssh环境：

使用以下命令设置ssh无密码连接：

ssh-keygen -t dsa -P "" -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

测试ssh配置是否成功:

ssh localhost

可以看到配置成功了，连接无需使用密码了；

配置ssh无密码访问有很多种方法，以上只是其中一种，以下是另外一种方法：

cd ~

ssh-keygen -t rsa

cd .ssh

cp id_rsa.pub authorized_keys

ssh hostname //测试连接hostname是否成功

3.3配置hadoop环境：

我们首先进入到/data/software/hadoop/hadoop-1.2.1/conf这个目录,然后可以看到haddoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml这四个文件以及需要在完全分布模式配置的slaves和masters文件：

3.3.1配置hadoop-env.sh:

首先我们用vi hadoop-env.sh命令编辑打开hadoop-env.sh文件，找到JAVA_HOME关键字所在的行，把前面的#号去掉，然后填写实际的JAVA_HOME地址：

export JAVA_HOME=/data/software/java/jdk1.7.0_40

3.3.2配置core-site.xml:

vi core-site.xml打开core-site.xml文件，然后在configuration标签中加入以下内容：

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</propety>

<!—fs.default.name：用来配置namenode,指定HDFS文件系统的URL，通过该URL我们可以访问文件系统的内容，也可以把localhost换成本机IP地址；如果是完全分布模式，则必须把localhost改为实际namenode机器的IP地址；如果不写端口，则使用默认端口8020。 -->

<name>hadoop.tmp.dir</name>

<value>/data/tmp/hadoop_tmp</value>

</property>

3.3.3配置hdfs-site.xml:

在configuration标签中加入以下内容，所有不存在的目录都要预先创建：

<value>/data/appdata/hadoopdata</value>

</property>

<value>/data/appdata/hadoopname</value>

</property>

<!—用来存储namenode的文件系统元数据，包括编辑日志和文件系统映像，如果更换地址的话，则需要重新使用hadoop namenode –format命令格式化namenode-->

<name>dfs.replication</name>

</proerty>

<!—用来设置文件系统冗余备份数量，因为只有一个节点，所有设置为1，系统默认数量为3-->

3.3.4配置mapred-site.xml:

在configuration标签中加入以下内容：

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

<!—该项配置用来配置jobtracker节点，localhost也可以换成本机的IP地址；真实分布模式下注意更改成实际jobtracker机器的IP地址-->

4：启动hadoop

4.1：测试hadoop配置是否成功：

4.2：格式化namenode：

cd /data/software/hadoop/hadoop-1.2.1/bin

./hadoop namenode –format

4.3：启动hadoop进程，运行start-all.sh：

cd /data/software/hadoop/hadoop-1.2.1/bin

./start-all.sh

我们可以通过java的jps命令来查看进程是否启动成功，从下图可以看到，我们已经成功启动SecondaryNamenode，JobTracker，NameNode，DataNode，TraskTracker五个进程，而刚好这五个进程是hadoop所需要的。如果有一个进程没有启动成功，就表示整个集群没有正常工作，我们可以进入/data/software/hadoop/hadoop-1.2.1/libexec/../logs/目录下查看失败日记。

4.4：从浏览器查看hadoop信息:

我们可以从本机或者其他机器的浏览器访问hadoop。

查看jobtracker信息：

http://192.168.0.107:50030/jobtracker.jsp

上图显示的只是该页面的部分信息。

查看namenode信息：

http://192.168.0.107:50070/dfshealth.jsp

上图显示的只是该页面的部分信息。

查看trasktracker信息：

http://192.168.0.107:50060/tasktracker.jsp

5：hadoop实例

在这里我们来测试下hadoop自带的examples例子，该例子里面有个wordcount类，wordcount用来计算文件里面每一个单词出现了多少次数。examples jar包位于hadoop安装目录下,名称叫做hadoop-examples-1.2.1.jar：

5.1：进入到bin目录中去

首先我们进入到bin目录中去：

cd /data/software/hadoop/hadoop-1.2.1/bin

5.2：创建文件夹

然后我们创建一个input文件夹，并且创建3个文件，给每个文件写一些内容：

mkdir input

echo “hello hadoop” >input/f1.txt

echo “hello word” >input/f2.txt

echo “hello java” >input/f3.txt

5.3：在hadoop中创建文件夹

使用以下命令在hadoop中创建文件夹：

hadoop dfs –mkdir input

然后我们查看在hadoop中是否已经创建该文件夹：

hadoop dfs –ls /user/root

我们可以看到已经成功在hadoop中创建了input文件夹。

5.4：把文件复制到hadoop中

使用以下命令把文件从Linux中复制到hadoop中：

hadoop dfs –put input/* input

查看文件是否在hadoop中：

hadoop dfs –ls input

查看文件内容是否一致：

hadoop dfs –cat input/f1.txt

可以看到，文件已经成功放入hadoop文件系统中了。

5.5：从浏览器中查看文件内容

我们也可以从浏览器中浏览整个hdfs文件系统的目录，打开namenode链接:

http://192.168.0.107:50070/dfshealth.jsp

然后里面会有个Browse the filesystem超级链接，点击进去就可以看到相应的目录结构了。

5.6：运行examples例子

我们使用以下命令来运行wordcount程序：

hadoop jar ../hadoop-examples-1.2.1.jar wordcount input output

注意当前目录是bin目录，而jar包在上一级目录中，则定位jar包需要用到..来表示上级目录，wordcount表示jar包中的类名，表示要执行这个类，input是输入文件夹，output是输出文件夹，必须不存在，它由程序自动创建，如果预先存在output文件夹，则会报错。

我们可以看到程序已经运行成功，接下来就是查看运行结果了。

5.7：查看运行结果

我们可以查看output文件夹的内容来检查程序是否成功创建文件夹，通过查看output文件里面的part-r-00000文件的内容来检查程序执行结果：

我们可以看到hadoop出现一次，hello出现3次，java出现一次，world出现一次，这跟预期是一样的，说明执行成功。

6：关闭hadoop进程

如果我们要关闭hadoop集群，则只需要运行stop-all.sh：

cd /data/software/hadoop/hadoop-1.2.1/bin

./stop-all.sh

可以看到只有一个jps进程在运行，其它hadoop的进程都已经关闭了。

hadoop1.2.1伪分布模式安装教程的更多相关文章

Hadoop1.2.1完全分布模式安装教程
假设有三台机器,它们的IP地址和对应的主机名为: 192.168.12.18 localhost.localdomain 192.168.2.215 rhel5 ...
Hadoop-1.0.4伪分布安装与配置
1.采用伪分布模式安装将hadoop-****.tar.gz复制到linux的/usr/local目录下. 2.解压,重命名 #tar -xzvf hadoop-1.0.4.ta ...
伪分布模式安装hadoop
准备工具: 虚拟机:VMware Linux系统:CentOS hadoop-1.1.2.tar.gz jdk-7u75-linux-x64.gz CentOS的网络配置 1.设置主机中VMware ...
Hadoop 伪分布模式安装
( 温馨提示:图片中有id有姓名,不要盗用哦,可参考流程,有问题评论区留言哦 ) 一.任务目标 1.了解Hadoop的3种运行模式 2.熟练掌握Hadoop伪分布模式安装流程 3.培养独立完成Hado ...
Hadoop学习笔记（3）hadoop伪分布模式安装
为了学习这部分的功能,我们这里的linux都是使用root用户登录的.所以每个命令的前面都有一个#符号. 伪分布模式安装步骤: 关闭防火墙修改ip地址修改hostname 设置ssh自动登录安装 ...
Spark新手入门——2.Hadoop集群(伪分布模式)安装
主要包括以下三部分,本文为第二部分: 一. Scala环境准备查看二. Hadoop集群(伪分布模式)安装三. Spark集群(standalone模式)安装查看 Hadoop集群(伪分布模式 ...
Hadoop单点伪分布模式安装
Hadoop单点伪分布模式安装概述单点 single-node,单节点,即一台计算机. 伪分布式模式 pseudo-distributed mode 所谓集群,表面上看是多台计算机联合完成任务:但 ...
Hadoop1.2.1伪分布模式安装指南
一.前置条件 1.操作系统准备 (1)Linux可以用作开发平台及产品平台. (2)win32只可用作开发平台,且需要cygwin的支持. 2.安装jdk 1.6或以上 3.安装ssh,并配置免密码登 ...
Hadoop1.2.1伪分布模式安装指南分类： A1_HADOOP 2014-08-17 10:52 1346人阅读评论(0) 收藏
一.前置条件 1.操作系统准备 (1)Linux可以用作开发平台及产品平台. (2)win32只可用作开发平台,且需要cygwin的支持. 2.安装jdk 1.6或以上 3.安装ssh,并配置免密码登 ...

随机推荐

vue项目中多个入口的配置
出处:http://www.qingpingshan.com/jb/javascript/221105.html 基于vue2.0生成项目,一段时间都在找如何配置成多个页面的.网上有这样的例子相对也是 ...
OS X 10.9 Mavericks下如何安装Command Line Tools(命令行工具)
OS X 10.9 Mavericks下如何安装Command Line Tools(命令行工具) 今天OS X 10.9 Mavericks正式发布,免费更新,立即去更新看看效果. 不过升级后安装命 ...
mysql中sql语句中常见的group_concat()函数意思以及用法，oracle中与其一样的功能函数是wmsys.wm_concat()
1.group_concat(),手册上说明:该函数返回带有来自一个组的连接的非NULL值的字符串结果.比较抽象,难以理解. 通俗点理解,其实是这样的:group_concat()会计算哪些行属于同一 ...
20145302张薇《Java程序设计》第十六周课程总结
20145302 <Java程序设计>第十六周课程总结实验报告链接汇总实验一 Java开发环境的熟悉实验二 Java面向对象程序设计实验三敏捷开发与XP实践实验四 Andoid ...
在Linux终端管理文件你要知道的11个命令
LS - 列表文件 ls命令列出目录中的文件. 默认情况下,使用ls列出当前目录下的文件. 2 你也可以列出文件递归-也就是说,列出所有文件在当前目录中的目录-使用ls -R.LS还可以列出在其他目录 ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
Caffe学习笔记（三）：Caffe数据是如何输入和输出的？
Caffe学习笔记(三):Caffe数据是如何输入和输出的? Caffe中的数据流以Blobs进行传输,在<Caffe学习笔记(一):Caffe架构及其模型解析>中已经对Blobs进行了简 ...
hdu5727
Necklace SJX has 2*N magic gems. N of them have Yin energy inside while others have Yang energy. SJX ...
Elasticsearch之分词器的作用
前提什么是倒排索引? Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分.对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的 ...
关于C# get set的简单用法
关于C# get set的文章很多,但是笔者的这篇文章有它的特别之处,笔者用简单的语言把c# get set讲述的十分明了. C# get set释一:属性的访问器包含与获取(读取或计算)或设置(写) ...

hadoop1.2.1伪分布模式安装教程

1：软件环境准备

1.1Hadoop：

1.2Java:

2：安装到Linux中

2.1创建目录：

2.2解压安装包文件：

3：配置Hadoop

3.1配置java环境：

3.2配置ssh环境：

3.3配置hadoop环境：

3.3.1配置hadoop-env.sh:

3.3.2配置core-site.xml:

3.3.3配置hdfs-site.xml:

3.3.4配置mapred-site.xml:

4：启动hadoop

4.1：测试hadoop配置是否成功：

4.2：格式化namenode：

4.3：启动hadoop进程，运行start-all.sh：

4.4：从浏览器查看hadoop信息:

5：hadoop实例

5.1：进入到bin目录中去

5.2：创建文件夹

5.3：在hadoop中创建文件夹

5.4：把文件复制到hadoop中

5.5：从浏览器中查看文件内容

5.6：运行examples例子

5.7：查看运行结果

6：关闭hadoop进程

hadoop1.2.1伪分布模式安装教程的更多相关文章

随机推荐

热门专题