Hadoop1 Centos伪分布式部署

前言:

毕业两年了，之前的工作一直没有接触过大数据的东西，对hadoop等比较陌生，所以最近开始学习了。对于我这样第一次学的人，过程还是充满了很多疑惑和不解的，不过我采取的策略是还是先让环境跑起来，然后在能用的基础上在多想想为什么。

通过这三个礼拜(基本上就是周六周日，其他时间都在加班啊T T)的探索，我目前主要完成的是:

　　1.在Linux环境中伪分布式部署hadoop(SSH免登陆)，运行WordCount实例成功。 http://www.cnblogs.com/PurpleDream/p/4009070.html

2.自己打包hadoop在eclipse中的插件。 http://www.cnblogs.com/PurpleDream/p/4014751.html

3.在eclipse中访问hadoop运行WordCount成功。 http://www.cnblogs.com/PurpleDream/p/4021191.html

所以我下边会分三次记录下我的过程，为自己以后查阅方便，要是能帮助到其他人，自然是更好了！

===============================================================长长的分割线====================================================================

正文:

我的部署环境是之前在阿里云购买的Linux云服务器(大家用自己的linux环境，或者搭个VM虚拟机也是可以滴)，系统是CentOS6.X，之前需要自己安装好JDK，我安装的是1.6的，注意这个后边在安装完hadoop后，也需要给Hadoop配置JAVA_HOME，不然会报错。

在安装hadoop之前，我们需要先配置SSH免登陆，如果不配置的话，我们后边在启动hadoop时，都将需要输入密码，到时会很麻烦，这个网上有很多资料，也可以参考我的另外一篇博客:http://www.cnblogs.com/PurpleDream/p/4012328.html 。注意，我的基本与网上步骤一致，这个也是我当初参考网上的步骤，在执行的时候根据自己的情况稍加修改，就可以了。

安装hadoop首先是下载hadoop，由于我参考的《hadoop实战》这本书，所以为了更接近书中的内容，同时也考虑到高版本的hadoop涉及的东西会更多，不利于我这样的初学者学习，所以我选择hadoop-1.0.1这个版本。下边的网址中是完整的hadoop版本的下载列表，也可以根据自己的需要去下载：http://archive.apache.org/dist/hadoop/core/。

我下载的是hadoop-1.0.1.tar.gz，通过SSH工具上传到linux服务器的目录中(我的是:/myself_setted/hadoop)，然后利用解压缩命令“tar -zxvf hadoop-1.0.1.tar.gz”解压到当前目录。

进入解压缩后的目录(我的是:/myself_setted/hadoop/hadoop-1.0.1),进入conf文件夹，进行配置:

1.首先打开hadoop-env.sh文件，修改配置文件如下:export JAVA_HOME=/usr/java/jdk1.6.0_35 注意，此处的jdk路径是之前在安装JDK时配置的路径，不要写错，如果配置有误，后边在启动hadoop时，会报找不到java的错误。

2.然后在打开core-site.xml文件，这里配置的是HDFS的地址及段口红，配置如下：

<configuration>

        <property>

                <name>fs.default.name</name>

                <value>hdfs://localhost:9000</value>

        </property>

</configuration>

3.再打开hdfs-site.xml文件，配置的备份方式默认是3，在我们这种伪分布式部署方式中，需要将其配置为1

<configuration>

        <property>

                <name>dfs.replication</name>

                <value></value>

        </property>

</configuration>

4.最后是MapReduce的配置文件，打开mapred-site.xml，配置JobTracker的地址和端口

<configuration>

        <property>

                <name>mapred.job.tracker</name>

                <value>localhost:</value>

        </property>

</configuration>

通过上边的四步，我们已经完成了基本的配置工作，在启动hadoop前，我们还需要格式化hadoop，我们需要将目录切换到解压缩后的根目录(我的是:/myself_setted/hadoop/hadoop-1.0.1),依次执行以下命令:

1.bin/hadoop namenode -format

2.bin/hadoop datanode -format

3.bin/start-all.sh

通过上边的三步，我们可以认为我们的hadoop已经启动，但是我们还需要验证启动是否有问题，验证的方法比较多，我就说说我用的(以下的验证方法是并列的关系，不是先后继承关系):

1.打开浏览器，分别输入网址http://localhost:50030（MapReduce的web页面）;http://localhost:50070（HDFS的web页面）。由于我的是云服务器，所以我自己的在查看的时候，localhost替换为服务器的公网IP

2.在linux环境下，输入JPS，查看关于hadoop的进程是否完整，完整事例如下(进程号不定哈):

 TaskTracker

 JobTracker

 Jps

 NameNode

 SecondaryNameNode

 DataNode

当然如果上边的验证基本没有问题，我相信你已经接近成功了，下边我们将具体执行一个“作业”，来验证我们的环境。我们运行的例子就是hadoop中的hello word程序，即WordCount，顾名思义就是计算单词的出现次数，步骤如下:

1.在以上的hadoop启动的情况下，我们首先在hadoop-1.0.1的根目录(我的是:/myself_setted/hadoop/hadoop-1.0.1),建立一个文件夹叫test，然后我们再test文件夹(/myself_setted/hadoop/hadoop-1.0.1/test)中简历一个a.txt的文件，内容如

下(注意，此步骤中建立的文件夹的位置以及文件夹中文件的名字和内容，你可以随意设定路径和内容，主要你在下边的2和3三步中上传文件到HDFS上时，一定要把路径写正确):

aa

bb

cc

ee

aa

ee

ff

2.在hdfs中建立一个输入文件夹: bin/hadoop fs -mkdir /input。注意我执行此命令时所在的目录是hadoop-1.0.1的根目录（我的是:/myself_setted/hadoop/hadoop-1.0.1）

3.将a.txt放入到2中hdfs的输入文件夹中:bin/hadoop fs -put test/a.txt /input。注意我执行此命令时所在的目录是hadoop-1.0.1的根目录（我的是:/myself_setted/hadoop/hadoop-1.0.1）

4.这时如果我们在执行bin/hadoop fs -ls /input这个命令时，如果之前的步骤正确的话，我们将看到列出了一个a.txt的文件。注意我执行此命令时所在的目录是hadoop-1.0.1的根目录（(我的是:/myself_setted/hadoop/hadoop-1.0.1）

5.经过上边的4步，我们下边还有最后一个命令，那就是执行作业。我们看下hadoop-1.0.1的根目录（我的是:/myself_setted/hadoop/hadoop-1.0.1，有一个hadoop-examples-1.0.1.jar这个jar包，这里面打包了一些hadoop自带的例子，我们要运行的WordCount方法就是这个包中，执行命令如下：bin/hadoop jar hadoop-examples-1.0.1.jar wordcount /input /output,

6.根据提示，如果出现map 100% reduce 100%等字样，我们就可以通过bin/hadoop fs -ls /output命令查看/output文件夹中统计结果了。

Hadoop1 Centos伪分布式部署的更多相关文章

大数据技术之Hadoop3.1.2版本伪分布式部署
大数据技术之Hadoop3.1.2版本伪分布式部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.主机环境准备 1>.操作系统环境 [root@node101.yinzh ...
ActiveMQ5.14.1+Zookeeper3.4.9高可用伪分布式部署
本文借鉴http://www.cnblogs.com/gossip/p/5977489.html,在此基础上进行了完善,使之成为一个完整版的伪分布式部署说明,在此记录一下! 一.本文目的 ...
hadoop3.1伪分布式部署
1.环境准备系统版本:CentOS7.5 主机名:node01 hadoop3.1 的下载地址: http://mirror.bit.edu.cn/apache/hadoop/common/hado ...
1、Hadoop的伪分布式部署
伪分布式模式搭建: 1.环境准备 (1)主机名(root用户) # vi /etc/sysconfig/network HOSTNAME=hadoo1 (不要用下划线) (2)创建普通用户cong ...
CentOS7 下 Hadoop 单节点(伪分布式)部署
Hadoop 下载 (2.9.2) https://hadoop.apache.org/releases.html 准备工作关闭防火墙 (也可放行) # 停止防火墙 systemctl stop f ...
Hadoop2 伪分布式部署
一.简单介绍二.安装部署三.执行hadoop样例并測试部署环境四.注意的地方一．简单介绍 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop的框架最核心的设计就是: ...
【Hadoop 分布式部署三：基于Hadoop 2.x 伪分布式部署进行修改配置文件】
1.规划好哪些服务运行在那个服务器上需要配置的配置文件 2. 修改配置文件,设置服务运行机器节点首先在 hadoop-senior 的这台主机上进行解压 hadoop2.5 按照 ...
centos6.6安装hadoop-2.5.0（二、伪分布式部署）
操作系统:centos6.6(一台服务器) 环境:selinux disabled:iptables off:java 1.8.0_131 安装包:hadoop-2.5.0.tar.gz 伪分布式环境 ...
Zookeeper 伪分布式部署
Zookeeper 可以通过配置不同的配置文件启动部署环境:CentOS 6.7 Zookeeper 路径: /opt/htools/zookeeper-3.4.6 操作步骤: 1 复制三份zoo. ...

随机推荐

load和initialize方法
一.load 方法什么时候调用: 在main方法还没执行的时候就会加载所有类,调用所有类的load方法. load方法是线程安全的,它使用了锁,我们应该避免线程阻塞在load方法. 在项目中使 ...
jq选择器基础
Jquery $代表选择器使用jq必须要导入jq文件 <script src="http://libs.baidu.com/jquery/2.0.0/jquery.min.js&qu ...
火星坐标、百度坐标、WGS-84坐标相互转换及墨卡托投影坐标转经纬度JavaScript版
火星坐标火星坐标是国家测绘局为了国家安全在原始坐标的基础上进行偏移得到的坐标,基本国内的电子地图.导航设备都是采用的这一坐标系或在这一坐标的基础上进行二次加密得到的.火星坐标的真实名称应该是GCJ- ...
【iOS】Xcode8+Swift3 纯代码模式实现 UICollectionView
开发环境 macOS Sierra 10.12.Xcode 8.0,如下图所示: 总体思路 1.建立空白的storyboard用于呈现列表 2.实现自定义单个单元格(继承自:UICollectionV ...
Flex 布局教程：语法篇
作者: 阮一峰网页布局(layout)是CSS的一个重点应用. 布局的传统解决方案,基于盒状模型,依赖 display属性 + position属性 + float属性.它对于那些特殊布局非常不方便 ...
Flexible 弹性盒子模型之CSS flex-grow 属性
实例让第二个元素的宽度为其他元素的三倍: div:nth-of-type(1){flex-grow:1;} div:nth-of-type(2){flex-grow:3;} div:nth-of-t ...
SAP CRM 性能小技巧
导言本页面打算收集SAP CRM实施中可以用于避免性能问题的注意事项,重要的事项会由图标标识. 如果你有其他的技巧想要说出来,别犹豫! 性能注意事项通用缓存读取类访问,特别是在性能关键的地方,比 ...
iOS之解决崩溃Collection <__NSArrayM: 0xb550c30> was mutated while being enumerated.
崩溃提示:Terminating app due to uncaught exception 'NSGenericException', reason: '*** Collection <CAL ...
【开源】专业K线绘制[K线主副图、趋势图、成交量、滚动、放大缩小、MACD、KDJ等）
这是一个iOS项目雅黑深邃的K线的绘制. 实现功能包括K线主副图.趋势图.成交量.滚动.放大缩小.MACD.KDJ,长按显示辅助线等功能预览图最后的最后,这是项目的开源地址:https://git ...
Windows10自适应和交互式toast通知[1]
阅读目录: 概述 toast通知的结构视觉区域(Visual) 行为(Actions) 特定场景下的Toast通知带多内容的通知带行为的通知(例子1) 带行为的通知(例子2) 带文本输入框和行为 ...

Hadoop1 Centos伪分布式部署

Hadoop1 Centos伪分布式部署的更多相关文章

随机推荐

热门专题