Hadoop 2.6.0 集群部署

　　Hadoop的集群部署和单节点部署类似，配置文件不同，另外需要修改网络方面的配置

　　首先，准备3台虚拟机，系统为CentOS 6.6，其中一台为namenode 剩余两台为 datanode；

　　修改主机名主节点为：hadoopha，数据节点主机名分别为hadoop1、hadoop2，具体修改方法点击这里查看

　　本例中这3台虚拟机处于同一个局域网，网络连接设置为桥接，ip地址分别为是hadoopha为：192.168.1.42，hadoop1为：192.168.1.78、hadoop2为：192.168.1.44，实际中可以设置静态ip为连续的

　　然后修改hosts网络指向，用vim /etc/hosts打开文件，后面添加3行记录：

　　192.168.1.42 hadoopha

　　192.168.1.78 hadoop1

　　192.168.1.44 hadoop2

　　然后保存退出

　　上面那些localhost指向不用改，新添加3行即可，这三台主机都要修改hosts文件保持一致

　　以上是主机之间网络通信的基础，接下来在hadoopha上单独配置hadoop环境，hadoop1和hadoop2不用安装hadoop，只有jdk即可

　　同样把hadoop解压到指定目录，配置一下HADOOP_HOME到环境变量中，然后进入hadoop安装目录，修改配置

　　执行vim etc/hadoop/hadoop-env.sh

　　把JAVA_HOME前面的注释去掉，值改成jdk的安装目录，并保存

　　然后执行vim etc/hadoop/core-site.xml，在<configuration></configuration>之间添加如下配置：

     <property>

         <name>fs.defaultFS</name>

         <value>hdfs://hadoopha</value>

     </property>

     <property>

         <name>hadoop.tmp.dir</name>

         <value>/usr/hadoop</value>

     </property>

     <property>

         <name>dfs.name.dir</name>

         <value>/usr/hadoop/name</value>

     </property>

　　执行vim etc/hadoop/hdfs-site.xml，同样位置添加如下配置：

     <property>

         <name>dfs.replication</name>

         <value>2</value>

     </property>

     <property>

         <name>dfs.namenode.name.dir</name>

         <value>file:///usr/hadoop/hdfs/name</value>

     </property>

     <property>

         <name>dfs.datanode.data.dir</name>

         <value>file:///usr/hadoop/hdfs/data</value>

     </property>

     <property>

         <name>dfs.nameservices</name>

         <value>hadoopha</value>

     </property>

　　第一个配置项是datanode的节点数，这里是2个，就算这里写3也不起什么作用，因为不能超过实际的最大节点数，其中的存放目录可以自己定义

　　执行vim etc/hadoop/mapred-site.xml，同样位置添加如下配置：

     <property>

         <name>mapreduce.framework.name</name>

         <value>yarn</value>

     </property>

　　执行vim etc/hadoop/yarn-site.xml，添加如下配置：

     <property>

         <name>yarn.resourcemanager.hostname</name>

         <value>hadoopha</value>

     </property>

     <property>

         <name>yarn.nodemanager.aux-services</name>

         <value>mapreduce_shuffle</value>

     </property>

     <property>

         <name>yarn.resourcemanager.address</name>

         <value>hadoopha:8032</value>

     </property>

     <property>

         <name>yarn.resourcemanager.scheduler.address</name>

         <value>hadoopha:8030</value>

     </property>

     <property>

         <name>yarn.resourcemanager.resource-tracker.address</name>

         <value>hadoopha:8031</value>

     </property>

     <property>

         <name>yarn.resourcemanager.admin.address</name>

         <value>hadoopha:8033</value>

     </property>

     <property>

         <name>yarn.resourcemanager.webapp.address</name>

         <value>hadoopha:8088</value>

     </property>

　　编辑slaves文件，执行etc/hadoop/slaves，之前默认只有一行内容localhost，把之前的删除添加下面配置：

　　hadoop1

　　hadoop2

　　到这里文件就配置完了，

　　然后退到上一层目录，把配置好的hadoop目录发送到hadoop1和hadoop2中

$ scp -r hadoop-2.6./ hadoop1:/usr/hadoop/

$ scp -r hadoop-2.6./ hadoop2:/usr/hadoop/

　　这样三个主机的hadoop文件就实现了同步，然后格式化namenode节点

bin/hadoop namenode -format

　　只对主节点hadoopha进行格式化即可，格式化之后启动hadoop

sbin/start-all.sh

　　等待hadoop集群运行起来，然后用jps命令分别查看3个主机的hadoop进程

　　hadoopha运行NameNode:

　　hadoop1和hadoop2运行DataNode:

　　这时候hadoop集群就启动成功了，然后打开浏览器通过web访问主节点可以管理集群

　　HDFS管理：http://192.168.1.42:50070/

　　可以看到详细的参数

　　Map/Reduce管理：http://192.168.1.42:8088/

　　可以看到详细的作业情况，和具体哪台机器的作业的情况

　　通过命令行：bin/hdfs dfsadmin -report可以查看集群的运行状态

　　需要注意：

　　1、在hadoop2.x系列版本中，hdfs默认文件直接存放在根目录下，不在和1.x一样存放在/user/root/下了

　　2、执行hdfs操作文件系统所有的命令时，比如bin/hdfs dfs -ls /会报错：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

　　虽然不影响使用，原因是从apache官网下载的hadoop-2.6.0.tar.gz是在32位机器上编译的，而集群机器是64位的，所以加载.so文件时出错，但是不影响使用，解决办法是下载64位编译包，解压到hadoop安装目录下lib/native下更新文件即可

　　因为是./所以直接解压到本目录下，不用进行其他任何操作就可以了，下载链接：http://dl.bintray.com/sequenceiq/sequenceiq-bin/hadoop-native-64-2.6.0.tar

　　接下来使用WordCount例子来测试集群的运行：

　　首先进入hadoop安装目录，执行下面命令测试：

$ mkdir input

$ echo "Hello world bye jj" >> file1

$ echo "Hello Hadoop bye hadoop" >> file2

$ bin/hdfs dfs -mkdir /input

$ bin/hdfs dfs -put input/* /input

　　这样文件就上传到了HDFS文件系统中，执行下面命令开始运行作业

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6..jar wordcount /input /output

　　然后等待作业执行完毕，完毕之后可以使用命令bin/hdfs dfs -ls /output/查看是否生成结果文件，使用cat查看文件内容即可

bin/hdfs dfs -cat /output/part-r-

　　可以看到，结果正确的输出了，到这里基本的hadoop集群就部署完成了

Hadoop 2.6.0 集群部署的更多相关文章

hadoop 2.2.0 集群部署坑
注意fs.defaultFS为2..0新的变量,代替旧的:fs.default.name hadoop 2.2.0 集群启动命令:bin/hdfs namenode -formatsbin/start ...
redis3.0集群部署和测试
redis3.0集群部署和测试环境介绍两台Centos7的虚拟机模拟6个节点,A台3个master节点,B台3个slave节点A地址:172.16.81.140B地址:172.16.81.141r ...
hadoop 2.2.0集群安装详细步骤（简单配置，无HA）
安装环境操作系统:CentOS 6.5 i586(32位)java环境:JDK 1.7.0.51hadoop版本:社区版本2.2.0,hadoop-2.2.0.tar.gz 安装准备设置集群的host ...
Ubuntu 12.04下Hadoop 2.2.0 集群搭建（原创）
现在大家可以跟我一起来实现Ubuntu 12.04下Hadoop 2.2.0 集群搭建,在这里我使用了两台服务器,一台作为master即namenode主机,另一台作为slave即datanode主机 ...
hadoop 2.2.0集群安装
相关阅读: hbase 0.98.1集群安装本文将基于hadoop 2.2.0解说其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net ...
Redis 3.0.0 集群部署
简述: 1.0.1:redis cluster的现状目前redis支持的cluster特性 1):节点自动发现 2):slave->master 选举,集群容错 3):Hot reshardi ...
Hadoop 2.2.0集群搭建
一.环境说明 1.虚拟机平台:VMware10 2.Linux版本号:ubuntu-12.04.3-desktop-i386 3.JDK:jdk1.7.0_51 4.Hadoop版本号:2.2.0 5 ...
Hadoop-2.2.0集群部署时live nodes数目不对的问题
关于防火墙,hadoop本身配置都确定没任何问题,集群启动不报错,但打开50070页面,始终live nodes数目不对,于是我尝试/etc/hosts文件配置是否存在逻辑的错误: 127.0.0.1 ...
k8s-1.15.0集群部署+dashboard
环境:外网环境硬件master-centos7.4 2核4G node1-centos7.4 2核4Gnode2-centos7.4 2核4G软件:三台服务器 :docker-19. ...

随机推荐

sphinx在c#.net平台下使用（一）
Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个可以结合MySQL,PostgreSQL全文检索引擎.意图为其他应用提供高速.低空间占用.高结果相关度的全文搜索功能.是做站内全文搜 ...
Spring监听器配置
使用spring框架时如果同时使用org.springframework.web.util.Log4jConfigListener监听器,那么在web.xml中的监听器的注册顺序为org.spring ...
POJ1995(整数快速幂）
http://poj.org/problem?id=1995 题意:求(A1^B1 + A2^B2 + .....Ah^Bh)%M 直接快速幂,以前对快速幂了解不深刻,今天重新学了一遍so easy ...
html5+监听设备加速度变化信息
watchAcceleration 监听设备加速度变化信息 Number plus.accelerometer.watchAcceleration( successCB, errorCB, optio ...
goquery
使用goquery 会用jquery的,goquery基本可以1分钟上手,下面是goquery文档 http://godoc.org/github.com/PuerkitoBio/goquery 1. ...
centos7中systemctl命令使用方法和心得体会
使用linux的同学对service和chkconfig两个命令都不陌生,其重要性不言而喻,那么怎么会突然冒出个systemctl命令呢?其实,为了简化操作,systemctl命令将service和c ...
jQuery1.11源码分析(5)-----Sizzle编译和过滤阶段[原创]
在上一章中,我们说到在之前的查找阶段我们已经获得了待选集seed,那么这一章我们就来讲如何将seed待选集过滤,以获得我们最终要用的元素. 其实思路本质上还是不停地根据token过滤,但compile ...
sql拷贝表结构不拷贝表数据
C# 我理解的接口、抽象类、以及事件
一.摘要面试中无数次被问及到什么是接口,什么是抽象类,接口和抽象类有什么区别?什么是委托,什么是事件. 请写出猫叫了,老鼠跑了的例子..... 这些东西对于一些初学者来说可能还真的有点搞不懂,对于一 ...
Apache prefork 模块指令分析
问题背景: 在一台只有内存的vps上安装directadmin之后经常内存耗,经过查看之后发现Apache成了罪魁祸首急速消耗内存SWAP剩余空间都是0,最终导致内核开始大下杀手,把MySQL都杀了, ...

Hadoop 2.6.0 集群部署

Hadoop 2.6.0 集群部署的更多相关文章

随机推荐

热门专题