hadoop集群篇--从0到1搭建hadoop集群

一。前述

本来有套好好的集群，可是不知道为什么虚拟机镜像文件损坏，结果导致集群不能用。所以不得不重新搭套集群，借此机会顺便再重新搭套吧，顺便提醒一句大家，自己虚拟机的集群一定要及时做好快照，最好装完每个东西后记得拍摄快照。要不搞工具真的很浪费时间，时间一定要用在刀刃上。废话不多说，开始准备环境搭建，本集群搭建完全基于企业思想，所以生产集群亦可以参照此搭建。

二。集群规划

三。配置

1.配置集群节点之间免密操作。

因为在node01（namenode）节点要启动datanode节点，所以需要配置node01到三台datanode节点的免密操作

因为两个namenode之间需要互相切换降低对方的级别所以node01,node02之间需要进行免密操作。

具体步骤如下：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

scp id_dsa.pub root@node04:`pwd`/node01.pub

cat node01.pub >> ~/.ssh/authorized_keys

2.上传hadoop安装包到某一节点上，进行配置

假设配置在此目录下

第一步：配置hadoop-env.sh

使用命令echo $JAVA_HOME 确定jd目录。

配置java环境。

export JAVA_HOME=/usr/java/jdk1.7.0_67

第二步：配置hdfs-site.xml

<property>
<name>dfs.nameservices</name>
<value>mycluster</value>//配置集群的别名，所以当企业中多套集群时，可以使用此别名分开
</property>
<property>
<name>dfs.ha.namenodes.mycluster</name>//配置两个namenode的逻辑名称
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn1</name>//配置两个namenode的真正物理节点和rpc通信端口
<value>node01:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn2</name>//配置两个namenode的真正物理节点rpc通信端口
<value>node02:8020</value>
</property>
<property>
<name>dfs.namenode.http-address.mycluster.nn1</name>//配置两个namenode的真正物理节点http通信端口
<value>node01:50070</value>
</property>
<property>
<name>dfs.namenode.http-address.mycluster.nn2</name>//配置两个namenode的真正物理节点http通信端口
<value>node02:50070</value>
</property>

<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://node01:8485;node02:8485;node03:8485/mycluster</value>//配置三个journalnode的物理地址
</property>

<property>
<name>dfs.journalnode.edits.dir</name>//配置journalnode共享edits的目录
<value>/var/sxt/hadoop/ha/jn</value>
</property>

<property>
<name>dfs.client.failover.proxy.provider.mycluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>//配置zkfc实现的真正类
</property>
<property>
<name>dfs.ha.fencing.methods</name>//配置zkfc隔离机制
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>//配置zkfc切换对方namenode时所使用的方式
<value>/root/.ssh/id_dsa</value>
</property>
<property>
   <name>dfs.ha.automatic-failover.enabled</name>/配置是否自动开启zkfc切换
   <value>true</value>
</property>
第三步：配置core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>//配置集群的别名
</property>

<property>
   <name>ha.zookeeper.quorum</name>
   <value>node02:2181,node03:2181,node04:2181</value>//配置和zookeep通信地址和端口
</property>

<property>
<name>hadoop.tmp.dir</name>//配置hadoop元数据的存放目录
<value>/var/sxt/hadoop-2.6/ha</value>
</property>
第四步：配置slaves

即datanode节点

对应datanode节点的host或者ip

第五步:分发配置到其他节点相同目录

scp -r hadoop-2.6.5 root@node04:`pwd`

第六步:配置zookeeeer集群

同样上传到某一节点然后配置

1.cp zoo_sample.cfg zoo.cfg先改名 zookeeper集群识别zoo.cfg文件

2.配置conf/zoo.cfg
dataDir=/var/sxt/zk
server.1=node02:2888:3888
server.2=node03:2888:3888
server.3=node04:2888:3888
3.配置集群节点识别

mkdir -p /var/sxt/zk
echo 1 > myid //数字根据节点规划

4.配置全局环境变量

export ZOOKEEPER=/opt/soft/zookeeper-3.4.6
export PATH=$PATH:$JAVA_HOME/bin:$ZOOKEEPER/bin

5.启动集群

分别启动三台节点，然后查看状态

zkServer.sh start
zkServer.sh statu

启动成功！！！

第七步：启动集群顺序（重要！！！）

1.先启动journalnode

hadoop-daemon.sh start journalnode

2.在两个namenode节点创建/var/sxt/hadoop-2.6/ha 即hadoop.tmp.dir的目录存放元数据（默认会创建，不过最好还是手工创建吧，并且里面一定是干净目录，无任何东西）

3.在其中一台namenode节点格式化

hdfs namenode -format

4.然后启动namenode！！！注意这个一定要先启动，然后再在另一台namenode同步，为了是让里面有数据

hadoop-daemon.sh start namenode

5.然后在另一台namenode节点执行同步hdfs namenode -bootstrapStandby

6.在主节点启动集群

start-dfs.sh

7.向zookeeper注册active节点

hdfs zkfc -formatZK

8.启动zkFC负责切换

hadoop-daemon.sh start zkfc

至此，集群启动成功启动成功！！

9.web-ui验证

10.下一次启动时，只需要先启动zookeper,然后在namenode的管理节点启动start-dfs.sh即可 !!!

最后，别忘拍摄快照哦！！

持续更新中。。。。，欢迎大家关注我的公众号LHWorld.

hadoop集群篇--从0到1搭建hadoop集群的更多相关文章

从0到1搭建spark集群---企业集群搭建
今天分享一篇从0到1搭建Spark集群的步骤,企业中大家亦可以参照次集群搭建自己的Spark集群. 一.下载Spark安装包可以从官网下载,本集群选择的版本是spark-1.6.0-bin-hado ...
用C、python手写redis客户端，兼容redis集群 (-MOVED和-ASK)，快速搭建redis集群
想没想过,自己写一个redis客户端,是不是很难呢? 其实,并不是特别难. 首先,要知道redis服务端用的通信协议,建议直接去官网看,博客啥的其实也是从官网摘抄的,或者从其他博客抄的(忽略). 协议 ...
保姆级教程，带你认识大数据，从0到1搭建 Hadoop 集群
大数据简介,概念部分概念部分,建议之前没有任何大数据相关知识的朋友阅读大数据概论什么是大数据大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需 ...
从0到1搭建k8s集群系列1：安装虚拟机及docker
前言本系列文章记录了本人学习k8s集群搭建的过程,从k8s基本组件的安装.到部署mysql服务到k8s集群.部署web项目到k8s集群以及安装可视化界面管理工具kuboard. 因为k8s的组件安装 ...
QQ群技术：0成本创建2000人QQ群技巧
群人数,直接关系群权重;于排名,意义非凡;此法靠谱,笔者亲测. 就说这张图,这类关键词,要是没2000人群,不管你多流弊,你是做不上去滴. 于QQ群霸屏,笔者有太多的笔墨,各种排名技巧,阿力推推早前明 ...
在本机eclipse中创建maven项目，查看linux中hadoop下的文件、在本机搭建hadoop环境
注意第一次建立maven项目时需要在联网情况下,因为他会自动下载一些东西,不然突然终止需要手动删除断网前建立的文件在eclipse里新建maven项目步骤直接新建maven项目出了错 ...
3.环境搭建-Hadoop（CDH）集群搭建
目录目录实验环境安装 Hadoop 配置文件在另外两台虚拟机上搭建hadoop 启动hdfs集群启动yarn集群本文主要是在上节CentOS集群基础上搭建Hadoop集群. 实验环境 Ha ...
通过docker搭建ELK集群
单机ELK,另外两台服务器分别有一个elasticsearch节点,这样形成一个3节点的ES集群. 可以先尝试单独搭建es集群或单机ELK https://www.cnblogs.com/lz0925 ...
手把手教你搭建FastDFS集群（中）
手把手教你搭建FastDFS集群(中) 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u0 ...

随机推荐

The literal of int xxxxx is out of range
有时候我们定义了long型的变量,当我们给该变量赋值过长的整数时,系统依旧会提示长度超过范围,解决的方法例如以下: long timeShow = 1437565243495L; 我们须要在整形变量的 ...
Mybatis 入门之resultMap与resultType解说实例
resultMap:适合使用返回值是自己定义实体类的情况 resultType:适合使用返回值得数据类型是非自己定义的,即jdk的提供的类型 resultMap : type:映射实体类的数据类型 i ...
Elasticsearch批处理操作——bulk API
Elasticsearch提供的批量处理功能,是通过使用_bulk API实现的.这个功能之所以重要,在于它提供了非常高效的机制来尽可能快的完成多个操作,与此同时使用尽可能少的网络往返. 1.批量索引 ...
cs231n --- 3 : Convolutional Neural Networks (CNNs / ConvNets)
CNN介绍与之前的神经网络不同之处在于,CNN明确指定了输入就是图像,这允许我们将某些特征编码到CNN的结构中去,不仅易于实现,还能极大减少网络的参数. 一. 结构概述与一般的神经网络不同,卷积神 ...
attr设置checked，disabled等属性失效的问题，jquery的attr和prop的区别
最近做项目遇到一个问题,radio设置了默认checked值,attr("checked",true)切换checked值失效最后发现是jquery1.6版本之后,attr和pr ...
nodejs实现OAuth2.0授权服务
OAuth是一种开发授权的网络标准,全拼为open authorization,即开放式授权,最新的协议版本是2.0. 举个栗子: 有一个"云冲印"的网站,可以将用户储存在Goog ...
Python数据可视化——使用Matplotlib创建散点图
Python数据可视化——使用Matplotlib创建散点图 2017-12-27 作者:淡水化合物 Matplotlib简述: Matplotlib是一个用于创建出高质量图表的桌面绘图包(主要是2D ...
iOS开发解决json串中的NSNull类型
后端返回的数据中总会出现一些NSNull类型,当我们一处理程序就会崩溃,因此想到把返回的数据中的NSNull类型全部转换成@""空字符串.下面是转化方法: 1 自定义的几个方法:放 ...
.Net版InfluxDB客户端使用时的一些坑
1.如果应用程序是WebAPi,则需要使用同步版的InfluDB客户端 2.如果应用程序是Winform或Console程序或Windows服务,则使用同步或异步版客户端都可以,建议用异步版 3.如果 ...
spring cloud sidecar
用spring cloud sidecar的整合异构语言,以前做过没有做笔记,现在再做由于各种坑又浪费了一天,这里记一下首先是官网:http://cloud.spring.io/spring-clo ...

hadoop集群篇--从0到1搭建hadoop集群

hadoop集群篇--从0到1搭建hadoop集群的更多相关文章

随机推荐

热门专题