大数据(2) - Hadoop完全分布式的部署

apache hadoop 官方文档

** Hadoop介绍
　　** HDFS:分布式存储文件
　　　　角色：NameNode和DataNode
　　** YARN：分布式资源调度框架（Hadoop2.x以上才引用）
　　　　角色：ResourceManager和NodeManager
　　** MapReduce：分布式数据处理框架

一、下载hadoop拉到linux中，并解压到指定目录

官方下载地址

tips：用smb把hadoop压缩包从window拉到linux时，请注意smb的登陆用户，会导致后面一堆坑，慎用root登陆smb。

（1）将压缩包拉到/home/admin/softwares/installtions/目录

(2) 解压到/home/admin/modules目录

tar -zxf hadoop-2.7.2.tar.gz -C /home/admin/modules/

二、配置环境变量　

vim /etc/profile

在最下面添加

export HADOOP_HOME=/home/admin/modules/hadoop-2.7.2/bin

export PATH=$PATH:$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

保存退出后

source /etc/profile

配置成功后可用 hadoop version 查看版本，注意没有横杠！

三、配置

** 最终配置效果：
linux01：namenode、datanode、nodemanager

linux02：resourcemanager 、datanode 、nodemanager

linux03：datanode、nodemanager

（1）删除windows脚本

** 进入到hadoop的etc/hadoop目录下

$ rm -rf *.cmd

（2）重命名文件

$ mv mapred-site.xml.template mapred-site.xml

（3）配置evn文件

查看java路径：

echo $JAVA_HOME，我的机器：/home/admin/modules/jdk1.8.0_131

配置hadoop-env.sh

配置yarn-env.sh

配置mapred-env.sh

（4）配置site文件

配置 core-site.xml

 <configuration>

	<property>

		<name>fs.defaultFS</name>

		<value>hdfs://linux01:8020</value>

	</property>

	<property>

		<name>hadoop.tmp.dir</name>

		<value>/home/admin/modules/hadoop-2.7.2/hadoop-data</value>

	</property>

</configuration>

配置hdfs-site.xml

<configuration>

	<!-- 指定数据冗余份数 -->

	<property>

		<name>dfs.replication</name>

		<value>1</value>

	</property>

	<!-- 关闭权限检查-->

	<property>

		<name>dfs.permissions.enable</name>

		<value>false</value>

	</property>

	<property>

		<name>dfs.namenode.secondary.http-address</name>

		<value>linux03:50090</value>

	</property>

	<property>

		<name>dfs.namenode.http-address</name>

		<value>linux01:50070</value>

	</property>

	<property>

		<name>dfs.webhdfs.enabled</name>

		<value>true</value>

	</property>

</configuration>

　配置yarn-site.xml

<configuration>

        <!-- Site specific YARN configuration properties -->

	<property>

		<name>yarn.nodemanager.aux-services</name>

		<value>mapreduce_shuffle</value>

	</property>

	<property>

		<name>yarn.resourcemanager.hostname</name>

		<value>linux02</value>

	</property>

	<property>

		<name>yarn.log-aggregation-enable</name>

		<value>true</value>

	</property>

	<property>

		<name>yarn.log-aggregation.retain-seconds</name>

		<value>86400</value>

	</property>

	<property>

		<name>yarn.log.server.url</name>

		<value>http://linux01:19888/jobhistory/logs/</value>

	</property> 

</configuration>

　　配置mapred-site.xml

<configuration>

	<property>

		<name>mapreduce.framework.name</name>

		<value>yarn</value>

	</property>

	<!-- 配置 MapReduce JobHistory Server 地址 ，默认端口10020 -->

	<property>

		<name>mapreduce.jobhistory.address</name>

		<value>linux01:10020</value>

	</property>

	<!-- 配置 MapReduce JobHistory Server web ui 地址， 默认端口19888 -->

	<property>

		<name>mapreduce.jobhistory.webapp.address</name>

		<value>linux01:19888</value>

	</property>

</configuration>

（5）配置slaves文件

四、分发安装配置完成的hadoop到linux02以及linux03

$ scp -r hadoop-2.7.2/ linux02:/home/admin/modules/

$ scp -r hadoop-2.7.2/ linux03:/home/admin/modules/

五、格式化namenode（在hadoop-2.7.2的根目录下执行）

$ bin/hdfs namenode -format

　　如果正常格式化会生成haddop-data文件夹

六、启动服务

HDFS：(linux01)

	$ sbin/start-dfs.sh

YARN：(一定要在ResourceManager所在机器启动，linux02)

	$ sbin/start-yarn.sh

JobHistoryServer：(linux01)

	$ ssh admin@linux01 '/home/admin/modules/hadoop-2.7.2/sbin/mr-jobhistory-daemon.sh start historyserver'

常见启动失败情况：

（1）hadoop处于安全模式，namenode启动失败，参考链接

　　解决：磁盘空间不足，需要手动释放资源后再用命令 hdfs dfsadmin -safemode leave 离开安全模式

全部完成后查看：

在浏览器输入192.168.1.213:50070,如果不在安全模式证明namenode启动正常

输入192.168.1.214:8088

七、关闭全部服务

$ sbin/stop-all.sh

八、将系统变量追加到用户变量中（3台机器都要操作）

$ cd ~

$ cat /etc/profile >> .bashrc

　生效 $ source ~/.bashrc

九、编写脚本批量操作三台机器

$ cd ~

$ mkdir tools

$ vim /tools/jpsutil.sh

添加批量查看jps服务的脚本

#!/bin/bash

for i in admin@linux01 admin@linux02 admin@linux03

do

    echo "==================$i==================="

    ssh $i 'jps'

done

保存后查看

sh jpsutil.sh

十、遇到问题

　　关闭虚拟机后重启，重启集群时，namenode启动失败，需要使用命令：bin/hdfs namenode -format

格式化，才能启动。

　　格式化后datanode又有异常，需要把/hadoop-2.7.2/hadoop-data/dfs/name/current/VERSION里面的clusterID复制下来，依次替换/hadoop-2.7.2/hadoop-data/dfs/data/current/VERSION里的clusterID，再执行：sbin/hadoop-daemon.sh start datanode（全部机器都要操作）。

　　格式化会导致集群原本存储的数据全部丢失，如何正常关机后，正常开启集群，这个有待研究。

大数据(2) - Hadoop完全分布式的部署的更多相关文章

大数据之Hadoop完全分布式集群搭建
1.准备阶段 1.1.新建三台虚拟机 Hadoop完全分市式集群是典型的主从架构(master-slave),一般需要使用多台服务器来组建.我们准备3台服务器(关闭防火墙.静态IP.主机名称).如果没 ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
大数据和Hadoop生态圈
大数据和Hadoop生态圈一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop ...
大数据和Hadoop时代的维度建模和Kimball数据集市
小结: 1. Hadoop 文件系统中的存储是不可变的,换句话说,只能插入和追加记录,不能修改数据.如果你熟悉的是关系型数据仓库,这看起来可能有点奇怪.但是从内部机制看,数据库是以类似的机制工作,在一 ...
大数据与Hadoop
figure:first-child { margin-top: -20px; } #write ol, #write ul { position: relative; } img { max-wid ...
Hadoop专业解决方案-第1章大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop生态圈小组已经翻译完成,在此 ...
大数据和Hadoop平台介绍
大数据和Hadoop平台介绍定义大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获.管理和处理的数据集.这些困难包括数据的收入.存储.搜索.共享.分析和 ...
大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...
老李分享：大数据框架Hadoop和Spark的异同 1
老李分享:大数据框架Hadoop和Spark的异同 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...

随机推荐

【笔记】git 的常用操作命令（持续更新。。。）
项目正在如火如荼的开展,代码量的繁多不得不令我们运用 git 这个有用的工具去管理我们共同协作的代码 git 在这里不作什么介绍了,百度一大堆的教程首推廖雪峰老师的:http://www.liaox ...
转：android studio 改编译区背景色
http://blog.csdn.net/zhuhai__yizhi/article/details/44017609 最近开始学习使用android studio想设置背景颜色,不过上网找的全都是复 ...
15个CSS3和jQuery的超棒页面过渡效果教程
来源:GBin1.com CSS3和jQuery从根本上改变了网页设计和程序开发.通过CSS3和jQuery,设计员和开发者不需要太多的精力或编码,就可以创造出非常美丽令人叹惊的效果,同时还可以令你 ...
Autolayout约束动画化-Animating Autolayout Constraints
原文:Animating Autolayout Constraints 作者:@kharrison 译者:CocoaChina--起个名字好难(CC论坛ID) 首发:CocoaChina 记于二零一五 ...
<c:forEach items="${revertList}" varStatus="reverts" var="revert" > <dl >
<c:forEach>标签用于通用数据循环,它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的 ...
shader学习之路（1）- half lambert
在学习这个shader之前先提个经常使用概念.即光照模型.LightModel(光照模型)即是对于物体怎么对打在其上的光做出视觉反应的数学模型.意即表达物体对光反应产生的视觉效果与入射光.物体表面属性 ...
ZK框架笔记5、事件
事件是org.zkoss.zk.ui.event.Event类,它通知应用程序发生了什么事情.每一种类型的事件都由一个特定的类来表示. 要响应一个事件,应用程序必须为事 ...
C++ 代码风格准则：POD
作者:一根筋的傻瓜链接:https://www.zhihu.com/question/36379130/answer/69853366来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载 ...
windows磁盘API实践
API的列表如下,网上找的,我觉得还是蛮详细的: 磁盘和驱动器管理APIGetLogicalDrivers 获取主机中所有的逻辑驱动器,以BitMap的形式返回.GetLogicalDri ...
STL源码剖析(算法)
STL中算法是基于迭代器来实现的. 有了容器中迭代器的实现(对operator*.operator++等的重载),STL中大部分算法实现就显得很简单了. 先看一例关于find算法的实现: templa ...

大数据(2) - Hadoop完全分布式的部署

大数据(2) - Hadoop完全分布式的部署的更多相关文章

随机推荐

热门专题