Hadoop2.7搭建

Hadoop最底部是 Hadoop Distributed File System（HDFS），它存储Hadoop集群中所有存储节点上的文件。HDFS（对于本文）的上一层是MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库。

HDFS：对外部客户机而言，HDFS就像一个传统的分级文件系统。
NameNode：负责管理文件系统名称空间和控制外部客户机的访问。
DataNode：响应来自 HDFS客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。

最近搞Dubbo、Zookeeper，故顺路复习一下Hadoop。

安装环境

3台CentOS7，64位，Hadoop2.7需要64位Linux，需要安装好JDK，老夫安装JDK1.7

Master 192.168.1.244
Slave1 192.168.1.245
Slave2 192.168.1.246

配置SSH无密码登陆

SSH免密码登录，因为Hadoop需要通过SSH登录到各个节点进行操作，老夫用root用户，每台服务器都生成公钥，再合并到authorized_keys

CentOS默认没有启动ssh无密登录，去掉/etc/ssh/sshd_config其中2行的注释，每台服务器都要设置，
```
#RSAAuthentication yes

#PubkeyAuthentication yes
```
输入命令，ssh-keygen -t rsa，生成key，都不输入密码，一直回车，/root就会生成.ssh文件夹，每台服务器都要设置，

合并公钥到authorized_keys文件，在Master服务器，进入/root/.ssh目录，通过SSH命令合并，

cat id_rsa.pub>> authorized_keys

ssh root@192.168.1.245 cat ~/.ssh/id_rsa.pub>> authorized_keys

ssh root@192.168.1.246 cat ~/.ssh/id_rsa.pub>> authorized_keys

把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录
完成，ssh root@192.168.1.245、ssh root@192.168.1.246就不需要输入密码了

安装Hadoop2.7

下载“hadoop-2.7.0.tar.gz”，放到/home/hadoop目录下
解压，输入命令，tar -xzvf hadoop-2.7.0.tar.gz
在/home/hadoop目录下创建数据存放的文件夹，tmp、hdfs、hdfs/data、hdfs/name
注：安装Hadoop2.7，只在Master服务器解压，再复制到Slave服务器

Hadoop配置

涉及的配置文件如下：

hadoop-2.6.0/etc/hadoop/hadoop-env.sh

hadoop-2.6.0/etc/hadoop/yarn-env.sh

hadoop-2.6.0/etc/hadoop/core-site.xml

hadoop-2.6.0/etc/hadoop/hdfs-site.xml

hadoop-2.6.0/etc/hadoop/mapred-site.xml

hadoop-2.6.0/etc/hadoop/yarn-site.xml

1）配置hadoop-env.sh

# The java implementation to use.

#export JAVA_HOME=${JAVA_HOME}

export JAVA_HOME=/usr/java/jdk1.7.0_79

2）配置yarn-env.sh

#export JAVA_HOME=/home/y/libexec/jdk1.6.0/

export JAVA_HOME=/usr/java/jdk1.7.0_79/

3）配置core-site.xml

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://192.168.1.244:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>file:/home/hadoop/tmp</value>

    </property>

    <property>

        <name>io.file.buffer.size</name>

        <value>131702</value>

    </property>

</configuration>

4）配置hdfs-site.xml

<configuration>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/home/hadoop/dfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/home/hadoop/dfs/data</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>2</value>

    </property>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>192.168.1.244:9001</value>

    大专栏  Hadoop2.7搭建s="nt"></property>

    <property>

    <name>dfs.webhdfs.enabled</name>

    <value>true</value>

    </property>

</configuration>

5）配置mapred-site.xml

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>192.168.1.244:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>192.168.1.244:19888</value>

    </property>

</configuration>

6）配置yarn-site.xml

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>192.168.1.244:8032</value>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.address</name>

        <value>192.168.1.244:8030</value>

    </property>

    <property>

        <name>yarn.resourcemanager.resource-tracker.address</name>

        <value>192.168.1.244:8031</value>

    </property>

    <property>

        <name>yarn.resourcemanager.admin.address</name>

        <value>192.168.1.244:8033</value>

    </property>

    <property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>192.168.1.244:8088</value>

    </property>

    <property>

        <name>yarn.nodemanager.resource.memory-mb</name>

        <value>768</value>

    </property>

</configuration>

7）配置slaves

删除默认的localhost，增加2个从节点，

192.168.0.183

192.168.0.184

8）将配置好的Hadoop复制到各个节点对应位置上

scp -r /home/hadoop 192.168.1.245:/home/

scp -r /home/hadoop 192.168.1.246:/home/

Hadoop启动

在Master服务器启动hadoop，从节点会自动启动，进入/home/hadoop/hadoop-2.7.0目录

初始化，输入命令，bin/hdfs namenode -format
全部启动sbin/start-all.sh，也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh
停止的话，输入命令，sbin/stop-all.sh
输入命令，jps，可以看到相关信息

Web访问

要先开放端口或者直接关闭防火墙

输入命令，systemctl stop firewalld.service
浏览器打开http://192.168.1.244:8088/
浏览器打开http://192.168.1.244:50070/

注：因老夫8088端口被占用，故使用8099端口。 ⤧ Next post 归纳数据库规范 ⤧ Previous post F5负载均衡

Hadoop2.7搭建的更多相关文章

Ubuntu下用hadoop2.4搭建集群（伪分布式）
要真正的学习hadoop,就必需要使用集群,可是对于普通开发人员来说,没有大规模的集群用来測试,所以仅仅能使用伪分布式了.以下介绍怎样搭建一个伪分布式集群. 为了节省时间和篇幅,前面一些步骤不再叙述. ...
hadoop2.5搭建过程
1 搭建环境所使用的资源 VMware Workstation 9 ubuntu-14.04.2-desktop-amd64.iso jdk-7u80-linux-x64.tar.gz hadoop- ...
VM+CentOS+hadoop2.7搭建hadoop完全分布式集群
写在前边的话: 最近找了一个云计算开发的工作,本以为来了会直接做一些敲代码,处理数据的活,没想到师父给了我一个课题“基于质量数据的大数据分析”,那么问题来了首先要做的就是搭建这样一个平台,毫无疑问,底 ...
HBase1.2.4基于hadoop2.4搭建
1.安装JDK1.7, Hadoop2.4 2.下载 hbase 安装包下载地址:http://apache.fayea.com/hbase/1.2.4/hbase-1.2.4-bin.tar.gz ...
Ubuntu下hadoop2.4搭建集群(单机模式)
一 .新建用户和用户组注明:(这个步骤事实上能够不用的.只是单独使用一个不同的用户好一些) 1.新建用户组 sudo addgroup hadoop 2.新建用户 sudo adduser -in ...
spark2.0.2基于hadoop2.4搭建分布式集群
一.Scala安装因为spark的版本原因,所以Scala我用的2.11.7. 下载目录http://www.scala-lang.org/download/ 拷贝到要安装的地址,我的地址是/usr ...
基于hadoop2.6.0搭建5个节点的分布式集群
1.前言我们使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA.ResourceManager+HA,并使用zookeeper来管理Hadoop集群 2.规划 1.主 ...
Hadoop2.2.0--Hadoop Federation、Automatic HA、Yarn完全分布式集群结构
Hadoop有很多的上场时间,与系统上线.手头的事情略少.So,抓紧时间去通过一遍Hadoop2在下面Hadoop联盟(Federation).Hadoop2可用性(HA)及Yarn的全然分布式配置. ...
0基础搭建Hadoop大数据处理-集群安装
经过一系列的前期环境准备,现在可以开始Hadoop的安装了,在这里去apache官网下载2.7.3的版本 http://www.apache.org/dyn/closer.cgi/hadoop/com ...

随机推荐

apache 伪静态配置 .htaccess
htaccess语法教程apache服务器伪静态规则教程虽然网上有很多教程,不过发现大部分都是抄袭一个人的,一点都不全,所以我想写一个简单的易于理解的教程,我学习.htaccess是从目录保护开始的 ...
Juptyer中的图表显示参数
from pylab import * import seaborn as sns # 图表显示参数 from IPython.display import display %matplotlib i ...
分布式ID的简单总结
来源:郴州网站优化简单总结一下流行的分布式id的实现方法雪花算法 snowflake是twitter开源的分布式ID生成算法. 核心思想是:分布式ID固定是一个long型的数字,一个long型占8 ...
TPO4-2 Cave Art in Europe
Perhaps, like many contemporary peoples, Upper Paleolithic men and women believed that the drawing o ...
Hbase的极限测试经验之java项目的jar包导入
Hbase的极限测试的内容是把之前编过的网站的后台数据库改成hbase即可. 我很快就在hbase数据库中建完表,也把关于操作数据库的函数写好了. 当我调试时,发现在jsp中的操作数据库的函数都不能用 ...
Android之布局LinearLayout
1.weight属性用法主要用于view对象屏幕适配比例如下图,左边是等比例,右边是1:2比例实现代码: <LinearLayout xmlns:android="http:// ...
吴裕雄--天生自然python学习笔记：python 用pygame模块基本绘图
绘制几何图形是游戏包的基本功能,很多游戏角色都是由基本图形组合而成的 . 绘制矩形: pygame.draw.rect Pygam巳绘制矩形的语法为: 用基本绘图绘制一个人脸用基本绘图功能绘制人脸 ...
mysql时区问题解决方案
#url添加参数serverTimezone=UTC 1.jdbc:mysql://127.0.0.1:3306/mymusic?useUnicode=true&characterEncodi ...
微信中的APP、公众号、小程序的openid及unionid介绍
微信中的APP.公众号.小程序的openid及unionid介绍 1.unionid 如果开发者拥有多个移动应用.网站应用.和公众帐号(包括小程序),可通过 UnionID 来区分用户的唯一性,因为只 ...
Java源码之ArrayList
本文源码均来自Java 8 总体介绍 Collection接口是集合类的根接口,Java中没有提供这个接口的直接的实现类.Set和List两个类继承于它.Set中不能包含重复的元素,也没有顺序来存放. ...