hadoop搭建部署

HDFS(Hadoop Distributed File System)和Mapreduce是hadoop的两大核心：

HDFS(文件系统)实现分布式存储的底层支持

Mapreduce(编程模型)实现分布式并行任务处理的程序支持

JobTracker 对应于 NameNode

TaskTracker 对应于 DataNode

DataNode和NameNode 是针对数据存放来而言的

JobTracker和TaskTracker是对于MapReduce执行而言的

从官网下载安装包：

wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz

JDK安装和ssh免密码等此处不再讲述

hadoop环境变量配置：

vim /etc/profile.d/hadoop.sh

HADOOP_HOME=/usr/local/hadoop

HADOOP_HEAPSIZE=

HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

PATH=$HADOOP_HOME/bin:$PATH

HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib/native

然后主要配置下面5个配置文件：

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

slave

以上各配置文件的各项参数默认值：

http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-common/core-default.xml

http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

http://hadoop.apache.org/docs/r2.7.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

http://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

vim core-site.xml 在<configuration>处添加以下部分

<configuration>

     <property>

         <name>fs.defaultFS</name>

         <value>hdfs://dataMaster30:9000</value>

     </property>

     <property>

         <name>hadoop.tmp.dir</name>

         <value>file:/usr/local/hadoop/tmp</value>

        <description>Abase for other temporary directories.</description>

     </property>
     <property>
         <name>io.file.buffer.size</name>
         <value></value>
     </property>

</configuration>

vim hdfs-site.xml

<configuration>

       <property>

                <name>dfs.namenode.secondary.http-address</name>

                <value>dataMaster30:9001</value>

        </property>

        <property>

               <name>dfs.replication</name>

               <value></value>

        </property>

        <property>

               <name>dfs.blocksize</name>

               <value>512m</value>

        </property>

        <property>

              <name>dfs.namenode.name.dir</name>

              <value>file:/data/hadoop/name</value>

        </property>

        <property>

             <name>dfs.datanode.data.dir</name>

             <value>file:/data/hadoop/hdfs</value>

       </property>

       <property>

             <name>dfs.webhdfs.enabled</name>

             <value>true</value>

       </property>  
       <property>
             <name>dfs.permissions</name>
             <value>false</value>
       </property>
</configuration>

vim mapred-site.xml

<configuration>

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.address</name>

                <value>dataMaster30:10020</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>dataMaster30:19888</value>

        </property>

        <property>

                <name>mapreduce.map.memory.mb</name>

                <value></value>

                <description>每个Map任务的物理内存限制</description>

        </property>

        <property>

                <name>mapreduce.reduce.memory.mb</name>

                <value></value>

                <description>每个Reduce任务的物理内存限制</description>

        </property>

</configuration>

vim yarn-site.xml

<configuration>

        <property>

                 <name>yarn.resourcemanager.hostname</name>

                 <value>dataMaster30</value>

        </property>

        <property>

                 <name>yarn.nodemanager.aux-services</name>

                 <value>mapreduce_shuffle</value>

        </property>

        <property>

                <name>yarn.nodemanager.resource.memory-mb</name>

                <value></value>

                <discription>每个节点可用内存,单位MB</discription>

        </property>

        <property>

                <name>yarn.scheduler.minimum-allocation-mb</name>

                <value></value>

                <discription>单个任务可申请最少内存，默认1024MB</discription>

        </property>

        <property>

                <name>yarn.scheduler.maximum-allocation-mb</name>

                <value></value>

                <discription>单个任务可申请最大内存，默认8192MB</discription>

        </property>

         <property>

                <name>yarn.nodemanager.resource.cpu-vcores</name>

                <value></value>

                <discription>cpu</discription>

        </property>

</configuration>

vim slave

#localhost
dataSlave31

dataSlave32

dataSlave33

dataSlave34

dataSlave35

完成后，将配置好的Hadoop目录分发到各个slave节点对应位置上。

在Master节点服务器启动hadoop集群，从节点会自动启动，进入hadoop目录
(1)初始化，格式化Hadoop。输入命令，bin/hdfs namenode -format
(2)全部启动sbin/start-all.sh，也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh
(3)停止的话，输入命令，sbin/stop-all.sh
(4)输入命令，jps，可以看到相关进程信息，从而进行验证是否启动成功。

如果输入jps出现process information unavailable提示时，这时可以进于是/tmp目录下，删除名称为hsperfdata_{username}的文件夹，然后重新启动Hadoop即可。

# jps (主节点)

1701 SecondaryNameNode
1459 NameNode
2242 Jps
1907 ResourceManager

# jps (从节点)

4520 Jps
9677 NodeManager
9526 DataNode

这时可以浏览器打开 IP:8088 和 IP:50070 就可以查看集群状态和NameNode信息了

Hadoop Shell命令：

http://blog.csdn.net/wuwenxiang91322/article/details/22166423

http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

hadoop搭建部署的更多相关文章

hadoop搭建伪分布式集群（centos7+hadoop-3.1.0/2.7.7）
目录: Hadoop三种安装模式搭建伪分布式集群准备条件第一部分安装前部署 1.查看虚拟机版本2.查看IP地址3.修改主机名为hadoop4.修改 /etc/hosts5.关闭防火墙6.关闭SE ...
Ubuntu14.04下Ambari安装搭建部署大数据集群（图文分五大步详解）（博主强烈推荐）
不多说,直接上干货! 写在前面的话 (1) 最近一段时间,因担任我团队实验室的大数据环境集群真实物理机器工作,至此,本人秉持负责.认真和细心的态度,先分别在虚拟机上模拟搭建ambari(基于CentO ...
Spark集群基于Zookeeper的HA搭建部署笔记（转）
原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...
记一次Hadoop安装部署过程
实验名称:Hadoop安装部署一.实验环境: 虚拟机数量:3个 (1个master,2个slave:slave01,slave02) 主节点master信息: 操作系统:CentOS7.5 软件包位 ...
设置ssh免密码登录脚本（hadoop自动化部署脚本一）
设置ssh免密码登录脚本(hadoop自动化部署脚本一) 设置ssh免密码登录脚本(飞谷云大数据自动化部署脚本一) 1.#!/bin/sh2.#important note:this script i ...
hadoop搭建开发环境及编写Hello World
hadoop搭建开发环境及编写Hello World 本文地址:http://www.cnblogs.com/archimedes/p/hadoop-helloworld.html,转载请注明源地 ...
云服务器+tomcat+mysql+web项目搭建部署
云服务器+tomcat+mysql+web项目搭建部署 1.老样子,开头墨迹两句. 作为我的第二篇文章,有很多感慨,第一篇人气好低啊,有点小丧气,不过相信我还是经验少,分享的都是浅显的,所以大家可能不 ...
Ubuntu14.04下Cloudera安装搭建部署大数据集群（图文分五大步详解）（博主强烈推荐）（在线或离线）
第一步: Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04)(一) 第二步: Cloudera Manager安装之时间服务器和时间客户端(Ub ...
通过Hadoop安全部署经验总结，开发出以下十大建议，以确保大型和复杂多样环境下的数据信息安全。
通过Hadoop安全部署经验总结,开发出以下十大建议,以确保大型和复杂多样环境下的数据信息安全. 1.先下手为强!在规划部署阶段就确定数据的隐私保护策略,最好是在将数据放入到Hadoop之前就确定好保 ...

随机推荐

Jmeter（十一）参数化
有关参数化的概念,前面有篇随笔已经粗略的提到了参数化的一点内容.本篇来主要记录参数化. Jmeter的参数化方式有很多,在此我来一一记录,对待不同个规模.业务模型.数据量来进行记录参数化的方法. 一. ...
[UE4]对象
类型和类 1.类型,Type,代表了数据含义,程序员可以对数据进行哪些操作.如果是整数,就可以进行加减乘除:如果是字符串,可以进行打印.连接.但不能对字符串进行加减乘除. 2.类,class,自定义类 ...
c# 异步进度条组件BackgroundWorker
//控件事件调用DoWork()方法就行. #region 进度条 private BackgroundWorker worker = null; private void DoWork(string ...
我的常用笔记（GetAndroid,ADBDemo,GetSJ,GetTB）
一.授权相关格式(GetAndroid,ADBDemo,GetTB,GetSJ) [Mac]ID=0, Mac=9918D2A363, EndTime=2018-12-30 15:45: ...
SSH2 No Session found for current thread原因
Hibernate4 与 spring3 集成之后, 如果在取得session 的地方使用了getCurrentSession, 可能会报一个错:“No Session found for curre ...
WPF 操作XML 读写
来自:http://blog.sina.com.cn/s/blog_633d0e170100xyc6.html XML(可扩展标记语言) 定义:用于标记电子文件使其具有结构性的标记语言,可以用来标记数 ...
关于SqlServer2008小记（查询数据库连接数，强行干掉连接）
查询连接数 select count(*) from master.dbo.sysprocesses 这条语句查出来的是所有连接到本机(或者连接到本服务器)的连接数,并非是某一个库的连接数. 查询连接 ...
tornado 和 djanjo 转义处理对比
tornado tornado默认是转义所有字符,比较安全,但有时候我们的确需要把字符当做html来解析处理,因此我们需要做些处理. 所有的模板输出都已经通过 tornado.escape.xhtml ...
hadoop启动问题分析
hadoop的安装和启动很简单直接解压进行安装配置文件就好了,但是启动问题就很多,总结下无非以下两点: 第一点:无论你是群起还是单起;都首要格式化 bin/hdfs namenode -form ...
CMake实践--操作
---<Cmake 实践>--- ---Ubuntu 14.04 1.创建一个cmake文件目录 mkdir -p ~/cmake 2.在cmake文件下创建t1子目录 cd ~/cmak ...

hadoop搭建部署

hadoop搭建部署的更多相关文章

随机推荐

热门专题