Hadoop环境搭建(centos)

本平台密码83953588abc

配置Java环境

  • 下载JDK(本实验从/cgsrc 文件中复制到指定目录)
    mkdir /usr/local/java
cp /cgsrc/jdk-8u171-linux-x64.tar.gz /usr/local/java/

JDK至少1.8以上!!!

  • 解压JDK安装包
    cd /usr/local/java
tar -zxvf jdk-8u171-linux-x64.tar.gz
rm -f jdk-8u171-linux-x64.tar.gz
  • 添加环境变量

配置JAVA_HOME环境变量。修改文件vim ~/.bashrc

    export JAVA_HOME=/usr/local/java/jdk1.8.0_171
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar
export PATH=$PATH:${JAVA_HOME}/bin

如果PATH环境变量修改错误,则可能出现Linux常用命令无法找到的现象!!!

使修改环境生效,source ~/.bashrc.

检查是否设置正确.

    echo $JAVA_HOME   #检查变量值
java -version #查看java版本

配置分布式模式

选定一台机器作为名称节点(Master),另外两条作为数据节点(Slave)。

配置hosts文件

在Master上修改/etc/hosts文件:

使用命令vim /etc/hosts

    ip1  master
ip2 slave1
ip3 slave2

测试节点之间是否已经联通:

    ping master -c 3
ping slave1 -c 3
ping slave2 -c 3

配置SSH无密码登录

  • 必须要让master节点可以SSH无密码登录到各个节点上。首先,生成master节点的公匙,如果之前已经生成过公匙,必须删除原来的公匙,重新生成一次,命令如下:
    cd ~/.ssh  #如果没有该目录,先执行一次ssh localhost
rm -f ./id_rsa* #删除之前生成的公匙
ssh-keygen -t rsa #执行该命令后,遇到提示信息,均按Enter即可。
  • 为了让master节点能无密码SSH登录到本机,需要在mater节点上执行如下 cat ./id_rsa.pub >> ./authorized_keys.

    检测是否成功,ssh master ,遇到提示信息,yes即可, exit退出。

  • 把master上的公匙传输到slave节点:

    scp ~/.ssh/id_rsa.pub root@slave1:/root
scp ~/.ssh/id_rsa.pub root@slave1:/root

其中本次实验平台,要把slave1、slave2换成相应的IP。

  • 传输完成后在slave1和slave2节点上将SSH公匙加入授权:
    mkdir ~/.ssh
cat ~/id_rsa.pub >> ~/.ssh/authoried_keys
rm -f ~/id_rsa.pub

配置环境变量

  • 将Hadoop安装包复制到/usr/local目录上:

    cp /cgsrc/hadoop-2.7.1.tar.gz /usr/local/

  • 解压

    cd /usr/local
tar -zxvf hadoop-2.7.1.tar.gz
rm -f hadoop-2.7.1.tar.gz
mv hadoop-2.7.1/ hadoop #将hadoop-2.7.1重命名为hadoop
  • 配置环境变量

    • 打开~/.bashrc文件

      vim ~/.bashrc
    • 输入以下内容

      export PATH=$PATH:/usr/1ocal/hadoop/bin:/usr/1ocal/hadoop/sbin
    • 文件生效

      source ~/.bashrc
    • 查看hadoop版本

      hadoop version

配置集群环境

配置集群环境时,需要修改/usr/local/hadoop/etc/hadoop目录下的配置文件,这里仅设置正常启动必须的设置项,包括slaves、core-site.xml、hdfs

-site.xml、mapred-site.xml、yarn-site.xml共五个文件。

  • 修改文件slaves

    需要把所有数据节点的主机名写入该文件,每行一个,默认为localhost

    (即把本机作为数据节点)。在进行集群配置时,可以保留localhost,让master节点同时充当名称节点和数据节点,也可以删除localhost这行,让master节点仅作为名称节点使用。

    本节让master节点仅作为名称节点使用,因此将slaves文件中原来的内容删除,添加如下内容:

    slave1

    slave2
  • 修改文件core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/1ocal/hadoop/tmp</value>
</property>
</configuration>
  • 修改文件hdfs-site.xml

    对于Hadoop的分布式文件系统HDFS而言,一般是采用元余存储,冗余因子一般是3,也就是说一份数据保存3份副本。而我们只有两个数据节点,即数据只能保存两份,所以,dfs.replication设置为2,文件具体内容如下:
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/1ocal/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/1ocal/hadoop/tmp/dfs/date</value>
</property>
</configuration>
  • 修改文件mapred-site.xml

    /usr/local/hadoop/etc/hadoop 目录下有一个mapred-site.xml.template,需要复制该文件为mapred-site.xml:

    cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
  • 修改文件yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

配置slave节点

将master节点上的/usr/local/hadoop复制到slave节点上。

    cd /usr/local
rm -rf ./hadoop/tmp #删除临时文件
rm -rf ./hadoop/1ogs/* #删除日志文件
tar -zcf ~/hadoop.master.tar.gz. /hadoop #先压缩再复制
cd ~
scp ./hadoop.master.tar.gz root@slave1: /root
scp ./hadoop.master.tar.gz root@slave2: /root

在slave1和slave2上执行如下命令:

    rm -rf usr/local/hadoop #如果有旧文件则先删除
tar -zxf ~/hadoop.master.tar.gz -C /usr/1ocal
rm -f ~/hadoop.master.tar.gz

启动Hadoop集群

  • 首次启动Hadoop集群时,需要先在master节点执行名称节点的格式化:

    hdfs namenode-format
  • 现在可以启动Hadoop了,启动需要在master节点上进行,执行如下命令:
    start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

Hadoop环境搭建(centos)的更多相关文章

  1. hadoop环境搭建之关于NAT模式静态IP的设置 ---VMware12+CentOs7

    很久没有更新了,主要是没有时间,今天挤出时间验证了一下,果然还是有些问题的,不过已经解决了,就发上来吧. PS:小豆腐看仔细了哦~ 关于hadoop环境搭建,从单机模式,到伪分布式,再到完全分布式,我 ...

  2. 环境搭建-CentOS集群搭建

    环境搭建-CentOS集群搭建 写在前面 最近有许多小伙伴问我,大数据的hadoop分布式集群该如何去搭建.所以,想着,就写一篇博客,帮助到更多刚入门大数据的人.本博客会一步一步带你实现一个Hadoo ...

  3. 转 史上最详细的Hadoop环境搭建

    GitChat 作者:鸣宇淳 原文:史上最详细的Hadoop环境搭建 关注公众号:GitChat 技术杂谈,一本正经的讲技术 [不要错过文末活动哦] 前言 Hadoop在大数据技术体系中的地位至关重要 ...

  4. 【转】RHadoop实践系列之一:Hadoop环境搭建

    RHadoop实践系列之一:Hadoop环境搭建 RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析.Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来 ...

  5. eclipse工具下hadoop环境搭建

    eclipse工具下hadoop环境搭建:    window10操作系统中搭建eclipse64开发系统,配置hadoop的eclipse插件,让eclipse可以查看Hdfs中的文件内容.     ...

  6. 大数据学习之Hadoop环境搭建

    一.Hadoop的优势 1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理. 2)高扩展性:在集群间分配任务数据,可方便的 ...

  7. Hadoop环境搭建、启动和管理界面查看

    一.hadoop环境搭建: 1. hadoop 6个核心配置文件的作用:core-site.xml:核心配置文件,主要定义了我们文件访问的格式 hdfs://hadoop-env.sh:主要配置我们的 ...

  8. Ubuntu中Hadoop环境搭建

    Ubuntu中Hadoop环境搭建 JDK安装 方法一:通过命令行直接安装(不建议) 有两种java可以安装oracle-java8-installer以及openjdk (1)安装oracle-ja ...

  9. Linux集群搭建与Hadoop环境搭建

    今天是8月19日,距离开学还有15天,假期作业完成还是遥遥无期,看来开学之前的恶补是躲不过了 今天总结一下在Linux环境下安装Hadoop的过程,首先是对Linux环境的配置,设置主机名称,网络设置 ...

随机推荐

  1. [贪心,dp] Educational Codeforces Round 71 (Rated for Div. 2) C. Gas Pipeline (1207C)

    题目:http://codeforces.com/contest/1207/problem/C   C. Gas Pipeline time limit per test 2 seconds memo ...

  2. 洛谷P1003 铺地毯 模拟

    这一题就是一个很普通的模拟,每次输入的时候存储四个角的值 把四个角的横纵坐标存储在一排.然后在倒序遍历一遍,查找的时候就看所要查找的坐标在不在这个范围内,如果找到了就标记一下再输出,如果没有找到就输出 ...

  3. c++源文件从文本阶段到可执行文件的过程

    过程分为四个阶段: 预处理阶段····>编译阶段····>汇编阶段····>链接阶段 1)预处理阶段:对源代码文件中的文件包含关系.预编译语句(宏定义)进行分析和替换,生成预编译文件 ...

  4. Xamarin.Forms读取并展示Android和iOS通讯录 - TerminalMACS客户端

    Xamarin.Forms读取并展示Android和iOS通讯录 - TerminalMACS客户端 本文同步更新地址: https://dotnet9.com/11520.html https:// ...

  5. 基本的访问控制列表ACL配置

    摘要: 访问控制列表ACL (Access Control L ist)是由permit或 deny语句组成的一系列有顺序的规则集合,这些规则根据数据包的源地址.目的地址.源端口.目的端口等信息  来 ...

  6. Python第五章-内置数据结构03-元组

    Python 内置的数据结构 三.元组(tuple) python 作为一个发展中的语言,也提供了其他的一些数据类型. tuple也是 python 中一个标准的序列类型. 他的一些操作和str和li ...

  7. Python-标准模块与第三方模块

    标准模块 python官方自己的模块 os os与os.path os.chdir('desktop')        跳转至指定目录 os.listdir()                    ...

  8. Ali_Cloud++:阿里云Centos配置iptables防火墙教程

    虽说阿里云推出了云盾服务,但是自己再加一层防火墙总归是更安全些,下面是我在阿里云vps上配置防火墙的过程,目前只配置INPUT.OUTPUT和FORWORD都是ACCEPT的规则 1):检查iptab ...

  9. RFID 有源,半源和无源的区别

    RFID电子标签是由标签.解读器和数据传输和处理系统组成.内存带有天线的芯片,芯片中存储有能够识别目标的信息,主要作用都是为了识别货物.(更具体的自行搜索,本文单独讲三种的区别) RFID分为三种 有 ...

  10. IDEA+EasyCode实现代码生成

    IDEA+EasyCode实现代码生成 Easy Code介绍 EasyCode是基于IntelliJ IDEA开发的代码生成插件,支持自定义任意模板(Java,html,js,xml).只要是与数据 ...