前提环境是之前搭建的4台Linux虚拟机,详情参见 Linux集群搭建

该环境对应4台服务器,192.168.1.60、61、62、63,其中60为主机,其余为从机

软件版本选择:

Java:JDK1.8.0_191(jdk-8u191-linux-x64.tar.gz)

Hadoop:Hadoop-2.9.2(hadoop-2.9.2.tar.gz)

上传hadoop与java到服务器并查看

cd /home/ftpuser/
ls

安装Java

解压Java

mkdir /usr/java
tar -zxvf jdk-8u191-linux-x64.tar.gz -C /usr/java/

配置Java环境变量

vi /etc/profile

添加Java配置

启用配置

source /etc/profile

查看是否配置成功

java -version

配置Hadoop主体环境

修改hostname,方便认识,这里设置为对应IP的4台服务器HServer60,HServer61,HServer62,HServer63,配置后重启(reboot)生效

vi /etc/hostname

配置hosts文件,对应IP于主机名

vi /etc/hosts

解压hadoop

mkdir /cloud
cd /home/ftpuser/
tar -zxvf hadoop-2.9.2.tar.gz -C /cloud/

一共有5个文件需要配置

hadoop-env.sh

core-site.xml

hdfs-site.xml

yarn-site.xml

yarn-env.sh

mapred-site.xml

slaves

cd /cloud/hadoop-2.9.2/etc/hadoop/

配置hadoop-env.sh

vi hadoop-env.sh

配置yarn-env.sh

vi yarn-env.sh

配置core-site.xml

vi core-site.xml

配置mapred-site.xml,先从模板复制一份配置出来,并修改

cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

配置slaves,写入从机名称

vi slaves

剩下的2个文件hdfs-site.xml与yarn-site.xml需要区分主机NameNode与从机DataNode的配置

主机NameNode的hdfs-site.xml配置

vi hdfs-site.xml

其中blocksize可以根据情况自行调整,是数据块的大小,handler.cout一般几台小集群10都足够了

主机NameNode的yarn-site.xml配置

vi yarn-site.xml

从机DataNode的hdfs-site.xml配置

vi hdfs-site.xml

其中replication为备份数

从机DataNode的yarn-site.xml配置

vi yarn-site.xml

设置NameNode免密登录,在主机上操作

ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.1.61
ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.1.62
ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.1.63

可以将配置好的东西通过scp命令复制到远程服务器上

scp -rp /cloud/hadoop-2.9.2 root@192.168.1.62:/cloud/

整个Hadoop集群配置完毕,可以启动试试看,这里换到我已经搭建好的4台服务器,50、51、52、53

启动命令在hadoop目录的sbin文件夹中,也可以在/etc/profile文件中配置环境变量,类似java配置,将该目录加入path路径

启动hadoop集群,通过jps查看是否启动了

start-all.sh

主机jps上会有NameNode,ResourceManager,SecondaryNameNode

从机jps上会有NodeManager,DataNode

这样就成功的启动了,访问主机IP:50070的URL访问

大数据中Hadoop集群搭建与配置的更多相关文章

  1. 大数据中HBase集群搭建与配置

    hbase是分布式列式存储数据库,前提条件是需要搭建hadoop集群,需要Zookeeper集群提供znode锁机制,hadoop集群已经搭建,参考 Hadoop集群搭建 ,该文主要介绍Zookeep ...

  2. 大数据中Linux集群搭建与配置

    因测试需要,一共安装4台linux系统,在windows上用vm搭建. 对应4个IP为192.168.1.60.61.62.63,这里记录其中一台的搭建过程,其余的可以直接复制虚拟机,并修改相关配置即 ...

  3. 大数据学习——HADOOP集群搭建

    4.1 HADOOP集群搭建 4.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主 ...

  4. 大数据平台Hadoop集群搭建

    一.概念 Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce.HDFS是一个分布式文件系统,类似mogilef ...

  5. 大数据学习——hadoop集群搭建2.X

    1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### ...

  6. 大数据测试之hadoop集群配置和测试

    大数据测试之hadoop集群配置和测试   一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...

  7. Java+大数据开发——Hadoop集群环境搭建(一)

    1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataN ...

  8. Java+大数据开发——Hadoop集群环境搭建(二)

    1. MAPREDUCE使用 mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序 2. Demo开发--wo ...

  9. 大数据-HBase HA集群搭建

    1.下载对应版本的Hbase,在我们搭建的集群环境中选用的是hbase-1.4.6 将下载完成的hbase压缩包放到对应的目录下,此处我们的目录为/opt/workspace/ 2.对已经有的压缩包进 ...

随机推荐

  1. September 19th 2017 Week 38th Tuesday

    Live boldly. Push yourself. Don't settle. 勇敢生活,突破自我,永不设限! Don't indulge in the past, whether it was ...

  2. IIS : Add the server variable name to the allowed server variable list.

    IIS下设置反向代理访问时报错:将服务器变量名添加到允许的服务器变量列表中. 1.打开IIS: 2.打开要添加变量的站点: 3.打开URL Rewrite: 4.在右列上,选择“查看服务器变量(Vie ...

  3. ORACLE默认实例设置--linux

    数据库实例多了之后,每次export的时候,显示的ORACLE_SID总不是自己经常用的那个,要是能让默认的自定义就好了. 现在就解释一下在linux环境中如何定义: 1.su - oracle 2. ...

  4. HBase性能优化 Java Api

    1. 使用“连接池” 如果每次和Hbase交互时都去新建连接的话,显然是低效率的,HBase也提供类连接池相关的API. 1.1. HTablePool 早期的API中使用它,但很不幸,现在它已经过时 ...

  5. 1692. [USACO07DEC] 队列变换【后缀数组+贪心】

    Description FJ打算带他的N(1 <= N <= 30,000)头奶牛去参加一年一度的“全美农场主大奖赛”.在这场比赛中,每个参赛者都必须让他的奶牛排成一列,然后领她们从裁判席 ...

  6. iteritems()与items()

    iteritems:以迭代器对象返回字典键值对 item:以列表形式返回字典键值对 >>> dic = {'a':3,'c':1,'b':2} >>> print ...

  7. ZOJ 3981 && 2017CCPC秦皇岛 A:Balloon Robot(思维题)

    A - Balloon Robot Time Limit:1000MS     Memory Limit:65536KB     64bit IO Format:%lld & %llu Sub ...

  8. 使用putty进行ssh tunnel远程内网机器

    通常我们通过登录具有外网ip的远程机器来连接内网的机器:本文介绍,通过putty进行ssh tunnel,进而达到使用本机直接连接远程内网机器: 1,在putty中创建一个session,输入具有外网 ...

  9. 静态库打包——.a和.framework文件

    参考链接 步骤:适配所有的模拟器和真机 ——生成.a文件 <1>建一个静态库工程 <2>生成.a文件(注意添加类.h和.m文件) 同理:接入任意款真机,同上述操作,生成真机的. ...

  10. OO学习体会与阶段总结(多线程程序)

    前言 在最近一个月的面向对象编程学习中,我们进入了编写多线程程序的阶段.线程的创建.调度和信息传递,共享对象的处理,线程安全类的编写,各种有关于线程的操作在一定程度上增加了近三次作业的复杂度与难度,带 ...