大数据之路week06--day07（完全分布式Hadoop的搭建）

前提工作：

克隆2台虚拟机完成后：新的2台虚拟机，请务必依次修改3台虚拟机的ip地址和主机名称【建议三台主机名称依次叫做：master、node1、node2 】上一篇博客

（三台虚拟机都要开机）

Hadoop2.6.0 的压缩包，这里我提供百度云，没有的可以进行下载

　　　　链接：https://pan.baidu.com/s/1euN5AwSHHP-mqz4U_6ldEQ
　　　　提取码：jh1m

1、设置主机名与ip的映射，修改配置文件命令：vi /etc/hosts

2、将hosts文件拷贝到node1和node2节点

命令：

scp /etc/hosts node1:/etc/hosts

scp /etc/hosts node2:/etc/hosts

3、上述修改完成后，请依次重启三台虚拟机：重启命令：reboot

4、关闭防火墙（三台都要操作），使用命令：service iptables stop

5、关闭防火墙的自动启动（三台都要操作），使用命令：chkconfig iptables off

6、设置ssh免密码登录（只在Master 这台主机操作）

主节点执行命令 ssh-keygen -t rsa 产生密钥一直回车

执行命令

7、将密钥拷贝到其他两个子节点，命令如下：

ssh-copy-id -i node1

ssh-copy-id -i node2

实现免密码登录到子节点。

8、实现主节点master本地免密码登录

首先进入到/root 命令：cd /root

再进入进入到 ./.ssh目录下

命令：cd ./.ssh/

9、然后将公钥写入本地执行命令：

cat ./id_rsa.pub >> ./authorized_keys

如图

--------------------------------------------------------------------------以下操作都在master上进行-----------------------------------------------------------------------------------------------------------------------

10、将hadoop的jar包先上传到虚拟机/usr/local/soft目录下，主节点。可以使用xshell拖拽

11、解压。tar -zxvf hadoop-2.6.0.tar.gz 解压完后会出现 hadoop-2.6.0的目录

12、修改master中hadoop的一个配置文件/usr/local/soft/etc/hadoop/slaves

删除原来的所有内容，修改为如下（你的节点名称）

node1

node2

13、修改hadoop的几个组件的配置文件进入cd /usr/local/soft/hadoop-2.6.0/etc/hadoop 目录下(请一定要注意配置文件内容的格式，可以直接复制过去黏贴。不要随意改！！！！！！！！)

* 修改hadoop-env.sh文件

加上一句：

export JAVA_HOME=/usr/local/soft/jdk1.8.0_171 （自己的jdk路径）

14、修改 core-site.xml

将下面的配置参数加入进去修改成对应自己的

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://master:9000</value>         //这里的master是我的主机名

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>/usr/local/soft/hadoop-2.6.0/tmp</value>        //你的Hadoop路径

        </property>

        <property>

                 <name>fs.trash.interval</name>

                 <value>1440</value>

        </property>

</configuration>

15、修改 hdfs-site.xml 将dfs.replication设置为1 （因为我这里就只有一个主节点和两个子节点）

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

</configuration>

16、修改文件yarn-site.xml

 <configuration>

         <property>

 <name>yarn.resourcemanager.hostname</name>

 <value>master</value>                        //你的主机名

 </property>

 <property>

 <name>yarn.nodemanager.aux-services</name>

 <value>mapreduce_shuffle</value>

 </property>

 <property>

 <name>yarn.log-aggregation-enable</name>

 <value>true</value>

 </property>

 <property>

 <name>yarn.log-aggregation.retain-seconds</name>

 <value>604800</value>

 </property>

 <property>

     <name>yarn.nodemanager.resource.memory-mb</name>

     <value>20480</value>

 </property>

 <property>

    <name>yarn.scheduler.minimum-allocation-mb</name>

    <value>2048</value>

 </property>

 <property>

  <name>yarn.nodemanager.vmem-pmem-ratio</name>

  <value>2.1</value>

 </property>

 </configuration>

17、（将mapred-site.xml.template 复制一份为 mapred-site.xml

命令：cp mapred-site.xml.template mapred-site.xml）然后修改 mapred-site.xml

<configuration>

   <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>master:10020</value>    //我的主节点名字叫master

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>master:19888</value>   //我的主节点名字叫master

    </property>

</configuration>

18、将hadoop的安装目录分别拷贝到其他子节点

scp -r /usr/local/soft/hadoop-2.6.0 node1:/usr/local/soft/

scp -r /usr/local/soft/hadoop-2.6.0 node2:/usr/local/soft/

19、启动hadoop

首先看下hadoop-2.6.0目录下有没有tmp文件夹。

如果没有执行一次格式化命令：

cd /usr/local/soft/hadoop-2.6.0目录下

执行命令：

./bin/hdfs namenode -format

会生成tmp文件。

20、/usr/local/soft/hadoop-2.6.0目录下

启动执行：./sbin/start-all.sh

21、启动完成后通过jps命令查看验证进程：jps

主节点进程为下面几个（下面是进程名称，不是命令）：

Namenode

secondarnamenode

resourcemanager

22、子节点进程（在node1和node2上分别输入命令：jps）

datanode

nodenodemanager

23、验证hdfs：

可以windows电脑登录浏览器（强烈建议chrome浏览器）

地址：192.168.1.80:50070 （ip地址是master的地址）

看到下面页面证明 hdfs装好了

下图是我已经创建了一个hdfs上的目录，刚装好的hadoop应该是空的什么都没有

******* 如果第一次启动失败了，请重新检查配置文件或者哪里步骤少了。

再次重启的时候

1需要手动将每个节点的tmp目录删除:

rm -rf /usr/local/soft/hadoop-2.6.0/tmp

然后执行将namenode格式化

2在主节点执行命令:

./bin/hdfs namenode -format

如果在put文件的过程中出现了_COPYING_ could only be replicated to 0 nodes instead of minReplication (=1).

的报错

1 格式化重来

2 如果不行，看下时间，防火墙

3 修改 hosts文件，把里面那两条删了

大数据之路week06--day07（完全分布式Hadoop的搭建）的更多相关文章

大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）
什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进 ...
java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式
Hadoop简介和安装及伪分布式大数据概念大数据概论大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...
胖子哥的大数据之路（6）- NoSQL生态圈全景介绍
引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文: The NoSQL Ecosystem 目录 The NoSQL Eco ...
大数据之路week07--day03（Hadoop深入理解，JAVA代码编写WordCount程序，以及扩展升级）
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几 ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
大数据之路week04--day06（I/O流阶段一之异常）
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房 ...
C#码农的大数据之路 - 使用C#编写MR作业
系列目录写在前面从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势. ...
胖子哥的大数据之路（11）-我看Intel&&Cloudera的合作
一.引言 5月8日,作为受邀嘉宾,参加了Intel与Cloudera在北京中国大饭店新闻发布会,两家公司宣布战略合作,该消息成为继Intel宣布放弃大数据平台之后的另外一个热点新闻.对于Intel的放 ...
胖子哥的大数据之路（10）- 基于Hive构建数据仓库实例
一.引言基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据三.建表脚本 C ...

随机推荐

zabbix4.2+grafana搭建骚气的监控运维平台
Zabbix 是一个企业级分布式开源监控解决方案,其监控与告警功能十分强大.Grafana是一款开源的可视化软件,可以搭配数据源实现一个数据的展示和分析:Grafana功能强大,有着丰富的插件.两者结 ...
centos docker 修改默认存储路径
1.修改配置将--graph /mnt/docker添加在docker.service文件中的ExecStart字段后面,其中/mnt/docker为你需要修改的存储目录 $ vim /usr/li ...
Net Core 3 Mvc AliPay Demo
AliPay - PC 钻研了几天的Webpack, 这几天回归了我的本行.Net, 跟随大佬的脚步, 开始做上了支付宝的支付. 创建项目首先创建一基于.Net Core3.0的MVC项目, 然后引 ...
java jri null
java通过jri调用r文件,r文件必须和当前类在同一目录下,然后才能re.eval("source(fpath)")执行脚本;其中fpath为通过re.assign设置的文件全路 ...
DCEP究竟是什么？
DCEP (Digital Currency Electronic Payment) 数字货币电子支付工具 DCEP将由中国人民银行推出,推出时间待定. DCEP是使用区块链技术的一种联盟链,为全新的 ...
20191031:Python底层机制
20191031:Python底层机制 python底层从3个方面来说,分别是: 引用计数机制垃圾回收机制内存池机制引用计数机制使用引用计数来追踪内存中的对象,所有对象都有引用计数,并且这个引 ...
【优先队列】Function
Function 题目描述 wls有n个二次函数Fi(x)=aix2+bix+ci(1≤i≤n).现在他想在且x为正整数的条件下求的最小值.请求出这个最小值. 输入第一行两个正整数n,m.下面n行, ...
一行代码实现Vue微信支付,无需引用wexin-sdk库,前后端分离HTML微信支付,无需引用任何库
前后端分离项目实现微信支付的流程: 1:用户点击支付 2:请求服务端获取支付参数 3:客户端通过JS调起微信支付(微信打开的网页) * 本文主要解决的是第3步,视为前两步已经完成,能正确拿到支付参数, ...
csredis
源码地址:https://github.com/2881099/csredis 1.增加了 CSRedisClient 现实集群与连接池管理,和 RedisHelper 静态类快速上手 //普通模式 ...
Go context 介绍和使用
context 上下文管理 context 翻译过来就是上下文管理,主要作用有两个: 控制 goroutine 的超时保存上下文数据 WithTimeout 通过下面的一个简单的 http 例子进行 ...

大数据之路week06--day07（完全分布式Hadoop的搭建）

大数据之路week06--day07（完全分布式Hadoop的搭建）的更多相关文章

随机推荐

热门专题