NameNode 学习目标 理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的 理解,及培养 hadoop 集群运营中“性能调优”.“namenode”故障问题的分析解决能力 问题场景 1.Namenode 服务器的磁盘故障导致 namenode 宕机,如何挽救集群及数据? 2.Namenode 是否可以有多个?namenode 内存要配置多大?namenode 跟集群数据存储能 力有关系吗? 3.文件的 blocksize 究竟调大好还是调小好?结合 map…
NameNode 学习目标 理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的 理解,及培养 hadoop 集群运营中“性能调优”.“namenode”故障问题的分析解决能力 问题场景 1.Namenode 服务器的磁盘故障导致 namenode 宕机,如何挽救集群及数据? 2.Namenode 是否可以有多个?namenode 内存要配置多大?namenode 跟集群数据存储能 力有关系吗? 3.文件的 blocksize 究竟调大好还是调小好?结合 map…
一.hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是hadoop 2.0 引入的集群资源管理系统.用户可以将各种服务框架部署在YARN上,由YARN进行统一地管理和资源分配. 二.YARN架构 1. ResourceManager ResourceManager通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者.ResourceManager负责给用户提交的所有应用程序分配资源,它根据应用程序优…
ZooKeeper 软件安装须知 鉴于 ZooKeeper 本身的特点,服务器集群的节点数推荐设置为奇数台.我这里我规划为三台, 为别为 hadoop1,hadoop2,hadoop3 ZooKeeper 的集群安装 ZooKeeper 的下载 下载地址:http://mirrors.hust.edu.cn/apache/ZooKeeper/ 此处使用的是3.4.10版本 解压安装到自己的目录 [hadoop@hadoop1 ~]$ tar -zxvf zookeeper-3.4.10.tar.…
概述 1.MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle 2.Shuffle: 数据混洗 ——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并 排序) 3.具体来说:就是将 MapTask 输出的处理结果数据,按照 Partitioner 组件制定的规则分发 给 ReduceTask,并在分发的过程中,对数据按 key 进行了分区和排序 MapReduce的Shuffle…
开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点. 一.实验环境结构 本次试验,我们构建的集群是一个主节点,三个从节点的结构,其中三个从节点的性能配置各不相同,这里我们主要在虚拟机中的内存设置这三个从节点分别为:512MB.512MB与256MB.首先,我们暂时只设置两个从节点,另外一个作为动态添加节点的时候使用.主节点与…
Hadoop产生的背景 1. HADOOP最早起源于Nutch.Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题. 2. 2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案. ——分布式文件系统(GFS),可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题. ——BigTable 数据库:OLTP 联机事务处理 On…
1.HDFS前言 HDFS:Hadoop Distributed File System,Hadoop分布式文件系统,主要用来解决海量数据的存储问题. 设计思想 分散均匀存储 dfs.blocksize = 128M 备份冗余存储 dfs.replication = 3 在大数据系统中作用 为各类分布式运算框架(如:MapReduce,spark,hive.....)提供数据存储服务. 重点概念 数据切块.副本存放.元数据 2.HDFS的概念和特性 概念 首先,它是个文件系统.用于存储文件,通过…
一.配置虚拟机软件 下载地址:https://www.virtualbox.org/wiki/downloads 1.虚拟机软件设定 1)进入全集设定 2)常规设定 2.Linux安装配置 1)名称类型 名称最后具有说明意义.版本根据个人情况. 2)内存 在下物理机系统Win7x64,处理器i53210,内存8G. 3)磁盘选择 4)磁盘文件 virtualbox格式vdi,VMWare格式vmdk,微软格式vhd(virtualbox不支持),Parallels格式hdd(virtualbox…
上一篇介绍了单机版zookeeper安装,这种情况一般用于开发测试.如果是生产环境建议用分布式集群部署,防止单点故障,增加zookeeper服务的高可用. [环境介绍]       三台机器:192.168.126.160,192.168.126.161,192.168.126.162       操作系统:centos linux 以上就是本次集群的机器情况.下面进行安装和配置: 一.安装和配置 1)解压文件(先在一台机器上操作) .tar.gz 2)重命名配置文件zoo_sample.cfg…