大数据部门组织结构

Hadoop的优势(4高)

  1. 高可靠性:Hadoop底层维护多个数据副本
  2. 高扩展性:在集群间分配任务数据,可方便的扩展
  3. 高效性:在MapReduce的思想下,Hadoop时并行工作的,从而加快任务处理速度
  4. 高容错性:能够自动将失败的任务重新分配

Hadoop组成(重点)

  • hadoop1.x

    mapreduce(计算+资料调度) HDFS(数据存储) Common(辅助工具)

  • hadoop2.x

    mapreduce(计算) HDFS(数据存储) Common(辅助工具) yarn(资料调度

HDFS架构

  • NameNode(主管)

    存储文件的元数据 (文件名,文件目录结构,文件属性(生成时间,副本数,文件权限))以及每个文件的块列表和块所在的DataNode

    1. 管理HDFS的名称空间
    2. 配置副本策略
    3. 管理数据块(Block)映射信息
    4. 处理客户端读写请求
  • Secondary NameNode(主管秘书)

    每隔一段时间对NameNode元数据备份

    !!->并非NameNode的热备 无法在NameNode无法工作时代替NameNode工作

    1. 辅助NameNode,分担其工作量(如:定期合并Fsimage和Edits,并推送给NameNode)
    2. 在紧急情况下,可辅助恢复NameNode
  • DataNode(员工)

    在本地文件系统存储文件块数据,以及块数据的校验和

    1. 存储实际的数据块
    2. 执行数据块的读/写操作
  • Client (客户端)

    1. 文件切分
    2. 与NameNode交互,获取文件的位置信息
    3. 与DataNode交互,读取或写入数据
    4. 执行一些命令来管理HDFS(如:NameNode的格式化)
    5. 执行一些命令来访问HDFS(如:HDFS的增删改查)

YARN架构

  • ResourceManager(RM)

    1. 处理客户端请求
    2. 监控NodeManager
    3. 启动或监控ApplicationMaster
    4. 资源的分配与调度
  • NodeManager(NM)

    1. 管理单个节点上的资源
    2. 处理来自ResourceManager的命令
    3. 处理来自ApplicationMaster的命令
  • ApplicationMaster

    1. 负责数据的切分
    2. 为应用程序申请资源并分配给内部的任务
    3. 任务的监控与容错
  • Container

    Container是YARN中的资源抽象,封装了某个节点上的多维度资源,(内存,cpu,磁盘,网络)

大数据技术生态体系

Hadoop环境搭建的常用命令

  • 修改主机名称

    vim /etc/hostname

  • 配置linux克隆机主机名称映射hosts

    vim /etc/hosts

  • 解压JDK到/opt/module目录下

    tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

  • 配置JDK环境变量

  • 新建/etc/profile.d/my_env.sh文件

    sudo vim /etc/profile.d/my_env.sh

    添加如下内容

    #JAVA_HOME
    
    export JAVA_HOME=/opt/module/jdk1.8.0_212
    
    export PATH=$PATH:$JAVA_HOME/bin
  • 环境变量PATH生效

    source /etc/profile

  • 生成公钥和私钥

    ssh-keygen -t rsa

  • Hadoop执行MapReduce程序

    hadoop jar wc.jar com.atguigu.wordcount.WordcountDriver /user/atguigu/input /user/atguigu/output

haodoop概念总结的更多相关文章

  1. 如何一步一步用DDD设计一个电商网站(一)—— 先理解核心概念

    一.前言     DDD(领域驱动设计)的一些介绍网上资料很多,这里就不继续描述了.自己使用领域驱动设计摸滚打爬也有2年多的时间,出于对知识的总结和分享,也是对自我理解的一个公开检验,介于博客园这个平 ...

  2. 【Machine Learning】机器学习及其基础概念简介

    机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  3. 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍(一)

    集群概念介绍(一)) 白宁超 2015年7月16日 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习 ...

  4. 声音分贝的概念,dBSPL.dBm,dBu,dBV,dBFS

    需要做个音频的PPM表,看着一堆的音频术语真是懵了,苦苦在网上扒了几天的文档,终于有了点收获,下面关于声音的分贝做个总结. 分贝 Decibel 分贝(dB)是一个对数单位(logarithmic u ...

  5. js面向对象学习 - 对象概念及创建对象

    原文地址:js面向对象学习笔记 一.对象概念 对象是什么?对象是“无序属性的集合,其属性可以包括基本值,对象或者函数”.也就是一组名值对的无序集合. 对象的特性(不可直接访问),也就是属性包含两种,数 ...

  6. 【Linux大系】Linux的概念与体系

    感谢原作者:Vamei 出处:http://www.cnblogs.com/vamei 我在这一系列文章中阐述Linux的基 本概念.Linux操作系统继承自UNIX.一个操作系统是一套控制和使用计算 ...

  7. KOTLIN开发语言文档(官方文档) -- 2.基本概念

    网页链接:https://kotlinlang.org/docs/reference/basic-types.html 2.   基本概念 2.1.  基本类型 从可以在任何变量处理调用成员函数和属性 ...

  8. .NET面试题系列[5] - 垃圾回收:概念与策略

    面试出现频率:经常出现,但通常不会问的十分深入.通常来说,看完我这篇文章就足够应付面试了.面试时主要考察垃圾回收的基本概念,标记-压缩算法,以及对于微软的垃圾回收模板的理解.知道什么时候需要继承IDi ...

  9. 《徐徐道来话Java》(1):泛型的基本概念

    泛型是一种编程范式(Programming Paradigm),是为了效率和重用性产生的.由Alexander Stepanov(C++标准库主要设计师)和David Musser(伦斯勒理工学院CS ...

随机推荐

  1. 我用Python做了一个咖啡馆数据分析

    在做案例前,我还想回答大家一个疑问,就是excel做数据分析可以实现Python一样的效果,那用Python的意义在哪呢? 经过这段时间学习理解,我的回答是: (https://jq.qq.com/? ...

  2. 20行python代码,轻松获取各路小说,非常简单

    哔哔两句 作为现代青年,我相信应该没几个没看过小说的吧,嘿嘿~ 一般来说咱们书荒的时候怎么办?自然是去起某点排行榜先找到小说名字,然后再找度娘一搜,哎 ,笔趣阁就出来答案了,美滋滋~但是那多麻烦,咱们 ...

  3. 30m精度土壤类型、土壤质地、土壤有机质、土壤PH、土壤氮磷钾

    ​数据下载链接:数据下载链接 引言 全国土壤类型.质地.养分及变化等信息产品分为土壤类型数据.土壤质地数据.土壤养分数据及土壤变化数据等.该类产品是基于野外调查和实地采样,结合历史数据,建立全国土壤类 ...

  4. 交替方向乘子法(Alternating Direction Multiplier Method,ADMM)

    交替方向乘子法(Alternating Direction Multiplier Method,ADMM)是一种求解具有可分结构的凸优化问题的重要方法,其最早由Gabay和Mercier于1967年提 ...

  5. JUC源码学习笔记1——AQS和ReentrantLock

    笔记主要参考<Java并发编程的艺术>并且基于JDK1.8的源码进行的刨析,此篇只分析独占模式,后续在ReentrantReadWriteLock和 CountDownLatch中 会重点 ...

  6. SSH隧道代理

    应用场景: A机器可以通过SSH连接到B机器,然后A想用B的身份访问B所在的资源(主要用于浏览器访问) 命令: A机器通过ssh与B建立连接,并暴露3128端口:ssh -N -D 127.0.0.1 ...

  7. 组网神器Zerotier One使用

    一些问题 可以用来干嘛? 异地组网,管理方便,A.B网段内的IP可以直接相互访问 到底好不好用? 如果不搭建MOON节点,直接P2P的话,速度确实让人捉急,我感觉这个原因劝退了绝大多数人 和FRP的区 ...

  8. idea的使用技巧和必要的设置

    idea 如何开启多个线程 打开下面按钮,然后运行相同的代码即可 打开idea需要选择打开哪一个项目 * 设置如下,关闭下面选项即可

  9. 算法竞赛进阶指南0x51 线性DP

    AcWing271. 杨老师的照相排列 思路 这是一个计数的题目,如果乱考虑,肯定会毫无头绪,所以我们从1号到最后一个依次进行安排. 经过反复实验,发现两个规律 每一行的同学必须是从左向右依次连续放置 ...

  10. Rust 从入门到精通01-简介

    1.rust 从哪里来 Rust语言在2006年作为 Mozilla 员工 Graydon Hoare 的私人项目出现,而 Mozilla 于 2009 年开始赞助这个项目.第一个有版本号的 Rust ...