一:大数据应用

1.Cloudera

  cloudera公司是Hadoop三大发行商之一,其版本为CDH版本,现在最新的版本是CDH5。

  网站:http://archive.cloudera.com/cdh5/

  

  现在官网上的最新的版本:

  

2.大数据的三大基础

  Java

  SQL

  Linux

3.大数据的特性

  大量的数据:PB级别

  多样的数据类型

  快速的数据流转

  价值

  

二:学习的框架

1.官网:

  hadoop.apache.org

  目前学习的系列是Hadoop2.x,在2006年发布,几个重要的版本,2.2.0 ,2.5.0, 2.7.0

  现在已经有了新的版本Hadoop3.0

  

2.特性

  Hadoop是一个可靠性,可扩展,的分布式计算框架(The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.)。

  

  A) 可靠性

    存储方面:

      HDFS存储策略,副本数为3个

      以块进行,检验块损坏,生成校验码,并将两次的校验码进行比较来判断。

    计算方面:

      如果计算中出现问题,会使用副本数继续计算。

  B) 可扩展性

    可以在原有的基础上任意添加多台机器。

  C) 低成本(另外补充)

    磁盘的成本低一些。

3.四个核心模块

  

  Hadoop Common:支持模块的工具类

  HDFS:分布式文件系统

  Hadoop YARN:任务调度和集群资源(内存,CPU)管理框架

  Hadoop MapReduce:一个基于YARN的并行处理大数据集的框架

4.Hadoop之父

  doug cutting

5.Hadoop的起源

  apache Lucene:全文检索工具包

  Apache Nutch:web搜索引擎

  Google三大论文:MapReduce,GFS,BigTable

二:HDFS分布式文件系统

1.文件系统

  建立在无数的硬件上。

  设计理念:一次写入,多次读取

  主从架构

    namenode

    datanode

  存储的是文件,文件属性

    名称,位置,副本数,拥有者,权限,存储的块

  存储形式:块(block,默认是128M)

    假设一个文件是250M,则需要两个块存储,第一个块128M,第二个块122M(一个文件小于一个数据块的大小,不需要占用整个数据块的空间的).

    多个文件不能放到一个块中的。

  文件的与元数据

    文件的属性。

    给到namenode进行存储。

  真正存储的是datanode。

2.框架

  

3.HDFS读写流程(都有一个就近原则)(大概)

  读取

    客户端先去namenode,知道文件的存储位置。

    再去找datanode。

    当读取到好几个文件的时候,这个时候设计到就近原则,同一个机架上读取文件肯定比读取其他机架上的数据快。

    读取块。

  写入文件

    首先客户端找namenode,知道文件将要被分到哪个位置

    然后再找到对应的datanode

    然后去datanode写入。

    写副本时,应该需要写一个到别的机架。

4.HDFS服务功能

  Namenode:是主节点,存储文件的元数据

  Datanode:在本地文件系统存储文件数据,以及数据块的校验和。

  Secondary Namenode:监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

三:Hadoop YARN框架

1.框架

  

2.资源管理和调度框架

  主从架构

    Resourcemanager:管理整个集群的资源

    NodeManager:资源所在

  每个应用都有一个应用管理者:ApplicationMaster

  container

    使得应用不会被干扰,是资源的抽象,分装了每个任务需要的资源。

  

3.yarn的运行机制

  当一个应用在yarn上运行,Resourcemanager首先会找一个nodemanager,给这个应用分配一个应用管理者(ApplicationMaster),使得应用管理者可以在nodemanager上运行。

  然后管理者会计算出需要的资源,然后管理者根据计算出的资源向Resourcemanager申请资源

  然后Resourcemanager给应用一个container,让应用在container中运行,

  然后应用管理者进行监控和容错。

4.YARN服务功能

  

四:MapReduce框架

1.两个阶段

  Map:并行输入数据

  Reduce:对结果进行汇总

2.特点

  适合离线批量计算

  数据量大

  启动开销大,每个mapreduce任务都会开一个Java虚拟机。

  

3.

  

004 Hadoop2.x基础知识的更多相关文章

  1. .NET面试题系列[1] - .NET框架基础知识(1)

    很明显,CLS是CTS的一个子集,而且是最小的子集. - 张子阳 .NET框架基础知识(1) 参考资料: http://www.tracefact.net/CLR-and-Framework/DotN ...

  2. RabbitMQ基础知识

    RabbitMQ基础知识 一.背景 RabbitMQ是一个由erlang开发的AMQP(Advanced Message Queue )的开源实现.AMQP 的出现其实也是应了广大人民群众的需求,虽然 ...

  3. Java基础知识(壹)

    写在前面的话 这篇博客,是很早之前自己的学习Java基础知识的,所记录的内容,仅仅是当时学习的一个总结随笔.现在分享出来,希望能帮助大家,如有不足的,希望大家支出. 后续会继续分享基础知识手记.希望能 ...

  4. selenium自动化基础知识

    什么是自动化测试? 自动化测试分为:功能自动化和性能自动化 功能自动化即使用计算机通过编码的方式来替代手工测试,完成一些重复性比较高的测试,解放测试人员的测试压力.同时,如果系统有不份模块更改后,只要 ...

  5. [SQL] SQL 基础知识梳理(一)- 数据库与 SQL

    SQL 基础知识梳理(一)- 数据库与 SQL [博主]反骨仔 [原文地址]http://www.cnblogs.com/liqingwen/p/5902856.html 目录 What's 数据库 ...

  6. [SQL] SQL 基础知识梳理(二) - 查询基础

    SQL 基础知识梳理(二) - 查询基础 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5904824.html 序 这是<SQL 基础知识梳理( ...

  7. [SQL] SQL 基础知识梳理(三) - 聚合和排序

    SQL 基础知识梳理(三) - 聚合和排序 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5926689.html 序 这是<SQL 基础知识梳理 ...

  8. [SQL] SQL 基础知识梳理(四) - 数据更新

    SQL 基础知识梳理(四) - 数据更新 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5929786.html 序 这是<SQL 基础知识梳理( ...

  9. [SQL] SQL 基础知识梳理(五) - 复杂查询

    SQL 基础知识梳理(五) - 复杂查询 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5939796.html 序 这是<SQL 基础知识梳理( ...

随机推荐

  1. bzoj千题计划169:bzoj2463: [中山市选2009]谁能赢呢?

    http://www.lydsy.com/JudgeOnline/problem.php?id=2463 n为偶数时,一定可以被若干个1*2 矩形覆盖 先手每次从矩形的一端走向另一端,后手每次走向一个 ...

  2. Challenge 18

    Challenge 18给你一个长度为 n 的非负整数序列 a 和 m 个询问 l, r, p, k,表示询问在 a[l .. r] 中 a[i]%p=k 的 i 的个数. 思路: 将序列分为根号n块 ...

  3. HDU 5928 DP 凸包graham

    给出点集,和不大于L长的绳子,问能包裹住的最多点数. 考虑每个点都作为左下角的起点跑一遍极角序求凸包,求的过程中用DP记录当前以j为当前末端为结束的的最小长度,其中一维作为背包的是凸包内侧点的数量.也 ...

  4. hbase系列之:初识hbase

    一.概述 在hadoop生态圈里,hbase可谓是鼎鼎大名.江湖传言,hbase可以实现数十亿行X数百万列的实时查询,可横向扩展存储空间.如果传言为真,那得好好了解了解hbase.本文从概念上介绍hb ...

  5. nginx 跨域配置

    server { listen 80; server_name b.com; location /{ if ( $http_referer ~* (a.com|b.com|c.com) ) { Acc ...

  6. 【CodeForces】906 D. Power Tower 扩展欧拉定理

    [题目]D. Power Tower [题意]给定长度为n的正整数序列和模数m,q次询问区间[l,r]累乘幂%m的答案.n,q<=10^5,m,ai<=10^9. [算法]扩展欧拉定理 [ ...

  7. 【leetcode 简单】 第八十九题 赎金信

    给定一个赎金信 (ransom) 字符串和一个杂志(magazine)字符串,判断第一个字符串ransom能不能由第二个字符串magazines里面的字符构成.如果可以构成,返回 true :否则返回 ...

  8. Oracle错误: ORA-01722 无效数字

    ORA-01722: 无效数字 主要原因是: 1.对于两个类型不匹配(一个数字类型,一个非数字类型,同下)的值进行赋值操作; 2.两个类型不匹配的值进行比较操作(例如,"="); ...

  9. 【译】第十篇 SQL Server代理使用代理帐户

    本篇文章是SQL Server代理系列的第十篇,详细内容请参考原文 在这一系列的上一篇,你查看了msdb库下用于授权访问SQL Server代理的安全角色.这些角色包括SQLAgentUserRole ...

  10. 20155303 2016-2017-2 《Java程序设计》第八周学习总结

    20155303 2016-2017-2 <Java程序设计>第八周学习总结 目录 学习内容总结(Linux命令) 教材学习中的问题和解决过程 代码调试中的问题和解决过程 代码托管 上周考 ...