004 Hadoop2.x基础知识
一:大数据应用
1.Cloudera
cloudera公司是Hadoop三大发行商之一,其版本为CDH版本,现在最新的版本是CDH5。
网站:http://archive.cloudera.com/cdh5/
现在官网上的最新的版本:
2.大数据的三大基础
Java
SQL
Linux
3.大数据的特性
大量的数据:PB级别
多样的数据类型
快速的数据流转
价值
二:学习的框架
1.官网:
hadoop.apache.org
目前学习的系列是Hadoop2.x,在2006年发布,几个重要的版本,2.2.0 ,2.5.0, 2.7.0
现在已经有了新的版本Hadoop3.0
2.特性
Hadoop是一个可靠性,可扩展,的分布式计算框架(The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.)。
A) 可靠性
存储方面:
HDFS存储策略,副本数为3个
以块进行,检验块损坏,生成校验码,并将两次的校验码进行比较来判断。
计算方面:
如果计算中出现问题,会使用副本数继续计算。
B) 可扩展性
可以在原有的基础上任意添加多台机器。
C) 低成本(另外补充)
磁盘的成本低一些。
3.四个核心模块
Hadoop Common:支持模块的工具类
HDFS:分布式文件系统
Hadoop YARN:任务调度和集群资源(内存,CPU)管理框架
Hadoop MapReduce:一个基于YARN的并行处理大数据集的框架
4.Hadoop之父
doug cutting
5.Hadoop的起源
apache Lucene:全文检索工具包
Apache Nutch:web搜索引擎
Google三大论文:MapReduce,GFS,BigTable
二:HDFS分布式文件系统
1.文件系统
建立在无数的硬件上。
设计理念:一次写入,多次读取
主从架构
namenode
datanode
存储的是文件,文件属性
名称,位置,副本数,拥有者,权限,存储的块
存储形式:块(block,默认是128M)
假设一个文件是250M,则需要两个块存储,第一个块128M,第二个块122M(一个文件小于一个数据块的大小,不需要占用整个数据块的空间的).
多个文件不能放到一个块中的。
文件的与元数据
文件的属性。
给到namenode进行存储。
真正存储的是datanode。
2.框架
3.HDFS读写流程(都有一个就近原则)(大概)
读取
客户端先去namenode,知道文件的存储位置。
再去找datanode。
当读取到好几个文件的时候,这个时候设计到就近原则,同一个机架上读取文件肯定比读取其他机架上的数据快。
读取块。
写入文件
首先客户端找namenode,知道文件将要被分到哪个位置
然后再找到对应的datanode
然后去datanode写入。
写副本时,应该需要写一个到别的机架。
4.HDFS服务功能
Namenode:是主节点,存储文件的元数据
Datanode:在本地文件系统存储文件数据,以及数据块的校验和。
Secondary Namenode:监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
三:Hadoop YARN框架
1.框架
2.资源管理和调度框架
主从架构
Resourcemanager:管理整个集群的资源
NodeManager:资源所在
每个应用都有一个应用管理者:ApplicationMaster
container
使得应用不会被干扰,是资源的抽象,分装了每个任务需要的资源。
3.yarn的运行机制
当一个应用在yarn上运行,Resourcemanager首先会找一个nodemanager,给这个应用分配一个应用管理者(ApplicationMaster),使得应用管理者可以在nodemanager上运行。
然后管理者会计算出需要的资源,然后管理者根据计算出的资源向Resourcemanager申请资源
然后Resourcemanager给应用一个container,让应用在container中运行,
然后应用管理者进行监控和容错。
4.YARN服务功能
四:MapReduce框架
1.两个阶段
Map:并行输入数据
Reduce:对结果进行汇总
2.特点
适合离线批量计算
数据量大
启动开销大,每个mapreduce任务都会开一个Java虚拟机。
3.
004 Hadoop2.x基础知识的更多相关文章
- .NET面试题系列[1] - .NET框架基础知识(1)
很明显,CLS是CTS的一个子集,而且是最小的子集. - 张子阳 .NET框架基础知识(1) 参考资料: http://www.tracefact.net/CLR-and-Framework/DotN ...
- RabbitMQ基础知识
RabbitMQ基础知识 一.背景 RabbitMQ是一个由erlang开发的AMQP(Advanced Message Queue )的开源实现.AMQP 的出现其实也是应了广大人民群众的需求,虽然 ...
- Java基础知识(壹)
写在前面的话 这篇博客,是很早之前自己的学习Java基础知识的,所记录的内容,仅仅是当时学习的一个总结随笔.现在分享出来,希望能帮助大家,如有不足的,希望大家支出. 后续会继续分享基础知识手记.希望能 ...
- selenium自动化基础知识
什么是自动化测试? 自动化测试分为:功能自动化和性能自动化 功能自动化即使用计算机通过编码的方式来替代手工测试,完成一些重复性比较高的测试,解放测试人员的测试压力.同时,如果系统有不份模块更改后,只要 ...
- [SQL] SQL 基础知识梳理(一)- 数据库与 SQL
SQL 基础知识梳理(一)- 数据库与 SQL [博主]反骨仔 [原文地址]http://www.cnblogs.com/liqingwen/p/5902856.html 目录 What's 数据库 ...
- [SQL] SQL 基础知识梳理(二) - 查询基础
SQL 基础知识梳理(二) - 查询基础 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5904824.html 序 这是<SQL 基础知识梳理( ...
- [SQL] SQL 基础知识梳理(三) - 聚合和排序
SQL 基础知识梳理(三) - 聚合和排序 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5926689.html 序 这是<SQL 基础知识梳理 ...
- [SQL] SQL 基础知识梳理(四) - 数据更新
SQL 基础知识梳理(四) - 数据更新 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5929786.html 序 这是<SQL 基础知识梳理( ...
- [SQL] SQL 基础知识梳理(五) - 复杂查询
SQL 基础知识梳理(五) - 复杂查询 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5939796.html 序 这是<SQL 基础知识梳理( ...
随机推荐
- MacBook Air网络问题
自从买了本本之后,一直觉得无线网连接不能正常使用,最开始觉得是网络不给力,因为图标都没有满格.后来搬家,网速家里的window,iphone设备都能正常使用,就我的mac 本本图标显示满格,但是网页打 ...
- 并查集:POJ No1703 Find them, Catch them
题目链接:http://poj.org/problem?id=1703 题意:两个坏蛋属于不同的组织,给出两个坏蛋判定是否一个组织. 题解:已知每次输入的两个帮派人员 x, y; 合并 (x, y + ...
- ZeroMQ API(二) 上下文
1.创建上下文 1.1 zmq_ctx_new(3) 1.1.1 名称 zmq_ctx_new - 创建新的ZMQ上下文 1.1.2 概要 void * zmq_ctx_new(); 1.1.3 描述 ...
- RHEL-7.0重置root密码
RHCE考试第一个环节就是重置root密码,然而7系列与6系列又存在着很大的不同.以下为RHEL-7.0系统对root密码重置的步骤! 1.开机出现引导菜单时按下e键 2.找到linux16行, ...
- JAVA编程之——反射Reflect
说到反射,首先要说一下Java中的类和对象. 在Java中万事万物皆对象(有两个 例外,一个是普通数据类型,另一个是静态的东西,静态的东西不是对象的,是属于类的). 在Java中,类也是对象,类是ja ...
- 11个实用的CSS学习工具[转载收藏]
1. 盒子模型的幻灯片 通过3D转换效果产生的互动的幻灯片.按向左或向右箭头键切换,全屏观看会有更好的效果. 2. CSS Diner 通过一个简单的小游戏让你学习CSS selector,输入正确的 ...
- Scrapy可视化管理软件SpiderKeeper
通常开发好的Scrapy爬虫部署到服务器上,要不使用nohup命令,要不使用scrapyd.如果使用nohup命令的话,爬虫挂掉了,你可能还不知道,你还得上服务器上查或者做额外的邮件通知操作.如果使用 ...
- 介绍一个强大的画图类 CImage(转)
我们知道,Visual C++的CBitmap类和静态图片控件的功能是比较弱的,它只能显示出在资源中的图标.位图.光标以及图元文件的内容,而不像VB中的Image控件可以显示出绝大多数的外部图像文件( ...
- CSV转excel方法
步骤一:新建excel文件,数据—>自文本,导入文件 步骤二:选择分隔符,下一步 步骤三:勾选分隔符符合,下一步 步骤四:直接下一步,可在预览里看到格式 步骤五:点击确定,等待数据导入
- classList属性
1.传统方法: 在操作类名的时候,需要通过className属性添加.删除和替换类名.如下面例子: ? 1 <div class="bd user disabled"> ...