Hadoop大数据平台入门—

随着硬件水平的不断提高，需要处理数据的大小也越来越大。大家都知道，现在大数据有多火爆，都认为21世纪是大数据的世纪。当然我也想打上时代的便车。所以今天来学习一下大数据存储和处理。

随着数据的不断变大，数据的处理就出现了瓶颈：存储容量，读写速率，计算效率等等。

google不愧是走在世界前列的大公司，为了处理大数据，google提出了大数据技术，MapReduce，BigTable和GFS。

这个技术给大数据处理带来了巨大的变革。

1.降低了大数据处理的成本，用PC机就可以处理大数据，而不需要采用大型机和高端设备进行存储。

2.将硬件故障视为常态的基础上，采用了软件容错的方法，保证软件的可靠性。

3.简化并行分布式计算，不需要控制节点的同步和数据的交换，降低了大数据处理的门槛。

虽然google的技术非常好，但是google并没有将技术开源。不过值得庆幸的是，模仿google大数据的开源实现，Hadoop的出现了。

Hadoop是什么

Hadoop主要完成两件事，分布式存储和分布式计算。

Hadoop主要由两个核心部分组成：

1.HDFS：分布式文件系统，用来存储海量数据。

2.MapReduce：并行处理框架，实现任务分解和调度。

Hadoop能做什么

Hadoop能完成大数据的存储，处理，分析，统计等业务，在数据挖掘等方面应用广泛。

Hadoop的优势

1.高扩展性。简单的增加硬件就可以达到效果的提高。

2.低成本，用PC机就能做到。

3.Hadoop具有成熟的生态圈，比如Hive，Hbase，zookeeper等，让Hadoop用起来更方便。

说了这么多，我们还没了解Hadoop的机制。

我们首先就需要了解Hadoop的两个核心组成：HDFS和MapReduce。

HDFS是什么呢？

前面说过，HDFS是一个分布式文件系统，用来存储和读取数据的。

文件系统都有最小处理单元，而HDFS的处理单元是块。HDFS保存的文件被分成块进行存储，默认的块大小是64MB。

并且在HDFS中有两类节点：

1.NameNode和DataNode。

NameNode：

NameNode是管理节点，存放文件元数据。也就是存放着文件和数据块的映射表，数据块和数据节点的映射表。

也就是说，通过NameNode，我们就可以找到文件存放的地方，找到存放的数据。

DataNode：

DataNode是工作节点，用来存放数据块，也就是文件实际存储的地方。

这么说有点抽象，让我们来看图：

客户端向NameNode发起读取元数据的消息，NameNode就会查询它的Block Map，找到对应的数据节点。然后客户端就可以去对应的数据节点中找到数据块，拼接成文件就可以了。这就是读写的流程。

作为分布式应用，为了达到软件的可靠性，如图上所示，每个数据块都有三个副本，并且分布在两个机架上。

这样一来，如果某个数据块坏了，能够从别的数据块中读取，而当如果一个机架都坏了，还可以从另一个机架上读取，从而实现高可靠。

我们从上图还可以看到，因为数据块具有多个副本，NameNode要知道那些节点是存活的吧，他们之间的联系是依靠心跳检测来实现的。这也是很多分布式应用使用的方法了。

我们还可以看到，NameNode也有一个Secondary NameNode，万一NameNode出故障了，Secondary就会成替补，保证了软件的可靠性。

HDFS具有什么特点呢？

1.数据冗余，软件容错很高。

2.流失数据访问，也就是HDFS一次写入，多次读写，并且没办法进行修改，只能删除之后重新创建

3.适合存储大文件。如果是小文件，而且是很多小文件，连一个块都装不满，并且还需要很多块，就会极大浪费空间。

HDFS的适用性和局限性：

1.数据批量读写，吞吐量高。

2.不适合交互式应用，延迟较高。

3.适合一次写入多次读取，顺序读取。

4.不支持多用户并发读写文件。

了解完了HDFS，就轮到MapReduce了。

MapReduce是什么：

MapReduce是并行处理框架，实现任务分解和调度。

其实原理说通俗一点就是分而治之的思想，将一个大任务分解成多个小任务(map)，小任务执行完了之后，合并计算结果(reduce)。

也就是说，JobTracker拿到job之后，会把job分成很多个maptask和reducetask，交给他们执行。 MapTask、ReduceTask函数的输入、输出都是<key,value>的形式。HDFS存储的输入数据经过解析后，以键值对的形式，输入到MapReduce()函数中进行处理，输出一系列键值对作为中间结果，在Reduce阶段，对拥有同样Key值的中间数据进行合并形成最后结果。

首先我们需要先知道几个小概念：

1.job 2.task 3.jobTracker 4.taskTracker

job：在Hadoop内部，用Job来表示运行的MapReduce程序所需要用到的所有jar文件和类的集合，>这些文件最终都被整合到一个jar文件中，将此jar文件提交给JobTraker，MapReduce程序就会执行。

task：job会分成多个task。分为MapTask和ReduceTask。

jobTracker：管理节点。将job分解为多个map任务和reduce任务。

作用：
1.作业调度
2.分配任务，监控任务执行进度
3.监控TaskTracker状态

taskTracker：任务节点。一般和dataNode为同一个节点，这样计算可以跟着数据走，开销最小化。

作用：

1.执行任务

2.汇报任务状态

在MapReduce中，也有容错机制。

1.重复执行。一个job最多被执行4次。

2.推测执行。因为Map全部算完之后才会执行Reduce，如果其中一个Map很慢，就会多开一个task来完成同样的工作，哪个执行的快用哪个。

这样，我们就大致了解了Hadoop其中的原理，主要了解HDFS文件系统的存储过程和MapReduce的作业调度分配过程。

长按识别关注我们，每天都有精彩内容分享哦！~

Hadoop大数据平台入门——HDFS和MapReduce的更多相关文章

hadoop大数据平台安全基础知识入门
概述以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证即核实一个使用者的真实身份,一个使用者来使用大数据引 ...
【HADOOP】| 环境搭建：从零开始搭建hadoop大数据平台（单机/伪分布式）-下
因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [ ...
数据仓库和Hadoop大数据平台有什么差别？
广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统, 它也具有很多现代数据仓库的特征,也被企业所广泛使用.因为MPP架构的可扩展性,基于MPP的数据仓库系统有时候也被划分到大数据平台类 ...
单机，伪分布式，完全分布式-----搭建Hadoop大数据平台
Hadoop大数据——随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快.信息更是爆炸性增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这 ...
Hadoop大数据初入门----haddop伪分布式安装
一.hadoop解决了什么问题 hdfs 解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量mapreduce 解决了海量数据的分析处理,通用性强,易开发,健壮性 yarn 解决了资源管理调度二. ...
Hadoop大数据平台构建
基础:linux常用命令.Java编程基础大数据:科学数据.金融数据.物联网数据.交通数据.社交网络数据.零售数据等等. Hadoop: 一个开源的分布式存储.分布式计算平台.(基于Apache) H ...
[Hadoop大数据]--kafka入门
问题导读: 1.zookeeper在kafka的作用是什么? 2.kafka中几乎不允许对消息进行“随机读写”的原因是什么? 3.kafka集群consumer和producer状态信息是如何保存的? ...
Hadoop大数据平台节点的动态增删
环境:CentOS 7.4 (1708 DVD) 工具:MobaXterm 一. 节点的动态增加 1. 为新增加的节点(主机)配置免密码登录.使用ssh-keygen和ssh-copy-id命令(详 ...
Hadoop大数据平台搭建之前期配置（2）
环境:CentOS 7.4 (1708 DVD) 工具:VMware.MobaXterm 一. 克隆大数据集群 1. 选中已经进行了基本配置的虚拟机,进行克隆. 2. 此处改为"创建完整克 ...

随机推荐

Forcepoint
Forcepoint One Endpoint Diagnostics Tool C:\Program Files\Websense\Websense Endpoint\WEPDiag.exe &qu ...
依赖注入框架之androidannotations
主页: http://androidannotations.org/ 用途: 1. 使用依赖注入Views,extras,System Service,resources 2. 简化线程模型 3. 事 ...
flutter 切换tab后保留tab状态
前言最近在用flutter写一个小项目,在写主页面(底部导航栏+子页面)时遇到的一个问题:当点击底部item切换到另一页面, 再返回此页面时会重走它的initState方法(我们一般在initSta ...
springboot启动报错：Failed to configure a DataSource
一.背景 springboot的出现,让项目搭建变得更方便快捷,同时简化掉很多的样板化配置代码,提高开发效率. 通过idea生成springboot项目,启动报错:Failed to configur ...
JAVA VUser
JAVA VUser 一.java虚拟用户协议 java虚拟用户脚本主要有Java Vuser.Corba-Java.RMI-Java.EJB等类型.这些类型的虚拟用户脚本均可以用java语言来手工编 ...
SELECT * 测试
描述大家通常禁止在生产环境直接使用select * 已成常识了,也常常在开发规范中就会规定不允许直接使用select *,那么我们为什么不允许使用select * ,在一些什么场景下select * ...
Python中针对函数处理的特殊方法
Python中针对函数处理的特殊方法很多语言都提供了对参数或变量进行处理的机制,作为灵活的Python,提供了一些针对函数处理的特殊方法 filter(function, sequence):对se ...
SAS数据挖掘实战篇【一】
SAS数据挖掘实战篇[一] 1数据挖掘简介 1.1数据挖掘的产生需求是一切技术之母,管理和计算机技术的发展,促使数据挖掘技术的诞生.随着世界信息技术的迅猛发展,信息量也呈几何指数增长,如何从巨量.复 ...
[笔记] Ubuntu机器添加新硬盘安装流程
SSD虽然快,但是容量不够用,买了块希捷4TB的机械硬盘,准备给台机扩容. 安装环境 OS: Ubuntu 18.04 安装新硬盘问了客服,原来这款机箱已经带了硬盘滑槽,不需要固定螺钉了. 买了SA ...
java：Linux（简单命令，远程ssh使用hostname访问，.免密钥登录配置）
1.临时关闭防火墙: service iptables stop 临时开启防火墙: service iptables start 查看防火墙状态: service iptables sta ...

Hadoop大数据平台入门——HDFS和MapReduce

Hadoop大数据平台入门——HDFS和MapReduce的更多相关文章

随机推荐

热门专题