大数据：Hadoop（简介）

一、简介

定义：开源的，做分布式存储与分布式计算的平台；
功能：搭建大型数据仓库，对PB级数据进行存储、处理、分析、统计等业务；（如日志分析、数据挖掘）

Hadoop工作模块

Common：提供框架和工具，对其它Hadoop模块的支持；
Distributed File System（HDFS：分布式文件系统）：负责数据的存储；
YARN：作业的调度及资源管理；
MapReduce：基于YARN的并行处理框架；

二、Hadoop 功能模块

　1）HDFS（分布式文件系统）

特点

可扩展，可容错、可海量的存储数据；
将文件切分成指定大小的数据块（一般默认128M），并以多副本的存储在多个机器上；（达到容错目的）
数据切分、多副本、容错等操作对用户是透明的；

实例简介

有 8 个节点（一般指单个服务器，一个独立的磁盘）；
part-0（Filename）：文件名；
r:2（numReplicas）：表示 part-0 文件有 2 个副本；
{1, 3}（block-ids）：表示 part-0 文件被切分为 1 和 3 两部分；

对多个 block 进行编号，保证读取文件的数据时，不同数据被读取的顺序不变；

　2）YARN（Yet Another Resource Negotiator）

功能：负责整个集群资源的管理和调度；
特点：可扩展（如：计算能力不足时可添加机器）、可容错、多框架资源统一调度（可以跑不同的框架，进而可以进行针对不同的业务）；

实例简介

可多个不同类型的框架同时进行；

　3）MapReduce

功能：分布式计算框架；
特点：可扩展、可容错、做海量数据离线处理（不能实时处理）；

实例简介
计算过程：（例：world count process，统计文章中所有单词的出现次数）

Input：输入操作文件；
Splitting：将操作文件分割为 3 部分；（一般会分别放在 3 台机器上进行操作计算，可提高效率）
Mapping：以空格为分隔符，将每部分文章拆分成单个词汇；

三、Hadoop 优势及其生态系统

　1）Hadoop 的优势

高可靠性

存储方面：数据块多副本；（防止数据块丢失）
计算方面：如果出现错误，会重新调度作业进行计算；

扩展性

　　存储/计算资源不够时，可以添加横向的线性扩展机器；

　　一个集群中可以包含数以千计的节点；

其它

可以存储在廉价的机器上，降低成本；
具有成熟的生态圈；

　2）Hadoop 生态系统

狭义的 Hadoop：一个适合大数据分布式存储（HDFS）、分布式计算（MapReduce）和资源调度（YARN）的平台；
广义的 Hadoop：指Hadoop生态系统，Hadoop 生态系统是一个很庞大的概念，hadoop 是其中最重要最基础的一部分；生态系统中的每一个子系统只解决某一个特定的问题域（甚至可能很窄），不搞统一型的一个全能系统，而是小而精的多个小系统；

Hive：通过 SQL 语句进行统计分析；（Hive 的执行引擎将 SQL 语句转换为Map Reduce，提交到集群上进行计算）
R Connectors：R 语言，一般做统计分析；
Pig：通过脚本方式进行统计分析；（将脚本转换为 Map Reduce，一般做离线处理）
Ooize：配置具有依赖关系的数据，一步步有序的执行；（执行顺序排列好后，不能乱序执行）
Zookeeper：管理多种框架，做分布式的协调服务；（如果某个执行框架出现问题，可做单点的切换，执行其他框架）
Flume：日志收集框架；（分布式的，使用配置文件，收集多个服务器上的运行日志）
Sqoop：数据传输交换工具，用于传统的关系型数据库与 Hadoop 之间进行数据传输，双向的；（可将传统数据库中的数据直接抽取到 HDFS、Hive 或者 Hbase 中）
Hbase：实时查询数据；是针对结构化数据的一个可伸缩、可扩展、高性能、面向列的一个数据库，或者说是Hadoop 中的一个数据库；

一般使用不同框架解决特定域的问题；

生态系统特点：所有框架都是开源的，可根据源码做定制化开发，并且社区活跃；

大数据：Hadoop（简介）的更多相关文章

成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程：MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...
云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程：通过HDFS的心跳来测试replication具体的工作机制和流程
这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程. 通过HDFS的心跳来测试repl ...
云计算分布式大数据Hadoop实战高手之路第八讲Hadoop图文训练课程：Hadoop文件系统的操作实战
本讲通过实验的方式讲解Hadoop文件系统的操作. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云 ...
14周事情总结-机器人-大数据hadoop
14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面昨天参与舵机的测试,遇到的问题:舵机不动排查 ...
大数据Hadoop学习之搭建hadoop平台（2.2）
关于大数据,一看就懂,一懂就懵. 一.概述本文介绍如何搭建hadoop分布式集群环境,前面文章已经介绍了如何搭建hadoop单机环境和伪分布式环境,如需要,请参看:大数据Hadoop学习之搭建had ...
大数据hadoop面试题2018年最新版（美团）
还在用着以前的大数据Hadoop面试题去美团面试吗?互联网发展迅速的今天,如果不及时更新自己的技术库那如何才能在众多的竞争者中脱颖而出呢? 奉行着"吃喝玩乐全都有"和"美 ...
搭建大数据hadoop完全分布式环境遇到的坑
搭建大数据hadoop完全分布式环境,遇到很多问题,这里记录一部分,以备以后查看. 1.在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -forma ...
我搭建大数据Hadoop完全分布式环境遇到的坑---hadoop： command not found
搭建大数据hadoop环境,遇到很多问题,这里记录一部分,以备以后查看. [遇到问题].在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -forma ...
[转帖]大数据hadoop与spark的区别
大数据hadoop与spark的区别 https://www.cnblogs.com/adnb34g/p/9233906.html Posted on 2018-06-27 14:43 左手中倒影阅 ...

随机推荐

hive基础知识五
Hive 主流文件存储格式对比 1.存储文件的压缩比测试 1.1 测试数据 https://github.com/liufengji/Compression_Format_Data M 1.2 T ...
docker 创建私有镜像之 registry
一.下载 registry 镜像 [root@localhost ~]# docker pull registry Using default tag: latest latest: Pulling ...
c++功能与方法笔记
1. windows判断创建目录 #include <Shlwapi.h> #pragma comment(lib, "shlwapi.lib") //windows ...
System.getProperty("line.separator") 是什么意思?
在java中存在一些转义字符,比如"\n"为换行符,但是也有一些JDK自带的一些操作符比如 : System.getProperty("line.separator&q ...
【Gamma阶段】第五次Scrum Meeting
[Gamma阶段]第五次Scrum Meeting 每日任务内容今日工作任务明日待完成任务配合前端调整评论页面的样式课程列表页针对移动端进行调整戴荣 Gamma阶段后测试点样例编写移除部分 ...
c# 异步调用（异步模式，基于事件）
c# 异步调用之异步模式Func<string, IImageRequest, string> downloadString = (address, req) => { var cl ...
自定义Ribbon的负载均衡策略
自定义负载均衡策略官方文档指出:自定义的负载均衡配置类不能放在 @componentScan 所扫描的当前包下及其子包下,否则我们自定义的这个配置类就会被所有的Ribbon客户端所共享,也就是说我们 ...
Python【每日一问】27
问: [基础题1]:将一个正整数分解质因数.例如:输入 90, 打印出 90=2*3*3*5 . [基础题2]:一个数如果恰好等于它的因子之和,这个数就称为“完数” .例如6=1+2+3.请找出 10 ...
C++ getline()的两种用法
getline():用于读入一整行的数据.在C++中,有两种getline函数.第一种定义在头文件<istream>中,是istream类的成员函数:第二种定义在头文件<string ...
sql的插入或者修改
<select id="insertOrUpdateTenantDetail" parameterType="tenantDetailDO"> IN ...

大数据：Hadoop（简介）

一、简介

二、Hadoop 功能模块

1）HDFS（分布式文件系统）

特点

实例简介

2）YARN（Yet Another Resource Negotiator）

实例简介

3）MapReduce

实例简介

三、Hadoop 优势及其生态系统

1）Hadoop 的优势

高可靠性

扩展性

其它

2）Hadoop 生态系统

一般使用不同框架解决特定域的问题；

大数据：Hadoop（简介）的更多相关文章

随机推荐

热门专题

　1）HDFS（分布式文件系统）

　2）YARN（Yet Another Resource Negotiator）

　3）MapReduce

　1）Hadoop 的优势

　2）Hadoop 生态系统