hadoop入门(1)——hadoop概述
一、hadoop生态系统特点
开源、社区活跃、涉及分布式存储和计算的整个生态系统、已得到企业界验证。
hadoop1.0与2.0版本的比较:
1.0包含HDFS+MapReduce。
2.0包括HDFS+YARN+MapReduce+Others
主要区别在于引入了YARN层。集群资源管理层。



二、hadoop介绍(以2.0版本为主)
1、分布式存储系统HDFS
分布式存储系统
提供了高可靠性、高扩展性和高吞吐率的数据存储服务。
具备线性扩展的能力。
源自于Google的GFS论文,HDFS是GFS的克隆版。
HDFS具有良好的扩展性、高容错性(通过数据冗余来实现)、适合PB级以上海量数据的存储。
基本原理:
将文件切分为等大的数据库,存储到多台机器上(分布式文件存储系统)
将数据切分、容错、负载均衡等功能透明化。
可将HDFS看成一个容量巨大、具有高容错性的磁盘。
namenode、datanode、zookeeper。
应用场景:
海量数据的可靠性存储。
数据归档。
HDFS架构图(待补充):master-slave架构
2、资源管理系统YARN(Yet Another Resource Negotiator)
负责集群资源的统一管理和调度。是hadoop2.0新增的系统。
使得多个计算框架可以运行在一个集群中。
具有良好的扩展性、高可用性。
自带了多种多用户调度器,适合共享集群环境。
YARN调度图(待补充)
YARN 架构图(待补充):master-slave结构。
3、分布式计算框架MapReduce
分布式计算框架。易于编程、高容错性、高扩展性。
源自于Google的MapReduce论文。
具有良好的扩展性、高容错性(某个节点失败调度到其他节点)、适合PB级以上的海量数据的离线处理。
架构图(待补充)
三、hadoop生态系统
1.0生态系统图。
2.0生态系统图。
HDFS、MapReduce、Hive(数据仓库)、pig(工作流引擎)、mahout(数据挖掘库)、
Oozie(作业流调度系统)、Hbase(分布式数据库)、sqoop(数据TEL工具)、
Flume(日志收集)、Zookeeper(分布式协调服务)、Ambari(安装部署工具)
YARN、Tez(DAG计算)、Spark(内存计算)、Hive2、Pig2、shark
hive:基于MR的数据仓库,是Facebook开源的。Hive定义了HQL查询语言。通常用于离线数据处理。是MR的语言翻译器。
应用于日志分析,统计网站的PV\UV。
海量结构化数据离线分析。
低成本进行数据分析(因为不需要写MR程序)
Hive架构图。
pig:Yahoo开源,目的是提供一种基于MR的数据分析工具。定义了Pig Latin数据流语言。
Mahout:数据挖掘库,基于hadoop的机器学习和数据挖掘的工具。实现了很多聚类、分类算法。
HBase:源自于Google的Bigtable论文。高可用、高性能、面向列、高扩展性。
Zookeeper:源自于Google的Chubby论文。解决分布式环境下数据管理问题:
统一命名、状态同步、集群管理、配置同步。
Sqoop:数据同步工具。支持多种数据库(MySQL、DB2等),连接hadoop和传统数据库的桥梁。
Flume:cloudera开源的日志收集工具。将日志导入到hadoop中。
Oozie:作业流调度系统。
不同作业之间存在依赖关系(DAG),周期性作业、定时执行的作业、作业执行状态监控与报警。
四、hadoop生态系统版本衍化
Apache hadoop、CDH(推荐)、HDP。
hadoop入门(1)——hadoop概述的更多相关文章
- 大数据初级笔记二:Hadoop入门之Hadoop集群搭建
Hadoop集群搭建 把环境全部准备好,包括编程环境. JDK安装 版本要求: 强烈建议使用64位的JDK版本,这样的优势在于JVM的能够访问到的最大内存就不受限制,基于后期可能会学习到Spark技术 ...
- hadoop入门:hadoop使用shell命令总结
第一部分:Hadoop Bin后面根据项目的实际需要Hadoop Bin 包括:Hadoop hadoop的Shellhadoop-config.sh 它的作用是对一些变量进行赋值 HAD ...
- Hadoop入门——初识Hadoop
一.hadoop是什么 Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力.几乎所有主流厂商都围绕Hadoop开发工具.开源软件.商业化工具和技术服务.今年大型IT ...
- hadoop入门篇-hadoop下载安装教程(附图文步骤)
在前几篇的文章中分别就虚拟系统安装.LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤. 在此之前有必要做一个简单的说明:分享的所有内容 ...
- Hadoop入门 之 Hadoop的安装
1.安装Hadoop的三大步骤 答:1.Linux环境,2.JDK环境,3.配置Hadoop. 2.安装Linux 答:利用阿里云,腾讯云等公有云.选择Ubuntu进行安装,然后利用小putty进行操 ...
- Hadoop入门 之 Hadoop常识
1.Hadoop是什么? 答:Hadoop是开源的分布式存储和分布式计算平台. 2.Hadoop的组成是什么? 答:Hadoop由HDFS和MapReduce这两个核心部分组成. HDFS(Hadoo ...
- 初识Hadoop入门介绍
初识hadoop入门介绍 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. < ...
- Hadoop入门必须知道的简单知识
Hadoop入门知识 Hadoop构成 Hadoop由4个主要构成部分: 1) 基础核心:提供基础的通用的功能 2) HDFS:分布式存储 3) MapReduce:分布式计算 4) YARN:资源分 ...
- 一、Hadoop入门概述
一.Hadoop是什么 Hadoop是一个由Apche基金会所开发的分布式系统基础架构. 主要解决海量数据的存储和海量数据的分析计算问题. 广义上来说,Hadoop通常是指一个更广泛的概念—Hadoo ...
- hadoop入门手册4:Hadoop【2.7.1】初级入门之命令:文件系统shell1
问题导读1.Hadoop文件系统shell与Linux shell有哪些相似之处?2.如何改变文件所属组?3.如何改变hdfs的文件权限?4.如何查找hdfs文件,并且不区分大小写? 概述文件系统 ( ...
随机推荐
- 走进AngularJs(一)angular基本概念的认识与实战
一.前言 前端技术的发展是如此之快,各种优秀技术.优秀框架的出现简直让人目不暇接,作为一名业界新秀,紧跟时代潮流,学习掌握新知识自然是不敢怠慢.当听到AngularJs这个名字并知道是google在维 ...
- js中let和var定义变量的区别
let变量之前没见过,刚遇到,探探究竟. 以下转自:http://blog.csdn.net/nfer_zhuang/article/details/48781671 声明后未赋值,表现相同 (fun ...
- js判断浏览器类型以及浏览器版本
判断浏览器类型: if navigator.userAgent.indexOf(”MSIE”)>0) {} //判断是否IE浏览器 if(isFirefox=navigator.userAg ...
- 【bzoj1227】 SDOI2009—虔诚的墓主人
http://www.lydsy.com/JudgeOnline/problem.php?id=1227 (题目链接) 题意 一个n*m的公墓,一个点上要么是墓地,要么是常青树,给出一个数K,并规定每 ...
- 介绍对称加密算法,最常用的莫过于DES数据加密算法
DES DES-Data Encryption Standard,即数据加密算法.是IBM公司于1975年研究成功并公开发表的.DES算法的入口参数有三个:Key.Data.Mode.其中Key为8个 ...
- Unicode, UTF, ASCII, ANSI format differences
Going down your list: "Unicode" isn't an encoding, although unfortunately, a lot of docume ...
- ASP.NET中使用JqGrid完整实现
文章提纲 介绍 & 使用场景 JqGrid的一些说明 JqGrid和ASP.NET整合详细步骤 前置准备 框架搭建 数据填充 数据增/删/改 其他 介绍&使用场景 JqGrid不是一个 ...
- [Head First设计模式]生活中学设计模式——组合模式
系列文章 [Head First设计模式]山西面馆中的设计模式——装饰者模式 [Head First设计模式]山西面馆中的设计模式——观察者模式 [Head First设计模式]山西面馆中的设计模式— ...
- javascript数据结构与算法---栈
javascript数据结构与算法---栈 在上一遍博客介绍了下列表,列表是最简单的一种结构,但是如果要处理一些比较复杂的结构,列表显得太简陋了,所以我们需要某种和列表类似但是更复杂的数据结构---栈 ...
- toolkit --------chart属性
Data Visualization类组件以直观的图表方式显示数据的分布,能够让我们更好地分析各数据的内在联系.本文主要向大家介绍该类组件的基本特性以及使用实例. 一.基本特性介绍 1.chart组件 ...