大数据之路week06--day07(Hadoop生态圈的介绍)
Hadoop 基本概念
一、Hadoop出现的前提环境
随着数据量的增大带来了以下的问题
(1)如何存储大量的数据?
(2)怎么处理这些数据?
(3)怎样的高效的分析这些数据?
(4)在数据增长的情况下如何构建一个解决方案?
在大数据领域提出了两个概念
(1)分布式文件系统 用于存储大量的数据
(2)分布式计算框架MapReduce高效的分析数据
以上的两个概念组成一个名词 Hadoop
二、Hadoop的起源
谷歌发布了三篇论文 : GFS 分布式存储系统 , MapReduce 分布式计算框架 , BigTable
Hadoop Google
HDFS GFS
MapReduce MapReduce
Hbase BigTable
三、Hadoop与其他的分布式系统比较
(1)Hadoop集群的数据首先先进行分布式的存储
(2)Hadoop集群上通过HDFS分布式文件系统,会把存储的数据复制多份,保证了数据的安全性
(3)提供了一个简单的易用的分布式计算框架
(4)Hadoop扩展容易
四、Hadoop中的版本
Hadoop存在版本的区别:
Hadoop1x版本中核心组件就是为 HDFS ,MapReduce
Hadop2x 版本依然存在HDFS,MapReduce,新增加了一个YARN
五、YARN介绍
(1)云操作系统,理解为资源管理器,管理集群中的资源在增加了YARN操作系统之后,MapReduce任务就可以跑在YARN平台上,通过YARN平台进行MapReduce任务的管理,资源的分配
(2)例如 也可以通过YARN平台运行Spark任务,包括可以读取HDFS上的数据文件
六、Hadoop生态圈的介绍
数据的来源,在企业中一般数据来源分为两种,第一种是企业内部的数据
例如:业务数据(保存在关系型数据库中),应用的服务器日志(日志文件),结构化数据
第二种是外部渠道获得:用户的行为记录(可以作为推荐系统的实现),通过搜索关键字,消费记录,爬虫技术,非结构化数据
数据要进行清洗 hive sqoop flume hbase hdfs mapreduce zookeeper
七、Hadoop的使用案例
现在使用Hadoop进行数据分析的公司越来越多,主要包括以下几种:
(1)为银行和信用卡公司进行欺诈性的检测
(2)社交媒体市场的分析
(3)电商网站的购物模式分析,用户行为分析
(4)城市的发展交通的模式识别
八、Hadoop的企业级应用主要包括四个层次
(1)存储层(HDFS Hbase)
(2)数据处理层 (Hive MapReduce)
(3)实时访问层(Spark Flink)
九、Hadoop中的组件信息
Hadoop中核心组件HDFS,YARN ,MapReduce
(1)HDFS架构
分布式存储系统,分布式的架构上存在 主/从 的架构关系在HDFS文件系统上存在主节点,以及从节点
主节点:namenode 负责管理HDFS集群文件中的元数据(文件的名称,文件的位置,文件的副本)
从节点:datanode负责存储真正的数据
(2)YARN架构
分布式的架构,分为主从架构
主节点 resourceManager负责管理集群中的所有资源(cpu,内存,磁盘,网络I/O)
从节点 nodeManager负责管理集群中每一台服务器的资源
(3)MapReduce 架构 核心思想 分而治之
Map端和Reduce端进行数据分析
数据在Map阶段进行分开处理,处理完成之后,再交给reduce进行统计,在Map和Reduce中间的阶段通过shuffle来进行连接。
大数据之路week06--day07(Hadoop生态圈的介绍)的更多相关文章
- 大数据之路week07--day03(Hadoop深入理解,JAVA代码编写WordCount程序,以及扩展升级)
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几 ...
- 大数据之路week06--day07(Hadoop常用命令)
一.前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下. 二.具体 1.启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yar ...
- 大数据系列(5)——Hadoop集群MYSQL的安装
前言 有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...
- 大数据系列(4)——Hadoop集群VSFTP和SecureCRT安装配置
前言 经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...
- 大数据系列(3)——Hadoop集群完全分布式坏境搭建
前言 上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
- 大数据系列(2)——Hadoop集群坏境CentOS安装
前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...
- Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
- CentOS6安装各种大数据软件 第一章:各个软件版本介绍
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...
- Hadoop生态圈-hbase介绍-完全分布式搭建
Hadoop生态圈-hbase介绍-完全分布式搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.
随机推荐
- ArcObjects中IMapAlgebraOp的使用体会
本文提供使用IMapAlgebraOp接口实现大部分栅格计算的简单方法. 1.首先,ArcObjects提供了很多关于栅格计算的方法,有条件运算.逻辑运算及数学表达式,如下: ...
- 多生产者多消费者(第一种方式),基于synchronized,wait,notifyAll
生产者消费者模式描述的是协调与协作关系.比如一个人正在准备食物(生产者),而另一个人正在吃(消费者),他们使用一个共用 的桌子用于放置盘子和取走盘子,生产者准备食物,如果桌子上已经满了就等待,消费者( ...
- [转帖]crontab每小时运行一次
crontab每小时运行一次 先给出crontab的语法格式 对于网上很多给出的每小时定时任务写法,可以说绝大多数都是错误的!比如对于下面的这种写法: 00 * * * * #每隔一小时执行一 ...
- Springmvc在项目启动时查询数据库并初始化静态变量
private static List<ResourceEntity> resourceList = null; //初始化的全局静态变量 @Autowired private Resou ...
- (三)Spring Boot 官网文档学习之默认配置
文章目录 继承 `spring-boot-starter-parent` 覆盖默认配置 启动器 原文地址:https://docs.spring.io/spring-boot/docs/2.1.3.R ...
- java8 : 流
package day02.com.offcn.test; import java.io.IOException; import java.nio.charset.Charset; import ja ...
- 长乐培训Day5
T1 圆圈舞蹈 题目 [题目描述] 熊大妈的奶牛在时针的带领下,围成了一个圈跳舞.由于没有严格的教育,奶牛们之间的间隔不一致. 奶牛想知道两只最远的奶牛到底隔了多远.奶牛A到B的距离为A顺时针走和逆时 ...
- 剑指offer28:找出数组中超过一半的数字。
1 题目描述 数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字.例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}.由于数字2在数组中出现了5次,超过数组长度的一半,因此输出 ...
- Fiddler讲解2
想要 浏览更多Fiddler内容:请点击进入Fiddler官方文档 阅读目录: 一.查看网络流量: 二.检查网络流量: 三.查看Web会话摘要: 四.查看Web会话统计信息: 五.查看Web会话内容: ...
- RabbitMQ消息队列入门(一)——RabbitMQ消息队列的安装(Windows环境下)
一.RabbitMQ介绍1.RabbitMQ简介RabbitMQ是一个消息代理:它接受和转发消息.你可以把它想象成一个邮局:当你把你想要发布的邮件放在邮箱中时,你可以确定邮差先生最终将邮件发送给你的收 ...