大数据

概述
- 大数据是新处理模式才能具备更多的决策力，洞察力，流程优化能力，来适应海量高增长率，多样化的数据资产。
大数据面临的问题
- 怎么存储海量数据(kb，mb，gb，tb，pb，eb，zb)
- 怎么对数据进行降噪处理(对数据进行清洗，使得数据变废为宝，提取有用的数据，减少不必要的数据资源空间的释放)
处理方案

hadoop 是一种分布式文件存储系统来解决存储的问题，其中hdfs用来解决数据存储问题，mapReduce来解决如何进行建造处理

hadoop是什么？　
- 由来？
  - 根据google发布的3篇文章
  1. google　File System
  2. Google Bigtable
  3. Google MapReduce 获得启发 hadoop之父 Doug Cutting 用java语言解决大数据所面临的问题
- 概述
  - hadoop 是apache基金会的一款开源的分布式的基础架构，它实现了高容错率，乃至高吞吐量，低成本，由于hadoop用java语言编写可以用在linux是非常可靠的，hadoop核心设计是hdfs和mapReudce以及Hbase分别对应这又google3篇文章，解决了大数据所面临的问题
    - hdfs 分布式文件存储系统
    - mapreduce 分布式计算框架只需要少量的java代码就能实现分布式计算
    - hbase 基于HDFS 的列式存储的NoSql
- hdfs
  - 分布式文件存储系统，其中有nameNode，dataNode，block，nameNode负责管理着dataNode，dataNode负责接收读写请求和nameNode协调工作，负责block快的创建和复制，nameNode存储着元数据，datanode和block中的映射关系

- 　nameNode 存储元数据 (用来描述数据的数据)，负责管理dataNode 与dataNode 协调
- dataNode 负责nameNode的读写请求，用来存储数据块的节点，向nameNode报告自己的快信息
- block 数据快 hdfs 最小默认128mb 为一块，没一块默认有3个副本
- rack 机架用来放置存储节点，提高容错率，高吞吐量。优化存储和计算
　　nameNode和SecondaryNameNode 之间的关系

　　　 fsimage 元数据的备份会被加载到内存当中去

　　　 edits 读写请求的日志文件

　　　nameNode 会在启动的时候加载 fsimage 和 edits ，这2个文件不会凭空出现，所以要格式化nameNode

　　　当用户在操作文件时，由于edits的增加，导致了nameNode启动会越来越慢，所以就出现了SecondaryNameNode 可以简单来说，他是nameNode的一个副本，当到达检查点的时候，也就是hdfs 默认 1个小时或者日志操作量级达到100w条的时候，此时SecondaryNameNode会将fsimage和edits加载过来进行合并，此时，若是有读写请求过来的时候会被加载到一个叫edits-inprogess的文件进行记录读写请求，fsimage和edits合并之后会成为一个新的fsimage，而此时edits-inprogess会改名为edits

- 小问题：为什么一个块的大小默认是128mb
  - 在hadoop 1x 的时候默认快的大小为64 但是随着硬盘的变大在hadoop2x的时候快的大小变成了128m ，此时默认最佳状态是寻址时间是传输速度的100/1
　mapReduce
- - 概念：分布式计算框架。用于大规模的数据计算，采用并行计算，充分的利用了dataNode的物理存储机制，采用了(Map)映射（Reduce）规约，他极大的方便了程序员不会分布式并行编程的情况下，将自己的程序运行在分布式系统上，思想就是将一个键值对放在map 里然后使用Reduce 进行统筹规划，保证所有的映射的键值队中每一个共享的键组
- mapReduce最擅长做的就是分而治之；
  - 分就是把一个庞大复杂的任务分解成若干个简单的任务来处理，简单的任务包含有3层
  1. 相对于原来的数据要大大缩小
  2. 所有的任务中并行计算，且互不干扰
  3. 就近计算原则
  - 治之　Reduce 负责对map计算的结果进行统筹汇总
  - 要实现mapReduce 首先得借助一个资源调度平台 Yarn
Yarn
- - 概念　Yarn 作为资源调度平台，其中有一个最大的管理者，ResourceManager 　负责着资源的统筹分配，还有各个节点的管理着，NodeManager 负责向ResourceManager进行资源状态的报告，在NodeManager 中还有一个 MRAppMaster ，负责申请计算资源，协调计算任务并和NodeManager一起执行监视任务
  1. ResourceManager 负责对集群的整体资源和计算做统筹规划
  2. NodeManager 管理主机上的计算组员，负责报告自身的状态信息
  3. MRAppMaster 负责向ResourceManager负责申请资源，协调计算任务
  4. YarnChild 做实际的计算任务
  5. Container 计算资源的抽象单位

大数据相关概念和hdfs的更多相关文章

《OD大数据实战》HDFS入门实例
一.环境搭建 1. 下载安装配置 <OD大数据实战>Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境 ...
大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...
大数据小白系列——HDFS(4)
这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: ...
大数据小白系列——HDFS(3)
这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念. 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机 ...
大数据小白系列——HDFS(2)
这里是大数据小白系列,这是本系列的第二篇,介绍一下HDFS中SecondaryNameNode.单点失败(SPOF).以及高可用(HA)等概念. 上一篇我们说到了大数据.分布式存储,以及HDFS中的一 ...
大数据小白系列——HDFS(1)
[注1:结尾有大福利!] [注2:想写一个大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢,对不对.] 大数据是什么?抛开那些高大上但笼统的说法,其实大数据说的是两件 ...
大数据入门第六天——HDFS详解
一.概述 1.HDFS中的角色 Block数据: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是 ...
大数据基础总结---HDFS分布式文件系统
HDFS分布式文件系统文件系统的基本概述文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metad ...
Hadoop大数据平台入门——HDFS和MapReduce
随着硬件水平的不断提高,需要处理数据的大小也越来越大.大家都知道,现在大数据有多火爆,都认为21世纪是大数据的世纪.当然我也想打上时代的便车.所以今天来学习一下大数据存储和处理. 随着数据的不断变大, ...

随机推荐

Maven 项目在 Eclipse 的创建配置
第1步 New 菜单 Other.. -> Maven -> Maven Project ,然后单击 Next .如下图所示第2步在New Maven Project向导中,选择Cre ...
CRM、ERP是什么？
CRM 全称 Customer Relationship Management,中文意思是客户关系管理. 为什么会有CRM? 因为我们进入到了产能过剩时代,从卖方市场过渡到买方市场,为了将产品卖出去, ...
一致性hash算法--负载均衡
有没有好奇过redis.memcache等是怎么实现集群负载均衡的呢? 其实他们都是通过一致性hash算法实现节点调度的. 讲一致性hash算法前,先简述一下求余hash算法: hash(object ...
静态方法staticmethod和类方法classmethod
静态方法staticmethod和类方法classmethod 一.类方法classmethod 把一个方法变成一个类中的方法,这个方法可以直接利用类来调用,不需要依托任何的对象,即不需要实例化也可以 ...
c语言从入门到精通的几个阶段
本文主要结合往期学员学习阶段,因材施教整理的几个阶段学习路线知识点: 1.初级教程初级c语言入门教程比较适合零基础的小白,这个周期一般在22天,度过这个阶段的小白,基本上已经拥有了编程思维,且能开发 ...
asp.net core使用serilog将日志推送到腾讯云日志服务
为什么是serilog? Serilog是 .NET 中最著名的结构化日志类库. 基于日志事件log events,而不是日志消息log message. 你可以将日志事件格式化为控制台的可读文本或者 ...
SpringBoot系列-整合Mybatis（注解方式）
目录一.常用注解说明二.实战三.测试四.注意事项上一篇文章<SpringBoot系列-整合Mybatis(XML配置方式)>介绍了XML配置方式整合的过程,本文介绍下Spring ...
C# -- 模拟扑克牌发牌
C# -- 模拟扑克牌发牌 1. User 类: 玩家 public class User { private List<PaperCard> listCard = new List&l ...
MinU: v2 Vulnhub Walkthrough
主机层面扫描: 22 和 3306 端口 3306 端口默认是MySQL端口,但是这里尝试爆破报错,最后通http访问发现非MySQL协议,而是一个http的服务 http的协议我们进行目录枚举下枚 ...
大疆无人机 Android 开发总结——视频解码
DJI_Mobile_SDK是大疆为开发者提供的开发无人机应用的开发接口,可以实现对无人机飞行的控制,也可以利用无人机相机完成一些视觉任务.目前网上的开发教程主要集中于DJI 开发者社区,网上的资源非 ...

大数据相关概念和hdfs

大数据

概述

大数据面临的问题

处理方案

hadoop是什么？

nameNode和SecondaryNameNode 之间的关系

大数据相关概念和hdfs的更多相关文章

随机推荐

热门专题

hadoop是什么？　

　　nameNode和SecondaryNameNode 之间的关系