Hadoop学习-块、网络拓扑、副本策略、机架感知

原文链接：https://www.toutiao.com/i6627682068203586062/

一、我们先看一个大数据的实例

进到官网

我们进入到里面有个"网站统计"

我们查看Demo

我们进入到这个页面

我们可以统计该网站的用户访问量

我们百度一个旅游网站（马蜂窝）

进入到官网

我们打开开发者工具（谷歌浏览器使用F12）我们选择Network

点击一个图片，开发者工具其中有一条内容表示我们点击的图片（选择这个链接，按图选择）

我们找到图片的链接

这个就是我们的地址

我们选择解码

我们进入到官网，选择解码

解码后的内容

里面有很多信息，比如X和Y是屏幕坐标等等

然后我们进入到友盟里，选择热点图

这个图和前面的链接结合起来，就可以分析出页面点击率（热点图）

二、Hadoop

HDFS是分布式文件系统，用来存储数据的。

两个角色：

Namenode负责管理文件的名称空间

Datanode负责存储数据，会定时向namenode进行汇报，是一个list。

补充概念：

（1） HDFS的块(block)

（2）文件的分块(chunk)

（3）网络拓扑

（4）机架感知

1、HDFS的块(block)

磁盘是分数据块的，默认大小512B

磁盘：一个600B的文件，分成两个部分一个是512B，一个是88B。

512B存到1号分块中，88B存到2号分块中。下次如果有一个新的文件，是不会再补充到2号分块中，只会往后继续存放。

HDFS：抽象在磁盘之上，有上述磁盘类似的概念。

但有不同点：

（1） block默认大小，Hadoop1.x 64M Hadoop2.x 128M。

（2） HDFS：一个200M的文件，分成两个部分一个是128M，一个是72M。

128M存到1号分块中，72M存到2号分块中。下次如果有一个新的文件，是会补充到2号分块中（是逻辑理解上）。

HDFS分块大小为什么是128M？答案：最小化寻址时间

例子：假如我们的磁盘速率是100M/s,磁头寻址时间是10ms，在整个传输过程中，让寻址时间仅仅占传输时间的1%,传输的文件大小是100M。

100在2的N次方中离128最近。

2、文件的分块(chunk)

Chunk默认的大小和block是一样的。可以调整，建议和block一样。

3、网络拓扑

每个节点是有可能出现问题的，比如Server1这个节点突然断电了，那么就会存在丢失数据的情况。如何最大程度避免这个问题呢？

Hadoop选择备份数据，将BLK_1备份到多台机器上，比如三台机器上，一个机器出问题了，还有两个机器可以使用。

网络拓扑

在机架rack1上服务器节点r1n1和r1n4通信，通过网络是要消耗网络资源的，所以使用距离的概念来表示每台节点之间通信消耗网络带宽的计量单位。

那么r1n1至r1n4的距离是多少呢？

我们认为在一个机架上，一台节点到路由器有几根线距离就是几，比如r1n1至路由器距离就是1，r1n4至路由器距离就是1,那么r1n1和r1n4连接的是一台路由器，那么他们的距离就是2。

如果有不同机架

那么距离r1n1->r2n1就是4。

如果不同数据中心之间也是通过路由器/交换机做数据交的。

一般都有会说：跨节点距离是2、跨机架是4、跨数据中心是6。

4、副本放置策略

假设有一个块block，备份3份

（1）第一块副本，如果客户端程序在集群的某一个节点，那么第一块副本就放在这个节点上；如果不在，就随机找一个节点放置

（2）第二块副本，放在非第一块副本所在的机架，而是选择其它机架上的一个节点

（3）第三块副本，放在第二块副本同机架不同节点

5、机架感知

如果不配置，Hadoop会认为所有节点在一个机架上

网上有个例子，用配置的方式告诉Hadoop节点的位置

Hadoop学习-块、网络拓扑、副本策略、机架感知的更多相关文章

ZooKeeper学习之路（十）Hadoop的HA集群的机架感知
一.背景 Hadoop 的设计目的:解决海量大文件的处理问题,主要指大数据的存储和计算问题,其中, HDFS 解决数据的存储问题:MapReduce 解决数据的计算问题 Hadoop 的设计考虑:设计 ...
HDFS网络拓扑概念及机架感知（副本节点选择）
网络拓扑概念在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺.这里将两个节点间的带宽作为距离的衡量标准. 节点距离:两个节点 ...
HDFS副本放置策略和机架感知
副本放置策略的副本放置策略的基本思想是: 第一block在复制和client哪里node于(假设client它不是群集的范围内,则这第一个node是随机选取的.当然系统会尝试不选择哪些太满或者太忙的 ...
深入理解hadoop之机架感知
深入理解hadoop之机架感知机架感知 hadoop的replication为3,机架感知的策略为: 第一个block副本放在和client所在的datanode里(如果client不在集群范围内, ...
HDFS机架感知
Hadoop版本:2.9.2 什么是机架感知通常大型 Hadoop 集群是以机架的形式来组织的,同一个机架上的不同节点间的网络状况比不同机架之间的更为理想,NameNode 设法将数据块副本保存在不 ...
hdfs 机架感知和复制因子的设置
dfs.replication 新更新的复制因子的参数对原来的文件不起作用. 譬如说,原来的复制因子是2,则原来文件上传的时候就只有两个副本. 现在把dfs.replication设置为3,重新启动h ...
Hadoop基础-网络拓扑机架感知及其实现
Hadoop基础-网络拓扑机架感知及其实现作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.网络拓扑结构在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其 ...
hadoop 集群中数据块的副本存放策略
HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性.可用性和网络带宽的利用率.目前实现的副本存放策略只是在这个方向上的第一步.实现这个策略的短期目标是验证它在生产环境下的有效 ...
hadoop机架感知与网络拓扑分析：NetworkTopology和DNSToSwitchMapping
hadoop网络拓扑结构在整个系统中具有很重要的作用,它会影响DataNode的启动(注册).MapTask的分配等等.了解网络拓扑对了解整个hadoop的运行会有很大帮助. 首先通过下面两个图来了解 ...

随机推荐

C# 使用modbus 读取PLC 寄存器地址
使用的组件Nmodbus 定义参数,全局变量: //创建modbus实体对象 private static ModbusFactory modbusFactory; private static IM ...
python函数概念
函数介绍函数就类似与一个工具,作用就是在有需求时可以直接使用. 函数作用 1.精简代码,不需要重复写代码. 2.提高代码兼容性 3.提供返回值函数语法结构 def 函数名(参数1, 参数2): & ...
Windows 10 彻底关闭 Antimalware Service Executable 降低内存占用
概述最近给内网的一台电脑安装 Windows 10 专业版系统,由于此电脑不会涉及到不安全因素,所以杀毒软件非必须. 以最大限度节省系统资源考虑,默认安装的 Micoroft Defender 占用 ...
权限设计的idea
1.角色增加两个字段,一级部门(如钻井事业部),党组织角色(或者团委在线角色)当然或者是其他的团委在线角色 2.增加一张表,标示在线模块(如党组织在线,团委在线,工会在线,纪检在线), 3.菜单(栏目 ...
js（jQuery）获取自定义data属性的值
有时候因为需要在标签上设置自定义data属性值, <div class="col-sm-6 col-md-4" id="get_id" data-c_id ...
c++指针函数和函数指针概述
欢迎指正代码写的不够规范: 目的是缩短文章篇幅,实际中请注意阅读完本文, 你一定能判断和写出:指针函数和函数指针. 0.结论 A.指针函数: 函数的返回值是指针类型 B.函数指针: 函数名是一个指 ...
【LeetCode】940. Distinct Subsequences II 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法动态规划日期题目地址:https://leetc ...
【LeetCode】897. Increasing Order Search Tree 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法重建二叉树数组保存节点中序遍历时修改指针参考资 ...
B. Destroying Roads
Destroying Roads 题目链接题意 n个点,m条边每两个点之间不会有两个相同的边,然后给你两个起s1,s2和终点t1,t2; 求删除最多的边后满足两个s1到t1距离\(<=l1\) ...
Monkey工具之fastbot-iOS实践
Monkey工具之fastbot-iOS实践背景目前移动端App上线后 crash 率比较高, 尤其在iOS端.我们需要一款Monkey工具测试App的稳定性,更早的发现crash问题并修复. 去 ...

Hadoop学习-块、网络拓扑、副本策略、机架感知

Hadoop学习-块、网络拓扑、副本策略、机架感知的更多相关文章

随机推荐

热门专题