Google File System 见解 (作业)
Google File System
——见解
近年来,大街小巷都传遍的大数据,引起了社会的一阵学习大数据狂热,造成任何公司在招聘人员的时候都会注上一条,会大数据的优先考虑;但是,从另一方面来说,这狂热是否是正确的,还有对大数据有多少人能真正的了解呢?它的理论基础是什么,是什么促进了大数据的狂热。下面是我对大数据以及诞生它的理论基础论文的见解。
首先,大数据是什么。我想做个简单的介绍,大数据是当数据大到人类已经无法处理的地步,才被认可为大数据。而不是平常我们的书本知识或者生活的数据能比拟的。而是远远超过了人类的存储能力,且无法快速处理的数据。这是我对大数据的看法。当然,官方的定义是,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
为什么只在计算机出现后才会被重视,大数据并不是现在才诞生,而是从古往今都有这个观点,只是因为古时候数据的存储极为不方便;况且,众观历史,流传下来的都是经过加工的数据,即称为信息。而不是原始的数据,这已经不是大数据中的原始数据了,而是被加工过后的数据。而电子计算机出现后,数据的存储大大简化了,一个硬盘既可以存储许多知识,目前有关记载的数据应该不会超过100PB,但是100PB对于现代而言,数据量是多么的渺小,所以大数据出现之所以在计算机出现后才被重视是因为得利于存储方式的改变,存储量的改变。
Google File System是大数据的理论基础论文,也是给出了独特的见解。
以下是我对Google File System的见解。
GFS是一个可扩展的分布式文件系统,用于大型的、对大量的、分布式的数据进行访问的应用。同时它是运行于廉价的普通硬件上。从本质上来说,文件会被分割成固定大小的块(Chunk),存储在廉价服务器上,至少存储三份。
GFS由一个master和大量的chunkserver(chunk服务器)组成,同时可以被多个Client(客户端)访问;每一个文件都被拆成固定大小的块(Chunk)并由master产生一个全局唯一的不会改变的64b的chunk handle标志。存储在多台chunk服务器上。缺省情况下(也可以称为系统默认状态default),保存3个备份。如果master挂了,会有后备的master顶上,如果所有后备的master都挂了;那就需要从chunkserver中选取一个来充当master,而这个chunkserver是性能较为优秀的服务器,如果这个chunkserver被选举成master后又挂了,就需要通过再从剩余的chunkserver中选举master,直至所有chunkserver都挂了,这个选举行为才会结束,同时这个服务也会停止。
Master:管理元数据、协调整体系统的活动
Chunkserver:存储并维护数据块,可以进行读写操作。
Client:向master请求元数据,并根据master给的信息去访问对应的chunkserver。
首先,我先解释下元数据的意思,它在数据库里是表示一行的信息,一行可以有多列信息。比如,计算机的一个文件元数据有,名称、修改日期、文件类型、大小等信息;可能也含有别的意思。
Master和chunkserver的关系就是以下的解释,通过以上对元数据的解释,master就是只需要管理重要的信息如名字、控制信息、文件大小、文件存储在chunkserver的位置等属性,而文件并不存在master上,否则master会无法抵御大量的client访问,而是把数据存储到chunkserver中,类似于DNS(域名系统)的结构,顶层DNS服务器(可以看成master)只负责传递相邻层的域名服务器的信息,而不存储具体的域名服务信息,而是由下层的DNS服务器(可以看做chunkserver)负责存储域名服务信息,而顶层DNS服务器只是负责存储转发、映射DNS服务器间的信息,而不是真正的存储域名服务信息。当然,master需要在规定的时间向chunkserver发包,如果chunkserver没有回复,然后master再重发,如果chunkserver再没有回复,即可认为chunkserver挂掉了,当然也可以通过反向来监视master是否挂掉了。当然重发包的次数和重发包的间隔有规定,而不是简单以上的两次即可。
然后client需要访问数据(Data)时,需要先和master进行信息的交流,可能通过三次握手等方式,从master上传回client所需的元数据信息,比如数据保存在chunkserver的位置等信息,当然master是通过map(Key-value)返回的一对键值对,可能通过集合返回所需信息吧。然后client就从master传回的map中找到所需要的数据存储在哪个chunkserver位置的的信息,然后通过该信息,找到存储在chunkserver上的数据,并提取所需要的数据。至此client提取数据的路径也已经完成。总结来说,就是client从master上拿到元数据,然后所有的数据传输等操作都是client和chunkserver完成的,而master只是在开头提供给client信息然后,不参与数据的操作。
至此,以上是我对大数据和Google File System的见解,说的有点不是那么通畅,文笔不算太好,不过通过Google File System让我大致懂得了一些关于这方面的知识;当然,这里面还有许多的不足,希望通过后期的学习,能更系统化的了解大数据的本质核心。
Google File System 见解 (作业)的更多相关文章
- 《The Google File System》论文阅读笔记——GFS设计原理
一.设计预期 设计预期往往针对系统的应用场景,是系统在不同选择间做balance的重要依据,对于理解GFS在系统设计时为何做出现有的决策至关重要.所以我们应重点关注: 失效是常态 主要针对大文件 读操 ...
- 谷歌三大核心技术(一)The Google File System中文版
谷歌三大核心技术(一)The Google File System中文版 The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个 ...
- Colossus: Successor to the Google File System (GFS)
Colossus is the successor to the Google File System (GFS) as mentioned in the recent paper on Spanne ...
- Google file system
读完了Google file system论文的中文版,记录一下总结,懒得打字,直接上草图:
- 经典论文翻译导读之《Google File System》(转)
[译者预读] GFS这三个字母无需过多修饰,<Google File System>的论文也早有译版.但是这不妨碍我们加点批注.重温经典,并结合上篇Haystack的文章,将GFS.TFS ...
- The Google File System 中文版
摘要 我们设计并实现了Google文件系统,一个面向分布式数据密集型应用的.可伸缩的分布式文件系统.虽然运行在廉价的日用硬件设备上,但是它依然了提供容错功能,为大量客户机提供了很高的总体性能. 虽然与 ...
- 【转】谷歌三大核心技术(一)The Google File System中文版
The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的.可伸缩的分布式文件系统.GFS虽然运行在廉价 ...
- 学习 google file system 心得体会
Google File system文件系统,是在特别便宜的普通硬件设备上运行,它是一个面向大规模数据密集型运用的.可伸缩的分布式文件系统. 与传统文件相比,它认为组件失效是很平常的事件,因为GFS包 ...
- Google File System 学习
摘要 Google的人设计并实现了Google File System,一个可升级的分布式文件系统,用于大的分布式数据应用.可以运行在廉价的日用硬件上,具备容错性,且为大量客户端提供了高聚合的性能. ...
随机推荐
- Spring+SpringMVC+MyBatis+easyUI整合进阶篇(十五)阶段总结
作者:13 GitHub:https://github.com/ZHENFENG13 版权声明:本文为原创文章,未经允许不得转载. 一 每个阶段在结尾时都会有一个阶段总结,在<SSM整合基础篇& ...
- Redis in Python:HyperLogLog(pfadd、pfcount、pfmerge)
redis HyperLogLog 可以接受多个元素作为输入,并给出输入元素的基数估算值. 基数:集合中不同元素的数量.比如 [foo', 'bar', 'foobar', 'bar', 'test' ...
- map和flatmap的区别+理解、学习与使用 Java 中的 Optional
转自:map和flatmap的区别 对于stream, 两者的输入都是stream的每一个元素,map的输出对应一个元素,必然是一个元素(null也是要返回),flatmap是0或者多个元素(为n ...
- 深入讨论channel timeout
深入讨论channel timeout Go 语言的 channel 本身是不支持 timeout 的,所以一般实现 channel 的读写超时都采用 select,如下: select { case ...
- golang 通过exec Command启动的进程如何关闭的解决办法 以及隐藏黑色窗口
golang 通过exec Command启动的进程如何关闭的解决办法 在用exec包调用的其他进程后如何关闭结束,可以使用context包的机制进行管理,context包的使用详见:https:// ...
- [HNOI2015]菜肴制作 拓扑序
逆序最大字典序拓扑序 反向建边,逆序字典序最大.. #include<cstdio> #include<cstring> #include<iostream> #i ...
- Redis详解(一)------ redis的简介与安装
工作中一直在用 Redis,但是一直没有进行系统的总结,这个系列的博客将整体的介绍 Redis 的用法. 1.Redis 的简介 Redis:REmote DIctionary Server(远程字典 ...
- React Native 之极光推送jpush-react-native 手把手配置
这是 react native 配置极光推送使用的组件,比较常用https://github.com/jpush/jpush-react-native 先把组件地址贴出来,方便大家使用参考.如果这个大 ...
- 使用Java实现二叉树的添加,删除,获取以及遍历
一段来自百度百科的对二叉树的解释: 在计算机科学中,二叉树是每个结点最多有两个子树的树结构.通常子树被称作“左子树”(left subtree)和“右子树”(right subtree).二叉树常被用 ...
- vue.js - 奇怪的 event 对象
好久都没有写点东西了, 前段时间工作搞得头大,真的就是一起加班到死了.废话不多说,写这篇文章是因为这次因为 event 对象闹了一个乌龙,以此总结一下. 一.event 对象 (一)事件的 event ...