摘要

Google的人设计并实现了Google File System,一个可升级的分布式文件系统,用于大的分布式数据应用。可以运行在廉价的日用硬件上,具备容错性,且为大量客户端提供了高聚合的性能。

与之前的分布式文件系统的目标一致,但Google的设计是基于对Google的应用负载和技术环境的观察的,包括当下和可预期的,这与一些早期的文件系统有着显著的不同。这让我们重新审视了传统的选择,并辐射性地探索不同的设计点。

该文件系统已经成功的满足了我们的存储需求。它被广泛地部署在Google内部作为存储平台,用于生成和处理数据 -- Google的服务以及研究和开发所使用的大量数据。截止到当前(2003年),最大的cluster提供了数以百计TB的存储 -- 通过一千部机器的数以千计的磁盘,且由数以百计的客户端并发访问。

在该论文中,他们呈现了文件系统接口扩展 -- 被设计成支持分布式应用,还讨论了他们的设计的很多方面,最后报告了测量结果 -- 来自微测试和实际世界的使用。

类别和主题描述:分布式文件系统。

主要词条:设计、可靠性、性能、测量。

关键词:容错性、可升级性、数据存储、集群存储。

1、介绍

首先,组件失效是一种常见现象,而非异常现象。文件系统由数以百计甚至数以千计的存储机器组成,而这些机器是由廉价的日常组件构建而成,并由同样数量级的客户端机器访问。组件的数量和质量使得在任何给定时刻都可能有一些机器失效,而又有一些并不能从其当前失效中恢复过来。我们见过有由应用bug、os bug、人为错误、磁盘/内存/连接器/网络/电源供应失效导致的问题。因此,constant 监视、错误探测、容错性、还有自动恢复必须集成到该系统中。

其次,文件是很巨大的 -- 相对于传统标准来说。几个GB的文件很常见。每个文件都包含很多应用对象,例如web documents。当我们

Google File System 学习的更多相关文章

  1. 学习 google file system 心得体会

    Google File system文件系统,是在特别便宜的普通硬件设备上运行,它是一个面向大规模数据密集型运用的.可伸缩的分布式文件系统. 与传统文件相比,它认为组件失效是很平常的事件,因为GFS包 ...

  2. Google File System 见解 (作业)

    Google File System ——见解 近年来,大街小巷都传遍的大数据,引起了社会的一阵学习大数据狂热,造成任何公司在招聘人员的时候都会注上一条,会大数据的优先考虑:但是,从另一方面来说,这狂 ...

  3. 经典论文翻译导读之《Google File System》(转)

    [译者预读] GFS这三个字母无需过多修饰,<Google File System>的论文也早有译版.但是这不妨碍我们加点批注.重温经典,并结合上篇Haystack的文章,将GFS.TFS ...

  4. 《The Google File System》论文阅读笔记——GFS设计原理

    一.设计预期 设计预期往往针对系统的应用场景,是系统在不同选择间做balance的重要依据,对于理解GFS在系统设计时为何做出现有的决策至关重要.所以我们应重点关注: 失效是常态 主要针对大文件 读操 ...

  5. 谷歌三大核心技术(一)The Google File System中文版

    谷歌三大核心技术(一)The Google File System中文版  The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个 ...

  6. Colossus: Successor to the Google File System (GFS)

    Colossus is the successor to the Google File System (GFS) as mentioned in the recent paper on Spanne ...

  7. Google file system

    读完了Google file system论文的中文版,记录一下总结,懒得打字,直接上草图:

  8. The Google File System 中文版

    摘要 我们设计并实现了Google文件系统,一个面向分布式数据密集型应用的.可伸缩的分布式文件系统.虽然运行在廉价的日用硬件设备上,但是它依然了提供容错功能,为大量客户机提供了很高的总体性能. 虽然与 ...

  9. 【转】谷歌三大核心技术(一)The Google File System中文版

      The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的.可伸缩的分布式文件系统.GFS虽然运行在廉价 ...

随机推荐

  1. ssl与tls的差别

    1)版本号:TLS记录格式与SSL记录格式相同,但版本号的值不同,TLS的版本1.0便 用的版 本号为SSLv3.1. 2) 报文鉴别码:SSLv3.0和TLS的MAC算法的范围不同,但两者的安全层度 ...

  2. redis中键空间通知

    通过redis的键空间通知,当redis删除过期key的时候,及时更新mongodb数据库中user的状态 var Redis = require('ioredis'); var redis = ne ...

  3. linux命令(46):程序运行前后台切换

    A,Shell支持作用控制,有以下命令:1. command& 让进程在后台运行2. jobs 查看后台运行的进程3. fg %n 让后台运行的进程n到前台来4. bg %n 让进程n到后台去 ...

  4. wireshark in ubuntu

    安装 sudo apt-get install wiresharksudo dpkg-reconfigure wireshark-commonsudo usermod -a -G wireshark ...

  5. eclipse Maven 使用记录 ------ 建立app项目

    maven 项目构建工具 , 如今已逐渐取代ant的笨拙配置方式 ,使项目管理更加简单,规范,结构更加清晰,这里记录跟eclipse集成的一些步骤  1.从apache maven项目下下载maven ...

  6. ORA-12541:TNS:无监听程序 配置Oracle Myeclipse无法连接上 花费一天时间解决掉的

    背景:自己机子做oracle服务器,其他机子可以ping得通我的机子,但是jdbc就是连不上,后来用plsql连出现无监听程序.... 我昨天重新安装Oracle后,用PL/SQL Developer ...

  7. pandas的学习总结

    pandas的学习总结 作者:csj更新时间:2017.12.31 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结: 回主目录:2017 年学习记录和总结 1 ...

  8. Creating a Physical Standby Database 11g

    1.Environment Item Primary database standby database Platform Redhat 5.4 Redhat 5.4 Hostname gc1 gc2 ...

  9. [net]ftp ssh http telnet https服务及端口

    转自:http://blog.csdn.net/qq_34642668/article/details/52116490 FTP服务器,则是在互联网上提供存储空间的计算机,它们依照FTP协议提供服务. ...

  10. MySQL Master_Slave主从配置

    一.配置主数据库master 1.在主库Master创建用户. mysql>create user repl; //创建新用户 //repl用户必须具有REPLICATION SLAVE权限,除 ...