目前,国内自主研发的文件系统可谓凤毛麟角。淘宝在这一领域做了有效的探索和实践,Taobao File System(TFS)作为淘宝内部使用的分布式文件系统,针对海量小文件的随机读写访问性能做了特殊优化,承载着淘宝主站所有图片、商品描述等数据存储。本文揭秘了淘宝自主研发的文件系统TFS那些事儿。

AD:51CTO学院:IT精品课程在线看!

TFS(Taobao FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,其设计目标是支持海量的非结构化数据。

目前,国内自主研发的文件系统可谓凤毛麟角。淘宝在这一领域做了有效的探索和实践,Taobao File System(TFS)作为淘宝内部使用的分布式文件系统,针对海量小文件的随机读写访问性能做了特殊优化,承载着淘宝主站所有图片、商品描述等数据存储。

最近,淘宝核心系统团队工程师楚材(李震)在其官方博客上撰文(《TFS简介》,以下简称文章)简要介绍了TFS系统的基本情况,引起了社区的关注。

文章首先概括了TFS的特点:

  • 完全扁平化的数据组织结构,抛弃了传统文件系统的目录结构。
  • 在块设备基础上建立自有的文件系统,减少EXT3等文件系统数据碎片带来的性能损耗。
  • 单进程管理单块磁盘的方式,摒除RAID5机制。
  • 带有HA机制的中央控制节点,在安全稳定和性能复杂度之间取得平衡。
  • 尽量缩减元数据大小,将元数据全部加载入内存,提升访问速度。
  • 跨机架和IDC的负载均衡和冗余安全策略。
  • 完全平滑扩容。

当前,TFS在淘宝的应用规模达到“数百台PCServer,PB级数据量,百亿数据级别”,对于其性能参数,楚材透漏:

TFS在淘宝的部署环境中前端有两层缓冲,到达TFS系统的请求非常离散,所以TFS内部是没有任何数据的内存缓冲的,包括传统文件系统的内存缓冲也不存 在......基本上我们可以达到单块磁盘随机IOPS(即I/O per second)理论最大值的60%左右,整机的输出随盘数增加而线性增加。

TFS的逻辑架构图1如下所示:

图1. TFS逻辑架构图(来源:淘宝核心系统团队博客)

楚材结合架构图做了进一步说明:

  1. TFS尚未对最终用户提供传统文件系统API,需要通过TFSClient进行接口访问,现有JAVA、JNI、C、PHP的客户端
  2. TFS的NameServer作为中心控制节点,监控所有数据节点的运行状况,负责读写调度的负载均衡,同时管理一级元数据用来帮助客户端定位需要访问的数据节点
  3. TFS的DataServer作为数据节点,负责数据实际发生的负载均衡和数据冗余,同时管理二级元数据帮助客户端获取真实的业务数据。

文章发表以后,读者反响热烈,在评论中提出了各种问题与作者楚材进行技术交流,由此可见国内社区对自主研发文件系统的关注程度。

为了让读者更深入地了解TFS的奥秘,InfoQ中文站针对TFS的来由、运行环境、扩展性、架构、发展规划及开源事宜等问题对楚材(李震)进行了专访。

Q:淘宝为何会选择自主研发文件系统?

楚材:TFS(Taobao File System),是淘宝自主研发的一套分布式文件系统,用于存储淘宝网主站的数据,例如商品图片、商品描述、交易快照、社区图片等等等等。

这些数据的一个突出特点是单个文件尺寸较小,通常不大于1MB,但是数量巨大,传统的文件系统或者网络存储设备很难解决类似的问题。

淘宝网最早采用NetApp提供的网络存储设备,但是在2006~2007年期间,由于数据量的急剧膨胀,我们面临着系统更新换代的压力,而由于应用连接数量和文件数量的限制,实际上简单的升级已经变得非常昂贵且得不偿失了。

数据是淘宝应用的核心,在这方面我们需要提供更加安全、高效、廉价的解决方案,需要发展自己的技术,更加适应淘宝网自身的应用特性。经过评估,已有的一些开源分布式文件系统都无法完全满足我们需求。淘宝网也许是当时国内互联网最先遇到类似问题的公司,当然也可能是其他公司遇到但未进行相关的宣传,总之,当时并不像现在一样有一些相对可靠的开源系统可以选择。

Q:TFS系统的运行环境如何?

楚材:在做TFS选型的时候,我们依照当时淘宝网使用的主流操作系统使用了REHL,并构建在LINUX的EXT3文件系统上。选择REHL的理由是开源操作系统,我们有更多的自由度,同时成本也更加节省。

关于硬件平台,随着硬件的发展和我们认识的变化,经过了一个相对比较长的变迁。分布式文件系统对CPU的要求并不高,同时由于我们采用了一些特殊的手段,也使得系统元数据减少,那么对内存大小的要求也并不高了,所有的性能和成本瓶颈都集中在了磁盘IO上。我们所有硬件架构的演变也都体现在磁盘的使用方式上。

最早我们使用SAS146G×6的磁盘进行存储,后来换成了SAS300G×6的磁盘,使用了RAID5机制,这也是当时硬件平台的主流。当我们积累了一定的经验并逐步对系统稳定性有了信心之后,这种方式就逐步落后了。RAID5机制的备份和我们已经在应用层实现的数据冗余功能重复,磁盘空间被大量浪费,RAID卡的工作原理也无法优化TFS更加注重随机IO的特性,最终我们去除了RAID卡,并使用多进程,每个进程管理一块磁盘的方式,充分发挥磁盘的随机读写性能。

SAS300G×6的磁盘我们使用了一段时间,相对比较稳定,这让我们有信心使用更大容量的节点而不会过于担心服务器失效带来的数据迁移对系统性能的影响,当前TFS主要的机型使用SAS300G×12的磁盘配置。

随着淘宝网前端的CDN越来越高效、稳定,到达TFS的请求流量也更加平缓,这让我们有可能对单个节点的服务能力做出更加可靠的规划,也可以使用更加廉价的存储设备,未来我们的主要存储节点将使用1TSATA×12甚至更大的磁盘设备,进一步降低成本。

Q:TFS的应用规模达到数百台PC server和PB级数据量,其扩展性如何?架构上是如何保证的?

楚材:在TFS中我们将大量的小文件合并成为一个大文件,类似GFS中Chunk的概念,而Chunk的定位信息我们称之为一级索引,而chunk内部具体的文件定位信息我们称之为二级索引,同时在TFS文件名称中包含这些索引信息,在用户写入一个文件之前,他必须向TFS系统申请一个文件名称。这种方式虽然在某些情况下显得不像传统文件系统那样灵活,但也给了我们系统更大的可扩展性。我们保证可以中心控制节点的内存可以支撑PB级别的一级索引,而二级索引仅需要针对单台数据量。这样,我们就避免了数据量膨胀带来的扩容难度。

当存储容量出现不足,我们需要进行系统扩容的时候,可以根据数据增长情况进行规划,任意数量的加入提供相应存储的服务器。而这些新的存储服务器会向中心控制节点进行报告。而中心控制节点在有数据写入时,将根据已存储容量的百分比、系统当前负载等参数动态地分配写入的服务器。同时,在系统空闲时间段,中心控制节点也会根据当前的数据分布情况制定数据迁移计划,并逐步完成数据平衡。与此类似,当发生服务器崩溃时,中心控制节点也会进行数据迁移以保证足够的备份,同时也会进行数据均衡操作。这些操作都是自动进行的,不需要人工干预。

这种方式在1000台以内的集群基本上能够工作良好,如果集群规模更大,中心控制节点可能会出现一些性能瓶颈,届时我们可以使用一个分布式集群来解决,相应已经比较成熟的技术方案现在已经比较多了。

Q:您在介绍TFS的特点时,多次提到“性能”这个关键词,请问对于一个文件系统来说,性能一般应该考虑哪些因素?目前,提高文件系统性能的通用方法有哪些?

楚材:现在我们可以讨论一下TFS的性能考量的维度了。其实当前每个流行的分布式文件系统都有自己的侧重点,分别针对自己不同的应用场景。

对于离线型的数据分析需求,由于数据总量巨大,底层分布式文件系统更加注重系统的整体吞吐率,为了适应当前流行的map_reduce模型,这一类的文件系统会将文件切成多份,分而治之。同时和上层的逻辑配合,采用大块顺序写入、读出的方式来提升性能,典型的代表就是Hadoop使用的HDFS。

实际提供线上服务的分布式文件系统中,也根据服务类型的不同而采用差异化的存储方式,例如针对音、视频等相对比较大的文件,可能采用和离线应用相同的方式将文件切片并发读写访问,从而达到更高的传输速度。由于相同容量下文件数量比较少,甚至有可能完全实现类似传统文件系统的目录、权限等功能,而不会受到inode的限制。如果面临淘宝相同的海量小文件存储,这种方式就完全无法提供性能的支持了,inode数量的膨胀会很快吃掉大量的昂贵内存,如果要平衡成本将部分inode放入磁盘,面对基本上完全随机、没有热点的访问又无法保证寻址的效率,我们只能通过减少元数据的方式来解决这个问题。

为什么说我们的TFS面临着完全随机、基本上没有热点的数据访问?在淘宝的数据部署中,TFS前端有两层更加靠近用户的缓存系统来保证用户展示页面的速度,最终到达TFS的请求大概只有总请求数量的2%左右,随着前端缓冲的效率不断提升,这个比例还会继续下降,我们可以想象一下是否仍然有热点数据存在。与此同时,淘宝网的业务特点决定了相对于读取请求,写入请求量不在一个数量级上,而修改操作量就更少,这就决定了我们使用进行随机修改、随机写入的方式来避免顺序写入不进行修改给随机读取带来的成本。

不同的应用场景,不同的存储架构,不同的性能考量,有什么通用的性能优化手段吗?从我们的实践经验来看,似乎没有,很难有一种方法解决所有的问题,或者说解决了这些问题之后,大家会发现相对专用的文件系统,通用系统总是不能达到你预期的性能,同时也带来了大量开发和调优方面的复杂性。这种情况下,也许我们建立不同的集群解决不同的问题更加高效,这一切都取决于你支撑的业务需求是怎么样的,Google级别集群规模的架构和简单搭建起来的NFS都有其存在的价值。

当然,还是有一些通用的规则的。如果你需要支持的是一个线上服务,那你就要尽量减少一次请求引发的IO数量,IO包括网络及物理磁盘,这些操作引发的性能开销是由物理结构决定,无法用技术手段去优化的。也就是说,这些操作的数量实质上形成了你这个系统的性能天花板,当你设计一个文件系统的架构时,你可以根据这个天花板预估到在不同情况下这套系统的性能表现是怎么样的。

其次,你需要在并发和同步开销之间做出平衡,根据业务的特点选择更适合于你自己的方案,例如从一块磁盘上连续读1MB数据和通过网络并发从10块磁盘上分别读取100KB数据返回给用户,你会选择哪种?那么从一块磁盘上连续读取100MB数据和100并发分别读取读取1MB呢,系统是否有能力支撑这样的并发?绝大部分时候,我们是在做类似的选择。

第三,你需要在成本和性能之间做出平衡,我们可以很方便的使用内存型缓冲来极大地提升系统性能,如果你的系统热点数据集中的话。随着SSD技术的成熟,它可以提供的随机读性能相对传统机械磁盘让人兴奋,随机写性能也有了极大的改善,虽然不像读取提升的那样夸张。如果你的应用读写比例比较高,又可以承受成本,尽量使用SSD吧,虽然当前的成本还是相对昂贵的。

Q:从TFS的逻辑架构图来看,NameServer作为中心控制节点,DataServer作为数据节点,这样的架构基于哪些因素或者需求的考虑?

楚材:TFS有中心控制节点和数据节点的区分,分别管理两级索引解决数据访问的寻址和传输。相对当前一些开源分布式系统的去中心化趋势,似乎不是非常优秀。但如同对性能的论述一样,每种系统架构都有其存在的价值,中心节点的存在可以保证事务性,我们在某些情况下必须保证写入数据的强一致性,同时在当前的应用规模中也可以非常安全、高效的解决问题。如果有更高的可用性、扩展性需求,我们会在TFS部分中部分体现去中心化的思想。

Q:未来TFS的发展计划如何?

楚材:TFS未来的开发首先仍然会立足于淘宝网自身的业务需求,同时会照顾开发社区中的需求。我们会逐步支持大文件的存储,也会支持目录和用户权限,同时计划实现按照访问特性分布的分级存储,尽量在性能和成本之间达到一个平衡,还有一些更加精细化的管理功能,例如数据量配额的管理等等。从上面的一些讨论来看,我们不大会做一个通用的分布式文件系统,始终会专注解决当前尚无很好解决方案的问题。

Q:您在博客中提到9月份建立TFS开源社区,这对国内社区是个绝佳的学习机会,请问目能否再描述一点开源的细节?

楚材:TFS计划在9月底开源,而今年6月底,淘宝网将推出自己的开源社区——code.taobao.org,TFS将完全基于这个开源社区进行开源,大家马上就可以看到。同时已经基本确定使用GPL V2开源版权协议。

Q:对于有志于参与到TFS或者目前从事其他类似系统级核心应用的开发人员来说,请问有什么好的建议?

楚材:对于有志于参加TFS开发,或者自身已经在从事基础平台、核心系统研发的同行,我相信大家都有相同的感受,在当今计算机体系结构内,我们很难有革命性的技术进展。当前已知的大规模的分布式文件系统都构建在Unix类操作系统之上,或者说绝大部分都构建在Linux之上,这也是从成本方面进行的考量。而各种分布式文件系统架构也大同小异,决定是否成功的关键在于细节,这些细节包括操作系统级别的特化、文件系统级别的特化、实现方面是否足够优秀、足够稳定等等。因此你需要对系统内核有所了解,对文件系统有所了解,比如你知道EXT3的组织方式才可能尽量避免读取一段数据却引发多次磁盘磁头移动的情况,这样你才能最大化的利用好系统资源。而实现的特化可能体现在一个优秀算法的编写、一个高效的通信机制等等,这就要求你有扎实的代码编写能力,对算法和数据结构有颇深的造诣。大家都知道,细节决定成败!

【专家介绍】李震,花名楚材,工作于淘宝技术研发部核心系统研发,负责存储组的开发,关注领域主要包括大集群分布式系统的研发、海量数据处理、海量数据检索等等。

【编辑推荐】

揭秘淘宝自主研发的文件系统:TFS的更多相关文章

  1. 淘宝的开源分布式文件系统TFS

    TFS(Taobao FileSystem)是淘宝团队开源的海量非结构化数据存储设计的分布式系统.构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问.高可扩展.高可用.高性能.面向 ...

  2. 淘宝分布式文件存储系统:TFS

    TFS ——分布式文件存储系统 TFS(Taobao File System)是淘宝针对海量非结构化数据存储设计的分布式系统,构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问. ...

  3. MYSQL 源码- 淘宝数据库研发组

    http://mysql.taobao.org/index.php?title=%E8%B5%84%E6%96%99%E5%85%B1%E4%BA%AB

  4. 淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

    时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了“数据就是业务本身”的地步.这种趋势已经让很多相信数据之力量的企业做出改变.恰逢此时,为了让更多的 ...

  5. Web——在淘宝搜索到看到商品

    [摘自]http://blog.renren.com/blog/254459622/799372165 浏览器首先查询DNS服务器,将www.taobao.com转换成ip地址.负载均衡的第一步,将你 ...

  6. 淘宝:OceanBase分布式系统负载均衡案例分享

    Heroku因"随机调度+Rails单线程处理导致延迟增加的负载均衡失败"的案例之后,我们在思考:在负载均衡测试时发现问题并妥善解决的成功经验有没有?于是,挖掘出"淘宝在 ...

  7. 淘宝应对"双11"的技术架构分析

    原文地址:http://kb.cnblogs.com/page/193670/ 双“11”最热门的话题是TB ,最近正好和阿里的一个朋友聊淘宝的技术架构,发现很多有意思的地方,分享一下他们的解析资料: ...

  8. 淘宝CDN系统架构

         存储与架构分论坛上,淘宝网技术委员会主席,淘宝网核心工程师章文嵩向我们详细介绍了淘宝网图片处理与存储系统的架构.章文嵩博士的演 讲日程包括了 淘宝的整个系统架构.淘宝图片存储系统架构,淘宝网 ...

  9. 淘宝TFS分布式文件系统内部实现

    TFS文件名的结构 TFS的文件名由块号和文件号通过某种对应关系组成,最大长度为18字节.文件名固定以T开始,第二字节为该集群的编号(可以在配置项中指定,取值范围 1~9).余下的字节由Block I ...

随机推荐

  1. COOKIE之安全设置漫谈

    一.标题:COOKIE之安全设置漫谈 副标:httponly属性和secure属性解析 二.引言 经常有看到XSS跨站脚本攻击窃取cookie案例,修复方案是有httponly.今天写出来倒腾下... ...

  2. HDU 5008 Boring String Problem

    题意:给定一个串长度<=1e5,将其所有的不同的字串按照字典序排序,然后q个询问,每次询问字典序第k小的的起始坐标,并且起始坐标尽量小. 分析: 一开始看错题意,没有意识到是求不同的字串中第k小 ...

  3. [codility]Grocery-store

    http://codility.com/demo/take-sample-test/hydrogenium2013 用Dijkstra求最短路径,同时和D[i]比较判断是不是能到.用了优先队列优化,复 ...

  4. RUST叫系统编程语言,而GO是网络编程语言

    用GO你必须要搞清楚一点,GO不是面向CPU密集计算的,而是面向IO密集计算的!!!RUST才是面向CPU密集计算的语言,所以RUST叫系统编程语言,而GO是网络编程语言.GO跟JAVA的Spring ...

  5. java.lang.Boolean为null时

    public class TestBooleanNull { public static void main(String[] args) { if (test()) { System.out.pri ...

  6. hdu4714Tree2cycle

    链接 树上的一些操作还是不是太好想 直接dfs下去 不是最优的 一个节点最多保留两个度 如果它有两个以上的子节点 那么就与父节点断开 与k-2个子节点断开 再重新连 #pragma comment(l ...

  7. TFS源代码管理

    一.服务器配置 1.创建一个Visual Studio Online账户 打开VS,选择团队资源管理器(视图菜单下),然后在团队资源管理器中选择注册Team Foundation Service,打开 ...

  8. Log4Net 配置和使用

    转:http://www.cnblogs.com/chencidi/archive/2010/01/12/1645291.html web.config配置如下: <?xml version=& ...

  9. curl post请求

    libcurl发送post请求,包括httpheader参数 static size_t getCharCode(void *ptr, size_t size, size_t nmemb, void ...

  10. [洛谷1580]yyy loves Easter_Egg I

    题目背景 Soha的出题效率着实让人大吃一惊.OI,数学,化学的题目都出好了,物理的题还没有一道.于是,Huntfire,absi2011,lanlan对soha进行轮番炸,准备炸到soha出来,不料 ...