1.Hadoop分布式文件系统(HDFS) HDFS基于GFS(Google File System),能够存储海量的数据,并且使用分布式网络客户端透明访问. HDFS中将文件拆分成特定大小的块结构(block-structured filesystem),一个文件的不同块存储在不同的节点中. 为了防止数据丢失,HDFS默认将一个块重复保存3份. HDFS的架构主要包括两个部分:NameNode和DataNode. NameNode保存整个文件系统的基础信息,例如:文件名,文件权限,文件每个块的…