s3fs-fuse 把 s3-like 对象存储挂载到本地
s3fs-fuse 是一个采用 c++ 开发的开源应用,它的作用是可以将 AWS S3 以及兼容 S3 API 的第三方对象存储像普通文件系统一样挂载到本地计算机,由于这种功能通过 FUSE 实现,因此只能在 Linux 和 MacOS 上使用。
安装
配置
- 准备密码文件
S3 及兼容 API 的对象存储都采用 ACCESS KEY 和 ACCESS SECRET 认证身份,为了方便配置,可以将认证 KEY 放到独立的密码文件中,s3fs 默认会从以下两个文件中读取认证信息:
- 用户家目录下的
.passwd-s3fs文件 (例如~/.passwd-s3fs) - 全局文件
/etc/passwd-s3fs
任选其一即可,文件默认不存在,需要自己手动创建。
$ echo ACCESS_KEY_ID:SECRET_ACCESS_KEY > ~/.passwd-s3fs
$ chmod 600 ~/.passwd-s3fs
- 挂载 AWS S3
$ s3fs mybucket /path/to/mountpoint -o passwd_file=~/.passwd-s3fs
mybucket替换成实际的 S3 Bucket/path/to/mountpoint替换成本地挂载点-o用来指定额外的参数,除非密码文件没有放在默认位置,否则不需指定密码文件。
- 挂载兼容 S3 API 的第三方对象存储
用 -o 指定对象存储 Endpoint 地址即可,阿里云OSS Endpoint地址参考这里,七牛对象存储 Endpoint地址参考这里。
$ s3fs mybucket /path/to/mountpoint -o url=https://endpoint -o use_path_request_style
use_path_request_style参数是对还不支持virtual-host请求风格的对象存储而提供的参数,指定该参数会使用传统的 API 调用风格。实测表明,阿里云 OSS 和七牛对象存储不需指定该参数。
- 开机自动挂载
编辑 /etc/fstab:
- For S3
s3fs#mybucket /path/to/mountpoint fuse _netdev,allow_other 0 0
- For S3-like
s3fs#mybucket /path/to/mountpoint fuse _netdev,allow_other,use_path_request_style,url=http://endpoint/ 0 0
注意:设置开机自动挂载可能需要把
s3fs二进制文件放到/usr/local/bin目录,还要使用全局配置文件/etc/passwd-s3fs保存密码。
- 其他参数
- use_cache 使用缓存
设置 use_cache 将本地计算机的某个位置作为缓存,从而提高数据上传的效率。
$ s3fs mybucket /path/to/mountpoint -o url=https://endpoint -o use_cache=/tmp
经过测试,普通盘的缓存可能还会降低吞吐,最好用机械盘,并做对比测试。
- del_cache 删除缓存
指定 del_cache 参数,当 s3fs 启动和退出时会自动删除缓存文件。
性能优化
s3fs <bucket_name> <mountpoint> -o url=http://endpoint –o passwd_file=<credentials_file> \
-o cipher_suites=AESGCM \
-o kernel_cache \
-o max_background=1000 \
-o max_stat_cache_size=100000 \
-o multipart_size=64 \
-o parallel_count=30 \
-o multireq_max=30 \
-o dbglevel=warn
普通用户命令行挂载s3fs
增加以下选项,并以管理员权限执行挂载命令
-o allow_other \
-o uid=1000 \
-o gid=1000 \
-o mp_umask=022 \
如果是/etc/fstab文件,增加相应的选项即可。
测试
环境信息:
- Ubuntu 18
- 48核(Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz)
- 128G
测试脚本
#!/bin/bash
BUCKET="testabc2"
MOUNT_POINT="/testabc2"
ENDPOINT=http://s3.test.com
parallel_counts=(10 20 30 40)
multipart_sizes=(10 16 32 64 128)
for parallel_count in ${parallel_counts[@]}; do
for multipart_size in ${multipart_sizes[@]}; do
echo "parallel_count: $parallel_count | multipart_size: $multipart_size"
# mount
/usr/local/bin/s3fs $BUCKET $MOUNT_POINT -o passwd_file=/root/.passwd-s3fs -o url=$ENDPOINT \
-o use_path_request_style \
-o parallel_count=${parallel_count} \
-o multipart_size=${multipart_size} \
-o max_background=1000 \
-o max_stat_cache_size=100000 \
-o multireq_max=30
sleep 1
# pv copy
dd if=/dev/zero of=${MOUNT_POINT}/2G.${RANDOM} bs=1M count=32 status=progress
sleep 1
# umount
umount ${MOUNT_POINT}
sleep 1
done
done
测试结果
并发数 | 分片大小 吞吐
parallel_count: 10 | multipart_size: 10 73.6 MB/s
parallel_count: 10 | multipart_size: 16 110 MB/s
parallel_count: 10 | multipart_size: 32 108 MB/s
parallel_count: 10 | multipart_size: 64 99.9 MB/s
parallel_count: 10 | multipart_size: 128 102 MB/s
parallel_count: 20 | multipart_size: 10 74.2 MB/s
parallel_count: 20 | multipart_size: 16 106 MB/s
parallel_count: 20 | multipart_size: 32 108 MB/s
parallel_count: 20 | multipart_size: 64 105 MB/s
parallel_count: 20 | multipart_size: 128 100 MB/s
parallel_count: 30 | multipart_size: 10 77.2 MB/s
parallel_count: 30 | multipart_size: 16 107 MB/s
parallel_count: 30 | multipart_size: 32 105 MB/s
parallel_count: 30 | multipart_size: 64 102 MB/s
parallel_count: 30 | multipart_size: 128 112 MB/s
parallel_count: 40 | multipart_size: 10 73.0 MB/s
parallel_count: 40 | multipart_size: 16 109 MB/s
parallel_count: 40 | multipart_size: 32 104 MB/s
parallel_count: 40 | multipart_size: 64 102 MB/s
parallel_count: 40 | multipart_size: 128 108 MB/s
结果分析
parallel_count对吞吐的影响不大,multipart_size对吞吐影响较大,因此采用这组数据parallel_count: 10 | multipart_size: 16 110 MB/s。
使用记录
- s3fs 挂载后
df显示的空间是256T,并不是实际容量;官方解释,如果有1PB的空间,显示的256T并不影响实际的使用,只是使用率会超过100%。

dd文件吞吐测试
使用dd测试挂载后的硬盘性能,这里主要关注写入速度。使用的命令
dd if=/dev/zero of=4G.${RANDOM} bs=1M count=4096 status=progress
默认的日志记录在/var/log/messages或者/var/log/syslog中,默认日志级别是crit;
使用-d或者--debug会将日志级别调整为info。
使用dbglevel调整日志级别,可选crit(critical), err(error), warn(warning), info(information) 。
两个
-d会将fuse的日志输出到标准输出。
-f可以让程序在前台运行,便于查看日志。
写入过程
通过观察日志发现,文件写入分三个阶段:
- 文件写入到到fuse的某个地方,4G文件大概花费了9s;因为不太了解实现细节,这里用了某个地方。
- 文件分片,这部分也会花费一定的时间;时间和分片大小与并发有关。
- 文件上传,这个阶段才会占用带宽。前两个阶段,实际上并没有占用带宽,但会占用时间,所以会拉低整体
dd的带宽。
三个阶段的发现,通过观察debug日志和实际网卡带宽。
测试结果
千兆网卡,阶段3可以跑满带宽,但因为阶段1、2存在,整体带宽只有80MB/s左右。
万兆网卡实际测速大概是110MB/s。
使用
use_cache=/dev/shm也可以加快1阶段的速度。
另外,测试了goofys,千兆速度在100MB/s左右。万兆网卡的速度在500~600MB/s。相对于s3fs,goofys的使用有着更多的限制,参考current-status。
S3FS 的优缺点
S3FS本质上是对象存储,其跟块存储还是有区别的,块存储我如果修改一个大文件的话,背后只修改对应的block;s3fs的修改是重传,大文件的话就要考虑带宽成本和修改速度。
主要适用于文件写入后,不会被频繁修改的场景。
Background Knowlage
Filesystem in Userspace 简称 FUSE。它允许 Unix 普通用户在不修改内核的条件下能够创建自己的文件系统。目前 Linux 通过内核模块对 FUSE 进行支持。一些文件系统如 ZFS、glusterfs 和 lustre 通过 FUSE 实现。
Reference
- https://github.com/s3fs-fuse/s3fs-fuse github官网
- https://github.com/libfuse/libfuse FUSE
- https://console.bluemix.net/docs/services/cloud-object-storage/cli/s3fs.html#mount-a-bucket-using-s3fs- IBM Cloud Object Storage
- https://github.com/s3fs-fuse/s3fs-fuse/issues/374 普通用户挂载
s3fs-fuse 把 s3-like 对象存储挂载到本地的更多相关文章
- 【系统设计】S3 对象存储
在本文中,我们设计了一个类似于 Amazon Simple Storage Service (S3) 的对象存储服务.S3 是 Amazon Web Services (AWS) 提供的一项服务, 它 ...
- 基于openshift+华为对象存储的CSI开发
目录 需求来源 环境准备 代码修改 镜像下载 镜像生成 修改部署文件 部署CSI插件 CSI原理 核心原理 生命周期: 组件介绍 FAQ 参考: 需求来源 项目上目前使用的是openshift 3.1 ...
- 010 Ceph RGW对象存储
一.对象存储 1.1 介绍 通过对象存储,将数据存储为对象,每个对象除了包含数据,还包含数据自身的元数据 对象通过Object ID来检索,无法通过普通文件系统操作来直接访问对象,只能通过API来访问 ...
- 对象存储服务-Minio
Mino 目录 Mino 对象存储服务 Minio 参考 Minio 架构 为什么要用 Minio 存储机制 纠删码 MinIO概念 部署 单机部署: Docker 部署Minio 分布式Minio ...
- 基于LAMP php7.1搭建owncloud云盘与ceph对象存储S3借口整合案例
ownCloud简介 是一个来自 KDE 社区开发的免费软件,提供私人的 Web 服务.当前主要功能包括文件管理(内建文件分享).音乐.日历.联系人等等,可在PC和服务器上运行. 简单来说就是一个基于 ...
- 利用S3fs在Amazon EC2 Linux实例上挂载S3存储桶
一.准备!!! 1.使用拥有足够权限的IAM账号登录AWS控制台 2.创建S3存储桶,给存储桶命名如"my-bucket"(如果使用已有存储桶,本步骤可略过) 3.有该S3存储桶访 ...
- FreeNAS 11.0 正式发布,提供 S3 兼容的对象存储服务
FreeNAS 11.0 正式版已发布,该版本带来了新的虚拟化和对象存储功能.FreeNAS 11.0 将 bhyve 虚拟机添加到其受欢迎的 SAN / NAS.Jail 和插件中,让用户可以在 F ...
- Golang 调用 aws-sdk 操作 S3对象存储
Golang 调用 aws-sdk 操作 S3对象存储 前言 因为业务问题,要写一个S3对象存储管理代码,由于一直写Go,所以这次采用了Go,Go嘛,快,自带多线程,这种好处就不用多说了吧. 基础的功 ...
- 使用FileZilla Pro S3协议访问七牛云对象存储
偶然发现FileZilla还有Pro版本,主要是比免费版多了一些协议支持,也偶然发现七牛云支持了S3协议接口,这样刚好弥补了其没有FTP的不足,于是找官方文档,折腾一下,使用FileZilla Pro ...
随机推荐
- 使用DeepWalk从图中提取特征
目录 数据的图示 不同类型的基于图的特征 节点属性 局部结构特征 节点嵌入 DeepWalk简介 在Python中实施DeepWalk以查找相似的Wikipedia页面 数据的图示 当你想到" ...
- 深度学习vs机器学习 | 这些本质区别你知道多少?
目录: 数据相关性 硬件依赖性 特征工程 解决问题方法 执行时间 可解释性 一.数据相关性 深度学习与传统机器学习最重要的区别是,随着数据量的增加,其性能也随之提高.当数据很小的时候,深度学习算法并不 ...
- Go解算法07整数反转
描述 给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转. 示例 1: 输入: 123 输出: 321 示例 2: 输入: -123 输出: -321 示例 3: 输入: 120 ...
- coding++:error Could not read JSON: Unexpected token (START_OBJECT), expected START_ARRAY: need JSON Array to contain As.WRAPPER_ARRAY type information for class java.lang.Object
Spring源码中是使用容器中的ObjectMapper对象进行序列化和反序列化. 当我们将自定义的ObjectMapper对象放入IOC容器中后,会自动覆盖SpringBoot自动装载的Object ...
- [RH134] 10-NFS和Samba客户端
NFS和samba服务器的配置,请参考: 这里,我们只讨论客户端的使用 1.NFS客户端的使用 nfs实现的是类Unix系统之间的远程共享目录. 假设我们已经有一个提供nfs服务的服务器,IP为192 ...
- vue 听说你很会传值?
前置 大小 vue 项目都离不开组件通讯, 在这里总结一下vue组件通讯方式并列出, 都是简单的例子. 适合像我这样的小白.如有错误,欢迎指正. 温馨提示: 下文没有列出 vuex, vuex 也是重 ...
- 学习笔记-EL
仅作为学习过程中笔记作用,若有不正确的地方欢迎指正 目标 理解El的作用,熟练使用EL EL表达式与Jsp表达式对比来记 EL表达式的概念,作用,语法 Jsp作用主要是用来实现动态网页的,而动态网页中 ...
- [HDU]1166敌兵布阵<静态线段树>
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1166 题目大意:给出n个点,每个点有一个值,现在有三种操作, 1.在i点加上j 2.在i点减去j 3. ...
- Spring Boot整合Thymeleaf视图层
目录 Spring Boot整合Thymeleaf Spring Boot整合Thymeleaf 的项目步骤 Thymeleaf 语法详解 Spring Boot整合Thymeleaf Spring ...
- 分治与递归-Fibonacci数列兔子问题
裴波那契(Fibonacci leonardo,约1170-1250)是意大利著名数学家.在他的著作<算盘书>中许多有趣的问题,最富成功的问题是著名的“兔子繁殖问题”: 如果每对兔子每月繁 ...