1 简介

众所周知(你不知也当你知),MongoDB是以文档(Document)组织数据的。除了常用于存储Json数据,它也是可以存储普通文件的。我们可以把一些文件以BSOON的格式存入MongoDB,十分方便,比较说图片、文本文件等。但MongoDBBSON Document有大小限制,最大不能超过16MB。这对我们存储大文件是不方便的。还好,MongoDB为我们提供了GridFS文件存储组件,让我们可以存储超过16MB的文件,小文件当然也可以了。接下来让我们一起学习一下这个GridFS存储。

2 基本原理与概念

GridFS原理比较简单,就是把大文件拆成小文件来存储而已。当我们存入一个文件时,默认使用集合fs.filesfs.chunks来存储文件。其中fs.files存储的是文件的信息,fs.chunks用来存放文件内容,以BSON格式存放。

fs.files的一条记录如下:

{
"_id" : ObjectId("5ec6b44af3760d5999bd1c91"),
"length" : NumberLong(1048576),
"chunkSize" : 261120,
"uploadDate" : ISODate("2020-05-21T17:03:06.217Z"),
"filename" : "pkslow.txt",
"metadata" : {}
}

字段解释:

_id:主键ID;

length:文件大小;

chunkSize:chunk的大小,决定要分几个chunk来存放文件;

uploadDate:文件上传时间;

filename:文件名;

metadata:文件其它信息,可以自定义加上,这样有利于后续的检索和使用等。

fs.chunks的一条记录如下:

{
"_id" : ObjectId("5ec6b44af3760d5999bd1c94"),
"files_id" : ObjectId("5ec6b44af3760d5999bd1c91"),
"n" : 2,
"data" : { "$binary" : "xxxxxxxxx", "$type" : "00" }
}

字段解释:

_id:主键ID;

files_id:所存内容对应的文件ID,可以看到与fs._id的值是一样的;

n:第几个chunk的索引,从0开始;

data:文件内容;

从感观上看了两个集合的字段,相信大家基本知道GridFS是怎么组织数据的了。当我们存入一个文件时,如果文件较小,小于chunkSize,则会把文件信息存入fs.files,只有一条记录;文件内容会存入fs.chunks,也只有一条记录。如果存的文件大于chunkSize,也会在fs.files生成一条记录,但在fs.chunks中会生成多条记录来存放文件内容。如下图所示:

MongoDB为我们建立了相关索引,可以加速查询,如fs.files的文件名和上传时间;fs.chunks的文件ID和n。

3 常用mongofiles命令

讲了基本原理,我们来实际操作一下,使用MongoDB给我们准备好的命令来做一些操作。当然,首先要有一个安装好的数据库,可以参考《用Docker安装一个MongoDB最新版玩玩》。

我们都是使用mongofiles命令进行操作的,需要指定比较多的参考,例如下面的命令用于列出所有文件:

mongofiles --username user --password 123456 --host 127.0.0.1 --port 27017 --authenticationDatabase admin --db testdb list

为了不要每次都输入这么长的命令,我们加个别名:

alias mf='mongofiles --username user --password 123456 --host 127.0.0.1 --port 27017 --authenticationDatabase admin --db testdb'

列出文件:

mf list

存入文件:存入的文件名与本地文件名一样。

mf put pksow.txt

读取文件:

mf get pkslow.txt

查找文件:

mf search pkslow

删除文件:

mf delete pkslow.txt

指定自定义文件名:

mf --local pkslow.txt put /com/pkslow.txt

4 总结

发挥你的想象力,GridFS能做的事很多,存图片、音频、视频等,有时我们只想查看大文件的部分内容,也能方便实现。

注:本文使用的MongoDB版本为4.2.1


欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章!

欢迎关注微信公众号<南瓜慢说>,将持续为你更新...

多读书,多分享;多写作,多整理。

如何安放你的大文件,MongoDB GridFS可以帮助你的更多相关文章

  1. 实验mongodb使用gridfs存放一个大文件

    1.启动mongoDB 2.使用gridfs存放大文件 3.观察fs.chunks和fs.files的情况 命令 db.fs.chunks.find()查到的是一些二进制文件:

  2. MongoDB GridFS 存储大文件

    我们经常会遇到这样的场景:上传/下载文件. 有两种思路可以解决这个问题: (1)将文件存储在服务器的文件系统中: (2)将文件存储在数据库中. 如果我们选择(2),那么我们可以使用MongoDB Gr ...

  3. MongoDB GridFS——本质上是将一个文件分割为大小为256KB的chunks 每个chunk里会放md5标识 取文件的时候会将这些chunks合并为一个整体返回

    MongoDB GridFS GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片.音频.视频等). GridFS 也是文件存储的一种方式,但是它是存储在MonoDB的集合中 ...

  4. mongoDB 大文件存储方案, JS 支持展示

    文件存储 方式分类 传统方式 存储路径 仅存储文件路径, 本质为 字符串 优点: 节省空间 缺点: 不真实存储在数据库, 文件或者数据库发送变动需要修改数据库 存储文件本身 将文件转换成 二进制 存储 ...

  5. mongo 固定集合,大文件存储,简单优化 + 三招解决MongoDB的磁盘IO问题

    1.固定集合 > db.createCollection(, max:});//固定集合 必须 显式创建. 设置capped为true, 集合总大小xxx字节, [集合中json个数max] { ...

  6. Mongodb GridFS——适合大小超过16MB的文件

    一.概述 GridFS是基于mongodb存储引擎是实现的“分布式文件系统”,底层基于mongodb存储机制,和其他本地文件系统相比,它具备大数据存储的多个优点.GridFS适合存储超过16MB的大型 ...

  7. GridFS大文件的添加、获取、查看、删除

    GridFS是一种在MongoDB中存储大二进制文件的机制,使用GridFS的原因有以下几种: 存储巨大的文件,比如视频.高清图片等. 利用GridFS可以简化需求. GridFS会直接利用已经建立的 ...

  8. MongoDB入门(8)- c#通过操作MongoDB GridFS实现文件的数据库存储

    GridFS介绍 GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件. GridFS GridFS长啥样 /* 1 */ { "_id" : ObjectId(& ...

  9. Spring Boot使用MongoDB GridFS进行文件的操作

    1. GridFS简介 GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片.音频.视频等),但是它是存储在MonoDB的集合中. GridFS 会将文件对象分割成多个的ch ...

随机推荐

  1. Spring框架中文件目录遍历漏洞 Directory traversal in Spring framework

    官方给出的描述是Spring框架中报告了一个与静态资源处理相关的目录遍历漏洞.某些URL在使用前未正确加密,使得攻击者能够获取文件系统上的任何文件,这些文件也可用于运行SpringWeb应用程序的进程 ...

  2. java中ThreadLocalRandom的使用

    java中ThreadLocalRandom的使用 在java中我们通常会需要使用到java.util.Random来便利的生产随机数.但是Random是线程安全的,如果要在线程环境中的话就有可能产生 ...

  3. Vue Cli 报错:You are using the runtime-only build of Vue where the template compiler is not availabl

    报错原因: 这里引用的是vue.runtime.esm.js,造成的不能正常运行. vue-cli 2.x 解决方法: 在webpack.base.conf.js配置文件中多加了一段代码,将 vue/ ...

  4. 吞吐量(TPS)、QPS、并发数、响应时间(RT)

    1. 响应时间(RT)  响应时间是指系统对请求作出响应的时间.直观上看,这个指标与人对软件性能的主观感受是非常一致的,因为它完整地记录了整个计算机系统处理请求的时间.由于一个系统通常会提供许多功能, ...

  5. Android FrameWork学习(二)Android系统源码调试

    通过上一篇 Android FrameWork学习(一)Android 7.0系统源码下载\编译 我们了解了如何进行系统源码的下载和编译工作. 为了更进一步地学习跟研究 Android 系统源码,今天 ...

  6. 【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background

    ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...

  7. select函数的使用

    select函数是 I/O 复用中非常重要的一个函数,属于并发编程的.它能够监视我们需要监视的文件描述符的变化情况–读.写或者异常 1. 函数原型 #include <sys/select.h& ...

  8. Codeforces 1332 D. Walk on Matrix(构造矩阵)

    怎么构造呢? \(首先我们不可能去构造一个2000*2000的矩阵,那太复杂了\) \(也许我们可以看看2*2的矩阵??\) \[\left[ \begin{matrix} x&y\\ z&a ...

  9. HashMap面试知识点总结

    主要参考 JavaGuide 和 敖丙 的文章, 其中也有参考其他的文章, 但忘记保存链接了, 文中图片也是引用别的大佬的, 请见谅. 新手上路, 若有问题, 欢迎指正. 背景 HashMap 的相关 ...

  10. 记录一下关于在工具类中更新UI使用RunOnUiThread犯的极其愚蠢的错误

    由于Android中不能在子线程中更新ui,所以平时在子线程中需要更新ui时可以使用Android提供的RunOnUiThread接口,但是最近在写联网工具类的时候,有时候会出现联网异常,这个时候为了 ...