1 简介

众所周知(你不知也当你知),MongoDB是以文档(Document)组织数据的。除了常用于存储Json数据,它也是可以存储普通文件的。我们可以把一些文件以BSOON的格式存入MongoDB,十分方便,比较说图片、文本文件等。但MongoDBBSON Document有大小限制,最大不能超过16MB。这对我们存储大文件是不方便的。还好,MongoDB为我们提供了GridFS文件存储组件,让我们可以存储超过16MB的文件,小文件当然也可以了。接下来让我们一起学习一下这个GridFS存储。

2 基本原理与概念

GridFS原理比较简单,就是把大文件拆成小文件来存储而已。当我们存入一个文件时,默认使用集合fs.filesfs.chunks来存储文件。其中fs.files存储的是文件的信息,fs.chunks用来存放文件内容,以BSON格式存放。

fs.files的一条记录如下:

{
"_id" : ObjectId("5ec6b44af3760d5999bd1c91"),
"length" : NumberLong(1048576),
"chunkSize" : 261120,
"uploadDate" : ISODate("2020-05-21T17:03:06.217Z"),
"filename" : "pkslow.txt",
"metadata" : {}
}

字段解释:

_id:主键ID;

length:文件大小;

chunkSize:chunk的大小,决定要分几个chunk来存放文件;

uploadDate:文件上传时间;

filename:文件名;

metadata:文件其它信息,可以自定义加上,这样有利于后续的检索和使用等。

fs.chunks的一条记录如下:

{
"_id" : ObjectId("5ec6b44af3760d5999bd1c94"),
"files_id" : ObjectId("5ec6b44af3760d5999bd1c91"),
"n" : 2,
"data" : { "$binary" : "xxxxxxxxx", "$type" : "00" }
}

字段解释:

_id:主键ID;

files_id:所存内容对应的文件ID,可以看到与fs._id的值是一样的;

n:第几个chunk的索引,从0开始;

data:文件内容;

从感观上看了两个集合的字段,相信大家基本知道GridFS是怎么组织数据的了。当我们存入一个文件时,如果文件较小,小于chunkSize,则会把文件信息存入fs.files,只有一条记录;文件内容会存入fs.chunks,也只有一条记录。如果存的文件大于chunkSize,也会在fs.files生成一条记录,但在fs.chunks中会生成多条记录来存放文件内容。如下图所示:

MongoDB为我们建立了相关索引,可以加速查询,如fs.files的文件名和上传时间;fs.chunks的文件ID和n。

3 常用mongofiles命令

讲了基本原理,我们来实际操作一下,使用MongoDB给我们准备好的命令来做一些操作。当然,首先要有一个安装好的数据库,可以参考《用Docker安装一个MongoDB最新版玩玩》。

我们都是使用mongofiles命令进行操作的,需要指定比较多的参考,例如下面的命令用于列出所有文件:

mongofiles --username user --password 123456 --host 127.0.0.1 --port 27017 --authenticationDatabase admin --db testdb list

为了不要每次都输入这么长的命令,我们加个别名:

alias mf='mongofiles --username user --password 123456 --host 127.0.0.1 --port 27017 --authenticationDatabase admin --db testdb'

列出文件:

mf list

存入文件:存入的文件名与本地文件名一样。

mf put pksow.txt

读取文件:

mf get pkslow.txt

查找文件:

mf search pkslow

删除文件:

mf delete pkslow.txt

指定自定义文件名:

mf --local pkslow.txt put /com/pkslow.txt

4 总结

发挥你的想象力,GridFS能做的事很多,存图片、音频、视频等,有时我们只想查看大文件的部分内容,也能方便实现。

注:本文使用的MongoDB版本为4.2.1


欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章!

欢迎关注微信公众号<南瓜慢说>,将持续为你更新...

多读书,多分享;多写作,多整理。

如何安放你的大文件,MongoDB GridFS可以帮助你的更多相关文章

  1. 实验mongodb使用gridfs存放一个大文件

    1.启动mongoDB 2.使用gridfs存放大文件 3.观察fs.chunks和fs.files的情况 命令 db.fs.chunks.find()查到的是一些二进制文件:

  2. MongoDB GridFS 存储大文件

    我们经常会遇到这样的场景:上传/下载文件. 有两种思路可以解决这个问题: (1)将文件存储在服务器的文件系统中: (2)将文件存储在数据库中. 如果我们选择(2),那么我们可以使用MongoDB Gr ...

  3. MongoDB GridFS——本质上是将一个文件分割为大小为256KB的chunks 每个chunk里会放md5标识 取文件的时候会将这些chunks合并为一个整体返回

    MongoDB GridFS GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片.音频.视频等). GridFS 也是文件存储的一种方式,但是它是存储在MonoDB的集合中 ...

  4. mongoDB 大文件存储方案, JS 支持展示

    文件存储 方式分类 传统方式 存储路径 仅存储文件路径, 本质为 字符串 优点: 节省空间 缺点: 不真实存储在数据库, 文件或者数据库发送变动需要修改数据库 存储文件本身 将文件转换成 二进制 存储 ...

  5. mongo 固定集合,大文件存储,简单优化 + 三招解决MongoDB的磁盘IO问题

    1.固定集合 > db.createCollection(, max:});//固定集合 必须 显式创建. 设置capped为true, 集合总大小xxx字节, [集合中json个数max] { ...

  6. Mongodb GridFS——适合大小超过16MB的文件

    一.概述 GridFS是基于mongodb存储引擎是实现的“分布式文件系统”,底层基于mongodb存储机制,和其他本地文件系统相比,它具备大数据存储的多个优点.GridFS适合存储超过16MB的大型 ...

  7. GridFS大文件的添加、获取、查看、删除

    GridFS是一种在MongoDB中存储大二进制文件的机制,使用GridFS的原因有以下几种: 存储巨大的文件,比如视频.高清图片等. 利用GridFS可以简化需求. GridFS会直接利用已经建立的 ...

  8. MongoDB入门(8)- c#通过操作MongoDB GridFS实现文件的数据库存储

    GridFS介绍 GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件. GridFS GridFS长啥样 /* 1 */ { "_id" : ObjectId(& ...

  9. Spring Boot使用MongoDB GridFS进行文件的操作

    1. GridFS简介 GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片.音频.视频等),但是它是存储在MonoDB的集合中. GridFS 会将文件对象分割成多个的ch ...

随机推荐

  1. Shodan使用简述

    申明 本文只做相关介绍,使用者应当严格自律,承诺遵守法律法规     Shodan,一款互联网下的可怕搜索引擎.它的可怕之处在于Shodan可以搜索各种在线的网络设备.比如:摄像头.路由器.打印机.服 ...

  2. 透彻理解C++11新特性:右值引用、std::move、std::forward

    目录 浅拷贝.深拷贝 左值.右值 右值引用类型 强转右值 std::move 重新审视右值引用 右值引用类型和右值的关系 函数参数传递 函数返还值传递 万能引用 引用折叠 完美转发 std::forw ...

  3. Gym 101194F Mr. Panda and Fantastic Beasts

    #include<bits/stdc++.h> using namespace std; #define ms(arr,a) memset(arr,a,sizeof arr) #defin ...

  4. HDU 5725 Game

    1. 笔记 题意是求距离的期望(距离仍指连接两点且有效的路径长度的最小值).直观想象可以发现,该距离与曼哈顿距离相比最多多2(可以构造这样的路径). 答案=(任意两点曼哈顿距离的总和 - 至少有一点是 ...

  5. 【K8S】K8S部署Metrics-Server服务

    写在前面 在新版的K8S中,系统资源的采集均使用Metrics-Server服务,可以通过Metrics-Server服务采集节点和Pod的内存.磁盘.CPU和网络的使用率等信息. 读者可参考< ...

  6. Blog Customization

    0 前言 从大二开始写博客,主要为了记录自己学习过程中的问题.尝试使用过CSDN.博客园等公共服务,也用Github pages搭建过自己的博客,但效果都不令人满意.CSDN广告太多,界面乌烟瘴气,而 ...

  7. 51NOD 2072 装箱问题 背包问题 01 背包 DP 动态规划

    有一个箱子容量为 V(正整数,0<=V<=20000),同时有 n 个物品(0<n<=30),每个物品有一个体积(正整数). 现在在 n 个物品中,任取若干个装入箱内,使得箱子 ...

  8. csp-j2019游记

    我一pj蒟蒻这点水平还来写游记? 算了,毕竟是第一次,记录一下吧 noip->csp 话说我跟竞赛是不是天生八字不合啊...... 小学的时候学小奥,等我开始报名比赛,当时似乎所有竞赛都被叫停了 ...

  9. python(For 循环语句)

    一.For循环 Python for 循环可以遍历任何序列的项目,如一个列表或者一个字符串或者字典等. 语法模式:for var in sequence: (1)从某个集合(列表等)里顺次取值 #遍历 ...

  10. 0x01-Linux常用文件处理命令

    0x01-Linux常用文件处理命令 摘要 文件可以说是占据了Linux系统半壁江山,那么,我们理所应当要认识文件,且还要懂得如何创建.查看文件(touch.cat命令).既然是使用Linux,当然是 ...