用Rust手把手编写一个wmproxy(代理，内网穿透等), HTTP中的压缩gzip,deflate,brotli算法

项目 ++wmproxy++

github: https://github.com/tickbh/wmproxy

HTTP文件服务器的意义

HTTP文件服务器的意义是可以放置网站文件，可以放置数据文件。

HTTP服务器一般指网站服务器，是指驻留于因特网上某种类型计算机的程序，可以处理浏览器等Web客户端的请求并返回相应响应。

当前大量的应用会依赖到文件服务器，比如我们非常熟悉的网站（会加载index.html)文件及各种css及js文件，比如我们的各种APP会有相对应的版本信息，会有相应的版本文件，又或者小程序本身就是一个可执行文件，当你点击的时候，应用去下载相应的小程序文件，然后在本地进行加载，然后打开提供服务。目前我们的互联网上冲浪完全无法离开文件服务器。

HTTP文件服务器几大作用

1. 文件共享

文件服务器的主要功能是提供文件共享功能。它允许用户从他们自己的计算机或设备访问共享文件和文件夹，而不管他们的物理位置。用户可以查看、编辑和保存存储在服务器上的文件，所有有权访问该文件的用户都会自动更新更改。

以下是我们在聊天软件上发送一张图片给另一个人的流程

flowchart TD
A[你]
B[APP]
C[文件服务器]
D[APP服务器]
E[聊天对象]

A -->|将图片共享|B
B -->|将图片上传|C
C -->|返回图片地址|B
B -->|将图片地址推送给|D
D -->|将地址通知给|E
E -->|从文件服务器中获取图片|C

2. 集中存储

此时你的不小心将数据删除，此时你想找回原来的图片，以下是整个过程

flowchart TD
A[你]
B[APP]
C[文件服务器]
D[APP服务器]

D -->|同步旧的聊天记录, 获取图片地址|B
B -->|重新下载图片|C
B -->|获取完图片后推送给|A

此时文件服务器担任着集中存储的角色，海量的数据将汇聚在中心服务器上，我们可以通过网络访问到海量的数据资源。

3. 备份与恢复

上述过程，相当于服务器帮你备份了图片数据，在你不小心丢失的时候，可以恢复您的数据，我们最经常使用的如图片备份到网盘，一方面可以释放掉本地的空间，另一方面我们可以将数据保存到很久之后。

4. 访问控制

我们在获取到图片地址的时候，并不是任何的角色都可以获取到该图片的资源，在服务器内部中，会有相关的权限验证，在为您提供数据的同时，并保护着您的数据安全。

file_server文件服务器

一个静态文件服务器，支持真实和虚拟文件系统。它通过将请求的URI路径附加到站点的根路径来形成文件路径。

最常见的是，file_server指令与root指令配对，为整个网站设置文件根。其中保证所有的访问仅能在root指定的目录之下，不能访问其上级的任何数据，故在root下的目录理论上即使禁目录访问也可能被全部访问到（暴力遍历），但在root上级的目录不可能被以任何的方式进行访问，即使添加../相对路径也不行。

file_server参数相关

结构定义如下：

pub struct FileServer {

    #[serde(default = "default_root")]

    pub root: String,

    #[serde(default)]

    pub prefix: String,

    #[serde(default="default_hide")]

    pub hide: Vec<String>,

    #[serde(default = "default_index")]

    pub index: Vec<String>,

    #[serde(default = "default_status")]

    pub status: u16,

    #[serde(default = "default_precompressed")]

    pub precompressed: Vec<String>,

    #[serde(default)]

    pub disable_compress: bool,

    #[serde(default = "default_bool_true")]

    pub browse: bool,

}

browse 对没有索引文件的目录的请求，当前又是一个目录的情况下启用文件列表。
root 设置网站根目录。指向的是当前文件磁盘下的路径前缀，如/file/，那么提供服务的将是/file/的文件服务
prefix Url的前缀，如/static/，如果我们获取到一个请求路径如/static/src/wmproxy.md，那么我们会去掉前缀得到src/wmproxy.md，那么实际的指向为/file/src/wmproxy.md进行文件服务
hide 是一个要隐藏的文件或文件夹的列表；如果要求，文件服务器将假装它们不存在。该指令接受占位符和glob模式。注意，这些是文件系统路径，不是请求路径。换句话说，相对路径使用当前工作目录作为基础，而不是网站根目录；所有的路径在比较之前都会被转换为绝对形式（如果可能的话）。指定一个没有路径分隔符的文件名或模式，将隐藏所有具有匹配名称的文件，无论其位置如何；
index 是一个寻找索引文件的文件名列表。默认：index.html index.htm。
precompressed 是用于搜索预压缩挎包文件的编码格式列表。支持的格式有gzip（.gz），和br（.br）。所有的文件查找将首先寻找未压缩文件的存在。一旦找到，我们将以未添加之前的格式做mimetype，如README.md.gz取的是md的mimetype，也就是text/plain。并适当地设置Content-Encoding响应头。否则，将以正常的未压缩文件进行响应。如果encode指令被启用，那么如果没有预压缩，它可能会对响应进行即时压缩。如我们访问README.md，但此时目录下存在README.md.gz，那我们我们响应的是gz的文件，并设置Content-Encoding: gzip，如此做的好处，我们对该文件的任何请求，我们都无须耗任何压缩的时间，响应更快，我们可以用更高的压缩比来进行预压缩，可节省更多时间。
status 是一个可选的状态代码覆盖，在编写响应时使用。在用自定义错误页面响应请求时特别有用。可以是一个3位数的状态代码，例如：404。支持占位符。默认情况下，写入的状态代码通常是200，或206，用于部分内容。

reverse:

  file_server:

启用了文件列表:

reverse:

  file_server:

    browse: true

只服务于/static文件夹中的静态文件:

reverse:

  file_server:

    root: /static/

    browse: true

隐藏所有.git文件夹及其内容。

reverse:

  file_server:

    root: /static/

    browse: true

    hide: [.git]

如果客户端支持（Accept-Encoding头），发送gzip,br，则检查请求的文件是否存在预压缩的文件。因此，如果/path/to/file被请求，/path/to/file.br和/path/to/file.gz`，并提供第一个具有相应内容编码的可用文件。

reverse:

  file_server:

    root: /static/

    browse: true

    hide: [.git]

    precompressed: [br, gzip]

`mimetype`作用

多用途互联网邮件扩展（MIME，Multipurpose Internet Mail Extensions）是一个互联网标准，它扩展了电子邮件标准，使其能够支持非 ASCII字符、二进制格式附件等多种格式的邮件消息。

内容类型（Content-Type），这个头部领域用于指定消息的类型。一般以下面的形式出现。[type]/[subtype]

type有下面的形式。

Text：用于标准化地表示的文本信息，文本消息可以是多种字符集和或者多种格式的；

Multipart：用于连接消息体的多个部分构成一个消息，这些部分可以是不同类型的数据；

Application：用于传输应用程序数据或者二进制数据；

Message：用于包装一个E-mail消息；

Image：用于传输静态图片数据；

Audio：用于传输音频或者音声数据；

Video：用于传输动态影像数据，可以是与音频编辑在一起的视频数据格式。

subtype用于指定type的详细形式。type/subtype配对的集合和与此相关的参数，将随着时间而增长。为了确保这些值在一个有序而且公开的状态下开发，MIME使用Internet Assigned Numbers Authority (IANA)作为中心的注册机制来管理这些值。常用的subtype值如下所示：

text/plain（纯文本）
text/html（HTML文档）
application/xhtml+xml（XHTML文档）
image/gif（GIF图像）
image/jpeg（JPEG图像）
image/png（PNG图像）
video/mpeg（MPEG动画）
application/octet-stream（任意的二进制数据）
application/pdf（PDF文档）
application/msword（Microsoft Word文件）
message/rfc822（ RFC 822形式）
multipart/alternative（HTML邮件的HTML形式和纯文本形式，相同内容使用不同形式表示）
application/x-www-form-urlencoded（使用HTTP的POST方法提交的表单）
multipart/form-data（同上，但主要用于表单提交时伴随文件上传的场合）

我们根据现有的已知的，我们用了静态变量做了以下数据定义，后续将会进行数据补充或者自定义

lazy_static! {

    static ref DEFAULT_MIMETYPE: HashMap<&'static str, &'static str> = {

        let mut m = HashMap::<&'static str, &'static str>::new();

        m.insert("doc", "application/msword");

        m.insert("pdf", "application/pdf");

        m.insert("rtf", "application/rtf");

        m.insert("xls", "application/vnd.ms-excel");

        m.insert("ppt", "application/vnd.ms-powerpoint");

        m.insert("rar", "application/application/x-rar-compressed");

        m.insert("swf", "application/x-shockwave-flash");

        m.insert("zip", "application/zip");

        m.insert("json", "application/json");

        m.insert("yaml", "text/plain");

        m.insert("mid", "audio/midi");

        m.insert("midi", "audio/midi");

        m.insert("kar", "audio/midi");

        m.insert("mp3", "audio/mpeg");

        m.insert("ogg", "audio/ogg");

        m.insert("m4a", "audio/m4a");

        m.insert("ra", "audio/x-realaudio");

        m.insert("gif", "image/gif");

        m.insert("jpeg", "image/jpeg");

        m.insert("jpg", "image/jpeg");

        m.insert("png", "image/png");

        m.insert("tif", "image/tiff");

        m.insert("tiff", "image/tiff");

        m.insert("wbmp", "image/vnd.wap.wbmp");

        m.insert("ico", "image/x-icon");

        m.insert("jng", "image/x-jng");

        m.insert("bmp", "image/x-ms-bmp");

        m.insert("svg", "image/svg+xml");

        m.insert("svgz", "image/svg+xml");

        m.insert("webp", "image/webp");

        m.insert("svg", "image/svg+xml");

        m.insert("css", "text/css");

        m.insert("html", "text/html");

        m.insert("htm", "text/html");

        m.insert("shtml", "text/html");

        m.insert("txt", "text/plain");

        m.insert("md", "text/plain");

        m.insert("xml", "text/xml");

        m.insert("3gpp", "video/3gpp");

        m.insert("3gp", "video/3gpp");

        m.insert("mp4", "video/mp4");

        m.insert("mpeg", "video/mpeg");

        m.insert("mpg", "video/mpeg");

        m.insert("mov", "video/quicktime");

        m.insert("webm", "video/webm");

        m.insert("flv", "video/x-flv");

        m.insert("m4v", "video/x-m4v");

        m.insert("wmv", "video/x-ms-wmv");

        m.insert("avi", "video/x-msvideo");

        m

    };

}

源码实现

源码主要实现在file_server.rs的deal_request函数。节选

pub async fn deal_request(

    &self,

    req: Request<RecvStream>,

) -> ProtResult<Response<RecvStream>> {

    let path = req.path().clone();

    // 无效前缀，无法处理

    if !path.starts_with(&self.prefix) {

        return Ok(self.ret_error_msg("unknow path"));

    }

    let root_path = Path::new(&self.root);

    let mut real_path = Path::new(&real_path).to_owned();

    // 必须保证不会跑出root设置的目录之外，如故意访问`../`之类的

    if !real_path.starts_with(root_path) || self.is_hide_path(root_path.as_ref()) {

        return Ok(self.ret_error_msg("can't view parent file"));

    }

    // 访问路径是目录，尝试是否有index的文件，如果有还是以文件访问

    if real_path.is_dir() {

        for index in &self.index {

            let new_path = real_path.join(index);

            if new_path.exists() {

                real_path = new_path;

                break;

            }

        }

    }

    // 访问为目录，如果启用目录访问，则返回当前的文件夹的内容

    if real_path.is_dir() {

        if !self.browse {

            return Ok(self.ret_error_msg("can't view parent file"));

        }

        let mut binary = BinaryMut::new();

        // ...

        let recv = RecvStream::only(binary.freeze());

        let builder = Response::builder().version(req.version().clone());

        let mut response = builder

            .header(HeaderName::CONTENT_TYPE, "text/html; charset=utf-8")

            .body(recv)

            .map_err(|_err| io::Error::new(io::ErrorKind::Other, ""))?;

        if self.disable_compress {

            response.headers_mut().insert(HeaderName::CONTENT_ENCODING, "");

        }

        return Ok(response);

    } else {

        // 访问为文件，判断当前的后缀，返回合适的mimetype，如果有合适的预压缩文件，也及时返回

        if self.is_hide_path(path.as_ref()) {

            return Ok(self.ret_error_msg("can't view file"));

        }

        // 获取后缀

        let extension = if let Some(s) = real_path.extension() {

            s.to_string_lossy().to_string()

        } else {

            String::new()

        };

        let application = DEFAULT_MIMETYPE.get(&*extension).unwrap_or(&"");

        //查找是否有合适的预压缩文件

        if let Some(accept) = req.headers().get_option_value(&HeaderName::ACCEPT_ENCODING) {

            for pre in &self.precompressed {

                // 得客户端发送支持该格式

                if !accept.contains(pre.as_bytes()) {

                    continue;

                }

                let mut new = real_path.clone();

                new.as_mut_os_string().push(".");

                match &**pre {

                    "gzip" => new.as_mut_os_string().push("gz"),

                    "br" => new.as_mut_os_string().push("br"),

                    _ => continue,

                };

                // 如果预压缩文件存在

                if new.exists() {

                    println!("convert to new file {}", new.to_string_lossy());

                    let file = File::open(new).await?;

                    let mut recv = RecvStream::new_file(file, BinaryMut::new(), false);

                    match &**pre {

                        "gzip" => recv.set_compress_origin_gzip(),

                        "br" => recv.set_compress_brotli(),

                        _ => unreachable!(),

                    }

                    // ...

                    return Ok(response);

                }

            }

        }

        if !real_path.exists() {

            return Ok(self.ret_error_msg("can't view file"));

        }

        // ...

        return Ok(response);

    }

}

结语

如此静态文件服务器则已初步实现，文件服务中的压缩及流式传输已基本完成

14. 从零开始编写一个wmproxy(代理，内网穿透等), HTTP文件服务器的实现过程及参数的更多相关文章

借助FRP反向代理实现内网穿透
一.frp 是什么? frp 是一个专注于内网穿透的高性能的反向代理应用,支持 TCP.UDP.HTTP.HTTPS 等多种协议.可以将内网服务以安全.便捷的方式通过具有公网 IP 节点的中转暴露到公 ...
【新晋开源项目】内网穿透神器[中微子代理] 加入 Dromara 开源社区
1.关于作者 dromara开源组织成员,dromara/neutrino-proxy项目作者名称:傲世孤尘.雨韵诗泽名言: 扎根土壤,心向太阳.积蓄能量,绽放微光. 拘浊酒邀明月,借赤日暖苍穹. ...
使用FRP做内网穿透
Github地址:https://github.com/fatedier/frp 什么是FRP? frp 是一个可用于内网穿透的高性能的反向代理应用,支持 tcp, udp 协议,为 http 和 h ...
frp内网穿透学习
前言因为自己在内网,但是目标站在外网,这时候可以通过内网穿透工具,将接收到的请求转发到内网,实现在内网的msf可以控制外网的靶机. 也看了一些Ngrok,花生壳的,发现Ngrok.cc这个看文章说有 ...
frp + nginx 配置多人共用的http 内网穿透服务
来源:简书 https://www.jianshu.com/p/c9d7527d607b 一. 前言 frp 是一个用Go语言开发的,可用于内网穿透的高性能的反向代理应用,支持 tcp, udp ...
frp 用于内网穿透的基本配置和使用
frp 用于内网穿透的基本配置和使用今天是端午节,先祝端午安康! frp 是一个专注于内网穿透的高性能的反向代理应用,支持 TCP.UDP.HTTP.HTTPS 等多种协议.可以将内网服务以安全.便 ...
使用frp进行内网穿透
frp 是一个专注于内网穿透的高性能的反向代理应用,支持 TCP.UDP.HTTP.HTTPS 等多种协议.可以将内网服务以安全.便捷的方式通过具有公网 IP 节点的中转暴露到公网. frp is a ...
内网穿透+VS2015自带IIS express实现本地调试（微信等需要将开发环境暴漏到外网的情况使用）
今天一个兼职结束了,又要开始寻找新的兼职公司了 ,为了贴补家用啊,为了给儿子更好的生活加油! 抒情完毕进入正题,本篇文章要解决的问题是其实在开发微信支付,微信公众号等回调地址必须是外网可访问的80端口 ...
分享一个内网穿透工具frp
首先简单介绍一下内网穿透: 内网穿透:通过公网,访问局域网里的IP地址与端口,这需要将局域网里的电脑端口映射到公网的端口上:这就需要用到反向代理,即在公网服务器上必须运行一个服务程序,然后在局域网中需 ...
从零开始编写一个BitTorrent下载器
从零开始编写一个BitTorrent下载器 BT协议简介 BT协议Bit Torrent(BT)是一种通信协议,又是一种应用程序,广泛用于对等网络通信(P2P).曾经风靡一时,由于它引起了巨大的流量 ...

随机推荐

C++面试八股文：技术勘误
不知不觉,<C++面试八股文>已经更新30篇了,这是我第一次写技术博客,由于个人能力有限,出现了不少纰漏,在此向各位读者小伙伴们致歉. 为了不误导更多的小伙伴,以后会不定期的出勘误文章,请 ...
求任意两个正整数的最大公约数（GCD）。
问题描述求任意两个正整数的最大公约数(GCD). 问题分析如果有一个自然数a能被自然数b整除,则称a为b的倍数,b为a的约数.几个自然数公有的约数,叫做这几个自然数的公约数.公约数中最大的一个公约 ...
一文了解io.ReadAtLeast函数
1. 引言 io.ReadAtLeast 函数是Go标准库提供的一个非常好用的函数,能够指定从数据源最少读取到的字节数.本文我们将从io.ReadAtLeast 函数的基本定义出发,讲述其基本使用和实 ...
Java_Day17_作业
1:需求:递归删除带内容的目录假设删除当前项目下的目录:demo,demo中可以有文件夹自己给出 2:需求:请大家把E:\JavaSE目录下所有的java结尾的文件的绝对路径给输出在控制台. 3:下 ...
【Python】从同步到异步多核：测试桩性能优化，加速应用的开发和验证
测试工作中常用到的测试桩mock能力在我们的测试工作过程中,可能会遇到多个项目并行开发的时候,后端服务还没有开发完成,或者我们需要压测某个服务,这个服务测在试环境的依赖组件(如 MQ) 无法支撑我们 ...
打造原生 WebGL 2D 引擎：一场创意与技术的融合
打造原生 WebGL 2D 引擎:一场创意与技术的融合 1.引言在当今数字化时代,网页的功能越来越丰富,已经远远超越了传统的文本和图片呈现.我们生活在一个充满交互性和视觉魅力的网络世界.每天都会遇到 ...
网关冗余协议：FHRP、HSRP（思科）、VRRP、GLBP
参考链接: CHANNEL技术与网关冗余 VRRP和HSRP的区别
Cilium系列-10-启用 IPv6 BIG TCP和启用巨帧
系列文章 Cilium 系列文章前言将 Kubernetes 的 CNI 从其他组件切换为 Cilium, 已经可以有效地提升网络的性能. 但是通过对 Cilium 不同模式的切换/功能的启用, ...
spring多数据源动态切换的实现原理及读写分离的应用
简介 AbstractRoutingDataSource是Spring框架中的一个抽象类,可以实现多数据源的动态切换和路由,以满足复杂的业务需求和提高系统的性能.可扩展性.灵活性. 应用场景多租户支 ...
Effective C++ 笔记（二）
16.保证异常安全 1 void PrettyMenu::changBackground(std::istream &imgSrc) 2 { 3 lock(&mutex); 4 del ...

14. 从零开始编写一个wmproxy(代理，内网穿透等), HTTP文件服务器的实现过程及参数