本文仅关注zstd的使用,并不关心其算法的具体实现

并没有尝试使用zstd的所有功能模式,但是会简单介绍每种模式的应用场景,用到的时候去查api吧

step 0:why zstd?

zstd是facebook开源的压缩算法,可以在这里找到:https://github.com/facebook/zstd

官方使用文档:https://facebook.github.io/zstd/zstd_manual.html

根据传闻(自己评估),zstd在通用任务场景下,其压缩速度和压缩比都有相对优秀的表现,相对于gzip和zlib等同行值得一试。

但是,具体采用哪种压缩算法,需要根据你自己的工作场景选择,最好提供一些sample files在benchmark上跑一下试试。

此处代码为C++,也支持其他的语言版本,可以到官网中查找。

step 1:下载并安装zstd

git clone https://github.com/facebook/zstd.git
cd zstd/
make
sudo make install
make check

至此,应该正常完成zstd的安装和测试,可以cd examples/来尝试编译并运行部分demo代码

step 2:zstd的使用

step 2.1:基本功能api

step 2.1.1:通用压缩

单个文件压缩:ZSTD_compressZSTD_decompress成对使用,过程中需要提前分配内存空间,参见demo吧

多个文件批量压缩:一个最为重大的误区是对ZSTD_compressCCtx的理解,该函数只会将多个文件压缩为多个.zst,实际上ZSTD_compressCCtx并不会将多个文件打包为一个.zst

其意义在于重复使用ZSTD_CCtx上下文,避免多次重复申请和释放内存,用于批量压缩单个文件

step 2.1.2:流式压缩

流式压缩:本质是对文件进行分块压缩,通常适用于大文件而不是小文件,比如日志,视频流,数据库等

分块读取数据,相比于一次性读取减少了内存占用,并且分块也可以支持多线程并发

解压缩同理,分块读取并解压缩。

ZSTD_compressStreamZSTD_decompressStream成对使用

注意,ZSTD_decompressZSTD_decompressStream都能够正确解压文件,只是性能有区别

ZSTD_c_compressionLevel:是调整压缩速度和压缩率的trade-off,默认等级为3,当前范围是 1 ~ ZSTD_maxCLevel()

step 2.1.3:字典压缩

官方提出了以下讨论:

The smaller the amount of data to compress, the more difficult it is to compress. This problem is common to all compression algorithms, and reason is, compression algorithms learn from past data how to compress future data. But at the beginning of a new data set, there is no "past" to build upon.

压缩算法的本质是对过去内容pattern的学习,直觉上有点类似ai中的模式识别。

提出了一个方法:使用一个预训练的字典对多个文件进行压缩,以提高压缩率和速度。

适用于小文件、多文件压缩,比标准压缩更高效。

zstd --train FullPathToTrainingSet/* -o dictionaryName,提前训练所需的字典文件

代码中使用的API为:

  • ZSTD_createCDict:创建字典结构
  • ZSTD_compress_usingCDict:实际压缩
  • ZSTD_decompress_usingDDict:实际解压

step 2.2:文件夹压缩保持原有的文件结构

以上压缩结果均为单对单,已有的zstd API不支持将多个文件保持原有的树状文件结构并压缩为一个文件。

Q: 所以,想要将多个文件压缩成一个压缩包,一定有办法的吧?

A: 那当然!

我们常见的处理方式是混合使用tarzsttar工具保持原有的文件结构,打包为一个文件。

之后使用zst将单个文件压缩。

还有另一种方法是使用流式压缩,将递归遍历的路径结构写入压缩内容,需要在文件之间添加分隔符或元数据

这种做法会比较复杂,在性能瓶颈不严重的情况下我个人不太喜欢。

step 3:一个小case

注意,约定被压缩后的文件后缀为.zst

最近在,一般会在工具函数(命名为utils.h或者common.h)等部分设置一个check函数,在对应环境下有统一的判断和返回处理。

这种操作可以避免你每次都写相同的错误处理,这在实际的编程实践中可以显著减少代码行数并增加可读性,是优秀且值得借鉴的。

类似zstd中的:

/*! CHECK
* Check that the condition holds. If it doesn't print a message and die.
*/
#define CHECK(cond, ...) \
do { \
if (!(cond)) { \
fprintf(stderr, \
"%s:%d CHECK(%s) failed: ", \
__FILE__, \
__LINE__, \
#cond); \
fprintf(stderr, "" __VA_ARGS__); \
fprintf(stderr, "\n"); \
exit(1); \
} \
} while (0) /*! CHECK_ZSTD
* Check the zstd error code and die if an error occurred after printing a
* message.
*/
#define CHECK_ZSTD(fn) \
do { \
size_t const err = (fn); \
CHECK(!ZSTD_isError(err), "%s", ZSTD_getErrorName(err)); \
} while (0)

和cuda中的:

#define CHECK(call)\
{\
const cudaError_t error=call;\
if(error!=cudaSuccess)\
{\
printf("ERROR: %s:%d,",__FILE__,__LINE__);\
printf("code:%d,reason:%s\n",error,cudaGetErrorString(error));\
exit(1);\
}\
}

zstd压缩算法概述与基本使用的更多相关文章

  1. HBase数据压缩算法编码探索

    摘要: 本文主要介绍了hbase对数据压缩,编码的支持,以及云hbase在社区基础上对数据压缩率和访问速度上了进行的改进. 前言 你可曾遇到这种需求,只有几百qps的冷数据缓存,却因为存储水位要浪费几 ...

  2. 一条数据的HBase之旅,简明HBase入门教程-开篇

    常见的HBase新手问题: 什么样的数据适合用HBase来存储? 既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉? 存放于HBase中的数据记录,为何不直接存放于HDFS之 ...

  3. MaxCompute新功能发布

    2018年Q3 MaxCompute重磅发布了一系列新功能. 本文对主要新功能和增强功能进行了概述. 实时交互式查询:Lightning on MaxCompute 生态兼容:Spark on Max ...

  4. MySQL 每秒 570000 的写入,如何实现?

    阅读本文大概需要 2.8 分钟. 来源:http://t.cn/E2TbCg5 一.需求 一个朋友接到一个需求,从大数据平台收到一个数据写入在20亿+,需要快速地加载到MySQL中,供第二天业务展示使 ...

  5. tikv性能参数调优

    tiKV 最底层使用的是 RocksDB(tidb3.0版本中将使用tian存储引擎) 做为持久化存储,所以 TiKV 的很多性能相关的参数都是与 RocksDB 相关的.TiKV 使用了两个 Roc ...

  6. Deepgreen DB简介(转)

    原文链接   Deepgreen DB 全称 Vitesse Deepgreen DB,它是一个可扩展的大规模并行(通常称为MPP)数据仓库解决方案,起源于开源数据仓库项目Greenplum DB(通 ...

  7. Deepgreen DB 是什么(含Deepgreen和Greenplum下载地址)

    Deepgreen官网下载地址:http://vitessedata.com/products/deepgreen-db/download/ 不需要注册 Greenplum官网下载地址:https:/ ...

  8. HBase数据压缩编码探索

    摘要: 本文主要介绍了hbase对数据压缩,编码的支持,以及云hbase在社区基础上对数据压缩率和访问速度上了进行的改进. 前言 你可曾遇到这种需求,只有几百qps的冷数据缓存,却因为存储水位要浪费几 ...

  9. TokuDB · 引擎特性 · HybridDB for MySQL高压缩引擎TokuDB 揭秘

    原文出处:阿里云RDS-数据库内核组 HybridDB for MySQL(原名petadata)是面向在线事务(OLTP)和在线分析(OLAP)混合场景的关系型数据库.HybridDB采用一份数据存 ...

  10. Go操作kafka

    Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,具有高性能.持久化.多副本备份.横向扩展等特点.本文介绍了如何使用Go语言发送和接收kafka消息. s ...

随机推荐

  1. Qt编写物联网管理平台39-报警联动

    一.前言 本系统支持报警联动,就是某个探测器报警后,再去下发命令,通知下面的继电器警号,一般是通过串口发送,由于现场会利用现有的串口线路比如485总线,所以本系统需要做特殊处理,就是公用485通信总线 ...

  2. Qt编写安防视频监控系统38-onvif校时

    一.前言 在视频监控系统中,对摄像机进行时间设置也是很有必要的,这样就和服务器或者软件这边统一了时间,一般在摄像机的画面上可以设置OSD标识当前时间,这样存储到视频文件中回放的时候,也能和本地的时间一 ...

  3. [转]CMake与Make最简单直接的区别

    写程序大体步骤为: 1.用编辑器编写源代码,如.c文件. 2.用编译器编译代码生成目标文件,如.o. 3.用链接器连接目标代码生成可执行文件,如.exe. 但如果源文件太多,一个一个编译时就会特别麻烦 ...

  4. 【原创】浅谈EtherCAT主站EOE(下)-EtherCAT IgH主站EoE具体实现

    目录 1.IgH 框架概述 2. IgH EOE机制 2.1 EoE服务规范 2.1 EoE虚拟网络设备 2.1.1 EoE Virtual Network Interfaces 2.1.2 EoE ...

  5. Linux 检查磁盘空间命令合集

    1. DF df 是检查Linux安装程序上可用分区空间的最常用的命令之一.可以使用"df -TH"以直观易读的格式打印分区类型和分区大小.此命令将显示每个部分的总可用空间.已用空 ...

  6. Solution Set - “卷起击碎定论的漩涡”

    目录 0.「CF 1788F」XOR, Tree, and Queries 1.「CF 1815F」OH NO1 (-2-3-4) 2.「CF 1787F」Inverse Transformation ...

  7. [megatron代码阅读] 1. 初始化和组网

    以pretrain_gpt.py为例, 看megatron的整体逻辑. 本章主要包括megatron初始化相关逻辑, 核心函数为initialize_megatron, setup_model_and ...

  8. C#正则表达式匹配候选词

    来自文心一言(多次修改才正确的): public App() { string input = "例子文字{备选,:'词1t324|备选词2gdfg,该方法|备选词3dsfdsf}继续{备选 ...

  9. ClickHouse-4SQL参考

    SQL参考 ClickHouse支持以下形式的查询: SELECT INSERT INTO CREATE ALTER 其他类型的查询 ClickHouse SQL 语句 语句表示可以使用 SQL 查询 ...

  10. AVX512

    最近接触到SIMD编码,就不可避免的查到了AVX指令集,两者有什么关系呢,了解一下? 问:AVX是什么? 答:是一套指令集 下面具体看: AVX 以下内容主要转载自:AVX指令集是什么?它的应用又有哪 ...