基于Azure Blob冷存储的数据压缩算法测试对比分析
背景说明:
近期公司的数据增量迅速增长,存储的成本太高,需要采用生命周期进行管理,热存储中的数据或者被删除,或者备份至冷存储。但是冷备时是否要压缩,需要进行验证。Azure本身没有提供压缩的接口,只能自己处理。以下是测试的结论。
备份压缩步骤
采用压缩流。验证了两种方式,方式一在文件较大时(>3G)会超时报错,方式二可行。
1、方式一:将源stream直接压缩包装输出到目标stream。不经过本地磁盘(测试应用服务器)。

这种方式在测试环境中,当文件>3G时,会报超时错误。
2、方式二:先将源文件下载到本地磁盘(测试应用服务器),然后通过压缩流写入目标stream。
基于这种方式,备份的文件操作步骤如下:

说明:
逐个将blob下载到应用服务器,压缩上传后立即删除,再下载next blob,保证在任一时刻,应用服务器上只有一个blob文件,以减少对应用服务器带来的存储压力和存储成本。
压缩算法测试
测试环境
应用服务器
测试应用服务器:App2(虚拟机)
内存:7G
CPU:Interl Xeon E5-2660 2.20GHz,4个虚拟处理器
操作系统:64位,windows server 2012R2
测试数据:Task_Log目录,包括99个blob,大小从1k至5.5G不等,总大小为20G (20553082991 B)。
热存储
AccountName:hdptest
AccountContainer:backup
冷存储
同热存储。通过热存储进行模拟,重点在于压缩算法的测试。
说明:
热存储、冷存储、应用服务器在同一区域内,不会产生传输费用
测试结果
操作耗时说明:
文件下载时间:539.9651764 s
从存储中删除文件时间:0.2446082 s
删除本地文件时间:1.1063126 s
压缩上传时间:见下表

测试失败的算法:

关于以上压缩算法或格式的说明,后附。
分析报告
1、压缩率与压缩速度成反比。压缩速度的差异 > 压缩率的差异
1)压缩率与压缩速度前三名
压缩率前三:7z-高压缩比,Gzip-优化,Gzip-普通
压缩速度前三:LZ4-普通,Deflate-快速,Gzip-快速
2) 在以上几种算法中,LZ4(普通模式)更新适合目前的备份压缩应用场景。
压缩率=28%,20G压缩时间=256s。相对来说,LZ4(普通模式)的磁盘IO较高。
以1T数据量为例,LZ4(普通模式)压缩后的大小估计284G,压缩时间估计3.5小时。
2、基于压缩传输的时间较长,所以备份的数据量要尽量控制,建议按周或更小的粒度来进行表的分区操作。
3、应用服务器、热存储、冷存储三者必须保证在同一个区域内,否则会产生网络传输费用。
4、关于Block Blob的说明:
1)Azure存储中,单个Block Blob最大4.75TB,追加Blob最大195G,Page Blob最大1T。
2)HBase的单个Block Blob 不超过200G,用的是追加Blob。
是否采用压缩的存储费用对比
对比分析前提说明
1、需要进行冷存储的数据为XX日志,目前总量47T,日增量0.5T,月增量15T。XX日志按月分表,每月备份一次,每次备份的数据量为15T。
XX日志生命周期参考如下:

2、热存储中需要常驻4个月的数据,所以假设备份的日期在2017.12(4个月后)。此时,需要冷备的数据量为47T,热存储中数据量为60T。
3、假设采用算法为LZ4(普通模式),压缩率28.42%,压缩时间3.5h/TB。该算法压缩率较高,但速度最快。
4、存储冗余级别为LRS(本地冗余存储),应用服务器、热存储、冷存储在同一数据中心。
压缩时需要将文件下载到应用服务器,由于是逐个下载,上传完毕即删,然后再下载另一个,所以在应用服务器上产生的存储费用忽略。
Blob存储费用说明:

参考:https://www.azure.cn/pricing/calculator/storage/
https://www.azure.cn/pricing/details/storage/
不冷备时的费用

每个月的固定费用:15943 ,并且每月增长 2235
冷备不压缩时的费用

第一次冷备产生的一次性费用:771
每个月的固定费用:8940+5170+246 = 14356 ,并且每月增长 1650
冷备压缩时的费用

第一次冷备产生的一次性费用:219
每个月的固定费用:8940+1469+70 = 10479 ,并且每月增长 469
三种费用对比
三种存储方式下的费用对比:

三种存储方式下的费用对比示例:

压缩算法简介

基于Azure Blob冷存储的数据压缩算法测试对比分析的更多相关文章
- 基于Azure Blob冷存储的数据压缩备份总结
基于上一篇的压缩算法对比分析报告,选择了LZ4算法的普通模式,其测试压缩率为28%,20G压缩时间为256s,估计1T的冷备时间为3.5h. 接下来,将23T的HBase历史数据进行了压缩冷备,压缩后 ...
- Windows Azure HandBook (6) Azure带宽与Azure Blob云存储
<Windows Azure Platform 系列文章目录> 在笔者这几年Azure售前工作中,经常会遇到客户提同样的问题:Azure 虚拟机的带宽是多少?Azure提供独享带宽吗?这个 ...
- 基于Azure blob storage T级别HBase表恢复
为减少Hbase集群压力,提高性能,我们将HBase库中的数据移到另外的存储,下面记录当我需要对数据进行计算时,数据恢复的过程 目录: Azure storage explorer 工具 数据复制 元 ...
- 基于mybatis向oracle中插入数据的性能对比
数据库表结构: 逐条插入sql语句: <insert id="insert" parameterType="com.Structure"> INSE ...
- [AWS vs Azure] 云计算里AWS和Azure的探究(6) - Amazon Simple Storage Service 和 Microsoft Azure Blob Storage
这几天Nasuni公司出了一份报告,分析了各个云厂商的云存储的性能,包括Amazon S3,Azure Blob Storage, Google Drive, HP以及Rackspace.其中性能上A ...
- presto访问 Azure blob storage
当集群使用Azure Blog Storage时,prestoDB无法获取返回结果,在此记录下 如下,hive里面的两个表,一个使用的是本地的hdfs,一个是使用 azure blob storage ...
- Azure Blob (三)参数设置说明
一,引言 上一篇将 Azure Blob 存储的时候,有使用到一个 .NET Core Web 项目,通过代码的方式进行操作 Azure Blob 的数据,接着上一篇的内容,今天继续看一下代码,具体 ...
- 使用Azure Blob存储
可以通过多种方式来对Azure Blob进行操作.在此我们介绍通过VS的客户端及代码两种方式来操作Blob. 一.通过VS来操作Blob. 1.首先下载publish settings 文件:打开“h ...
- 通过 PHP 连接China Azure Blob 存储
问题说明 Azure Blob 存储是一种将非结构化数据作为对象/Blob存储在云中的服务.Blob存储可以存储任何类型的文本或二进制数据,例如文档.媒体文件或应用程序安装程序.Blob存储也称为对象 ...
随机推荐
- redis 学习(一)
一.Redis概述 1.什么是NoSql NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,它泛指非关系型的数据库. 随着互联网2003年之后web2.0网站的兴起,传 ...
- POJ 1611(并查集+知识)
并查集主要是两个过程,一个是并,一个是查 原理是用一个数组p[i]保存每个i的根节点,如果根节点一样则在同一个集合里,所以只有根节点p[i]=i; 查: int find(int x){return ...
- C#画个控件,指定字符特殊颜色显示
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
- SQL server查找指定表的所有索引
WITH tmp AS ( SELECT indexname = a.name , tablename = c.name , indexcolumns = d.name , a.indid FROM ...
- Angular入门教程二
4 功能介绍 4.1数据绑定 AngularJS的双向数据绑定,意味着你可以在Mode(JS)中改变数据,而这些变动立刻就会自动出现在View上,反之亦然.即:一方面可以做到model变化驱动了DOM ...
- numpy数组属性查看及断言
numpy数组属性查看:类型.尺寸.形状.维度 import numpy as np a1 = np.array([1,2,3,4],dtype=np.complex128) print(a1) ...
- 手动替换WORDPRESS的GOOGLE字体等加速【非插件】
手动替换WORDPRESS的GOOGLE字体等加速[非插件] 179 看过 | 2015年3月4日 | Linux, 随意Coding | 暂无评论 查找需要替换的地方 Linux下,在网站文件夹中, ...
- Android 获取SD卡的图片资源
首先我先获得SD卡下的根目录路径: privateString isSdcard(){ File sdcardDir=null; boolean isSDExist=Environment.getEx ...
- 七、angularjs 倒计时
使用定时器时离开页面需要清除定时器,清除的方法有两种分别针对页面有缓存和没有缓存 1.页面有缓存 2.页面没有缓存 angularjs倒计时首先需要注入:$interval 60s倒计时 vm.sec ...
- oracle基础之游标的理解与使用
关于游标,首先要知道游标的定义. 游标,是内存中的一款区域,用来存放select的结果集 游标用来处理从数据库中检索的多行记录(使用select语句).利用游标,程序可以逐个的处理和遍历一次索引返回的 ...