CompressIt
结构
压缩软件的核心在于压缩算法。基于Huffman编码的压缩算法思路:
- 以二进制方式读取源文件,按照每8bits作为一个字符;
- 统计每个字符的出现频率即为叶子结点的权值,按照Huffman算法得到每个叶子的编码;
- 对源文件的每个字符,将新的编码组合为二进制流,按照每8bits一个单位写入压缩文件。
举例来看:
假设我们有待压缩源文件hello
,h
的ASCII码为01101000
,同理可得整个文件的二进制形式0110100001100101011011000110110001101111
,共5B,40bits。
根据Huffman算法:得到h
的编码为00
,同理可得整个文件的Huffman编码为0001111110
,末尾不够8bits,采用补0的方法可得0001111110000000
,按照每8bits一个单位,写入压缩文件的是31
和255
对应的字符,共2B,16bits。
解压缩流程是压缩的逆过程:
- 以二进制方式读取压缩文件;
- 每次取1bit,从Huffman树的根结点出发,找到某个叶子即为源字符。
效果
做一个简单的比较:
压缩软件 | 测试文件 | 压缩率 | 测试文件 | 压缩率 |
---|---|---|---|---|
CompressIt | txt(840B) | 70.4% | png(282KB) | 101% |
WinRaR | txt(840B) | 14.4% | png(282KB) | 100% |
压缩率和压缩时间和专业软件没法比。之所以出现压缩文件大于源文件,是因为压缩文件中还存储了Huffman树等信息,为解压所需。
对于不同内容的文件,得到的压缩文件大小也不尽相同,这主要与Huffman编码的性质有关。
理论分析
Huffman编码依赖于信源的统计特征,其背后的原理在于为出现频率高的字符分配尽可能短的码长,这样就可以降低平均码长:
\]
使得\(L\)最短的编码就是最优编码,可以证明Huffman编码是一种最优编码。
同时Huffman编码还是前缀码,简化了解码过程。
假设一种理想情况:源文件长\(len\)很大,共有\(m\)种不同字符,每个字符用8bits表示,并且每种字符出现频率\(\frac{len}{m}\)相同,忽略掉存储Huffman树等信息所需的空间。
这棵完全二叉树共有结点\(n=2*m-1\)个,那么树深度为\(h=1+\lfloor log_2n \rfloor\),每个字符的压缩长度为\(h-1=\lfloor log_2n \rfloor\),故压缩后的串长度为\(\frac{(h-1)*len}{8}\),可得压缩率\(\frac{h-1}{8}\),即:
\]
源文件中不同字符种类\(m\)越小,即源文件分布越集中,压缩效果越好。
如果和定长编码比较,可以得到压缩率:
\]
\(m\)取值256时,Huffman树是一棵满二叉树,压缩率为100%,并不比8位固定长度编码更高效。
收获
EOF
和feof()
EOF
是一个定义在cstdio
头文件中的宏,一般为-1:
#define EOF (-1)
但是如果按照二进制读取文件,对于文件中的-1又该如何处理?
阮一峰的博客说:
在Linux系统之中,EOF根本不是一个字符,而是当系统读取到文件结尾,所返回的一个信号值(也就是-1)。至于系统怎么知道文件的结尾,资料上说是通过比较文件的长度。
我们通常会写出下面程序来读取文件:
int ch;
while ((ch = fgetc(fp)) != EOF) {
// your code here
}
但是fgetc()
在到达文件结尾和发生读取错误的情况下都会返回EOF
,所以上述代码不严谨,采用feof()
函数来判断文件结尾:
int ch;
while (!feof(fp)) {
ch = fgetc(fp);
// your code here
}
但是采用feof()
也有一个问题:读取最后一个字符后,feof()
仍然返回0,进入循环,fgetc()
再向后读取一个字符,feof()
才返回1,这样程序会多循环一次。
所以比较安全的写法是:
int ch = fgetc(fp);
while (ch != EOF) {
// your code here
ch = fgetc(fp);
}
if (feof(fp))
puts("End-of-File reached.");
else
puts("Something went wrong.");
- 虚析构函数
基类的析构函数一般写成虚函数,做个测试:
class base {
public:
base() {};
virtual ~base() {
cout << "destructor in base" << endl;
};
virtual void f() {
cout << "f in base" << endl;
}
};
class derive :public base {
public:
derive() {};
~derive() {
cout << "destructor in derive" << endl;
};
void f() {
cout << "f in derive" << endl;
}
};
base* p = new derive;
p->f();
delete p;
输出:
f in derive
destructor in derive
destructor in base
如果基类的析构函数不是虚函数,输出:
f in derive
destructor in base
结果并没有调用派生类的析构函数,造成内存泄漏。
所以基类的虚析构函数的作用是:当一个基类指针删除一个派生类对象,确保调用派生类的析构函数。
- 二进制文件
在压缩过程中,对于不同格式源文件的读取都是采用二进制方式rb
。
实际上二进制文件和文本文件并没有本质区别,你所看到的内容取决于打开文件的软件对二进制流的解释方式,文件扩展名帮助计算机知道应该用哪种解释方式,通常的文本文件的解释方式有ASCII码和Unicode码。
CompressIt的更多相关文章
- 使用zlib来压缩文件-用delphi描述
今天用到压缩文件的问题,找了一些网上的资料,后来发现了delphi自身所带的zlib单元,根据例子稍微改变了一些,使它能够符合所有的格式. 使用时,需要Zlib.pas和 Zlibconst.pas两 ...
- delphi 压缩
DELPHI 通过ZLib来压缩文件夹 unit Unit1; interface uses ZLib, Windows, Messages, SysUtils, Variants, Classes, ...
随机推荐
- 【java 数据结构】还不会二叉树?一篇搞定二叉树
二叉树是我们常见的数据结构之一,在学习二叉树之前我们需要知道什么是树,什么是二叉树,本篇主要讲述了二叉树,以及二叉树的遍历. 你能get到的知识点? 1.树的介绍 2.二叉树的介绍 3.二叉树遍历的四 ...
- 用Jenkins集成ios项目设置多scheme,同一代码自动输出多个环境包 实现便捷切换API环境
Jenkins 安装使用参考我的博客http://www.cnblogs.com/zhujin/p/9064820.html Xcode 配置:说明 一个schema 对应一套环境(如生产,测试),一 ...
- Restlet Client发送GET、POST等请求
插件下载 百度云盘 链接:https://pan.baidu.com/s/13R4s1UR5TONl2JnwTgtIYw 密码:rt02 插件安装 解压后,直接拖进浏览器中. 功能演示
- [转] [知乎] 浅谈Roguelike
浅谈Roguelike 从柏林诠释说起 在2008年召开的国际Roguelike开发会议上,众多的Roguelike开发者与爱好者共同制定了<柏林诠释>,规定了Roguelike游戏需要具 ...
- 如何改变Xcode字体大小?
运行Xcode后依次点击左上角Xcode/Preferences/Fonts & Colors里就可以调整,在右边随便点中一个字体就可以调整这个字体的大小和颜色了,按command+a可以将所 ...
- 【Tool】Windows系统安装Maven依赖管理工具
安装Maven依赖管理工具 官网下载地址:http://maven.apache.org/download.cgi 系统环境要求: [JDK]Maven3.3版本+需要JDK1.7版本以上支持 [内存 ...
- 使用 Chrome 插件 Vimium 打造黑客浏览器
之前一直用 cVim,与 Vimium 功能类似,但是之后不在更新了,故转战到 Vimium. 简介 官网:http://vimium.github.io/ Vimium 是 Google Chrom ...
- VCL安装有哪几种方法?
不是由Borland 提供的组件叫第三方组件: 就目前常见的各种形式的组件的安装方法介绍一下. 1.只有一个DCU文件的组件.DCU文件是编译好的单元文件,这样的组件是作者不想把源码公布.一般来说,作 ...
- stand up meeting 12/23/2015
part 组员 工作 工作耗时/h 明日计划 工作耗时/h UI 冯晓云 基本完成单词本显示页面的设计和实现 4 完善页面切换 ...
- Android | 教你如何在安卓上实现二代身份证识别,一键实名认证
@ 目录 前言 场景 开发前准备 android studio 安装 在项目级gradle里添加华为maven仓 在应用级的build.gradle里面加上SDK依赖 在AndroidManifest ...