[IR] Compression
关系:Vocabulary vs. collection size
Heaps’ law: M = kTb
M
is
the
size
of
the
vocabulary,
T
is
the
number
of tokens
in
the
collec*on
Typical
values:
30
≤
k
≤
100
and
b
≈
0.5σ
log M = log K - b*log T

关系:Vocabulary中每个term的量 vs. 该term的次序
Zipf’s law: cfi = K/i
i.e. the most frequent term (the) occurs cf1 times
The i th most frequent term has frequency proportional
to
1/i
.
log cfi = log K - log i

- Naive state
 

- 压缩Dictionary
 
1). Term's data单独拿出成为String形式, Terms里变为了指针,size:4B
  11.2 → 7.6
2). Blocking。If k = 4, then 省了3个terms的空间,即3B*3-4(结束符1B)=5B 
  7.6 → 7.1
3). Front coding, 前缀冗余。
  7.1 → 5.9
如下:

- 压缩Posting list
 
1). Seq1 + 1000 = Seq3
小链表表示大链表
2). Simple9
0110(ID), 3(三段), 9(每段的bit数), 1(最后的waste位的个数)。
那么,4+3*9+1 = 32byte = 4 Bit
3). Gap ( If the ave gap of a term is G)
log2G bits/gap, 当然会用到之后的Variabe Byte codes.
4). Variable Byte codes.
增加Control Bit,那么完整的一个数据表示:(0数据,0数据,……,1最后一个数据)
5). Elias-γ code

6). Elias-δ code

7). Golomb code
暂略
[IR] Compression的更多相关文章
- [IR] Graph Compression
		
Ref: [IR] Compression Ref: [IR] Link Analysis Planar Graph From: http://www.csie.ntnu.edu.tw/~u91029 ...
 - [IR] Search Server - Sphinx
		
使用 Sphinx 更好地进行 MySQL 搜索 - IBM 尽管 MySQL 是一个出色的通用数据库,但是如果您的应用程序需要进行大量搜索,那么使用 Sphinx 可获得更好的性能. 尽管 Sphi ...
 - 本人AI知识体系导航 - AI menu
		
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯 徐亦达老板 Dirichlet Process 学习 ...
 - [IR] XML Compression
		
Ref: https://www.ibm.com/developerworks/cn/xml/x-datacompression/ Language-Equivalent (类似路径压缩 ) root ...
 - [IR] Advanced XML Compression - ISX
		
Ori paper: http://www.cse.unsw.edu.au/~wong/papers/www07.pdf ISX Requirements 1 Space does matter fo ...
 - [IR] Advanced XML Compression - XBW
		
思考:与ISX对比后能得出什么结论 原理解析: We proposed the XBW-transform that mimics on trees the nice structural prope ...
 - [IR] BWT+MTF+AC
		
BWT (Burrows–Wheeler_transform)数据转换算法 MTF(Move-to-front transform)数据转换 基于统计的压缩算法:游程编码 良心PPT: bwt_bas ...
 - LLVM 笔记(五)—— LLVM IR
		
ilocker:关注 Android 安全(新手) QQ: 2597294287 LLVM 的 IR (Intermediate Representation) 是其设计中的最重要的部分.优化器在进行 ...
 - Dynamic range compression
		
这段时间终于把手头的东西都搞完了,还剩下一个AEC这个模块,这个模块跟整个系统机制有很大关系,单独的模块意义不大. 另外,刚写完一个分类器,希望能大幅提升音乐流派分类的准确率. 下周正式开搞AEC,把 ...
 
随机推荐
- phpMyAdmin 登陆需要密码
			
网页设计从事者在学习网页时都用过 "xampp" 这款软件吧. 本人今天正常使用时,系统提示可升级 phpMyAdmin.当前最新版本为:phpMyAdmin-4.6.4-all- ...
 - jquery读取XML 生成页面文件
			
$.get("../../js/data.xml", function (xml) { $(xml).find("local").each(function ( ...
 - Android 发布可穿戴设备 SDK 的开发者预览版
			
今早上安卓官网查资料,发现网站上赫然显示着"Android Wear"几个大字.难道……?点进去看,果然,Android发布了可穿戴设备的SDK的开发者预览版. 其中这第五张图…… ...
 - Linux Buffers和Cached的区别(转)
			
在linux下使用free命令查看内存使用情况,有buffers和cached两项,以下是它们的区别: buffers是为块设备设计的缓冲.比如磁盘读写,把分散的写操作集中进行,减少磁盘I/O,从而提 ...
 - 利用Android Studio、MAT对Android进行内存泄漏检测
			
利用Android Studio.MAT对Android进行内存泄漏检测 Android开发中难免会遇到各种内存泄漏,如果不及时发现处理,会导致出现内存越用越大,可能会因为内存泄漏导致出现各种奇怪的c ...
 - 用C/C++实现对STORM的执行信息查看和控制
			
近期公司有个需求.须要在后端应用server上实时获取STORM集群的执行信息和topology相关的提交和控制,经过几天对STORM UI和CMD源代码的分析,得出能够通过其thrift接口调用实现 ...
 - C#转C++的一点分享
			
前几天看到这样一篇博客<那些年·我们读过的专业书籍>,里面列了很多大家认为很好的书,加上自己在自学C++的工程中也看了不少书,感觉并不是所有的书都值得花时间去看的,毕竟很多人一年下来也看不 ...
 - ubuntu bless 16字节每行
			
打开Preferences配置 输入路径:/usr/share/bless/bless-16-bytes-per-row.layout 或者使用以下配置 cat /home/scue/.config/ ...
 - Nodejs npm安装socket.io报错解决办法
			
安装socket.io时,报错,提示需要安装Microsoft visual studio 2005 或 Net framework 2.0 sdk,没有找到vcbuild.exe,解决办法是安装 . ...
 - Scala 深入浅出实战经典 第53讲:Scala中结构类型实战详解
			
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...