论文阅读 Prefetch-aware fingerprint cache management for data deduplication systems
论文链接 https://link.springer.com/article/10.1007/s11704-017-7119-0
这篇论文试图解决的问题是在cache 环节之前,prefetch-cache 进来的可能无关的 fingerprint 造成的cache pollution问题,即可能把没有用的 fingerprint 换入 cache,造成 cache 污染的问题。
这篇论文的贡献:提出了一种新的针对 prefetch 进来的 fingerprint 替换策略,并且提出了一种 adaptive 的方法,针对不同的 fingerprint 有与其对应的替换策略,提高了 deduplication throughput 和 deduplication ratio. 本文并不是试图提出一种新的对 fingerprint 如何进行 prefetch 的方法,而是针对不同种类的,已经做过了 prefetch 操作的 fingerprint,针对他们不同的种类,做不同的replacement。同时,这种 replacement policy 并不和 LRU 等 policy 相冲突,反而可以和之前的 LRU policy 相结合。
具体方法框架如图所示:

细节:针对一个被 prefetch 的 fingerprint 分为了两大类,一类是 accurate 的fingerprint,一类是 inaccurate 的fingerprint。accurate 的 fingerprint 是说那些prefetch 进 cache 之后,hit 了超过不止一次的 fingerprint,反之则是 inaccurate。对于 inaccurate fingerprint 又可以划分为不同的种类,有 Unused prefetched fingerprint,used only once fingerprint,mixed pattern fingerprint,针对这三种不同的 fingerprint,提出了不同的替换策略,分别是 PreCache-UNU, PreCache-UOO,PreCache-MIX。不同的替换策略都有不同的假设,自然也有不同的操作。
PreCache-UNU 预测所有新被 prefetch 的 fingerprint 都不会被用到(distant future)所以应该直接要被 LRU 算法替换出去(evicted quickly)针对这些 fingerprint,采用的方法是把他们直接移动到 LRU queue 的尾端,这样当 LRU 进行替换的时候,他们就是第一批被替换出去的 fingerprint。如果这些被认为是 UNU 的fingerprint 被使用了(即这个时候我们错误的划分了 fingerprint)那么根据 LRU 的规则他们也会被放到 head 端,这就是没有直接把这些 fingerprint 剔除的原因。
PreCache-UOO 预测所有的新的被 prefetch 的 fingerprint 只会被使用一次,然后就不会被使用。所以,他把这些 fingerprint 放在 LRU 队列的 head 端,并且当这些 fingerprint 被 hit 的时候,并不会重新调整他们的位置。(因为预测他们只会被使用一次,如果调整了他们的位置,就和传统的并无差别)。针对一些被 prefetch 进 cache,并且较长时间没有被使用,到快被替换出去的时候才被hit了一次,然后又不会被 hit 的fingerprint 而言,这种策略能够很快的将他们替换出去(因为并没有调整他们的位置)。
PreCache-MIX 给所有的 fingerprint 一个统一的策略,放在 LRU 队列的 tail 端,并且即使命中也不会调整位置。
同时,还存在一个问题,针对一个 fingerprint,如何把它进行分类,如何去选择一个适合他的替换策略。提出了一种动态适应的选择器,可以根据预测的历史结果,动态选择合适的策略去替换不同的 fingerprint。
选择器的功能:针对一个 fingerprint,去预测这个 fingerprint 是属于 accurate 还是 inaccurate 的,如果是 inaccurate 的,那么是 UNU 的,还是 UOO 的,还是 MIX 的。
选择器维护了几个计数器:
- total 记录了所有被 prefetch 的 fingerprint 个数。
- use_over_once,记录了cache中所有被 hit 超过一次的 fingerprint 的个数
- unused,记录了被 prefetch 的,但是没有被使用的 fingerprint 的个数。
- Use_only_once 记录了只被使用过一次的 fingerprint 的个数。
- hit_evice_buf 记录了一个main cache miss 在 evicted 中被 hit 的个数。
选择器主要的 idea:根据历史信息来预测。
每个种类都有一个对应的判别阈值和公式去决定这个 prefetch 的 fingerprint 是否是对应的种类。
效果评估:
在 BLC 和 SiLO 这两个系统的基础上加入了 PreCache 算法,使用的数据是 Kernel,MacOS 和 Homes 三种。BLC 系统代表的是 exact deduplication 系统,SiLO 系统代表的是 near exact deduplication 系统,针对两个不同的系统,采取的评价指标也不一样。BLC 中,因为 fingerprint 无法完全被存入cache,所以使用 look up index 的次数去评价系统,而 SiLO 因为 采用的是 sample feature 的方式,所以使用 deduplication ratio 去评价系统。
论文阅读 Prefetch-aware fingerprint cache management for data deduplication systems的更多相关文章
- 论文阅读《ActiveStereoNet:End-to-End Self-Supervised Learning for Active Stereo Systems》
本文出自谷歌与普林斯顿大学研究人员之手并发表于计算机视觉顶会ECCV2018.本文首次提出了应用于主动双目立体视觉的深度学习解决方案,并引入了一种新的重构误差,采用自监督的方法来解决缺少ground ...
- 论文阅读:FlexGate: High-performance Heterogeneous Gateway in Data Centers
摘要: 大型数据中心通过边界上的网关对每个传入的数据包执行一系列的网络功能,例如,ACL被部署来阻止不合格的流量,而速率限制被用于防止供应商过度使用带宽,但是由于流量的规模巨大,给网关的设计和部署带来 ...
- [论文阅读笔记] Community aware random walk for network embedding
[论文阅读笔记] Community aware random walk for network embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 先前许多算法都 ...
- [论文阅读]阿里DIN深度兴趣网络之总体解读
[论文阅读]阿里DIN深度兴趣网络之总体解读 目录 [论文阅读]阿里DIN深度兴趣网络之总体解读 0x00 摘要 0x01 论文概要 1.1 概括 1.2 文章信息 1.3 核心观点 1.4 名词解释 ...
- [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 本文结构 解决问题 主要贡献 算法原理 参考文 ...
- 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
- BITED数学建模七日谈之三:怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
- 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
随机推荐
- 洛谷:P3384 [HNOI2004]宠物收养场
原题地址:https://www.luogu.org/problemnew/show/P3384 题目简述 给定一些序列(没有重复数字),每个序列支持: 给定一些数k(对于每个序列不重复),每次在序列 ...
- JAVA MyBatis配置文件用properties引入外部配置文件
方式一:通过properties 元素的子元素来传递数据 例如: <properties> <property name="driver" value=" ...
- httprouter框架 (Gin使用的路由框架)
之前在Gin中已经说到, Gin比Martini的效率高好多耶, 究其原因是因为使用了httprouter这个路由框架, httprouter的git地址是: httprouter源码. 今天稍微看了 ...
- bootstrap-table 页脚总计(自定义统计总数)
•首先给table添加属性: showFooter: footer js代码如下: //初始化bootstrapTableinitBootstrapTable: function () { var o ...
- Kubernetes+Docker+Istio 容器云实践
随着社会的进步与技术的发展,人们对资源的高效利用有了更为迫切的需求.近年来,互联网.移动互联网的高速发展与成熟,大应用的微服务化也引起了企业的热情关注,而基于Kubernetes+Docker的容器云 ...
- 1046 Shortest Distance (20 分)
1046 Shortest Distance (20 分) The task is really simple: given N exits on a highway which forms a si ...
- Tomcat基本知识(一)
顶层架构先上一张Tomcat的顶层结构图(图A),如下: Tomcat中最顶层的容器是Server,代表着整个服务器,从上图中可以看出,一个Server可以包含至少一个Service,用于具体提供服务 ...
- 前端开发 JavaScript 干货知识点汇总
很多初学的朋友经常问我,前端JavaScript都需要学习哪些东西呀?哪些是JavaScript的重点知识啊? 其实做前端开发工程师,所有的知识点都是我们学习必备的东西,只有扎实的技术基础才是高薪的关 ...
- Centos 7 集成安装Apache+PHP+Kerberos+LDAP+phpLDAPadmin
一.安装Apache 1.1.安装Apache Apache程序是目前拥有很高市场占有率的Web服务程序之一,其跨平台和安全性广泛被认可且拥有快速.可靠.简单的API扩展. 它的名字取自美国印第安人土 ...
- redis应用场景总结redis平时我们用到的地方蛮多的,下面就了解的应用场景做个总结:
redis常见应用场景 1.热点数据的缓存 由于redis访问速度块.支持的数据类型比较丰富,所以redis很适合用来存储热点数据,另外结合expire,我们可以设置过期时间然后再进行缓存更新操作,这 ...