CDC算法给出了一个chunk的大小的最小值、最大值、平均值的界定。

Method

Using chunk existence information

breaking-apart algorithm

将所有内容全部划分为较大的chunk,然后识别新内容的变化区域,然后在这个变化区域的附近重新划分较小的chunk。重复进行数据重删。

building-up algorithm

在开始时将chunk的大小初始化为一个较为合适的值,然后组合较小的chunk。通过一个建块算法,查询更多的大块的位置和更细小的单个插入修改块。在输入中的任意位置均需要判断要建立小块还是建立大块,这种算法称之为bimodal chunking算法。

Baseline rolling window cut-point selection.

与预设值匹配给定的l个bit的值,如果匹配成功,则在l bit的最后一位处产生了切割点。几何分布下定义平均chunk大小为\(2^l\)。将其称为\(level-2^l\)chunker。

对于chunk最小值\(m\),通常chunk的平均大小是\(m+2^l\)。对于chunk最大值\(M\),一个\(level-2^l\) chunker通常会达到最大值:\(e^{-(M-m)/2^l}\)。在这里,M并非内容定义的。对于备份数据,给出\(level-2^{l-b}\) chunk,尽量避免非文本定义的切割点。

Breaking-apart algorithms

Chunk amalgamation algorithms

resynchronization 再同步

Note: Bimodal Content Defined Chunking for Backup Streams的更多相关文章

  1. Data Deduplication Workflow Part 1

    Data deduplication provides a new approach to store data and eliminate duplicate data in chunk level ...

  2. 转 RMAN: RAC Backup, Restore and Recovery using RMAN

    PURPOSE The purpose of this document is to give a quick guide for using RMAN on RAC databases. We wi ...

  3. Video for Linux Two API Specification Revision 2.6.32【转】

    转自:https://www.linuxtv.org/downloads/legacy/video4linux/API/V4L2_API/spec-single/v4l2.html Video for ...

  4. Cryptographic method and system

    The present invention relates to the field of security of electronic data and/or communications. In ...

  5. Oracle Database 11g express edition

    commands : show sys connect sys as sysdba or connect system as sysdba logout or disc clear screen or ...

  6. pdf reference 格式具体说明

    1. PDF概要 1.1. 图像模型 PDF能以平台无关.高效率的方式描叙复杂的文字.图形.排版. PDF 用图像模型来实现设备无关. 图像模型同意应用程序以抽象对象描叙文字.图像.图标.而不是通过详 ...

  7. General-Purpose Operating System Protection Profile

    1 Protection Profile Introduction   This document defines the security functionality expected to be ...

  8. pypdf2:下载Americanlife网页生成pdf合并pdf并添加书签

    初步熟悉 安装 pip install pypdf2 合并并添加书签 #!/usr/bin/env python3.5 # -*- coding: utf-8 -*- # @Time : 2019/1 ...

  9. jenkins部署java项目

    #########################################jenkins部署#################################3 一.jenkins是什么? J ...

随机推荐

  1. Hive- 表

    在hive中表的类型:管理表和托管表(外部表). 内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下,也可以通过location指定:删除表时,会删除表的数 ...

  2. TYOI Day1 travel:Tree dp【处理重复走边】

    题意: 给你一棵树,n个节点,每条边有长度. 然后有q组询问(u,k),每次问你:从节点u出发,走到某个节点的距离mod k的最大值. 题解: 对于无根树上的dp,一般都是先转成以1为根的有根树,然后 ...

  3. 学习HTML5

    CSS,层叠样式表,能为网页增添样式的电脑语言. UL属于无序列表 OL属于有序列表 DL属于自定义列表.

  4. 分享知识-快乐自己:PageHelper 分页关键基础代码

    关键代码:点我下载样式   详细介绍 //使用分页插件 jQuery("#pagination").pagination(data.total, { items_per_page: ...

  5. mysql连接超时问题

    前几天使用个脚本不停的查看redis队列中的事件.如果有则把事件取出来,然后进行一些数据库操作. 后来发现,每天的第一次有事件时都会到导致,找不到数据. 后来定位到问题,是mysql在连接长时间无活动 ...

  6. Mysql异常_01_ 誓死登进mysql_Can't connect to MySQL server on 'localhost' (10061)

    现象:打开cmd,输入命令:mysql -uroot -p 回车之后,输入密码,结果进不去mysql,并且抛出异常 异常:Can't connect to MySQL server on 'local ...

  7. 自定义ajax小工具以及使用

    function createXMLHttpRequest(){ try{ return new XMLHttpRequest(); }catch(e){ try{ return new Active ...

  8. linux命令学习笔记(53):route命令

    Linux系统的route命令用于显示和操作IP路由表(show / manipulate the IP routing table).要实现两 个不同的子网之间的通信,需要一台连接两个网络的路由器, ...

  9. 2017-2018-1 20179203 《Linux内核原理与分析》第七周作业及第三周测试总结

    攥写人:李鹏举 学号:20179203 ( 原创作品转载请注明出处) ( 学习课程:<Linux内核分析>MOOC课程http://mooc.study.163.com/course/US ...

  10. RTSP协议分析(二)

    以下是某省IPTV的RTSP协商过程: DESCRIBE rtsp://118.122.89.27:554/live/ch10083121594790060557.sdp?playtype=1& ...