博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Sparse Index实验
阅读量:6381 次
发布时间:2019-06-23

本文共 1514 字,大约阅读时间需要 5 分钟。

  hot3.png

sparse index是一篇老论文,出现在FAST’09。当时,数据去重的主流研究方向是索引设计,一个好的索引必须有高吞吐率,低内存,高重删率等特点。我希望destor能支持所有的主流索引,因此近期实现了sparse index,并对索引模块的接口做了比较大的改动。

  • sparse index首先使用传统的分块算法将数据流分块,为数据块计算哈希;
  • 根据哈希值选取segment边界(比如数据块的哈希取摸后等于某个预定义的值,就认为这个块是segment的边界,这里segment相当于超级块),到此数据流被分割为变长的segment;
  • 针对每个segment,为其抽样一定数量的hook(抽样的方法是:若一个数据块的哈希前n个bit为0,就认为该哈希是segment的一个hook),这样每个segment会产生一个hook集合;
  • 作者认为两个segment的hook交集越多,意味着它们有更好的重删潜力,因此作者设计了sparse index:sparse index是一个内存索引,是一个键值映射,键是hook,值是拥有这个hook的所有segment的地址。
  • 根据当前segment的hook集合,搜索sparse index,得到与当前segment共享hook的所有segment的地址,对这些segment进行排序(文中并不是简单排序,however,太细节),只保留交集最大的前M个segment,称为champions集合。
  • 读取champions对应的指纹,与当前segment进行去重。
sparse index依赖数据流的局部性。destor的实现与原作有一些细微的修改:
  1. 选取segment边界,destor是根据哈希值得前N个bits是否为0选取边界的,当然N要比取样使用的n要大一些来保证每个segment的hook数量,这种方式的好处是能保证每个segment的第一个数据块一定是hook;
  2. sparse index的抽样方法,在实践中是的确会产生一些segment无法取样到hook。destor很好避免了这点,但是数据流的第一个segment仍然可能出现取样失败。若出现这种情况,destor会将该segment与第二个segment合并。
  3. 在极端特殊的情况下,整个数据流只有一个segment,并且取样失败,destor选第一个块为hook。

下面是一些实验结果,champions的数量以及取样率对重删率的影响。理论上,选取的champions越多(重删的范围越大),重删率越高,吞吐率越差;取样率越高(选择的champions越准确),重删率越高,(Sparse Index)内存消耗越多。

上面两幅图是变化champions数量的实验结果(mean segment size是20MB,mean chunk size是10KB,抽样率是1/256),baseline指完美重删,数据集是虚拟机镜像。当只选取一个champion时,重删率下降了47.6%;当选择16个champions时,重删率下降了10.7%,由于此时读16个manifests,性能应该会受到影响。

上面两图是针对抽样率的实验结果(默认的champions数量是8)。实验证明越高的抽样率,重删率越高。当抽样率为1/64时,抽样率只下降了4.8%;而当抽样率为1/1024时,重删率下降了35.6%。

值得注意的是:连续备份同一个数据流,后面的备份虽然全部是重复数据,但sparse index是有可能无法完全找出重复数据的。

转载于:https://my.oschina.net/fomy/blog/167525

你可能感兴趣的文章
程序员写简历时必须注意的技术词汇拼写(持续更新...)
查看>>
“浅薄”绝不该是中国程序员的性格特征
查看>>
设计模式-外观模式
查看>>
学术研究网站
查看>>
自定义裁剪和缩放图像的jQuery插件Cropit使用的大坑
查看>>
MinGW编译wxWidgets问题
查看>>
我的友情链接
查看>>
dubbo和docker
查看>>
使用Notepad++将多行数据合并成一行
查看>>
gitlab服务器配置
查看>>
teamcity实践
查看>>
MapReduce Streaming
查看>>
[转载] Knowledge Management and Engineering——05 知识管理的概念
查看>>
SQL Server 2005如何起用 xp_cmdshell - SQL-Server - IT技术网
查看>>
经典分享:设计模式之六大原则
查看>>
MySQL数据库如何用rand随机查询记录效率测试
查看>>
IOCP模型的总结
查看>>
红外图像处理
查看>>
Mysql基于GTID搭建主从同步
查看>>
Cloud in Action: Migrate OpenStack from Linux Bridge to Open vSwitch
查看>>