中国IDC产业年度大典指定存储网站 第二届中国IDC产业年度大典(北京 2008年1月16日) 中国IT实验室旗下网站
存储世界
 热门搜索:SAN 虚拟化 RAID 容灾 ILM 分层存储 iSCSI SAS
搜索:
 您现在的位置: 中国IT实验室 >> 存储 >> 存储技术 >> 网络存储 >> 正文
捂紧钱袋,删除备份系统中的重复数据
来源:ChinaItLab 时间:2007-5-20 保存本文 作者:佚名 收藏本站

    就在几年前,一提起备份大家就自然而然地想到磁带,但是在数据量爆炸式增长的今天,磁带技术由于其性能以及可靠性方面的固有缺陷变得越来越不能满足不断变化的业务需求,加之磁盘设备价格的下降,已经有越来越多的用户采用磁盘备份的解决方案。

    这在解决了性能和可靠性问题的同时又引入了新的问题——磁盘不能够象磁盘那样离线保存,不可能无限制的扩充容量,而用户数据增长的趋势却是无限的,并且由于其不能离线保存也导致了远程容灾数据的传送需要占用大量的带宽,这些都在经济上给用户造成了极大的压力。那么有没有办法来缓解甚至解决这种磁盘容量的有限性和数据增长的无限性造成的矛盾呢?答案是“重复数据删除(Data de-duplication)”技术。

    “重复数据删除”也称为“单实例存储(Single Instance Repository,简称SIR)”或者容量优化(Capacity Optimization),顾名思义,其根本作用是消减存储中的重复数据,以使任何一份数据只保存一份实例,达到充分利用存储空间的目的。

    它是近年存储领域涌现出来的一门新兴技术,各大竞争厂商都生成其重复删除比可以达到 1:20 左右甚至更高,被专家誉为是一种“将会改写存储行业的经济规则”的技术。然而在实际和用户的接触中,大多数用户对该技术还存在许多疑问,诸如:“和增量备份有何区别”、“会不会造成数据损害”、“会不会影响备份性能”等等。所以,在这里我们就详细探讨一下重复数据删除的工作原理。

区别重复数据删除与增量备份


    首先,“重复数据删除”和“增量备份”是完全不同的概念。“增量备份”是指只备份变化的文件;“重复数据删除”则是指只备份不重复的数据。举个简单的例子说明它们的区别:比如有一个文件型数据库 Access的文件 finance..mdb ,如果向该库中新插入了几笔记录,那么则意味着该文件发生了变动。当采用增量备份时会检查该文件的标志位,并将该文件整个重新备份;而如果使用“重复数据删除”技术,则只会备份新插入记录的数据。

    从工作原理上讲,重复数据删除技术可以分为两大阵营,一种是基于哈希(Hash)算法的重复删除,一种是基于内容识别的重复删除。

基于哈希算法的重复数据删除


    基于哈希算法的重复删除技术的代表厂商有昆腾、Data domain 、飞康等,其基本原理是利用SHA 、MD5 等算法将备份数据流切分成“块”,并且为每一块数据生成一组哈希码序列,不同厂商的技术可能对块大小的划分不同。

    当备份新的数据时,将按照索引把新数据的哈希码和已存数据的哈希码进行比较,如果发现有相同的哈希码存在,则说明该数据块已经存在相同的实例,此时新备份的数据将被放弃而在相应的位置代之以指向原有实例的指针。

    这种算法的优势在于算法简单,而缺点在于当磁盘容量不断增长时,数据块产生的哈希码表可能会超出内存的负载容量,这意味着进行哈希比对时需要去访问磁盘——这势必造成重复删除性能的迅速下降。

    另外,哈希算法可能会产生哈希冲突——简单的讲就是不同的数据块产生了相同的索引,这会导致有用的数据被错误的丢弃,从而造成文件的损坏。当然,产生哈希冲突的概率是非常低的,以 128 位的 MD5 码为例,两个哈希码产生冲突的概率为 2E-128,假设一个阵列中存储了 N 个数据块的哈希码,那么其中包含冲突的概率可以按照(1/2)*(N/2e64)e2 进行计算,这意味着只有数据块的数量级达到 2E64 时才可能产生一个冲突。

基于内容识别的重复数据删除


    基于内容识别的重复删除技术的代表厂商有 Sepaton、ExaGrid Systems 等,其基本原理是对记录的数据格式进行比对。在备份数据时,该技术会读取数据并从中提取出每组备份集以及备份集中数据对象的元数据,存入到内嵌文件系统的数据库内。当有新的数据进入时则对新的元数据与数据库中的元数据进行版本比对。

    不同厂商技术的比对范围会有差别,有的只能在相同文件内进行比对,有的可以在整个阵列空间内进行比对。如果发现相同的元数据,接下来会对数据对象进行逐字节的比较,从而发现发生变化的数据——即使它们的元数据是形同的。如果数据对象确实是重复的,则删除该数据对象并代之以相应的指针。这种算法的优势在于可以避免哈希冲突,并可以利用元数据之间的联系更快的查找重复数据。

    从上面两种技术的原理来看,用户完全没有必要担心数据损失问题,并且,各大厂商也采取了严格的措施来确保数据删除的准确性——以 Sepaton 的Delta Store 技术为例,在删除重复数据时首先会做一次模拟删除,从而生成一份删除后的数据视图,只有验证表明该视图确实可以准确的恢复原始数据后才进行真正的重复数据删除并回收磁盘空间。

【责编:Chuan】
相关文章
集成备份最大限度发挥IT预算和资源
重复数据删除技术在备份中的应用体会
数据在线服务解决备份难题
异地备份新途径——储存虚拟化
虚拟服务器备份成功率尚不足60%
实时备份和恢复技术真的存在吗
重复数据删除能否由次级转移到主存储?
最新文章
·神州数码存储产品联合巡展来到广东
·神州数码存储产品联合巡展启动
·NetApp Q4收入同比下降 花15亿美元收
·存储分析 EMC竞争对手将如何回应V-Ma
·备份工具转换过程有待实现无缝连接
·存储虚拟化五步规划
·CA推出全面恢复管理解决方案
 文章评论
 精彩友情推荐
·Asp源码 PHP源码
·CGI源码 JSP源码
·建站书籍教程
·服务器软件 .net源码
·建站工具软件
·IDC资讯大全
·机房品质万里行
·IDC托管必备知识
·全国IDC报价
·网站推广优化
行业信息关注  

HDS存储研发体系与

2008电脑展盘点:
·神州数码存储产品联合巡展来到广
·神州数码存储产品联合巡展启动
·NetApp Q4收入同比下降 花15亿美
·存储分析 EMC竞争对手将如何回应
·CA推出全面恢复管理解决方案
·市场分析:开源存储挣扎在存储边
特别推荐  
08版网络测试工具新鲜出炉
《IT实验室周报》征稿启事
中文Traceroute,路由信息一目了然
北大青鸟IT教育求学培训全攻略
固态硬盘--未来存储之星
中文授权Alexa网站排名查询
存储技术  
  现在我最关心的就是光纤网络的传输质量、有效传输距离以及数据传输速率等性能指标,因为,我们的机房和设备都分处两地...
·备份工具转换过程有待实现无缝连接
·实战:通过FTP远程访问ReadyNAS存储
·数据丢失保护并不等于终端安全性防护
·中小企业如何低成本实现企业数据级容灾
·CA免费提供重复数据删除和备份报告功能
·重复数据删除不足之处
·通过服务器虚拟化和iSCSI解决存储难题
·硬盘数据恢复的多种解决方案
产品专区  
·秒杀一切MLC!史上最强SLC SSD大测试
·深度观察:绿色存储的八大节能策略
·存储行业依然蕴含机会 五家厂商受关注
·I/O至尊 希捷Savvio15K.2硬盘详细评测
·速度不再重要?市售单碟500GB硬盘横评
·实战端口复用器 赛恩斯5口SATA存储评测
·解析EMC Symmetrix V-MAX的更新亮点
·存储架构面临变革 什么样的客户应该用X
·QNAP最新系列产品 TS-219 NAS详细评测
·深入剖析IBM XIV网格存储硬件体系结构
 Chinaitlab Group 旗下网站:  中国IT实验室 | 中国IDC圈 | 存储世界 | 数字网校 | 21世纪IT人才网
关于我们 | 广告服务| 成功客户 | 合作媒体 | 网站历史 | 联系我们 | 招聘信息 | 免责声明 | 社区之歌
Copyright © 2001 - 2007 All Rights Reserved
粤ICP备05089709