中国IDC产业年度大典指定存储网站 第二届中国IDC产业年度大典(北京 2008年1月16日) 中国IT实验室旗下网站
存储世界
 热门搜索:SAN 虚拟化 RAID 容灾 ILM 分层存储 iSCSI SAS
搜索:
 您现在的位置: 中国IT实验室 >> 存储 >> 存储技术 >> 网络存储 >> 文章正文
捂紧钱袋,删除备份系统中的重复数据
来源:中国IT实验室整理 时间:2007-5-20 保存本文 作者:佚名 收藏本站

    就在几年前,一提起备份大家就自然而然地想到磁带,但是在数据量爆炸式增长的今天,磁带技术由于其性能以及可靠性方面的固有缺陷变得越来越不能满足不断变化的业务需求,加之磁盘设备价格的下降,已经有越来越多的用户采用磁盘备份的解决方案。

    这在解决了性能和可靠性问题的同时又引入了新的问题——磁盘不能够象磁盘那样离线保存,不可能无限制的扩充容量,而用户数据增长的趋势却是无限的,并且由于其不能离线保存也导致了远程容灾数据的传送需要占用大量的带宽,这些都在经济上给用户造成了极大的压力。那么有没有办法来缓解甚至解决这种磁盘容量的有限性和数据增长的无限性造成的矛盾呢?答案是“重复数据删除(Data de-duplication)”技术。

    “重复数据删除”也称为“单实例存储(Single Instance Repository,简称SIR)”或者容量优化(Capacity Optimization),顾名思义,其根本作用是消减存储中的重复数据,以使任何一份数据只保存一份实例,达到充分利用存储空间的目的。

    它是近年存储领域涌现出来的一门新兴技术,各大竞争厂商都生成其重复删除比可以达到 1:20 左右甚至更高,被专家誉为是一种“将会改写存储行业的经济规则”的技术。然而在实际和用户的接触中,大多数用户对该技术还存在许多疑问,诸如:“和增量备份有何区别”、“会不会造成数据损害”、“会不会影响备份性能”等等。所以,在这里我们就详细探讨一下重复数据删除的工作原理。

区别重复数据删除与增量备份


    首先,“重复数据删除”和“增量备份”是完全不同的概念。“增量备份”是指只备份变化的文件;“重复数据删除”则是指只备份不重复的数据。举个简单的例子说明它们的区别:比如有一个文件型数据库 Access的文件 finance..mdb ,如果向该库中新插入了几笔记录,那么则意味着该文件发生了变动。当采用增量备份时会检查该文件的标志位,并将该文件整个重新备份;而如果使用“重复数据删除”技术,则只会备份新插入记录的数据。

    从工作原理上讲,重复数据删除技术可以分为两大阵营,一种是基于哈希(Hash)算法的重复删除,一种是基于内容识别的重复删除。

基于哈希算法的重复数据删除


    基于哈希算法的重复删除技术的代表厂商有昆腾、Data domain 、飞康等,其基本原理是利用SHA 、MD5 等算法将备份数据流切分成“块”,并且为每一块数据生成一组哈希码序列,不同厂商的技术可能对块大小的划分不同。

    当备份新的数据时,将按照索引把新数据的哈希码和已存数据的哈希码进行比较,如果发现有相同的哈希码存在,则说明该数据块已经存在相同的实例,此时新备份的数据将被放弃而在相应的位置代之以指向原有实例的指针。

    这种算法的优势在于算法简单,而缺点在于当磁盘容量不断增长时,数据块产生的哈希码表可能会超出内存的负载容量,这意味着进行哈希比对时需要去访问磁盘——这势必造成重复删除性能的迅速下降。

    另外,哈希算法可能会产生哈希冲突——简单的讲就是不同的数据块产生了相同的索引,这会导致有用的数据被错误的丢弃,从而造成文件的损坏。当然,产生哈希冲突的概率是非常低的,以 128 位的 MD5 码为例,两个哈希码产生冲突的概率为 2E-128,假设一个阵列中存储了 N 个数据块的哈希码,那么其中包含冲突的概率可以按照(1/2)*(N/2e64)e2 进行计算,这意味着只有数据块的数量级达到 2E64 时才可能产生一个冲突。

基于内容识别的重复数据删除


    基于内容识别的重复删除技术的代表厂商有 Sepaton、ExaGrid Systems 等,其基本原理是对记录的数据格式进行比对。在备份数据时,该技术会读取数据并从中提取出每组备份集以及备份集中数据对象的元数据,存入到内嵌文件系统的数据库内。当有新的数据进入时则对新的元数据与数据库中的元数据进行版本比对。

    不同厂商技术的比对范围会有差别,有的只能在相同文件内进行比对,有的可以在整个阵列空间内进行比对。如果发现相同的元数据,接下来会对数据对象进行逐字节的比较,从而发现发生变化的数据——即使它们的元数据是形同的。如果数据对象确实是重复的,则删除该数据对象并代之以相应的指针。这种算法的优势在于可以避免哈希冲突,并可以利用元数据之间的联系更快的查找重复数据。

    从上面两种技术的原理来看,用户完全没有必要担心数据损失问题,并且,各大厂商也采取了严格的措施来确保数据删除的准确性——以 Sepaton 的Delta Store 技术为例,在删除重复数据时首先会做一次模拟删除,从而生成一份删除后的数据视图,只有验证表明该视图确实可以准确的恢复原始数据后才进行真正的重复数据删除并回收磁盘空间。

【责编:Chuan】
相关文章
调查显示中国用户备份意识全球领先
重复数据删除不只适用于备份
中高端磁盘阵列成SAS应用主流
HP针对亚太市场发布高端 入门两款新型磁带机
备份软件纷锁定微软Exchange邮件用户市场
爱数备份软件2007发布更新版增强D2D备份方案
SNW 2007春季大会新产品集锦--- 数据备份篇
最新文章
·期待已久 Sun发布固定内容归档技术
·如何将服务器接入到SAN环境
·希捷表示计划于2008年推出SSD产品
·我们到底需要什么样的存储虚拟化
·NetApp年度渠道峰会 继续强化统一存储
·我们到底需要什么样的存储虚拟化
·戴尔发力存储市场 与EMC关系存疑
 文章评论
 精彩友情推荐
·博达交换机
·博达镜像交换机
·博达镜像交换机报价
·bdcom交换机
·博达网络交换机
·IDC资讯大全
·机房品质万里行
·IDC托管必备知识
·全国IDC报价
·网站推广优化
行业信息关注  

越来越存储 SAS将

引领存储技术革命
·期待已久 Sun发布固定内容归档技
·希捷表示计划于2008年推出SSD产品
·NetApp年度渠道峰会 继续强化统一
·戴尔发力存储市场 与EMC关系存疑
·固态盘:2009到2010年普及?
·越来越存储 SAS将入中端磁盘阵列
特别推荐  
第二届中国IDC产业大典正式启动
视频杂志下载:服务器Raid技术实战
深圳文博会:游戏开发与技术应用研讨会
网罗天下:2007中国IDC行业资讯大全
IT实验室在京发布国内第一首IT社区歌曲
中文授权Alexa网站排名查询
存储技术  
  数年以前,我们总在谈论XXXX年,但当我们谈论XXXX年的时候,往往离这些技术走向应用还有一段距离...
·如何将服务器接入到SAN环境
·我们到底需要什么样的存储虚拟化
·部署存储管理 企业要先知先觉
·归档数据进入EB级 企业如何应对
·HDS进入高端NAS 胜算有几何?
·教育行业信息存储之NAS应用
·深度分析:iSCSI与FC比肩齐飞
·HDS携手BlueArc征战NAS市场
产品专区  
·网络存储产品评测:网牛测试报告
·大众价格 Thecus N4100+网络存储器评测
·脱机也可下载BT——元谷网牛试用手记
·中小企业部门智能存储系统,正睿ZRI-X4
·旧瓶新酒 华硕新版WL-HDD无线存储器简评
·高速大容量 BUFFALO网络存储器250GL评测
·联想Lenovo-HDS AMS200存储产品资料
·保证数据安全 主流SAS RAID卡技术解析
·速度为王! Buffalo高速NAS简单试用
·垂直记录的铺路石:500GB级SATA硬盘横评
 Chinaitlab Group 旗下网站:  中国IT实验室 | 中国IDC圈 | 存储世界 | 数字网校 | 21世纪IT人才网
关于我们 | 广告服务| 成功客户 | 合作媒体 | 网站历史 | 联系我们 | 招聘信息 | 免责声明
Copyright © 2001 - 2007 All Rights Reserved
粤ICP备05089709