中国IDC产业年度大典指定存储网站 中国IT实验室旗下网站
存储世界
 热门搜索:SAN 虚拟化 RAID 容灾 ILM 分层存储 iSCSI SAS
搜索:
 您现在的位置: 中国IT实验室 >> 存储 >> 导购 >> 正文
不同重复数据删除模式,你该如何选择
来源:存储世界整理 时间:2008-2-22 保存本文 作者:佚名 收藏本站

    尽管今天单位存储空间的成本不断走低,但企业需要存储或者备份的数据量仍然在持续上涨,导致了企业在磁盘存储空间方面无止境的成本投入。是否能有一种技术或者解决方案能够10倍甚至20的缩减企业数据量,让磁盘备份在容量空间方面的成本能够被更多的企业承受呢?重复数据删除正是近期的一项热门技术,由于可以大幅压缩和删减用户需要备份的数据量,因此让用户和厂商都对此青睐有加。

    但是一旦深入到重复数据删除的采购,这些专家就没有更好的意见了。因为重复数据删除的很多供应商目前仅仅能够实现这项功能,而实现的具体方式则各有不同,适用于一家公司的重复数据删除解决方案,未必就适用于另外一家公司。IT168特邀昆腾资深技术顾问为大家深入解析重复数据删除的底层原理与应用。

    主持人:重复数据删除是存储业内近年来比较热门的概念之一,相信对于重复数据删除,有很多网友有这样那样的疑问,今天我们非常有幸请来昆腾公司的王刚先生,为大家对重复数据删除做深入的阐释。前期在论坛上也很多网友提了很多这方面的问题,我们选择了一些有价值的问题,在访谈当中王刚先生会针对这些问题做一些回答。首先我们还是希望王刚先生介绍一下重复数据删除概念。

    王刚:好的,重复数据删除实际上是最近几年比较热门的一个话题。那么重复数据删除在大家的印象之中,首先考虑到的是数据删除,所以说比较回避这个话题,觉得数据删除首先会涉及到安全性问题,或者说这个数据删除到底实现的模式是什么样子。

    重复数据删除目前有很多叫法,比如说容量优化,或者是复本删除技术,这些技术实际上总体的原理是一样的,就是用户在存储和备份数据的时候,已经存在的数据,比如说昨天或者前天,有同样一份数据,那么今天再往用户的虚拟带库,或者是磁盘上存的时候,这些数据还要不要重复的存上去,如果这个数据继续存上去的话,就会占用多余的存储空间,这就是重复数据删除由来的原因之一。

    有些人会比较混淆重复数据删除与数据压缩,我们可以简单的分析一下,在重复数据删除里面它部分借鉴了压缩的模式,但不一样的地方在哪儿呢?

    压缩一般是挑选数据类型的,比如说视频文件,这些已经压缩过的数据对压缩技术来讲效率就不高,而对于数据库和文本文件,这些文本的数据文件,压缩的效果一般能达到2比1以上。

    重复数据删除不同,重复数据删除对数据进行一些算法的处理。把数据切割成一块一块,比如说4K,或者是16K,32K,然后进行比对,比对完了以后,只有变化过的,唯一的数据块才存到磁盘空间上去,这是基本的原理,如果这样理解了的话,就会发现可以把这个叫做复本删除,或者是容量优化。但是如果用户的数据原来没有发生重复数据删除的话,这个数据会几倍几倍的往磁盘空间上增加,采取了数据删除以后,这个增加的是唯一的数据块。

    主持人:现在各个厂商都有重复数据删除的产品,昆腾也是其中一家,您介绍一下这些种类,和不同技术带来的优势和劣势。

    王刚:重复数据删除的产品很多,但是我们看这些产品,或者是在挑选这些产品的时候,要搞清楚的一点是:他们的重复数据删除是基于哪种技术的?

    一般而言分为三种技术。第一基于字符块的,数据文件在进入重复数据删除设备,或者软件的时候,这个引擎会对这个文件进行字符块的分块,比如说4K,16K,32K,然后把这个输入到一个函数里面得出唯一的值,然后以这个值为比较,如果在函数列表里面发现同一个值的话,那就表明这个数据块是唯一的,这是一种模式。

    还有一种就是这个文件先输入到重复数据删除的引擎里面,这时候是对这个文件进行一次扫描,扫描以后有可能对文件进行逐个字节的对比,这是第二种模式。

    第三种也是对数据进行分块的分割,但是很明显这个分割的时候,这个字符块大小不是固定的,如果是固定的,这个效率肯定会影响重复数据删除的效率。那么固定与不固定的区别在什么地方呢?不固定的是分割的时候先扫描一下,看看这些块根据哪一个模式,多少长度分割出来以后,这个重复率是最高的,然后进行切割,产生一个唯一的列表值。如果是固定的话,不管这文件输入进来以后,怎么分割重复率都是固定的。

    这样从技术上来看就是两大流行:基于文件的与基于数据块的。这两个主流确定下来以后,实际上在选择重复数据删除的时候,还有一点比较重要,就是重复数据删除发生在哪个位置,这一点与用户最终的采购选择以及应用模式有很大关系。

[1] [2] 下一页

【责编:Chuan】
相关文章
重复数据删除不足之处
中立的重复数据删除产品评测出炉
飞康向NAS备份中添加重复数据删除功能
重复数据删除和VMware虚拟化完美组合
重复数据删除能否由次级转移到主存储?
SEPATON承诺DeltaStor重复数据删除比率
五大技术主导2008年存储市场
最新文章
·盘点硬盘领域的九大基础技术
·存储讲堂:详解四大RAID存储
·剖析文件虚拟化以及四种SAN虚拟架构
·深度解析RAID类型 全面透视RAID 10优
·磁盘阵列三大关键部件
·全方位解析虚拟带库优势特点
·云存储应该用在什么样的业务系统中
 文章评论
 精彩友情推荐
·Asp源码 PHP源码
·CGI源码 JSP源码
·建站书籍教程
·服务器软件 .net源码
·建站工具软件
·IDC资讯大全
·机房品质万里行
·IDC托管必备知识
·全国IDC报价
·网站推广优化
行业信息关注  

HDS存储研发体系与

2008电脑展盘点:
·赛门铁克发布FileStore云存储平台
·HDS发布Content Platform 瞄准云
·企业考虑基于云的电子邮件管理服
·美光发布首款SATA 6Gbps SSD明年
·唤起儿时的记忆  迪士尼移动存储
·迪士尼青睐国内消费电子市场  力
特别推荐  
08版网络测试工具新鲜出炉
《IT实验室周报》征稿启事
中文Traceroute,路由信息一目了然
北大青鸟IT教育求学培训全攻略
固态硬盘--未来存储之星
中文授权Alexa网站排名查询
存储技术  
  现在我最关心的就是光纤网络的传输质量、有效传输距离以及数据传输速率等性能指标,因为,我们的机房和设备都分处两地...
·盘点硬盘领域的九大基础技术
·存储讲堂:详解四大RAID存储
·剖析文件虚拟化以及四种SAN虚拟架构
·深度解析RAID类型 全面透视RAID 10优势
·磁盘阵列三大关键部件
·全方位解析虚拟带库优势特点
·云存储应该用在什么样的业务系统中
·全磁盘加密:辨别该做的和不该做的
产品专区  
·System Storage DS8700实现150%性能提升
·中小企业存储产品与方案应用导购
·Adaptec 5445Z SAS&SATA阵列卡图赏
·关于云存储需要弄清的五大问题
·深入解析SSD中MLC与SLC的性能差异
·多重虚拟机备份流化减少RTO
·普通硬盘vs固态硬盘——SSD值那么多钱吗
·固态硬盘评测:80GB Intel X25-M
·MLC性能直逼SLC!海盗船P256 SSD测试
·最大容量500GB 日立P7K500系列硬盘解析
 Chinaitlab Group 旗下网站:  中国IT实验室 | 中国IDC圈 | 存储世界 | 数字网校 | 21世纪IT人才网
关于我们 | 广告服务| 成功客户 | 合作媒体 | 网站历史 | 联系我们 | 招聘信息 | 免责声明 | 社区之歌
Copyright © 2001 - 2007 All Rights Reserved
京ICP备09039051号