在目前这个数字化时代,小到个人珍贵的数码照片、钟爱的影音资料,大到企业级的重要文档和数据资料,都面临着长期或永久保存的需求。
针对这些需求,你需要设计一个存档系统,这时作为系统架构者,您至少需要做出四个方面的决定:存储什么内容;要存储多长时间;如何存档和做索引以便在需要的时候能够顺利找到特定的数据;将存档内容存放到哪里。而在这里我们就锁定最后一个问题来讨论,也就是针对不同的存储需求,应该选择什么样的介质更为合理。
首先需要指出的是,存储介质的概念是很广泛的,绝不仅仅是我们现在热衷的数字存储介质,而且从长久的历史发展中已经证明,无酸纸上的墨迹以及缩微过程 (缩影胶片和单片缩影胶片)具有长期的稳定性和可读性,但是这些存储方式都具有体积大的缺陷,而且在查找时也很耗时耗力,因此现在提到存储介质,大家还是很自然地把目光锁定数字存储介质。当然,这也是因为我们周围的一切都已经步入了数字化新时代。
五种存储介质供选择
即使是存储数字化资料的数字存储介质,你仍然有五种主要的介质可选择:
•磁带——这是一种较为传统的选择,它在合理的价位上提供了较高的信息存储密度,不过对于诸如医疗影像一类的存档文件检索的时间太长。
•磁盘阵列——这是一种快速的存储介质,不过成本比较高,尤其是将电源功耗、冷却以及维护等综合成本考虑在一起的时候,似乎没有什么成本优势。
•光介质——这种介质包括CD和DVD,介质本身的成本很低,但是容易在物理操作过程中遭受损坏,因此消费者并不会把他们作为最可靠的存储介质,商家也是将其卖点锁定在低价上,并不是质量。
•专业的光格式——这是被历史证明的能够保证数据长期稳定性的介质,不过其存储密度还赶不上磁带。
•抽换式硬盘——专为备份设计的抽换式硬盘或移动硬盘是具有诱惑性的,不过目前还没有人知道这样的磁盘能够维持多久。
特别指出一点,不管你采用哪种存储介质,将所有鸡蛋都装到一个篮子里的做法是我们坚决不提倡的。所有预计的数据生命周期都是建立在正确的存储基础之上的,火焰、烟雾、洪水或者其他的自然灾害都有可能毁坏掉你的存档数据,就如同它们毁坏你的原始数据一样容易。因此,将存档数据复制到多个地方是保证你的数据随时安全可用的惟一方法。
另外,如果你所处的行业是要求存储内容不能重新改写的,那么你就需要具有WORM(一次性写入/多次读取)功能的存储介质。不能重新改写这个特性是可以用化学方法实现的,如CD或DVD-R介质;或者也可以通过软件在各种系统中来实现,这样的系统包括从只能一次写入的磁带驱动器,到专门的WORM磁带盒,或者磁盘阵列系统,像EMC的Centera,或者运行SnapLock的NetApp filer等。
殊途同归,最终就是保证一旦数据被写入这些系统或设备中,就没有人(甚至是系统管理人员)能够再对数据做丝毫的更改。
古老的磁带
作为最古老的存储介质之一,磁带已经在市场上强劲发展了50年,虽然磁盘厂商一直试图将其颠覆,但是我们看到磁带的容量仍然在持续增长。在过去的几个月中,已经有人将单个磁带的内部容量推进到800GB。
在今年五月,IBM研究部门宣称,他们已经在实验室实现了磁带每平方英寸6.67GB的高密度。一旦这样的技术正式投放市场,也许就在几年内,我们将看到在诸如LTO Ultrium的半英寸盒装磁带上能够提供8TB的容量。这样磁带必然还会活在大家心中。
如果存储环境适当(温度为60~70度,并保持30%~40%的相对湿度),那么磁带上的数据应该能够至少保持30年是可以读取出来的。其中的关键是要有兼容性的驱动器。DLT驱动器一般都能够读取之前两代(7~9年)的磁带。
最新的一些中端(LTO和DLT/SDLT)和数据中心适用的磁带技术在工厂就使用了可以确保磁头准确定位的技术,这有效地消除了在不同驱动器中读取磁带的不相容问题,也就是说即使是在很久以前的QIC甚至DDS格式的驱动器写入的磁带,也能顺利地在现代的驱动器中读取出来。
需要指出的是,虽然理论上说磁带具有30年以上的寿命,但是很多应用报告显示,当试图从备份磁带中恢复数据时,有20%~50%的情况是失败的。表面上看这两个结果似乎很矛盾,但是只要您仔细分析,还是很容易发现这些恢复的失败大多数是操作过程中造成的。例如,IT人员对服务器添加了卷,但却忘记在备份工作中添加,或者备份工作跳过了某个重要的开放文件。
通常来说,对于磁带备份,有效读取的更合理的期望期限应该是15年。
流行的磁盘
磁盘是近些年来发展迅速且非常被看好的存储介质。旋转磁盘甚至SATA 磁盘,速度都是很快的,这也使得它们很适合于主动存档工作。
同时,SATA驱动器的容量和可靠性不断增强也意味着在线存档不再是什么问题。即便是需要WORM来满足法规遵从的企业组织,也可以使用诸如EMC Centera或NetApp SnapLock这样的系统,来在磁盘阵列上以不可更改的格式存储数据,以满足法规需求。
企业级驱动器厂商通常都宣称其MTBF(平均无故障时间)超过了1百万小时,或者说114年。不过从实际运行来看,这个数字并不是说明通常的驱动器都可以支持到114年,而更像是指平均每年114个驱动器中有一个会发生故障。
另外,除了单纯的整个系统瘫痪之外,磁盘驱动器有时只是不能读取一些特定的扇区。根据厂商通常公布的数据,对于企业级光纤通道和SCSI驱动器来说,一般出现不可修复的读取问题的几率是1/1015(也就是说每1015bit中有1bit),而对于以RAID应用为目标的高容量SATA型号来说这个几率是1/1014 。
在通常情况下,如果出现读取错误,RAID控制器会使用镜像或奇偶数据重新创建有效的扇区。如果是在发生驱动器故障的情况下,RAID控制器则会使用替换驱动器或热备驱动器来重建阵列。
需要注意的是,为了重建一个500GB SATA驱动器的14-驱动器阵列,需要读取剩余13个驱动器的全部内容,也就是5.2×1014bit。这超过了阵列中企业SATA驱动器的错误率,很有可能使得一些数据在RAID阵列重建过程中丢失。
由此证明,应该使用小型的RAID组,或者最好是像RAID6这样的双奇偶设计,能够使得阵列重建过程没有数据损失地解决不可修复的读取错误问题。
保存在硬盘驱动器上的数据的寿命会受到两个因素的影响。首先一个因素就是热磁衰减,也就是所有磁性存储设备都有一个慢慢减弱的过程。随着位密度的增加,这个衰减的效果也会增加。理论上现代的硬盘驱动器应该能够保留数据长达20年左右,但是一般厂商承诺的安全可靠保留时间只有10年,就是因为这个原因。
另外一个更大的担心则是阵列退役。业界厂商通常承诺的服务只有5年。这样,在2000年发布的阵列系统到现在就已经走到了其生命的尽头,如果继续使用,对它的支持您将需要花费掉实际成本四倍以上的费用。这也就意味这你必须每隔几年就要将数据迁移到新的系统上。
[1] [2] 下一页

【责编:Chuan】