中国IDC产业年度大典指定存储网站 第二届中国IDC产业年度大典(北京 2008年1月16日) 中国IT实验室旗下网站
存储世界
 热门搜索:SAN 虚拟化 RAID 容灾 ILM 分层存储 iSCSI SAS
搜索:
 您现在的位置: 中国IT实验室 >> 存储 >> 存储管理 >> 分级存储 >> 正文
文件存储与搜索技术浅析
来源:TT存储 时间:2008-5-9 保存本文 作者:佚名 收藏本站

    随着信息技术的不断发展,文本文件、页面、电子邮件、音乐、电影等众多不同类型信息的存储需求呈现爆炸性增长。存储系统在数据存储的可靠性和性能方面是比较有效的,但是随着存储系统的容量不断增大,存储信息的数量和类型不断增加,信息的检索和管理会变得越来越困难,这与互联网环境形成了鲜明的对比。随着搜索引擎的不断发展,在互联网的环境下寻找信息十分方便。用户如何在存储系统中找到想要的信息比在互联网上查找信息更加困难。

    传统文件系统效率不高

    几乎所有的文件存储系统都是基于文件系统的,文件系统与操作系统是密不可分的整体。文件系统由文件和目录组成。数据按其内容、结构和用途组成若干命名的文件。目录构建了文件系统的层次化化结构。用户创建子层次以便对文件进行分类。文件系统可以有效地组织文件,一个目录下的子目录或者文件的名字是惟一的,这就保证了文件的全路径名称不会同时指向两个或者更多的子目录或者文件。

    根据什么来建立层次结构并没有一个很有效的方法,在考虑文件安全和文件共享时,层次结构的缺陷更加明显。比如,一个文件在网络上进行共享时,会把这个文件复制到一个公共目录下面,同时设定好公共目录的访问权限,这样一个文件就会在两个不同的层次结构中有着两份拷贝,会给文件的管理带来很大不便,特别是在文件的数量不断增加的时候。

    另外,层次化结构使得文件访问的效率不高。比如,目录隐藏了它包含的内容,并且目录下可能还有一层又一层的子目录,用户很难知道一个目录下面到底有什么东西,访问某个文件必须通过层次型的目录树结构到达文件的保存位置,如果不知道文件保存位置,就必须遍历整个目录或使用操作系统的搜索功能,而操作系统仅能依靠文件名来检索和查找数据。

    语义文件系统高效可靠

    在过去十几年中,文件系统技术并未进行大的变革,而新数据类型(如多媒体、电子邮件)不断出现,包括了丰富的元数据。没有给予元数据信息足够重要的位置,存储在文件系统中的数据都缺乏语义支持,因此存储系统不能提供高层的基于语义的关联式数据存取。正因为认识到现有文件系统的不足,学术界和工业界做了大量工作,研究如何提高文件的管理和搜索效率。其中,最重要的研究成果是语义文件系统,它可以充分利用文件的元数据信息进行文件浏览与搜索。

    语义文件系统利用元数据抽取工具获取更多的元数据,记录用户活动,并采用手工或其他方法对文件进行标注,最后将这些信息结合起来实现统一元数据。通过元数据信息在非结构化文件和数据库数据之间建立起链接,存储系统可以实现快速的基于文件属性的文件系统访问。

    语义文件系统提供新的规则,即相关性的访问方法。相关性访问是基于内容访问的特性,供一种灵活的关联方式来存取文件。文件属性由转换器从特定类型文件中自动抽取,表达为 Hkey和Valuei对。同时,语义文件系统又引入了虚拟文件夹的概念。在虚拟文件夹中,一个使用者可以进行基于属性的搜索,系统在结果集中创建一组文件的符号连接,提供跨越目录层次的文件存取通路。比如WinFS和Spotlight的虚拟文件夹,虚拟文件夹可采用XML格式的文本文件进行表示,内容是对数据库进行查询后返回的结果组成的列表,包含了指向符合某种规则的文件或文件夹的链接。在占用更多存储空间的情况下,语义文件系统可轻易实现一个文件同时放在几个不同的目录层次下面。

    语义文件系统可对文件进行高效分类。比如,基于用户空间文件系统(Filesystem in Userspace,FUSE)的TagFS采用智能标签(Smart Tagging)机制,可以动态地让数据文件具备特定的标签,而加了标签的数据文件能依据用户的喜好与意图分类,并依据权重排序后呈现。

    语义文件系统便于用户对数据文件进行高效地搜索。逻辑文件系统 (LISFS)使用一个数据库为系统的文件提供搜索功能。数据库表由从关键词到对象的映射组成。目录的内容是一个符合查询条件的对象集。苹果计算机的Spotlight是一个元数据和内容索引系统,并集成在HFS文件系统中。WinFS的元数据被储存在一个数据库中,而Spotlight的索引内容和搜索结果也保存在数据库中。Linux也有一个与Spotlight类似的系统,称为Beagle.Beagle利用一个内核中的文件系统事件服务Inotify,为新文件类型提供一个即插即用的基础架构。

[1] [2] 下一页

【责编:Chuan】
相关文章
没有相关文章
最新文章
·神州数码存储产品联合巡展来到广东
·神州数码存储产品联合巡展启动
·NetApp Q4收入同比下降 花15亿美元收
·存储分析 EMC竞争对手将如何回应V-Ma
·备份工具转换过程有待实现无缝连接
·存储虚拟化五步规划
·CA推出全面恢复管理解决方案
 文章评论
 精彩友情推荐
·Asp源码 PHP源码
·CGI源码 JSP源码
·建站书籍教程
·服务器软件 .net源码
·建站工具软件
·IDC资讯大全
·机房品质万里行
·IDC托管必备知识
·全国IDC报价
·网站推广优化
行业信息关注  

HDS存储研发体系与

2008电脑展盘点:
·神州数码存储产品联合巡展来到广
·神州数码存储产品联合巡展启动
·NetApp Q4收入同比下降 花15亿美
·存储分析 EMC竞争对手将如何回应
·CA推出全面恢复管理解决方案
·市场分析:开源存储挣扎在存储边
特别推荐  
08版网络测试工具新鲜出炉
《IT实验室周报》征稿启事
中文Traceroute,路由信息一目了然
北大青鸟IT教育求学培训全攻略
固态硬盘--未来存储之星
中文授权Alexa网站排名查询
存储技术  
  现在我最关心的就是光纤网络的传输质量、有效传输距离以及数据传输速率等性能指标,因为,我们的机房和设备都分处两地...
·备份工具转换过程有待实现无缝连接
·实战:通过FTP远程访问ReadyNAS存储
·数据丢失保护并不等于终端安全性防护
·中小企业如何低成本实现企业数据级容灾
·CA免费提供重复数据删除和备份报告功能
·重复数据删除不足之处
·通过服务器虚拟化和iSCSI解决存储难题
·硬盘数据恢复的多种解决方案
产品专区  
·秒杀一切MLC!史上最强SLC SSD大测试
·深度观察:绿色存储的八大节能策略
·存储行业依然蕴含机会 五家厂商受关注
·I/O至尊 希捷Savvio15K.2硬盘详细评测
·速度不再重要?市售单碟500GB硬盘横评
·实战端口复用器 赛恩斯5口SATA存储评测
·解析EMC Symmetrix V-MAX的更新亮点
·存储架构面临变革 什么样的客户应该用X
·QNAP最新系列产品 TS-219 NAS详细评测
·深入剖析IBM XIV网格存储硬件体系结构
 Chinaitlab Group 旗下网站:  中国IT实验室 | 中国IDC圈 | 存储世界 | 数字网校 | 21世纪IT人才网
关于我们 | 广告服务| 成功客户 | 合作媒体 | 网站历史 | 联系我们 | 招聘信息 | 免责声明 | 社区之歌
Copyright © 2001 - 2007 All Rights Reserved
粤ICP备05089709