中国IDC产业年度大典指定存储网站 第二届中国IDC产业年度大典(北京 2008年1月16日) 中国IT实验室旗下网站
存储世界
 热门搜索:SAN 虚拟化 RAID 容灾 ILM 分层存储 iSCSI SAS
搜索:
 您现在的位置: 中国IT实验室 >> 存储 >> 存储管理 >> 分级存储 >> 文章正文
文件存储与搜索技术浅析
来源:TT存储 时间:2008-5-9 保存本文 作者:佚名 收藏本站

    随着信息技术的不断发展,文本文件、页面、电子邮件、音乐、电影等众多不同类型信息的存储需求呈现爆炸性增长。存储系统在数据存储的可靠性和性能方面是比较有效的,但是随着存储系统的容量不断增大,存储信息的数量和类型不断增加,信息的检索和管理会变得越来越困难,这与互联网环境形成了鲜明的对比。随着搜索引擎的不断发展,在互联网的环境下寻找信息十分方便。用户如何在存储系统中找到想要的信息比在互联网上查找信息更加困难。

    传统文件系统效率不高

    几乎所有的文件存储系统都是基于文件系统的,文件系统与操作系统是密不可分的整体。文件系统由文件和目录组成。数据按其内容、结构和用途组成若干命名的文件。目录构建了文件系统的层次化化结构。用户创建子层次以便对文件进行分类。文件系统可以有效地组织文件,一个目录下的子目录或者文件的名字是惟一的,这就保证了文件的全路径名称不会同时指向两个或者更多的子目录或者文件。

    根据什么来建立层次结构并没有一个很有效的方法,在考虑文件安全和文件共享时,层次结构的缺陷更加明显。比如,一个文件在网络上进行共享时,会把这个文件复制到一个公共目录下面,同时设定好公共目录的访问权限,这样一个文件就会在两个不同的层次结构中有着两份拷贝,会给文件的管理带来很大不便,特别是在文件的数量不断增加的时候。

    另外,层次化结构使得文件访问的效率不高。比如,目录隐藏了它包含的内容,并且目录下可能还有一层又一层的子目录,用户很难知道一个目录下面到底有什么东西,访问某个文件必须通过层次型的目录树结构到达文件的保存位置,如果不知道文件保存位置,就必须遍历整个目录或使用操作系统的搜索功能,而操作系统仅能依靠文件名来检索和查找数据。

    语义文件系统高效可靠

    在过去十几年中,文件系统技术并未进行大的变革,而新数据类型(如多媒体、电子邮件)不断出现,包括了丰富的元数据。没有给予元数据信息足够重要的位置,存储在文件系统中的数据都缺乏语义支持,因此存储系统不能提供高层的基于语义的关联式数据存取。正因为认识到现有文件系统的不足,学术界和工业界做了大量工作,研究如何提高文件的管理和搜索效率。其中,最重要的研究成果是语义文件系统,它可以充分利用文件的元数据信息进行文件浏览与搜索。

    语义文件系统利用元数据抽取工具获取更多的元数据,记录用户活动,并采用手工或其他方法对文件进行标注,最后将这些信息结合起来实现统一元数据。通过元数据信息在非结构化文件和数据库数据之间建立起链接,存储系统可以实现快速的基于文件属性的文件系统访问。

    语义文件系统提供新的规则,即相关性的访问方法。相关性访问是基于内容访问的特性,供一种灵活的关联方式来存取文件。文件属性由转换器从特定类型文件中自动抽取,表达为 Hkey和Valuei对。同时,语义文件系统又引入了虚拟文件夹的概念。在虚拟文件夹中,一个使用者可以进行基于属性的搜索,系统在结果集中创建一组文件的符号连接,提供跨越目录层次的文件存取通路。比如WinFS和Spotlight的虚拟文件夹,虚拟文件夹可采用XML格式的文本文件进行表示,内容是对数据库进行查询后返回的结果组成的列表,包含了指向符合某种规则的文件或文件夹的链接。在占用更多存储空间的情况下,语义文件系统可轻易实现一个文件同时放在几个不同的目录层次下面。

    语义文件系统可对文件进行高效分类。比如,基于用户空间文件系统(Filesystem in Userspace,FUSE)的TagFS采用智能标签(Smart Tagging)机制,可以动态地让数据文件具备特定的标签,而加了标签的数据文件能依据用户的喜好与意图分类,并依据权重排序后呈现。

    语义文件系统便于用户对数据文件进行高效地搜索。逻辑文件系统 (LISFS)使用一个数据库为系统的文件提供搜索功能。数据库表由从关键词到对象的映射组成。目录的内容是一个符合查询条件的对象集。苹果计算机的Spotlight是一个元数据和内容索引系统,并集成在HFS文件系统中。WinFS的元数据被储存在一个数据库中,而Spotlight的索引内容和搜索结果也保存在数据库中。Linux也有一个与Spotlight类似的系统,称为Beagle.Beagle利用一个内核中的文件系统事件服务Inotify,为新文件类型提供一个即插即用的基础架构。

[1] [2] 下一页  

【责编:Chuan】
相关文章
没有相关文章
最新文章
·文件存储与搜索技术浅析
·在线备份赢得用户仍将面对四大挑战
·在线备份赢得用户仍将面对四大挑战
·怎样将原有文件分步转移到SATA分区中
·怎样评估TSM的网络备份速度?
·用分析工具“挤”出更多存储
·谁是最对的重复数据删除方案
 文章评论
 精彩友情推荐
·博达交换机
·博达镜像交换机
·博达镜像交换机报价
·bdcom交换机
·博达网络交换机
·IDC资讯大全
·机房品质万里行
·IDC托管必备知识
·全国IDC报价
·网站推广优化
行业信息关注  

美国Atempo公司在

戴尔推EqualLogic
·在线备份赢得用户仍将面对四大挑
·Sun力推开源存储 专家对开源抱有
·Sun发布新工具紧抓开源开发者
·利用x86 PC建立SAN与虚拟存储池
·HP公布可能改变存储的新发现
·EMC针对Mac用户推出在线存储
特别推荐  
《IT实验室周报》征稿启事
中文Traceroute,路由信息一目了然
10大城市2万个热门IT职位等着您!
讲述从网管到外企IT经理的成长经历
视频杂志下载:服务器Raid技术实战
中文授权Alexa网站排名查询
存储技术  
  数年以前,我们总在谈论XXXX年,但当我们谈论XXXX年的时候,往往离这些技术走向应用还有一段距离...
·文件存储与搜索技术浅析
·怎样将原有文件分步转移到SATA分区中
·怎样评估TSM的网络备份速度?
·谁是最对的重复数据删除方案
·用分析工具“挤”出更多存储
·戴尔的虚拟化远景与存储整合
·再谈IP存储:iSCSI扩展SAN应用范围
·备份失败的五个原因及解决办法
产品专区  
·如何为NAS创建RFP
·“货真价实”的CDP产品一览
·中端企业选择存储应关注扩展性
·Infortrend发布新款SAS磁盘阵列S12S-G1
·Buffalo推出业界最小的迷你NAS
·BUFFALO移动硬盘大幅调价 价格几乎降一
·Google云存储服务定价极具吸引力
·存储更简单,数据更安全:EMC存储宝箱评
·宝德iSCSI磁盘阵列(IP-SAN)评测报告
·存储接口标准化 SBB2.0惊艳IDF展
 Chinaitlab Group 旗下网站:  中国IT实验室 | 中国IDC圈 | 存储世界 | 数字网校 | 21世纪IT人才网
关于我们 | 广告服务| 成功客户 | 合作媒体 | 网站历史 | 联系我们 | 招聘信息 | 免责声明 | 社区之歌
Copyright © 2001 - 2007 All Rights Reserved
粤ICP备05089709