您现在的位置: 范文先生网 >> 教学论文 >> 综合教育论文 >> 正文

互操作联邦数字图书馆研究

时间:2006-11-23栏目:综合教育论文

 【内容提要】未来的图书馆将是联邦数字图书馆,其目标是向用户提供一个将异构、分布信息源无缝集成的视图,实现对数字图书馆资源的透明访问。文中首先介绍了研究数字图书馆互操作的必要性,在此基础上重点分析讨论了联邦数字图书馆的实现方法,并对当前具有代表性的互操作联邦数字图书馆的研究进行了综述讨论,最后简单讨论了目前建立互操作联邦数字图书馆所面临的挑战及进一步研究和解决的问题。
【摘  要  题】专题探讨……
       1 研究数字图书馆互操作的必要性
  随着在线数字图书馆(DLs)的日益增多,人们发现必须访问许多DLs才能找到所需要的资料。由于大多数DLs是基于数据库驱动的,现有流行的搜索引擎不能对其内容建立索引。因此,对于那些需要跨越多个DLs查找资料的用户来说,搜索引擎不能满足这种需求。如何将广泛分布的、异构的DLs联合起来向用户提供统一的服务,即实现DLs之间的互操作,成为DLs研究与开发所关注的中心问题。
  所谓数字图书馆的互操作是指交换和共享DLs的文档、查询和服务的能力[1]。它要求来自技术(协议和格式等)、内容(元数据及其语义等)和组织(DLs的基本访问原则、支付方式和认证等)三方面的合作。DLs的互操作可以出现在不同的抽象层次上,我们可以将其概括为两类视图[1]:纵向视图(vertical  view)和横向视图(horizontal  view)。前者涉及法律、社会、文化和知识产权等方面的问题,后者涉及DLs的硬件和软件即体系结构方面的问题。
  为什么要研究DLs的互操作?道理很简单:目前很少有DLs既提供丰富的馆藏资源,又提供有效的服务。尽管目前一些DLs拥有大量的馆藏资源,而另外一些DLs却提供许多的服务,但在这两种情况下,用户都不太容易找到其所需要的信息资源。只有在这些DLs之间实现互操作,才能共享DLs的资源和服务。因此,研究DLs的互操作是十分必要的。
      2 联邦数字图书馆的实现方法
  为了解决用户使用DLs查找资料时同一查询条件的重复提交问题,人们提出了联邦数字图书馆的概念。所谓联邦数字图书馆是指正式或非正式合作操纵DLs的一些组织,它们同意支持一组共同的服务和标准,以便在联盟成员之间共享DLs的资源,实现互操作。联邦数字图书馆允许跨越不同的DLs执行搜索,并将每个DLs的查询结果合并后返回给用户,使用户感到如同使用单个数字图书馆一样。从联邦的耦合度考虑,实现联邦数字图书馆的方法可分为以下三种:NCSTRL方法、Harvesting方法和搜集(Gathering)方法。
    2.1 NCSTRL方法
  网上计算机科学技术报告图书馆(NCSTRL)是一个拥有100多个机构加盟的联邦数字图书馆[2],它利用Dienst作为DLs的协议和体系结构。凡是要求加入NCSTRL的机构需要在本地安装Dienst服务器,并按照统一规定的数据格式建立其馆藏资源。NCSTRL借助于分布式搜索技术在联盟DLs之间实现资源共享,它将用户的查询送往参与联邦的所有DLs上分别执行,收集返回的结果,综合整理后返回给用户(图1)。
  附图
  图1 NCSTRL方法
  NCSTRL方法要求所有参与联邦的DLs使用相同的协议或软件系统,因此能够提供全面的互操作。但紧密的联邦必将加重联盟成员的负担,它们不得不就技术标准和策略(如知识产权准则、安全和隐私等)达成一致。从网络和搜索系统方面的限制考虑,NCSTRL是昂贵的运行模式,因为要求每个联盟成员的DLs必须支持复杂的查询语言和对查询的快速实时响应。另外,从查询的频率、元数据的质量以及网络资源的可用性等方面综合考虑,这种实现联邦的方法对联盟成员加负较重。因此,只有那些需求强烈的DLs会采用这种代价较高的模式。
    2.2 Harvesting方法
  一台计算机能够自动地从其他计算机中收集并提取元数据的方法通常称作Harvesting[3]。利用Harvesting方法建立联邦数字图书馆的基本思想是:从每个DLs收集并提取元数据,经过处理、合并后集中保存在一个中心DL中,然后对保存在中心DL本地的元数据执行搜索(图2)。显然,这种方法需要在中心DL维护一个所有DLs馆藏元数据索引信息的副本,以便提供基于馆藏元数据内容的查询路由服务。
  附图
  图2 Harvesting方法
  Harvest系统[4]是这种方法的代表,它包括一组从各个DLs馆藏中搜集信息并建立基于主题内容索引的集成工具。Harvest体系结构主要包括两部分:搜集者(gatherers)和代理(brokers)。每个搜集者从DLs馆藏中搜集并提取索引信息。代理程序从一个或多个搜集者或其他代理检索索引信息,并按增量方式对其进行更新。代理程序能够为多个馆藏建立集成索引,并提供一个查询界面。
  由于Harvesting方法采用集中处理方式,所以能够保证有较好的查询响应时间,但各DLs馆藏元数据内容的变化不能及时得到反映。另外,Harvesting方法不要求严格遵守一组完整的技术协定,只要求做少许支持基本共享服务(如数据访问)的工作。同NCSTRL方法相比,Harvesting方法提供的互操作性相应的要差一些,但对联盟成员的要求却很少。因此,许多组织可能会加入这种松散的DLs联邦。
    2.3 搜集(Gathering)方法
  对于那些不能正式加盟的DLs组织,仍有可能通过搜集(Gathering)DLs可公开访问信息的途径获得一定程度的互操作。这种联邦方法通常提供统一的用户界面,用户输入查询请求,系统执行分布式搜索,并将合并后的查询结果返回给用户。元数据蜘蛛(MetaCrawler)[5]是搜集方法的代表,它是由美国华盛顿大学实现的并行Web搜索服务。MetaCrawler提供一个智能接口界面,它能将用户的查询并行地送往多个搜索服务(如Lycos、Altavista和Yahoo等),并对返回的结果进行整理,筛除其中重复的内容,然后返回给用户。MetaCrawler体系结构具有许多优点,它在传统的搜索服务之上提供一个抽象层,使其在Web增长和变化时具有较好的适应性、可伸缩性和便携性。
  利用搜集方法建立联邦数字图书馆无须任何DLs直接参与合作,但所提供服务的质量比参与合作情况下的要差。同前面介绍的两种方法相比,搜集方法所提供的互操作性最差。目前许多关于Web的研究可视为在这个层次上添加功能,这将会提供更有效的互操作性。尽管期望整个Web表现出丰富的语义不太现实,但是人们还是期望着通过搜集方法提供服务的水平能够逐步地得到改善。
  上述三种联邦方法中,NCSTRL方法通过使用相同的协议或软件系统来消除DLs之间的异构问题,因此可以实现全面的互操作。而对现有的DLs来说,Harvesting方法是比较现实的

建立联邦数字图书馆的方法。搜集方法虽然能够通过搜集DLs可公开访问信息的途径获得一定程度的互操作,但所提供服务的质量及互操作性较差。表1给出了这三种联邦方法的比较。
  表1 三种联邦方法的比较
  附图
      3 互操作联邦数字图书馆
  未来的图书馆将是联邦数字图书馆,其目标是向用户提供一个异构、分布信息源无缝集成的视图,实现对DLs资源的透明访问。联邦数字图书馆的建设不仅包含一系列的关键技术(如元数据、本体论、互操作、多语言支持、统一的接口界面等),而且还涉及到知识产权、经济等组织方面的问题。就技术层面而言,互操作是联邦数字图书馆的根本问题。来自结构、系统、语法及语义方面的异构性,成为实现互操作联邦数字图书馆的最大障碍。一种实现互操作联邦数字图书馆的途径是采用NCSTRL方法,即所有联盟的DLs都使用相同的通信协议或软件系统,这是比较理想的模式。然而,目前许多DLs都属于自治的信息系统,它们具有各自的搜索界面、体系结构、通信协议和管理策略,在这些异构的DLs之间建立互操作联邦无疑是一种挑战。对此,人们提出了不同的解决方案。其中具有代表性的有:基于中介(Mediation)系统的结构、基于数据驱动的结构、基于Agent的结构和基于OAI互操作框架的结构。
    3.1 基于中介(mediation)系统的结构
  中介(mediation)结构为实现异构DLs的互操作联邦提供了一条有效途径。它利用一个中介层(mediator)为每种数据源提供一个通用的数据模型和查询界面,使用包装层(wrapper)屏蔽各种数据源之间的异构性。中介层负责接受用户的查询,并将其转换成通用模型。包装层将中介层提供的通用模型转换成针对具体数据源的查询并执行。中介层收集来自包装层转换后的查询结果,将其归并后返回给用户。其代表是文献[4]中介绍的体系结构,它利用面向对象的数字图书馆系统MARIAN作为网上学位论文联邦数字图书馆(NDLTD)的中介层中间件(mediation  middleware),以期提供一个公共的查询界面和集成平台;使用5SL(一种基于XML的描述语言)描述每个联盟DLs的馆藏服务能力及其内部文档结

[1] [2] [3] 下一页

下页更精彩:1 2 3 4 下一页