现在位置:范文先生网>理工论文>计算机信息技术>地方历史文献存取、检索的趋势以及遇到的问题

地方历史文献存取、检索的趋势以及遇到的问题

时间:2023-02-22 15:51:15 计算机信息技术 我要投稿
  • 相关推荐

地方历史文献存取、检索的趋势以及遇到的问题


摘 要 阐述缩微技术和数字影像技术所提供的资料保存方法、策略和其中产生的问题。主要介绍丹麦图书馆等文献机构在提供书目记录的同步电子存取方面所进行的卓有成效的合作。对获取数字化的源文献中信息的有效方法———索引和领域特定检索点进行了探讨。

地方历史文献存取、检索的趋势以及遇到的问题

关键词 地方文献 文献保存 提供途径 趋势 问题

一、导论

地方历史文献的首要用户应该是系谱专家以及研究地方文献的历史学家。在历史上,正是由于对这些材料的需要,在很多国家、州或者是省份、县以及乡镇都形成了相当数量的家谱和地方志学会。这些学会的职责就是收集书面资料、图片、大事记以及其他的古代器具,然后通过图书馆、博物馆以及发行出版物的方式,把这些资料提供给研究人员使用。也存在着这么一种情况,那就是这些学会以及馆藏后来就发展成了政府档案馆②。近年来,一些图书馆和档案馆开始创建家谱和地方志阅览室③,以此来满足系谱专家以及研究地方文献的历史学家进行研究的需要。

直到2001年,国际图联(IFLA)专业图书馆部下设了地方志和家谱小组,地方志和家谱的重要性才开始得到认同。这个小组的使命是:“……提供给从事地方文献和家谱的图书馆员一个在国际信息界发言的机会,为专家和图书馆、档案馆、博物馆以及其他相关的学会、机构之间的交流提供便利,鼓励扩大地方志和家谱文献的收藏,改善服务。”④我今天想与大家分享的信息均来自国际图联大会年会期间地方志和家谱小组组织的讨论会。

二、存取方式、策略以及出现的问题

上个世纪,引入新技术作为历史文献收集、存取和提供检索方式的趋势在不断进步。20世纪上半叶,作为存取和检索文献中所含信息的方式,图书馆、博物馆和档案馆(以下简称为“信息提供机构”)开始采用缩微技术。随之而来的是20世纪80年代之后,人类进入数字时代。数字时代以所谓“新媒体”的出现为典型特征,具体表现为如下形式:计算机技术、电子数据库、光学介质以及因特网和万维网。由此,在决定自身距离数字时代的差距以及何时步入数字时代的时候,对于如何管理馆藏传统资源,信息提供机构会面临一些重大的决择,经受严峻的考验。这里,只强调几个与信息提供机构所采用的存储方式和策略相关的问题,并着重阐述缩微技术以及数字化技术。

如上所述,缩微技术是一种成熟的存取技术。如果采用国际通用标准的话,缩微技术能够保证档案的品质。如果在理想状态下使用、存储,保存在银盐缩微胶片(Imagesonsilverfilm)之上的图片可以满足100年的使用需求。然而,对于缺少经费的图书馆和档案馆来说,提供空间和理想的存储条件所需要的开支问题就会显得更加重要。

数字成像是一项新的快速发展的技术。由于软硬件的升级,现在抓取的图片在五年后可能就变得不可读。目前数字存取仍然不稳定,如果存储在质量较差的光盘上,其寿命不过几个月而已。

为确保数字图片的存取,信息提供机构可能采取的策略如下:(1)存储在同一个服务器上的不同驱动器中;(2)存储在不同的服务器或者镜像中;(3)通过计算机输出胶片进行复制。由于需要定期把原有内容移入新的软硬件上,再加上不断更新的管理技术,前两种策略都会涉及到重复投入费用的问题。就当前来说,第三种策略使原始图像抓取的费用翻倍。从长远的角度来考虑,有人认为存取图片的费用会比把数字图片转化成缩微胶片的费用低,这是因为减少了存取费用。然而这一观点的支持者们一般都忽视了如下两部分费用:一般管理费用以及从事存取工作的IT工作人员的工资费用。

存取“数字原生资源”以及纸质文档的数字图片所面临的挑战,已经成为政府机构以及其他信息提供机构所关注的重大问题。因此,各国中央政府均在加大投入以解决这些问题。比如说,美国国会拨款9980万美元用于资助美国国会图书馆的国家数字信息基础设施和存取项目②。美国国家档案和文件管理局(NARA)刚刚宣布奖励2000万美元给两个主要的机构,以支持他们在接下来的五年里找到可行的解决办法③。因此,我们应该对于数字图片存档的未来充满希望。

三、提供检索并加以管理

图书馆和档案馆有责任为读者或者用户提供馆藏信息的访问途径。在此,我只是突出强调以下两种信息:书目数据和源文档。

1 访问书目数据

过去,人们对于书目数据的访问仅仅限于查阅书目卡片或者浏览图书馆和档案馆的书目单。然而,在数字时代,在线检索书目数据以及通过信息提供机构的网站进行检索已经变成现实。万维网为不同机构之间共享书目数据以及为读者提供对于大多数图书馆/档案馆的馆藏的同步检索提供了便利。

随着计算机的广泛应用,人们使用计算机能力的增强,加之资源丰富的网站的不断出现,使信息搜集者更多地把因特网和万维网作为信息的首要来源。在数字时代的虚拟世界里,图书馆/档案馆之间的物理障碍正在消失。信息搜集者不在乎他们是从什么机构去获取信息,关键在于他们要得到信息。

对于这一现象的认知引导各个机构在提供对于馆藏书目数据的检索途径上进行合作。一个最近的事例就是丹麦的“北日德兰半岛文化历史数据库(NOKS)”。这个数据库通过一个单一的网络门户为读者提供访问以下机构馆藏的途径,包括北日德兰县的3个历史档案馆,3个文化历史博物馆,2个艺术博物馆以及县中央图书馆。整个工程耗时1年,利用经费14.3万欧元。2003年书目数据的访问量达到11.5万条。

这种合作必须建立在不同种类的机构平等参与的基础之上。各种机构分别有一些根据档案馆、图书馆或者博物馆编目原则编写的书目数据。因为目标是提供跨机构的同步检索,所以这些书目数据必须采用统一的格式,或者必须找到一个能够连接不同编目系统的办法。

北日德兰半岛文化历史数据库采用的办法较为实用,他们利用现存的书目数据,通过连接所有参与机构的相同的主题词,实现预期的对于不同系统的同步检索的目标。因此,比如在图书馆系统搜索相关主题词“关注老年人”(careofseniorcitizens)同样也会获得档案馆的关于“老年人”(elderlypeople)的书目数据以及博物馆的关于“老年人”(seniorcitizens)的书目数据。

2 访问源文档

索引。简化检索的要求紧随着新电子传播工具的出现而出现。然而,要对数字图片里面的信息进行检索,我们必须首先建立图片的索引。索引方式可以是全文的、域的或者是两者合二为一④。全文检索需要返回到包含所查询的内容的每一张图片,这样的话,读者在真正找到自己需要的信息之前,就需要浏览很多不相关的图片。域检索只是查询那些被域数据特别标注的图片。这种方法,如果使用得当的话,可以使搜索更快,更准确;然而,如果使用全文检索,可以发现一些随机的有用的相关信息,而域检索却会漏掉这些信息。

全文检索只有满足如下两种条件的一种才成为可能:数字化的原文可以转化成被光学字符识别(OCR)软件识别的文本;或者原文是打字键入的。直到现在,光学字符识别软件只适用于识别已排字的或者印刷的文档。全文索引之所以更快、更经济是因为电脑可以完成,同时也需要手工编辑。光学字符识别软件对于进行那些系谱专家和历史学家非常感兴趣的手写文档的搜索就不是那么可靠了。这也就意味着,要制作全文索引,原文必须是打字键入的。虽然这项工程的规模以及成本看上去可能非常巨大,但是韩国正在采用这种方式,通过重新键入来制作传统家谱的数字化版本。

制作域索引是一项手工操作过程,需要灵活选择,使用一致的关键词。这种检索的制作费用要比在OCR帮助下制作全文索引昂贵,却比手工输入数据创建可搜索文本便宜。因此,选择使用何种索引,需要综合考虑如下因素:潜在读者的检索需求,文档的类型(印刷的还是手写的)以及制作索引的费用。

著录。传统的检索点,如:作者、标题、主题对于源文档提供了很高水平的检索点,但是查找到包含真正所需信息的文档的概率较低。数字化历史文献的用户需要这些书目数据包含更多的“粒度”(指“著录”)。

对于制作数字图片的索引来说,一种可能的办法就是制作对于特殊用户群体所需要的源文档的元数据,也就是学科———专业主题(domain-specificaccesspoints)。比如说,一个西方人要做家谱研究,现在正在查找目标个体一生中的重要事件(出生、婚姻以及死亡)的信息,这些事件发生在不同的时间、地点。如果源文档中的数据元素,如姓名、地点、日期等己经是源文档著录的检索点,搜索成功的概率就能得到极大的提高。

现存编目标准以及元数据标准不支持这种书目数据描述。地方历史文献提供机构需要进行游说,以便把学科———专业主题检索点或者“著录款目”写入这些标准中。

3 管理对于数字源文档的访问

数字时代的到来为用户创造了前所未有的快捷、全面检索信息的机会。但是随之也带来了新的问题。比如说,在美国,系谱专家以及当地历史学家很感兴趣的档案均收藏在县法院里。法院里的档案是公用的,也就是说公众有权力使用。然而,对于那些曾经使用法院档案的研究人员来说,他们知道,在法院里查找自己所需要的特定档案是非常困难的。因为这些档案通常是随便摆放的,而且缺乏足够的搜索帮助手段。也就是说,档案和信息实际上是不可检索的。即使是这些资料被缩微化处理之后,检索信息的难度依然很大。然而,如果这些书目数据经过数字化处理,编制索引并提供到万维网上,访问就会变得容易、快速、普遍。但是这样一来,信息的隐匿性就会减低,就可能更多地限制或者禁止公众访问法院档案的呼声。

由于恐怖主义以及利用假身份进行盗窃行为的增加,人们对于个人身份数据隐私的关注显著增强。然而,一般来说,盗贼并不是为了窃取受害人的身份而进行研究。研究表明,大多数利用假身份进行盗窃案例的涉案人是家庭成员或者是陌生人。家庭成员可以在家中查看受害者驾照或者是信用卡上面的个人信息;陌生人通常是通过窃取邮件,或者在因特网上骗取个人信息。尽管只有少量的利用假身份进行盗窃案例与使用从家谱资料中获取的信息有关,如出生日期、死亡记录等用户可以免费获得的公众领域的文件,万维网上包含这些信息的电子数据库、索引以及图片的可访问性还是引起了人们的恐慌。

另一个人们关注的问题是:对于散发和复制这些记录的控制减弱,以及在这些记录以电子文本提供访问后存在被更改的可能。

4 数据隐私权法律以及规定

信息提供机构有责任遵守所处地区的数据隐私权法律。如果没有这种法律,各个机构有责任制定自己的数据隐私权政策,以此来保护人们的身份信息。

信息提供机构在立法和制定政策的过程中采取建设性的干涉,这种“干涉”有时对于保护用户访问历史档案的合法权利是适当的,也是必要的。他们需要关注那些旨在保护隐私权的立法提案或者规定。如果法律描述不准确,这些措施就可能会矫枉过正,从而禁止访问那些本身不需要被保护的档案和信息。下面的事例发生在美国乔治亚州。最近乔治亚州讨论的一项议案旨在限制对于二战老兵的退役档案的访问。然而,根据其表述,对于1776年美国独立战争以来的相似记录的访问都将被屏蔽。幸运的是,一位档案馆员注意到这个问题,并与议案的发起者一起修改了提案,从而既实现了其真正的目的,又保留了人们对与历史文献的访问权利。

5 数据安全

数据提供机构有责任保证其提供访问的源文档内容的安全性或者是完整性。这可以通过数字图片上的水印或者其他方式实现。比如说,在韩国,当数字家谱出版机构签署协议,来对一些世系机构提供的家谱进行数字化的时候,他们必须同意保护原文的措词不被修改。方式有二:只向用户提供原文的图片;屏蔽对于原文的下载。

6 数字权管理

上面提到的很多问题都可以通过数字权的主动管理来解决。必须制定政策来鉴别用户,定义他们的使用权限。通过使用软件可以管理用户对于文件和信息的访问、下载以及复制。后者也适用于模拟控制印刷品,或者如果必要的话,能够提供更多的控制。

电子商务部门开发的数字权管理软件(DRM)可能并不适用于图书馆和其他信息提供机构。商务数字权管理软件设计用于保护创作者和数字内容出版者的权利,而不是保护用户权利。他们通常涉足于当前流通量较大的资料,可能不会考虑公共领域的文件或者图书馆向读者提供的“流通量较小”的资料。

信息提供机构和读者统一体应该开发自己的数字权管理标准和管理软件,使得图书馆既能兑现与电子出版者之间的合同,又能在版权法下保护图书馆用户的权利,管理图书馆制作的数字内容的传播和使用,继续履行图书馆的传统职能,如馆藏数字资源以及类似资料的外借、归档和存储。研究开发一个有效的数字权管理系统并进行执行和维护,所需的费用非常高。因此,以合作方式解决图书馆的这一问题可能是最切实可行的办法。

四、总述

随着新技术应用于历史资料的收集、保存以及检索,图书馆以及其他信息提供机构在馆藏的管理方面都面临着重大的抉择,经受着严峻的考验。就保存技术和策略而言,缩微无疑是一种可行的选择(如果能适当地进行存储的话);但是对于很多图书馆来说,费用也许太高。数字成像是一项新的正在不断进步的技术。保存技术对于政府机构和信息提供机构来说,是薄弱环节,当然也是他们重要的科研课题。

随着新技术应用于历史资料的收集、保存以及检索,图书馆以及其他信息提供机构在馆藏的管理方面都面临着重大的抉择,经受着严峻的考验。就保存技术和策略而言,缩微无疑是一种可行的选择(如果能适当地进行存储的话);但是对于很多图书馆来说,费用也许太高。数字成像是一项新的正在不断进步的技术。保存技术对于政府机构和信息提供机构来说,是薄弱环节,当然也是他们重要的科研课题。

就提供对于图片的有效检索来说,索引是一种必要的工具。要决定选择何种索引方式,必须综合考虑读者的需求,文档的格式以及费用问题。在编目中使用学科———专业主题检索点和制作数字图片的元数据,这两种方式可能会提供一种比较经济的选择。

在数字时代,信息提供机构必须要与立法者以及政策制定者合作,从而在保护个人身份数据隐私的同时,能够保证读者访问历史文献的合法权利。他们必须采取相应的措施来保证已经数字化了的源文档的完整性(integrity)数字权管理政策以及技术可以用来解决源文档数字化中产生的大多数问题。

(沙其敏 博士 美国犹他家谱学会)

〔出处〕 国家图书馆学刊2005年第1期



【地方历史文献存取、检索的趋势以及遇到的问题】相关文章:

“文件存取”中常见的问题及教学对策08-17

谈谈宁夏地方文献检索08-09

中国乡村自治:现状、问题与趋势08-16

企业办学遇到的新问题08-17

地方研究文献数据库主题检索初探08-09

政府网站发展的现状、问题与趋势08-05

面试遇到敏感问题要谨慎08-15

政府网站发展的现状、问题与趋势208-05

政府网站发展的现状、问题与趋势108-05