您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

地方研究文献数据库主题检索初探

时间:2007-5-25栏目:计算机信息技术


一、地方研究文献数据库的数据源

地方研究文献数据库是中文文献信息资源数字化的重要组成部分。地方研究文献是指本地与外地出版的某一地域或区域的内容的文献,建立地方研究文献数据库是为了使用户全面了解某一地域或区域的社会生活、经济、文化等信息,便于用户进行地方研究。

地方研究文献数据库的数据源主要是:

1.资料性文献。例如地方志、文史资料等,史料、年鉴、统计资料、政府出版物(白皮书、蓝皮书等)。在我国,历代纂修的各地区资料性文献很丰富,广西省1988年出版的《广西方志提要》,收录1950年以前出版志250种。广东省1950年以前历代编修的地方志达800多种, 80年代以来新修省、市、县地方志已出版1000多种,规划出版专业性地方志5000多种。

2.论文、论著包括地方研究丛书、丛编、报刊上发表的论文和会议论文、调研报告、论文集等。例如有关南海及南海诸岛的《南海海区综合调查研究报告》、《南海海洋生物研究论文集》,据不完全统计, 1993-1994年南海海洋科学方面的70多篇论文,发表在20多种期刊上。此类文献很多是全国或省市社会科学研究项目的科研成果,为领导决策提供理论依据,为社会主义建设服务。例如,《广西社会经济情势考察研究报告集》一书是国务院下达的《西南地区国土资源综合考察和发展研究》项目中的广西部分研究成果。广西壮族自治区制订广西十年规划和“八五”计划时,采纳了《广西对东南亚开放战略研究》报告中提出的一些对策和建议。

3.政策性文献和法令法规例如,地方性党政会议及文件,领导人讲话、文章等,地方法令法规也可在此范畴内。这是发展地方经济的重要政策法令依据,是重要文献类型,一般全文收入。

4.新闻媒介的消息报导随着地方报刊的种数与版面激增,中央和地方新闻媒介大量报导各地的各类消息,例如《广州日报》设立珠江三角洲的专版,《南方日报》设立广州的专版。此类信息内容广泛,时间性强,及时报导要闻以及地方不同阶段的热门话题。

二、地方研究文献的主题

地方研究文献的主题与文献的类型、文献的内容、数据库收录范围及库容量等均有密切关系。

地方研究文献的类型多样,信息量大,文献的主题包含历代社会的内容,更多的是反映当代社会生活的各方面,与学科(或专业性)文献以及新闻信息相比较,其主题范围更广泛,而且年代更久远。另一特点,不同地区不同时期社会生活中的热点有异,文献内容即论述、报导的问题有较强时效性,有的信息的生命力也有时间限制。例如,香港新机场建设和运营之初,引起社会极大关注,一个月内香港出版的报章杂志报导有关新机场的消息与评论数百条,现在这方面的报导就很少。

地方研究文献数据库既有书目数据库(数据形式为书目、索引、文摘),也有全文数据库,而且全文数据库和多媒体技术发展很快,文献信息资源数字化技术的发展,使数据库建库方式,同一数据库中数据的形式等均发生变化。地方研究文献数据库应比较全面地反映该地区社会的发展,包括历代政治、经济、文化教育、科学技术,自然现象、历史事件、地理及名胜古迹、风土人情以及机构、人物等。数据形式包括二次文献、全文以及图像(包括地图等)、音像。用户可按需要查阅、下载或打印数据库中某一主题的全部文献。建库方式的变化,既可从某一文献部门自建库,也可联合建库,甚至跨地区、跨国合作建库。

文献资源数字化建设,文献数据库建库技术的发展,以及用户文献检索的需求的变化,对检索语言、文献主题的处理技术以及MARC格式等提出了更高的要求。海量文献、建库速度与质量的提高,要求录入和主题处理技术有较大的突破。目前汉字录入和扫描技术的进步,录入速度大大加快。但主题标引已成为建库的“瓶颈”,加上主题表编制与管理技术的滞后,直接影响建库的速度和质量,难于满足文献检索的需要。为此,张琪玉、侯汉清、张涵等国内著名专家和同行都在探讨解决的办法,提出了一系列建议,例如大量编制自然语言词表;设计分类表——叙词表转换系统,实现网络环境下情报检索语言兼容互换;利用主题表开发研制自动标引检索系统,实现自动标引等。这些建议都是有益的探索,对于地方研究文献数据库的建库技术的改进和提高有重要参考价值。

笔者从事地方研究文献数据库建库工作多年,结合建库实践提出一点不成熟的看法。

三、地方研究文献主题处理技术的改进措施

文献主题的处理技术可分为两部分:一是主题标引工作;二是词表的编制与管理。

1.主题标引工作

目前的文献主题标引工作人为因素太多。首先是标引规则的限制,几乎每个文献数据库都制订主题标引规则,内容包括:选用的信息和标引的内容范围;标引深度(标引多少主题词,主题词的汉字数目限制等);标引词的选择,主题标引方式(自由标引还是选用主题表);对文献主题采用整体标引或分析标引;标引词的著录方式;不同类型或题材、体裁文献的标引规则;人名、地名、时间因素等有关规定……为了保证同一主题标引一致性,规则的制订尽量详细具体。这样一来,标引人员工作时受到很大制约,需熟记标引规则并按此处理文献主题。标引是为了检索,然而如果表达文献内容远远超过标引规则的规定(例如规定15个主题词),不但造成标引的困难,而且主题或标引词选取不当将影响文献的检索利用。

其次是标引人员对文献内容理解及主题分析等方面的限制,标引规则要求标引人员主题分析和给标引词等均应考虑用户的检索需要和检索习惯。事实上没有一个标引人员能够全面了解用户的检索兴趣和要求,更无法预计将来用户的检索兴趣和要求。例如文献中标引人员可能认为某一内容不是中心内容,论述或研究的主要问题不进行标引,可是这部分内容对于某些用户却十分重要,在历史研究或历史人物研究等方面,往往根据文献中的不显眼的线索(几句话或一张照片)溯根寻源,得出意想不到的收获。

第三是主题的描述,由于主题表的使用和标引规则(特别是组配规则等)的制订,描述主题的词语与文献使用的语言、检索者使用的词语往往不一致,在同义词和复合概念的表达方面尤为突出。当前文献量激增,文献主题及用词变化较大,增加了标引工作的难度,影响主题标引的速度和准确程度。

因此,主题标引工作的改进势在必行。对于地方研究文献数据库来源,全文检索本身可自动抽词,二次文献库也可采用自动(或半自动)抽词与词表调控相结合的方式,标引时不硬性规定主题或主题词数量,而是视文献中具有检索意义的内容。所谓词表调控,主要是语义控制和分词的人工干预。

2.词表的编制与管理

检索词和标引词的一致,同义词的规范,以及主题的扩检功能是文献数据库检索效率的重要保证。从这个角度考虑,词表对于地方研究文献数据库仍是十分重要的。然而目前词表的编制和管理技术已远远满足不了建库的要求,必须进行改进。

①改变词表内容滞后于文献主题发展的状况

词表的编制到出版使用需要一段时间,在我国词表的修订起码经过三五年时间,而文献内容随着社会发展,学术研究的进步变化很大。笔者1992年赴香港进行文献研究及编制港澳研究主题表达四个月,利用80年代至1992年香港报纸杂志收入主题词3000多个,以及数以千计的人名、地名等专有名词。经过检验(词频统计),该表基本能满足港澳研究文献主题标引的需要。然而在建港澳研究数据库过程中,经过三年左右,新增主题词达2000个,表中部分主题词则甚少使用,说明香港、澳门社会发展对文献主题的影响。因此需及时对主题词表进行调整,提高词表的即时性。

主题词的增删调整可应用统计方法加上人工干预。首先应统计主题词的使用频率,同时考虑时间因素,因为每一地区都有时效性很强的社会现象或信息,有的信息生命力很弱,主题标引用词的时效性也相应很低。

②词表管理技术主要是语义控制,例如全称与简称、外来语与中译名、标点符号的使用、同义词和上下位概念的处理等。词表管理应有专人负责。笔者对港澳研究主题词表的编制过程中,特别对同义词和英汉对照的处理进行大量工作,由于港澳方言特殊化,语词规范显得特别重要。

③词表结构的改进,词表中相当部分的主题词比较稳定,这部分词应作为第一层次(第一级)的词,不需经常调整,对于有一定规模的数据库,第一层次的词比较容易确定,应作为规范化词语,第二层次(第二级)的词是有可能调整的词,词表管理人员应及时对这一层次的词进行技术处理,例如与第一层次的词作同义词对应,或上下位属的显示等。

地方研究文献数据库的建设,词表(包括标引技术)、检索软件和索引是三个重要因素,其中文献主题的处理技术对文献检索影响尤为突出。许多技术问题尚待改进。

〔出处〕 一代宗师——纪念刘国钧先生百年诞辰学术论文集



下页更精彩:1 2 3 4 下一页