您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

《北京地方文献报刊信息管理系统》主题标识论析

时间:2007-5-25栏目:计算机信息技术


一、前言

连续出版物具有信息量大、传递周期短、内容相对客观真实等特点,经长期积累,便会形成一部信息量极其丰富的地方信史,是地方文献品种中非常引人瞩目的一种信息资源。

唯其信息量巨大,所以对分散在不同时代各类报刊中的众多地方文献信息进行针对性检索,无论是读者、信息用户、还是信息工作者,都会视为畏途。为此,首都图书馆自1958年创建北京地方文献部伊始,就开始编制《北京地方文献报刊资料题录索引》。这套索引的回溯检索范围,包括首都图书馆、北京图书馆、北京大学图书馆和清华大学图书馆所藏自本世纪初至1963年的2800余种报刊。至1964年,已累积款目70000余条。1979年以来,又回朔编制了1963年以来的索引。此后,正式开始了现行报刊索引的编制工作,检索范围包括正式与非正式出版的报刊300余种。至1995年底,已累积款目250000余条,并以20000条/年的速度递增。

然而,此时的北京地方文献报刊索引仅仅是一种手工编排的分类篇目索引。其分类依据是《北京地方文献报刊索引分类表》,索引项目包括篇名、著者、出版日期、卷期、版次和部分内容提要。限于当时的传统手工加工形式,对于涉及多学科、多主题的条目,只能着重考虑分类的第一需要,而其它相关主题则不能逐一得到表现。

1996年初,北京地方文献部正式引入计算机系统。进行报刊索引的编制与检索,彻底改变了索引工作的传统模式。它不仅省去了工作人员手工抄写、编排卡片的繁琐工作,同时,使检索速度大大加快,增加了报刊索引的时效性;由于计算机对文献特征的揭示途径大幅度增加,使多途径的针对性检索和组配检索成为可能,解决了以往手工工作模式不能解决的困难。

在建立报刊索引数据库主题标识系统的过程中,北京地方文献部结合地方文献的特征,通过近一年时间的试验,确定了一套基本符合特定地域的自然,人文现象和各类地方事业的主题标识系统。本文拟结合首都图书馆《北京地方文献报刊信息管理系统》的实际工作,探讨地方文献报刊索引工作中有关主题标识的一些问题。

二、主题词法的选取

主题词法是一种利用检索语言来描述文献主题和查找文献的方法。1975年,国内首部供机检用的综合词表——《汉语主题词表》问世后,对主题词表的发展,特别是对叙词表的发展起到了促进作用。然而《汉语主题词表》仅仅是一部综合性的基础词表,它所收录的词汇是用来供各专业机构从中选词,来编制适合自己本专业用的专业词表。实际上,我国的图书馆、情报机构都是在参考这部国家词表的前提下,根据本单位的工作实际情况,来编制适合本单位、本专业使用的主题词表。

地方文献的内容所表现出的地域性和专指性极强,综合性内容的《汉语主题词表》很难满足其主题标引的特殊需求。报刊索引的标引用词与时代发展同步,《汉语主题词表》作为阶段性产品,也很难满足对新生事物的标引需求。因此,在确立地方文献的主题系统时,首先应确定一段时间为试验期。从有关文献内容中抽取关键词对文献主题进行标引,待积累了一定数量的词汇后,参考《汉语主题词表》使之规范化,确定好词间关系,从而形成适用的主题词表。人们一般把这种选择主题词的方法叫做经验法。用经验法编制的词表是后控词表。它比较适合于特殊类型文献主题词表的编制。采用这种方法的优点是省去了先期编制词表的时间,标引工作与编制、修改词表可以同步进行;标引和检索所使用的是自然语言,因此对标引人员要求相对较低;同时事先不用考虑词间关系和查表抽词,所以标引速度较快。

《北京地方文献报刊情息管理系统》在建立主题标识系统时就是采用了经验法,并在此基础上为今后着手编制《北京地方文献主题词表》积累词汇。在即将编制的主题词表中,主题词的来源主要包括以下几部分:

第一是《汉语主题词表)中的已有的词汇。这些是地方文献与非地方文献都使用的综合性词汇。在使用时暂不考虑原有的词间关系,直接从《汉表》中抽取。

第二是一些最能代表地方文献特征、《汉表》中所不具有的词汇。而这部分主题词在《北京地方文献报刊信息管理系统》标引中的出现频率相对较高。对于这部分词汇必须经过一段时间的数量积累。

第三是《汉语主题词表》中未收录的一些综合性的词汇。《汉表》作为阶段性的产品,其编制受到时间的限制。对于某些科学概念的再认识以及新兴学科的产生,阶段性的《汉语主题词表》难于面面俱到。因此,在编制《北京地方文献汉语主题词表》时还要收录这些词汇。

以上三部分构成了《北京地方文献主题词表》的主题词部分。然而,地方文献主题词表与《汉语主题词表》的最根本区别就在于《汉表》的范畴索引反映的是事物的学科属性,而地方文献主题词表的范畴是基于地方文献的史料性质这个基本特征。因此《汉表》的范畴索引及词间关系不一定适应地方文献主题词表。那么,在编制《北京地方文献汉语主题词表》时有必要重新确定词表的内容范畴及词间关系。

三、主题类型的设置

无论设置什么类型的主题都要反映地方文献的时空特征。地方文献的基本性质是地方史料,所有的地方事物都要维系在特定的时空环境内,即所有的历史事件都离不开时间、地点和人物这几个因素。为了强调这几个因素,也为了使不同标引人员在不同时期内具有相同的工作标准,因此特意设计了“非控主题”、“年代主题”、“地域主题”、“个人主题”和“团体主题”。

1.非控主题

为了充分揭示文献内容和满足用户的使用需求,《北京地方文献报刊信息管理系统》根据主题法的一般原则,对所有的款目进行主题标引。由于这些主题词所从属的内容范畴十分广泛,标引人员的选词灵活度较大,可控性弱,故称“非控主题”。

非控主题的标引方法与其它非地方文献资料的标引并无本质的不同。在标引非控主题词的过程中,标引人员除从文献题名中选取词汇外,还有必要从文章内容中选取标引词,所选的标引词是一些名词及词组。由于采用了经验法进行选词,标引词汇的逻辑概念和词问关系都不用事先确定,也不是从固有词表中抽出来的,所以叫自由词。

尽管非控主题标引时选用的是自由词,但也有一些问题需要明确:在某些词汇不能准确表达文献的内容时.可选用词组来作主题词增强其专指性,如“计量管理”、“宗教设施”等;能明显反映地方文献特征的词首选,如“庚子事变”;同时.一些无实际检索意义的词不选,如“设计”、“方法”等。

2.可控主题

鉴于地方文献的内容特点和信息用户使用地方文献信息的常规检索途径,信息加工人员在对地方文献进行主题标引的过程中,首先要揭示出文献内容的时空特征,大量地使用地域主题词和时代主题词;其次,地方事件的发生,往往以地方人物或地方团体作为载体,因而,人物和团体主题词也是不可或缺的,这也是地方文献主题标引有别于其它文献最明显的特点。

因此,《北京地方文献报刊信息管理系统》中设置了“年代主题”、“地域主题”、“人物主题”、“团体主题”这四个固定的字段,标引出文章内容所涉及的时间、地点、人物、团体。由于这四个主题相对规范,所以称为”可控主题”。

可控主题的标引方法:

年代主题:北京地方文献报刊内容中,时间范畴是必不可少的要素,因此,原则上都要标年代主题。清以前历朝历代均使用“朝代/年号”称渭;中华民国时期则依“北京政府时期”、“沦陷时期”、“国民政府时期”三个时间段标引;中华人民共和国时期依“五十年代”等依此类推标引。

地域主题:总论整个北京地区的不标地域主题,但文章涉及某一具体区域的或给某个区域带来影响的,标引现行行政区划名称,可按县、乡镇街道、村逐级标引;为突出北京地方文献的地域特征,某些具体地区的地名、胡同名也有必要标引,例如:“安定门地区”、“王府井大街”、“燕下乡”、“焦庄户村”、“烧酒胡同”等等;解放前的旧有行政区划应转换成现有行政区划,如:“内三区”标引成“东城区”。

个人主题:同一人物的不同名称同时标引,如:“鲁迅”与“周树人”;清代人物中,一般标人物全称,如:“爱新觉罗·溥仪”,但有的全称鲜为人知,可标引公认的名称。

团体主题:标引某个机构或团体的全称。如:“北京市体育运动委员会”。

总之,无论是非控主题还是可控主题,报刊标引人员要站在用户的角度,即从索引的终极使用目的出发,给地方文献实际使用者提供报刊中有关地方文献信息。地方文献的用户是一些利用地方性史料进行有关地域性研究的专家、学者,他们所从事研究的学科内容及其深入程度就是文献标引人员确定标引文献内容及深度的依据。

目前,《北京地方文献报刊信息管理系统数据库系统》仅仅经过了短短几个月的试运行,数据积累也不过区区五万余条,然而计算机检索的速度,多途径检索的便利,针对性检索的效果,与传统的手工式索引早已不可同日而语。机器检索的便捷,使地方文献的独特价值得以充分发挥,与传统的手工方式相比,这未尝不是一种文献信息的增值。

参考文献

1.韩朴 图书馆地方文献工作 北京:文津出版社。1992

2.丘峰 情报检索与主题词表 北京:书目文献出版社,1988

[1] [2] 下一页

下页更精彩:1 2 3 4 下一页