您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

论地方文献报刊信息数据库及主题标引工作

时间:2007-5-25栏目:计算机信息技术


1 地方文献报刊信息数据库

地方文献是指内容上具有地域性,同时具有重复使用价值的文献。由于它完整、系统地记录了特定地域内自然和人文方面的各种信息,从而为人们提供了研究特定地域内历史、现代及未来的有关资料。

地方文献的类型多种多样,报刊文献是其中的一种。它具有信息量大,传递周期短,内容相对客观、翔实等特点。但由于它的总量太大,有关的地方文献信息分散在不同时期、不同品种的报刊之中。仅靠浏览原始文献,迅速查到有关资料,几乎是不可能的。地方文献报刊索引就是为解决这一问题而编制成的一种检索工具。

在手工时代,地方文献报刊索引表现为篇目索引或题录索引的形式,即将报刊中所载地方文献篇目按一定顺序编排起来,以利读者查找文章的所在位置。这种索引不反映文章的具体内容,只具有指向和示址作用。同时,也对地方事物起着揭示和报道的作用。除了作为一种综合性的检索工具外,还可以在这种索引的基础上编制各种情报报导刊物,或围绕特定学科及专业进行定向报导和检索,以服务于地方的各项事业。

鉴于地方文献报刊索引的重要作用,许多公共图书馆都曾积极编制这种索引。例如,首都图书馆自50年代起开始编制《北京地方文献报刊资料索引》,涵盖了本世纪以来的内容;甘肃省图书馆也是在同一时期开始编制西北五省的地方文献报刊索引;长春市图书馆也曾编制了《东北地方文献索引》等检索工具。为了避免目录体系过于庞大,这种卡片式篇目索引一般仅以分类方式编排。因此读者也只能从分类途径对报刊上的地方文献信息进行检索。 进入计算机时代以来,以数据库形式来处理地方文献信息已成为图书馆地方文献工作的必然趋势。计算机所具有的自动识别与排序功能,使地方文献信息的编排检索变得更加方便、更加快捷。通过全文扫描技术完成的报刊全文数据库,使得报刊上的地方文献信息得到更充分地揭示和利用。由于计算机具有一次性输入,多途径输出的功能,因而在对地方文献信息进行存储与检索时,增加了篇名、著者、出版、文摘等多方面的途径。尤其是从主题途径检索地方文献信息的问题得到了很好地解决。

在地方文献报刊信息数据库(以下简称报刊信息库)中,分类标引和主题标引都是以揭示文献内在特征为目的的标引方法,只是揭示的角度有所不同。由于地方文献的史料特征极为明显,故地方文献的读者往往是从特定的事件、人物、时间、地域的角度入手进行检索。因而可以说主题检索是一种最直接反映地方文献内容特征的检索途径,也是建立检索工具和检索系统的基础和前提。近些年来,图书情报界对有关主题标引的原则和操作方法有过许多研究和探讨,撰写过很多的著作和文章。但由于地方文献中连续出版物本身所具有的特征,其主题标引的原则和方法与其它类型文献的标引还是有所不同。本文拟从报刊信息数据库的建设入手,探讨有关地方文献报刊信息主题标引的一些问题。

2 地方文献报刊信息数据库中的主题标引

2.1词表的编制

报刊信息库与其它类型数据库相比,最突出的特点是要反映地方文献本身所具有的特征。同时还要满足地方文献用户特殊的检索需求。因此,选择一部适合地方文献特征的主题词表是开展标引工作的首要问题。

《汉语主题词表》(以下简称汉表)是一部供机检使用的综合性基础型词表。它所收录的词汇可以供各个机构和行业从中选词,以编制适合本专业或本机构使用的专业词表。实际上,我国很多专业情报机构和图书馆都是在参考这部国家词表的基础上编制自己词表的。在编表过程中,抽取主题词时当尽可能不破坏原有词表的词间关系。但必要时,词间关系及基本范畴还是需要重新确定的。

由于地方文献是对某一地域自然和人文现象的客观描述,它所表现出的地域性和专指性极强。用综合性的《汉表》来标引各地的地方文献,则将有相当部分的文献不能被准确地表达其主题概念;其次,地方文献的内容范畴与《汉表》中的基本范畴也有所不同。《汉表》是以学科体系作为划分范畴的基本依据;而地方文献则是以特定地方的自然环境、人文环境和地方事业作为划分范畴的基本依据。所以地方文献主题词表需要在《汉语主题词表》的基础上自行编制。

地方文献主题词表中所收录的主题词来源主要有:

①《汉表》中已有的词汇。这是地方文献与非地方文献都使用的综合性词汇,它占将来的地方文献主题词表所收词汇的绝大部分。由于是从《汉表》中选词,所以它们是相对规范的。

②《汉表》中没有的,带有地方特点的词汇,如:北京地方文献的“琉璃厂”、天津地方文献中的“皇会”、广东地方文献中的“早茶”等,这部分词汇虽然在未来的地方文献主题词表中所占比例不会很大,但它们却是出现频率相对较高的词汇。对于这部分词汇及其词间关系,地方文献工作者需要加以规范。

③《汉表》作为阶段性产品,它的编制受时间的限制,对于编表以后新产生的一些词汇它不可能收录,在新编的地方文献主题词表中收录这部分词,也需要加以规范。

由于编制先组式的主题词表需要一段相当长的时间,同时还要编制一系列的标引细则,这将会影响报刊信息库主题标引工作的迅速展开。因此,可以采用另一种方式,即首先确定一段时间为试验期,先进行地方文献的标引工作。由标引人员直接从报刊所载的地方文献信息内容中选取有检索意义的关键词作为主题词。这种主题词是未经规范的自然语言,也无词间关系可言,待积累了一定数量之后,再对其进行修改、充实,并参照《汉表》使之规范化。确定好词间关系和基本范畴,从而形成适用的词表。这种词表是后控式的,采用这种方式选词更直观,专指性强,还能使标引工作与修改词表同时进行。而且标引时不用考虑词间关系及查表抽词,所以标引速度快。在标引时采用自然语言,对标引人员的要求也相对较低。目前,广东省中山图书馆的地方文献数据库系统主题标引就采用了这种方法。

2.2主题词字段的设置

无论是先有词表,还是先进行标引工作,在报刊信息库中,都需要设置若干个主题词字段,以便展开具体的标引工作。在设置主题词字段时,一定要注意反映地方文献的时空特征;在空间方面完整、系统地记录特定地域内自然和人文方面的各种信息;在时间上又形成了一个连续的信息集合。这是一切地方文献工作最基本的原则。

在报刊信息库中,首先应设置涉及文献基本内容的“内容主题词”字段。此字段选词灵活性大,标引的内容也十分广泛。它对所有地方文献信息的内容范畴进行涵盖,也是以后编制地方文献主题词表时确定词表基本范畴的依据。从地方文献的性质和特征来看,它是对特定地区自然、社会、人文诸般事物的历史与现状进行全面系统地综合性记录,涉及的内容极为广泛。如反映一个地区所能观察到的天文现象、地质水文结构、地形地貌、气候与气象、物种与资源以及反映该地区的人文地理、历史、地方人物、社会经济、地方政治、社会结构、地方文化、教育等各个方面。

报刊信息库中“内容主题词”字段的主题词性质绝大部分是综合性的,与其它非地方文献数据库中的主题词无太大区别。例如“社会治安”,“计量管理”、“住宅区”、“软件产业”等;也有一部分是地方文献内容所特有的地方性词汇,如“敦煌石窟”、“庚子事变”、“厂甸”等;另外,新产生的一些地方文献信息的内容,也应通过内容主题词来表达。总之,凡是涉及到地方文献的所有内容特征,都应在此字段予以反映。

这一字段并非地方文献数据库所特有,有关具体标引方法的讨论从略。

另一种主题字段的设置应反映地方文献内容特征以外的其它特征。地方文献最大的特点,就在于文献所记载的现象、事实和人物都被限定在某一特指的时空范围内。也就是说。地方文献所涉及的内容范畴均会通过特定的时间、地点、团体机构、人物等因素反映和输出。地方文献用户的检索习惯也往往是从某一地域范畴、地区名称、某一事件、某一人物入手。因此,有必要在地方题录库中设置“地域主题词”、“时间主题词”、“团体主题词”和“个人主题词”诸字段。它们是揭示地方文献的本质特征所必须的字段。同时也是地方文献数据库系统中所特有的。

以上四个主题词字段所反映的是有关地方文献信息中客观存在的某些因素,如“地域主题词”中的“东城区”、“梅山县”、“个人主题词”中的“梅兰芳”、“秋瑾”等。尽管这四种主题词的标引与“内容主题词”的标引相比,相对容易些,但仍需积累到一定数量后进行规范。例如“团体主题词”中的机构名称是用全称还是用简称,以及“个人主题词”中的人物名称是用本名还是用笔名,这些都需要地方文献工作者在以后的工作中根据本地区的具体情况加以规范。

具体的标引方法是:

地域主题所标引的不是整体地方文献的地域,而是文章内容涉及的某一具体区域的名称,或者给文章内容带来影响的区域名称。如有关北京地方文献的内容不用标“北京”,直接标引具体的“东城区”、“昌平县”等行政区划名称;内容涉及到较具体的地名时也可标引地名,例如“王府井大街”、“方家胡同”等;如果文章中所反映的地区更详细,区(县)、街道(乡镇)、村等具体名称都有,可逐级进行标引,中间用分隔符隔开,如北京地方文献中的“顺义县%赵全营镇%北郎中村”;在标引中,遇到旧有的行政区划名称或旧地名时,为反映某一地区名称的历史发展沿革,应将现行行政区划名称与旧有行政区划名称同时标引作为检索点,现有行政区划名称或新地名标在前面, 旧行政区划名称或旧地名注于其后,可用括号括起。如“东城区(

[1] [2] 下一页

下页更精彩:1 2 3 4 下一页