您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

方志传记资料索引数据库的设计与实现

时间:2007-5-25栏目:计算机信息技术


方志是我国特有的一种历史文献,它综合记述了一个行政区划内的政治、经济、文化、教育等方面的历史情况,是一个地方的百科全书,具有资政、存史、教化的功能。从其发端至今已有数千年的历史,成为人们了解地方历史,进行经济建设和爱国主义教育等方面工作的有利工具。并且,由于它记载了一个地方各方面的基本情况,所以又是一座蕴藏着丰富信息的宝库。

方志中的人物传记是方志重要的组成部分。在人物传记中记载了一个地区的知名人士,而这些人士大多数在正史中是不予以记载的。因此,在方志人物传记中能够查到不少正史中所没有的人物,这对于历史研究来说是非常有帮助的。但是,由于方志中的人物众多,在使用时颇感不便,因此,人们开始编制方志传记资料索引。

我国最早的方志人物传记索引是1939年江苏省立图书馆曹允源编制的《吴县列传人名索引》,此后,陆续编制了《宋元方志传记索引》、《山西通志人物传记索引》、《东北方志人物传记资料索引》、《北京天津地方志人物传记索引》、《广西方志传记人名索引》等,台湾地区也编制了《中日现藏三百种明代地方志传记索引》等,这些索引的编制对于人们查找方志中的人物起到了积极作用。但是,限于印刷型载体的篇幅,这些索引也存在着明显的不足。一是索引的著录内容少,一般为姓名、别名、出处等几项;二是检索点单一,仅在索引正文中按人物的姓名排序,另外在书后再附一种与正文对应的检索方式,仅此而已;三是编制时投入的人力、物力多,编制周期长,一部索引的编制要经过多道工序,诸如写卡片、校对,再到写清样、排版、校对直至印刷等多个环节,投入的人力多,工作量大。正是由于这些不足,限制了人们大规模编制方志人物传记索引的工作,从而也限制了人们便捷地查阅方志中人物的需求。

随着现代高新技术的发展,为索引的编制带来了新的发展天地。计算机数据库技术的出现,为索引的编制提供了一个高效、简便的工具。采用计算机数据库技术编制索引不仅可以使索引的编制达到事倍功半的效果,而且还极大地丰富了读者的检索途径,从而实现以往传统的印刷型索引所达不到的效果。

北京图书馆收藏的新旧方志居海内外各图书馆之首。如何充分发挥这些方志的作用,使其更好地为社会主义精神文明和物质文明服务是图书馆工作者的职责;在人们开始进入信息时代,如何使方志中的大量信息为人们所了解并便于查询,也是图书馆工作者的义务;从全球信息化进程发展来看,将方志中的大量信息进行数字化处理、使海内外广大读者通过网络来进行检索,也是图书馆工作者的工作。

据此,北京图书馆地方志和家谱文献中心决定率先着手建立方志人物传记资料索引数据库。

方志人物传记资料索引数据库的目标是:要能够适应新旧方志中的人物传记情况,要准确和较为全面地揭示人物的基本属性,发挥计算机检索的优势,满足读者多途径检索人物的需求,为读者提供一个快速、便利的查询工具,使之为广大读者所使用。

在这个目标的指导下工作人员进行了大量的调研工作,以最终确定数据库项目的内容。而数据库内容的确立是数据库检索的基础,也是直接影响数据库建设质量的关键因素。如前所述,现有的印刷型方志人物传记资料索引,主要是通过人物的姓名来进行检索,检索途径单一。所记载的内容基本是姓名和主要的字、号,个别的有生卒年。对于出处基本是书名的简称或代号。有关人物的其他内容则不予反映。

在掌握现有方志人物传记资料索引情况的基础上,根据读者检索的需求和图书馆工作人员以往的工作经验以及计算机所提供的功能,最后确定该数据库的项目内容为:姓名、别名、性别,民族、籍贯、朝代、生卒年、参考年,肖像、身份类别主题词、方志省份和出处,总计12项。

这12个项目大大超过了现有印刷型方志人物传记资料索引所收录的内容。

1.标识人物身份主题词的使用

在方志的人物传记中,由于所收录的人物较多,因此大多数的方志都将所收人物按其身份进行集中编排,并给予相应的门类名称。在旧方志中,一般将人物分为名宦、儒林、忠义、宦绩、文苑、武功、隐逸、孝友、义行、方伎、仙释等门类。在新方志中则分为英烈、劳模、能工巧匠和专家学者等。显然,这样的分类与集中便于读者使用。

但是,在印刷型方志人物传记资料索引中是难于做到按上述门类进行编辑检索的。假如这样做,那索引的工作量就要成倍的增长,如果要编制一个数千人物的索引,那就是一个浩瀚的工程。在现有的方志人物传记资料索引中,读者只能在掌握了一个人物的姓名或其主要的别名之后,方可进行检索,而要查寻某一门类的人物是无法办到的。假若读者想了解某一地区历史上在农业种植方面有特殊技艺的人物,就只能将该地区现存的所有方志一部一部进行翻检,才能得到所需要的人物。

为实现读者可以按门类进行检索的要求,参照图书馆对书刊文献进行主题标引的工作,在该数据库中设置了标识人物身份的主题词项目。目前主题标引多用于书目、篇名等数据库中,用于人物标引尚未见到。因此,对人物进行主题标引是该数据库的一个特点,也是计算机检索有别于印刷型检索的重要标志。

为使计算机的检索达到应有的效果,数据库对于主题词的使用考虑了以下三个问题:

第一、用词的规范性。在新旧方志中,虽然有大量的志书对于人物传记按门类进行了集中编排,但是,这些门类名词的使用由于编纂者的理解不同和所处的历史环境的不同往往存在着差异,因而造成对同一门类的用词不统一;另外,各地在编纂方志时对于同一人物的传记在撰写时侧重点不同,所反映的内容不同,所安置的门类也就不尽相同。如果仅仅按各方志中人物所处的门类来进行主题标引,就会出现对同一人物的用词不一致,从而在进行主题检索时达不到应有的效果。为规范主题标引的用词,在标引时遵循了以下四条原则:

首先,选用的词要具有检索意义和组配意义,并能够表达相应的概念;

其次,选用的词必须词义明确,一词一义;

再次,选用的词要具有一定的使用频率;

第四,参照《中国图书分类主题词表》中的词汇。

按照上述原则编制了一个人物主题词表,并在工作中逐步完善。

第二、用词的准确性。在标引用词的准确性方面、由于对人物的主题标引主要是根据该人物传记中所反映的这个人物的生平事迹、主要贡献和主要活动内容,给予一个或数个主题词。因此,大致从以下几方面来确定主题词:

人物的专业、专长或所从事的行业。如政治、军事、医学等;

人物在社会生活中所产生较为突出的影响。如义行、劣行等;

人物的某些特定身份。如英烈、君主、宗教徒等;

人物传记中所记载该人物经历的主要甚至是唯一的重大历史事件。如辛亥革命、历次农民起义等;人物传记中所记载该人物对于某一地区做出重大贡献的情况。如郑成功收复台湾,台湾就可以选做主题词;

人物参加的党派、社团、帮会等。如兴中会、日知会等。

第三、用词的适度性。由于方志所收录人物的多样性和复杂性,使得在对人物进行主题标引时要恰如其份。标引太少,就不能全面、准确地揭示人物的基本情况,在检索时难于达到预期的效果;反之,标引过多,会造成对于人物界定过细,同样会造成在检索时命中结果的分散,降低检索效率。因此,恰当地标引是保证检索效果的基础。为此,数据库规定对于人物的主题词标引控制在八个之内。如:

顾炎武,明末清初杰出的思想家、爱国学者。他的主题词是“政治”、“哲学”、“文学”、“文献学”等;

孙叔平,他的主要经历是从事于教育工作和哲学研究。因此,他的主题词为“教育”和“哲学”;

胡也频,此人主要从事文学创作,并从事出版发行工作,参加左联,任执行委员, 1931年2月7日被国民党杀害。他的主题词为“文学”、“出版发行”、“英烈”和“左联”。

2.对于别名较为全面的收录

在方志的人物传记资料中,一个人物除了有一个正式的或较为通用的名字外,绝大多数人物还会有别名。别名的情况较为复杂。对于古代帝王等封建统治者,多有年号、庙号、谥号。而这些年号、庙号或谥号又多为后世通用的名称,其本名反不为一般人所熟知。如:秦始皇、乾隆等;对于文人墨客,则有字、号、室名、笔名等,如:倪儹,元朝人,工诗文,善绘画,以山水见长。他初名珽,字元镇,又字玄瑛,号云林,别号幻霞子、荆蛮民、净名居士、如幻居士、朱阳馆主、萧闲仙卿、海岳居士、无住庵主、沧浪漫士、曲全叟,变姓名曰奚元朗;

对于近现代的革命者,则有化名、曾用名等,如:董必武,曾经化名“碧吾”;陈潭秋,曾化名“徐杰”;

对于出家者,则有法名、法号、俗号等,如:马道一,是佛教禅宗的第八代大师,“马道一”是其俗名,世称“马祖”,谥号“大寂禅师”;

对于能工巧匠,则有绰号等。如:余德新,是个在当地饮食业有较为突出技能的人物,由于其技艺出众,人们戏称其为“一大堆”;

还有一些其他的称谓。

3.对于人物生卒年不确定性的处理

人物的生卒年是断定一个人物的重要依据,也是进行历史研究所不可缺少的。在方志人物传记资料中,对于人物生卒年的描述也不完全相同,归纳起来大体有三种情况。为便于检索,数据库设计了相应的著录要求。

一是有明确

[1] [2] 下一页

下页更精彩:1 2 3 4 下一页