您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

地方文献数据库系统

时间:2007-5-25栏目:计算机信息技术

总体设计方案确定后,使用什么语言实现?开始我们考虑用DBASE3.0。但后来经模拟试验和论证,发现dBASE3.0用于开发文献型的数据库系统并不理想,原因是(1)记录字段不能适应书目数据可变长的特点;(2)不能使用数组,而且程序变量限于128个,响应速度慢;(3)如作组配检索一般要几十秒的等待时间;(4)难以实现人机对话方式的检索,即在检索过程中无法修改检索策略。基于上述原因,我们决定用编译BASIC进行系统开发。在开发的过程中,尽可能采用自顶向下、分块实现、逐步求精等行之有效的软件开发技术,仅用了四个多月的时间,就完成了程序的设计和调试。经过半年多的试运行,根据暴露出的问题,我们又对程序作了较大修改,形成了第2版本。目前该系统的源程序共有4,000多行,17个运行模块(占260KB)。以下对本数据库的文件结构和主要算法作简要介绍:

(一)文献库

文献库的任务是通过书目控制字段实现书目控制;按国家标准录入和存贮文献记录;编辑和打印各种书目;提供多途径的文献检索手段。文献库共设置了书目控制文件、主数据文件和倒排文件。

1)书目控制文件—该文件采用杂凑随机文件结构,每个记录由书目记录控制关键字、文献地址和冲突链组成(见图1)。每个记录的控制关键字,首先考虑用ISBN号(我国今年出版的图书开始使用该号)。对没有该号的图书文献,采用下述方法取号:

①整本文献和非书资料,用:题名首字符 著者末字符 地区代码 出版年 页数。

②析出文献用录入号(即系统分配的顺序号)。

书目控制关键字的取号要求是唯一性较为方便。本系统通过该文件将可对所有输入数据库的书目记录进行控制,实现快速查找或修改。

2)主数据文件—该文件采用固定长记录可变长字段的随机文件结构,记录长256字节。如有数据溢出,溢映部分将存入溢出文件中。本系统将所有书目数据划分为3种类型:整本文献、析出文献和非书资料。每种类型的字段虽有不同,但可存贮于同一数据文件中,通过文献类型代码进行识别。为便于新数据的处理,本系统又将主数据文件分为新书文件和数据库主文件两种。新录入的数据暂存于新书文件中,待打印出文献通报和地区索引后,再合并入数据库主文件。数据库主文件的记录是按文献通报的顺序号排列的。主数据文件的记录字段考虑了同国家机读目录的一致性,在必要的时候可通过一个格式转换程序,把书目数据的系统内部格式转换为标准格式,以利于资源共享。本系统的书目记录输出,采用了汉字取整装配技术,并按国家文献著录标准在各著录项目中加入分隔符号。

3)数据库倒排文件---该文件采用二级索引结构:第一级是杂凑随机文件,每记录分为前链和后链两个字段。第二级是顺序随机文件,每记录分为文献地址和后链两个字段。这样,一级索引作为检索入口指向二级索引,二级索引通过每个记录的后链集中了相关文献,通过文献地址就能查得所需文献。图2为示意图。采用这种文件结构的文献检索算法如下:

①接收一个检索表达式→KEYS

②生成提问表(即把表达式中的关键字存入检索比较工作区)

③生成检索逻辑尺

④根据工作区中元素的映射地址(杂凑)取出前链→R

⑤从R指示地址在二级索引中取出真正的文献地址→后链→L

⑤按B指示地址在主数据文件中读出一个书目记录

⑦将该记录同工作区元素作字符串比较,得到其文献逻辑值

⑧文献逻辑值同检索逻辑尺作比较,符合者为命中文献

⑨判L等于零?是则检索结束,否则L→R,转⑤

我们认为,这种以二级索引文件结构为基础,用杂凑映射作为快速寻址,用逻辑尺进行二次精确检索的算法,是一个新颖有效的算法。同时,在索引中仅存贮指针,可比传统的索引文件节省75%的空间。本系统首次检索的响应时间均低于2秒,二次检索的响应时间则因检索式的复杂程度而有不同程度的减慢。

(二)词表库

词表库的任务是对存贮在机内的地方文献标引词表进行查询和管理。本系统词表文件可分为主表和付表文件,主表存贮正式标引词,付表存贮同义词。为了实现首词集中和快速查词的目的,还设置了词表入口文件。图3为示意图。

1)词表入口文件--该文件为映射随机文件,每记录仅存第一个标引词的地址,通过该词第一个汉字的ASCLLI码映射寻址。

2)主表文件--该文件为随机文件,每记录由标引词字段和后链组成。通过后链便可查到首字相同的所有标引词。

3)付表文件--该文件为顺序文件,用于存贮正式标引词的同义词。

本系统通过上述文件结构和算法,已在机内建立了拥有4,000多个标引词的词库,实现了标引词快速查找、首词集中显示、标引词扩检与缩检、同义词参见和词表打印等功能。

(三)征集库

征集库的任务是建立地方文献连续出版物档案,实现征集工作的现代化管理。征集库的文件主要有刊号控制文件、现刊管理文件、期刊主文件、记到数据文件。

1)刊号控制文件---该文件用于存贮每种广东期刊的刊号(包括邮局刊号和内部期刊登记号),对数据库的期刊进行控制,其结构为杂凑随机文件。每记录有刊号和文献地址两个字段。

2)现刊管理文件---该文件用于存贮每种期刊的刊名、刊号、索取号、出版单位、地址、装订周期等管理数据,其结构为顺序随机文件。

3)期刊主文件---该文件用于存贮每种期刊的基本著录事项。每记录长256字节,溢出部分存入溢出文件。

4)记到数据文件---用于存贮每种期刊的记到数据,每种刊作为一个逻辑记录,采用二维数组结构。该文件以年为单位存贮数据,即每年生成一个记到文件。

以上文件的每个记录均存在映射关系,即每种期刊记录在不同文件中的地址是一致的。只要在刊号控制文件中查得某刊的地址,就可在各个文件中访问有关记录。由于我们采取了合理的文件结构,因而能使系统适应期刊经常发生的创刊、合刊、增刊、停刊、改刊期、改刊名、改发行方式等动态变化,有较强的实用性。这点对于地方文献征集工作的电脑化管理是至关重要的。

五、地方文献的著录与标引

为了达到资源共享的目的,地方文献的著录与标引也必须实现标准化。我馆在建立地方文献数据库的过程中,对地方文献的著录和标引的标准化十分重视,采取了下面的一些做法:

1.在进行数据库总体设计的同时,请本馆有丰富文献工作经验的同志组成科研课题组,起草制定了《文献标引员手册》。该手册对数据库的收录范围、文献著录标引工作细则、文献通报编制体例等都作了规定。从而为文献著录标引工作的标准化奠定了基础。

2.在建库前,对文献标引员进行业务考核,选择工作责任心强,经过图书馆专业培训,有三年以上图书馆工作经验,并有一定文献工作实践的同志担任文献标引员。

3.印制地方文献书目数据录入工作单,要求文献标引员根据国家文献著录标准进行著录,并按录入单格式进行填写。这样可以减少因不熟悉著录格式而产生的错误。

4.标引员标引的数据录入单,由数据库文献工作组最后审核定稿。审核的内容包括:著录文献的选题、著录的格式、分类和主题标引。在实践中我们感到,标引文献的审核,对提高数据库的文献质量,有着十分重要的作用,因此,应由有较高业务水平的同志负责把关,并注意保持文献标引人员队伍的相对稳定。

5.数据库书目数据均采用《中图法》分类体系。对同一文献的多个主题,尽量采取了组配方式生成分类号,以便充分发挥电脑多途径检索的优势。

6.以《汉语主题词表》为基础,根据地方文献的特点编制文献标引词表。《汉语主题词表》是一部综合性的文献标引工具,收词多而广泛。但由于《汉语主题词表》的编制是从全国范围的通用性来考虑的,对标引地方独特事物,便缺乏实用性。因此,我们在力求使用词表中正式主题词的同时,根据地方文献标引的需要,使用了许多“表外词”,有些地方,还对词表的规定作了一些变动。这可以从两方面来说明:

1)由于新概念的大量涌现,词表未及收入的新学科、新事物的新名词,现已形成可描述的叙词,例如:“经济法”、“经济纠纷”、“体制改革”、“第三产业”、“信息业”、“港元”……等等。它们在文献中出现的频率很高,但没有合适的直接上位词可用,也没有合适的概念接近的词可用,我们就把这些词作为正式词使用。

2)由于地方文献的特性需要,常常为综合性大型词表所难以照应,如名胜、古迹这一范畴内,就只列了“圆明园”等15个词,其中除“黄鹤楼”“孔庙”等词外,多数是北京地区的名胜古迹,这确实是不合用也不够用的。对这类情况我们作了一些调整。如词表规定,“东江纵队”、“琼崖操队”统用“华南抗日游击队”,也就是以上位概念取代具体事物,这从全国范围的检索需要来看可能是合理的。但从本地区出发,“东纵”和“琼纵”却是专指性极强的词。这两支革命武装有各自

上一页  [1] [2] [3] 下一页

下页更精彩:1 2 3 4 下一页