地方文献数据库系统_计算机信息技术

地方文献数据库系统

时间：2007-5-25栏目：计算机信息技术

总体设计方案确定后，使用什么语言实现？开始我们考虑用DBASE3.0。但后来经模拟试验和论证，发现dBASE3.0用于开发文献型的数据库系统并不理想，原因是(1)记录字段不能适应书目数据可变长的特点；(2)不能使用数组，而且程序变量限于128个，响应速度慢；(3)如作组配检索一般要几十秒的等待时间；(4)难以实现人机对话方式的检索，即在检索过程中无法修改检索策略。基于上述原因，我们决定用编译BASIC进行系统开发。在开发的过程中，尽可能采用自顶向下、分块实现、逐步求精等行之有效的软件开发技术，仅用了四个多月的时间，就完成了程序的设计和调试。经过半年多的试运行，根据暴露出的问题，我们又对程序作了较大修改，形成了第2版本。目前该系统的源程序共有4，000多行，17个运行模块（占260KB）。以下对本数据库的文件结构和主要算法作简要介绍：

（一）文献库

文献库的任务是通过书目控制字段实现书目控制；按国家标准录入和存贮文献记录；编辑和打印各种书目；提供多途径的文献检索手段。文献库共设置了书目控制文件、主数据文件和倒排文件。

1）书目控制文件—该文件采用杂凑随机文件结构，每个记录由书目记录控制关键字、文献地址和冲突链组成（见图1）。每个记录的控制关键字，首先考虑用ISBN号（我国今年出版的图书开始使用该号）。对没有该号的图书文献，采用下述方法取号：

①整本文献和非书资料，用：题名首字符著者末字符地区代码出版年页数。

②析出文献用录入号（即系统分配的顺序号）。

书目控制关键字的取号要求是唯一性较为方便。本系统通过该文件将可对所有输入数据库的书目记录进行控制，实现快速查找或修改。

2）主数据文件—该文件采用固定长记录可变长字段的随机文件结构，记录长256字节。如有数据溢出，溢映部分将存入溢出文件中。本系统将所有书目数据划分为3种类型：整本文献、析出文献和非书资料。每种类型的字段虽有不同，但可存贮于同一数据文件中，通过文献类型代码进行识别。为便于新数据的处理，本系统又将主数据文件分为新书文件和数据库主文件两种。新录入的数据暂存于新书文件中，待打印出文献通报和地区索引后，再合并入数据库主文件。数据库主文件的记录是按文献通报的顺序号排列的。主数据文件的记录字段考虑了同国家机读目录的一致性，在必要的时候可通过一个格式转换程序，把书目数据的系统内部格式转换为标准格式，以利于资源共享。本系统的书目记录输出，采用了汉字取整装配技术，并按国家文献著录标准在各著录项目中加入分隔符号。

3）数据库倒排文件---该文件采用二级索引结构：第一级是杂凑随机文件，每记录分为前链和后链两个字段。第二级是顺序随机文件，每记录分为文献地址和后链两个字段。这样，一级索引作为检索入口指向二级索引，二级索引通过每个记录的后链集中了相关文献，通过文献地址就能查得所需文献。图2为示意图。采用这种文件结构的文献检索算法如下：

①接收一个检索表达式→KEYS

②生成提问表（即把表达式中的关键字存入检索比较工作区）

③生成检索逻辑尺

④根据工作区中元素的映射地址（杂凑）取出前链→R

⑤从R指示地址在二级索引中取出真正的文献地址→后链→L

⑤按B指示地址在主数据文件中读出一个书目记录

⑦将该记录同工作区元素作字符串比较，得到其文献逻辑值

⑧文献逻辑值同检索逻辑尺作比较，符合者为命中文献

⑨判L等于零？是则检索结束，否则L→R，转⑤

我们认为，这种以二级索引文件结构为基础，用杂凑映射作为快速寻址，用逻辑尺进行二次精确检索的算法，是一个新颖有效的算法。同时，在索引中仅存贮指针，可比传统的索引文件节省75％的空间。本系统首次检索的响应时间均低于2秒，二次检索的响应时间则因检索式的复杂程度而有不同程度的减慢。

（二）词表库

词表库的任务是对存贮在机内的地方文献标引词表进行查询和管理。本系统词表文件可分为主表和付表文件，主表存贮正式标引词，付表存贮同义词。为了实现首词集中和快速查词的目的，还设置了词表入口文件。图3为示意图。

1）词表入口文件--该文件为映射随机文件，每记录仅存第一个标引词的地址，通过该词第一个汉字的ASCLLI码映射寻址。

2）主表文件--该文件为随机文件，每记录由标引词字段和后链组成。通过后链便可查到首字相同的所有标引词。

3）付表文件--该文件为顺序文件，用于存贮正式标引词的同义词。

本系统通过上述文件结构和算法，已在机内建立了拥有4，000多个标引词的词库，实现了标引词快速查找、首词集中显示、标引词扩检与缩检、同义词参见和词表打印等功能。

（三）征集库

征集库的任务是建立地方文献连续出版物档案，实现征集工作的现代化管理。征集库的文件主要有刊号控制文件、现刊管理文件、期刊主文件、记到数据文件。

1）刊号控制文件---该文件用于存贮每种广东期刊的刊号（包括邮局刊号和内部期刊登记号），对数据库的期刊进行控制，其结构为杂凑随机文件。每记录有刊号和文献地址两个字段。

2）现刊管理文件---该文件用于存贮每种期刊的刊名、刊号、索取号、出版单位、地址、装订周期等管理数据，其结构为顺序随机文件。

3）期刊主文件---该文件用于存贮每种期刊的基本著录事项。每记录长256字节，溢出部分存入溢出文件。

4）记到数据文件---用于存贮每种期刊的记到数据，每种刊作为一个逻辑记录，采用二维数组结构。该文件以年为单位存贮数据，即每年生成一个记到文件。

以上文件的每个记录均存在映射关系，即每种期刊记录在不同文件中的地址是一致的。只要在刊号控制文件中查得某刊的地址，就可在各个文件中访问有关记录。由于我们采取了合理的文件结构，因而能使系统适应期刊经常发生的创刊、合刊、增刊、停刊、改刊期、改刊名、改发行方式等动态变化，有较强的实用性。这点对于地方文献征集工作的电脑化管理是至关重要的。

五、地方文献的著录与标引

为了达到资源共享的目的，地方文献的著录与标引也必须实现标准化。我馆在建立地方文献数据库的过程中，对地方文献的著录和标引的标准化十分重视，采取了下面的一些做法：

1．在进行数据库总体设计的同时，请本馆有丰富文献工作经验的同志组成科研课题组，起草制定了《文献标引员手册》。该手册对数据库的收录范围、文献著录标引工作细则、文献通报编制体例等都作了规定。从而为文献著录标引工作的标准化奠定了基础。

2．在建库前，对文献标引员进行业务考核，选择工作责任心强，经过图书馆专业培训，有三年以上图书馆工作经验，并有一定文献工作实践的同志担任文献标引员。

3．印制地方文献书目数据录入工作单，要求文献标引员根据国家文献著录标准进行著录，并按录入单格式进行填写。这样可以减少因不熟悉著录格式而产生的错误。

4．标引员标引的数据录入单，由数据库文献工作组最后审核定稿。审核的内容包括：著录文献的选题、著录的格式、分类和主题标引。在实践中我们感到，标引文献的审核，对提高数据库的文献质量，有着十分重要的作用，因此，应由有较高业务水平的同志负责把关，并注意保持文献标引人员队伍的相对稳定。

5．数据库书目数据均采用《中图法》分类体系。对同一文献的多个主题，尽量采取了组配方式生成分类号，以便充分发挥电脑多途径检索的优势。

6．以《汉语主题词表》为基础，根据地方文献的特点编制文献标引词表。《汉语主题词表》是一部综合性的文献标引工具，收词多而广泛。但由于《汉语主题词表》的编制是从全国范围的通用性来考虑的，对标引地方独特事物，便缺乏实用性。因此，我们在力求使用词表中正式主题词的同时，根据地方文献标引的需要，使用了许多“表外词”，有些地方，还对词表的规定作了一些变动。这可以从两方面来说明：

1）由于新概念的大量涌现，词表未及收入的新学科、新事物的新名词，现已形成可描述的叙词，例如：“经济法”、“经济纠纷”、“体制改革”、“第三产业”、“信息业”、“港元”……等等。它们在文献中出现的频率很高，但没有合适的直接上位词可用，也没有合适的概念接近的词可用，我们就把这些词作为正式词使用。

2）由于地方文献的特性需要，常常为综合性大型词表所难以照应，如名胜、古迹这一范畴内，就只列了“圆明园”等15个词，其中除“黄鹤楼”“孔庙”等词外，多数是北京地区的名胜古迹，这确实是不合用也不够用的。对这类情况我们作了一些调整。如词表规定，“东江纵队”、“琼崖操队”统用“华南抗日游击队”，也就是以上位概念取代具体事物，这从全国范围的检索需要来看可能是合理的。但从本地区出发，“东纵”和“琼纵”却是专指性极强的词。这两支革命武装有各自

上一页 [1] [2] [3] 下一页

下页更精彩：1 2 3 4 下一页