您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

一种基于人机结合思想的书本式地方文献索引编制方法

时间:2007-5-25栏目:计算机信息技术


  地方文献以其地名、人名、机构名等专有名词术语众多而一直是索引编制的难点。对于文字数量数百万乃至上千万的地方文献而言,若要达到满足读者检索要求的标引深度,则索引制作的工作量就会急剧增加。如果纯用手工制作,不仅在信息的处理过程中容易产生差错,且费时费力。为了解决这一矛盾,降低索引编制成本,需要引入计算机信息处理技术。以下我们以在《杭州市志·索引》编制过程中开发的计算机辅助索引软件(CAIC1.0Beta)为例,就详细说明这一基于人机结合思想的地方文献索引编制方法。

1 现 状

目前,运用计算机信息处理技术来进行汉语文献索引编制的方法一般分为两大类:一种为基本以自动标引、索引为主的方法,其中汉语自动标引法常见的有词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等;在汉语索引法上则多采用题名关键词抽词索引法、主题词表选词索引法、职能符号标引索引法等。这些方法都在一定程度上解决了汉语文献标引和索引的问题,但由于汉语语言现象的复杂性,此工作基本都在文献题名这一层次上展开,至于针对文献全文的智能标引和索引尚处于探索阶段。而且,这些方法需要具备相当专业的计算机、语言学、文献学知识,并且相关的专用软件获取成本极高。另一个常用方法是人机结合、以人为主的方法,主要为采用诸如Foxpro MicrosoftAccess据库软件来编制。这种方法具有技术要求低、使用方便的特性。但这仅是一个以人工为主、辅以计算机技术的方案,并且参照系统即关键词之间的相互关系(见、参见)不能直接在上述数据库软件中得到表达和转移,因此索引库的生成无法直接应用参照系统,编制者将不得不依靠手工来进行,这是一个非常繁琐而且极易导致差错的工作。

2 解决方案的系统设计

方志作为地方文献的一个重要门类,其数量庞大,包含了一个区域的自然、政治、经济、文化、社会、军事等信息,有地方百科全书之称,具有极高的使用价值。为此,我们在实践中以《杭州市志·索引》作为地方文献的样本,对此进行索引的编制。其编制目标是一部分析内容的书本式关键词索引,其标引范围为全志中的正文、附录、图、表格、照片,标引对象为人物、机构、地名以及其他一切具有检索价值的各类事物、事件和活动。

对于一个优秀的索引而言,确定适合的标引、索引方案和参照系统是至关重要的,也是本索引编制解决方案首先要解决的问题。因此,在系统设计过程中,我们考虑了地方文献的特点和客观实际,分析上述方法的利弊,制订了以下的编制思路。 

2.1 标引方案 以实现的手段划分,可分为人工标引和自动标引。自动标引又可分为自动 抽词标引和赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献的主题内容。如果在自动标引过程中,使用的标引词来自于预先编制好的词表,则称之为自动赋词标引。对于计算机而言,针对汉语的自动抽词主要困难在于自动分词以及选取标引词的标准,而自动抽词标引的标准很大程度上是建立在词频统计的基础上的。就方志这一类地方文献而言,如果一些人名、地名在文献中只出现数次乃至一次的话,就很有可能不被标引,这会导致大量有价值的信息不能被检索到。而如果放低词频标准,则相关的标引词数量会急剧增多,书本式索引的篇幅会相当庞大。而自动赋词标引又依赖于词表,由于方志的地域性,这样一个包含有大量地方独特的人名、机构名和地方特色事物的词表一般都没有建立,因此无从根据词表来进行自动标引。

由于地方文献的编纂者或研究者对于文献内容比较熟悉,可以准确地分析主题内容,并抽取相应的关键词予以标引。因此,采用由他们来进行人工标引的方法,应该是方便和切合实际操作情况的策略。 

2.2 索引方案 索引款目的自动生成目前已经有很多实际应用的方案,如链式索引法(ChainIndexing)、选择组合排列索引法SLIC)、挂接主题索引法(ASI)、保留上下文索引法(PRECIS)等,这些基于计算机的索引法无一例外地运用了轮排或循环技术,对于计算机来说只要设定好索引法的原则后,工作是相当简单的。但是这种方法会导致索引款目急剧增多的后果,因此这种对于专业性文献检索工具而言是十分适合的方法,运用到地方文献上时,特别是如方志一类篇量较大的文献上时,就要承担索引篇幅大幅增加印刷成本提高所带来的危险。基于这个因素,我们认为在方志索引上应该采取对于绝大部分的索引词不进行轮排,只对极个别的主标目和副标目进行轮排的索引方案,以最小的代价来实现相对高的查全率。 

2.3 参照系统生成 是否设置参照系统是衡量索引系统质量的重要指标之一。而为了提高查全率,也需要我们设置参照系统。参照系统由主标目词和见参照(seereference)、参见参照(seeaisoreference)组成,从而保证了索引的整体性和系统性。因此,我们认为在没有现成词表的前提下,运用计算机技术结合人工干预来生成参照系统应该是软件追求的目标。

  2.4 编程语言的选择 由于直接运用Foxpro数据库技术在款目地址码归并和参照系统生成上的困难,因此采用通用编程语言是理想的选择。Delphi为一种面向对象的可视应用程序开发工具,与其他语言相比,它提供了一种快速的编译器,优化编译模式在很大程度上提高了代码质量和运行稳定性,所以这种语言一直受到专业人士的青睐。同时,Delphi特别对于数据库的体系结构提供了强大的支撑,Delphi还允许开发者将应用程序作为单一的.exe文件提供给终端用户,这样就减少了可执行文件在运行时对于其他文件或DLL(动态链接文件)的依赖。因此我们以Delphi为系统前台,以MicrosoftAccess为后台数据库存储原始信息,来编制索引计算机辅助编制系统。

3 本方案的技术实现 

3.1 数据结构 本软件数据库包含三个主要的数据表:a 主表(标引词库)。该表用来储存从方志文献中抽取的关键词和诸如卷号、页码、体裁、参照关系等属性,以及一些用于操作管理的信息。其中的记录需要索引编制者人工输入。为了方便数据的录入工作,一般可按照文献的页码顺序依次输入。b 关键词表。该表依据主表表达的各标引词之间的参照关系,由程序自动生成。此表是软件下一步进行索引合成的依据。c 索引正文数据表。该表用来储存关键词及其地址码(卷号、页码),可用来最后输出索引正文格式的文本文件。

  3.2 程序功能(主控界面见图1)

本软件具备信息采集;信息处理;信息输出三大功能。

3.2.1 信息采集功能。主要是由索引编制者将标引词(关键词)及其属性输入主表。标引词属性包括关键词所在卷号、页码、关键词代表内容的体裁(文、图、照片、表格)以及参照系统。

3.2.2 信息处理功能。包括人工干预(预处理)功能、关键词表生成功能、索引正文生成功能。

人工干预功能。由于标引者对索引编制规范和对志书原文的理解可能不一致,不同作者在处理相同事物所用的术语亦有不同,以及数据录入过程中都会导致相同内涵的关键词往往以不同的形式出现。具体表现形式有:a.一见多———如A见B,A见C,A见D,……;b.连续见———如A见B,B见C,C见D,……;c.循环见———如A见B,B见C,C见A(A、B、C均指不同的关键词,下同);d.同页重复。

如果产生如上a、b、c三种情况,对于形式a而言,将在索引输出中丢失信息A见C和A见D(假设B的音序先于C、D,下同);对于情况b而言,将在索引输出中丢失信息A见B和B见C;对于情况c而言,将出现关键词A、B、C及其地址码等信息的丢失;对于情况d而言,则会在索引中出现某一关键词后跟有完全相同的地址码。

上述情况出现的数量并不少,这就可能导致生成信息的大量缺失而导致索引资料的不完整。由于人工检查极为烦琐且不完全甚至可能会引入新的错误,为此本软件特设预处理功能(见图2),将上述的“循环见处理”、“连续见处理”、“一见多处理”、“同页重复处理”,通过人工干预子功能,能够自动查找在索引主数据库中由于在标引、数据录入过程中产生的差错,生成错误提示(写入.TXT文件,格式见信息输出功能部分),以便编制者根据提示信息检查主数据库,对错误进行修改。同时本软件还可在一定程度上对上述错误在人工确认正确的关系后自动予以修复,保证了在后续处理过程中信息的正确。

此外,由于方志具有地域性,因此记述到的机构往往都为本地机构。这样就会存在大量具有同一地名或行政区划名开始的机构名。例如,《杭州市志》中就存在大量的以“浙江省”、“杭州市”等为首的机构名,如果一律以机构名首字音序排列的话,即,如将“浙江省人民政府”和“杭州市人民政府”分别排列在“浙”字和“杭”字中,如此就会出现大量以“浙江省”、“杭州市”开头的机构聚集在一起的情况,从而极大地增加检索难度,同时还会造成相关信息的离散。为此,在预处理时设置了前置词处理功能,程序自动将这些词

[1] [2] 下一页

下页更精彩:1 2 3 4 下一页