您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

中国地方志(旧方志)资源库的设计与展望

时间:2007-5-25栏目:计算机信息技术


一. 中国地方志(旧方志)资源库建库缘起  

地方志,也称为“方志”,“志”就是“记”,是记录、记载、记述的意思。顾名思义,“地方志”就是一个地方从古到今,从自然到社会方方面面情况的总览。中国国家图书馆特色馆藏,就包括1949年以前编纂的地方志(简称旧方志),不论质量还是数量均居海内外各藏书单位之首。对于先人留给我们的这一宝贵文化遗产,我们有责任保护、利用和推介。采用数字化的形式,整理、加工旧方志资源,是实现这一目标的有效途径。

方志资源库采用什么样的结构模式,是建库之初首先遇到的问题。国家图书馆资源库的发展历程伴随着图书馆发展的脚步,也经历了从传统馆藏资源———馆藏资源数字化———数字图书馆资源库发展三部曲。我馆现在已有的数据库,大多是将传统馆藏经过数字化处理生成的。方志资源库如采用原有的思路,即把志书平行地转换成数字化内容,那我们最终实现的仅是把纸质志书转换成电子志书。就载体形态来说,志书数字化使其发生了质的飞跃,但就内容而言,它仅是形式的变化。而当今信息网络技术的发展,信息网络资源的迅速扩大,越来越影响和改变着人们选择信息、使用信息的行为和方式。人们对知识的需求已不满足于以文献为单位,而是希望通过简单、快捷的方式检索到所需文献中的具体事件、数据、结论等知识单元,同时将所需知识单元和与其相关的信息进行整合,在最短的时间内获取最大的信息量。为了最大限度地开发方志资源,多角度、多侧面地深入揭示方志内涵,依据信息时代人们的信息需求特点和信息网络技术发展所提供的技术保证,达到知识创新的目标,因此,方志资源库的建库模式应定位在数字化信息资源的重组与多媒体展示的平台上。在此,先论述图书馆数字化和数字图书馆之间的联系与区别以及其他几个基本概念。

二. 方志资源库的几个基本概念

1.图书馆数字化:从字面上看,传统图书馆馆藏经过数字化技术处理和加工,为用户提供服务,这个过程就叫图书馆数字化。这方面的工作我们在十几年前就开始了。例如:八十年代后期我们就在M150机上编制“国家书目”,九十年代前期我们开始编制的地方志书目数据库及以后编辑的地方志人物传记索引数据库,直到目前我们还在做的“古籍书目”数据库以及我们将要建的地方志资源库中的全文影像库等都属于图书馆资源数字化的范畴。其工作对象和结果仅限于传统资源本身,或者说它只是一种载体形式的转换(由纸制品转化成电子出版物)。

2.数字图书馆:数字图书馆是把传统图书馆的功能由信息的查询和图书资料的借阅扩展到知识服务的新阶段。其中两个关键的技术是信息资源的整合和知识的创新。前者就是要依据统一标准,将相互关联的信息资源重新组合并进行科学的分类和标引,强调重组后的信息资源的有序化和关联性,而后者突出的是知识的增值与创新。如果把前一过程比做物理学中物质所发生的“物理变化”的话,则知识创新所引发的就是物质的“化学变化”。即通过分解、重组,形成了新的信息知识网络,较原来的传统信息资源在功能、用途等方面都发生了质的变化。对此许多专家、学者都有严谨的描述和解释,在这里就不一一赘述了。通俗一点儿说,它有以下几个特征。

(1) 信息资源数字化:数字图书馆内的所有信息资源都经过数字化处理。

(2)服务手段网络化:它借助网络技术、计算机技术和现代通信技术传播知识(例如互联网、卫星传递等),突破了馆舍的时空局限,用户可以随时随地得到所需信息,是不局限于图书馆场馆的。(3)资源实体虚拟化:它是基于互联网的多维知识网络,突破了传统载体的限制,延伸、拓展了传统图书馆馆藏外延。它不仅提供传统的基于印刷介质的服务,还可通过跨库检索,对数字信息进行重新组合,提供重组后的信息服务。因而,它是对馆藏资源的再开发。例如:“昭陵”和“玄武门之变”分别是景观和事件对象资源,它们都与“李世民”相关联,分别收藏在景观库和事件库中,但重组在一个页面里,以视频、音频、图像等多媒体手段展现在用户面前。

(4)检索方式良序化:依据统一规范即统一的元数据标准,对数字信息资源进行科学的分类和标引,达到对数字信息处理的良序化(相当于书刊采访到馆后先编目),保证了分散的数字资源经重组后提供给用户精确的检索,检索效率很高。这一点有别于一般的网络搜索引擎。网络搜索引擎是通过网络机器人自动搜索并生成相关的著录信息,存入数据库中供检索之用,其检索系统由于采用自动标引,检索后的网上信息还需要人工识别处理,检索效率太低。

(5)信息利用共享化:由于数字化图书馆内的信息资源的加工、发布都依据统一的标准和规范,所以它可以最大限度地实现信息资源的共建共享。

3.元数据:传统图书馆流程中重要的一步工作就是图书、期刊的编目,便于用户查找。数字图书馆中的数字资源同样需要编目。元数据就是为了满足数字资源的编目需要应运而生的,它是数字图书馆编目的新规则,是一种有效的信息资源组织和管理的工具。它具有描述性、结构性、管理性。就描述性而言,我们以前用的卡片目录,现在用的MARC格式都属于元数据的范畴。但元数据又比卡片目录、MARC格式具有更强大的描述能力,而元数据所具有的结构性(揭示资源的内部结构)和管理性(规定运行环境、数字版本、收费情况等)使它能更全面的反映了数字文档的各个方面,为数字资源的保存和利用提供了更有效的工具。

4.资源库:经过专业人员组织、加工、整合而成的符合数字图书馆规范的资源的集合。它具有数字图书馆的基本特征。资源库是完全网络化的,具有强大的检索平台和丰富的检索途径。一般资源库都包括了文字、图片、视频、音频等丰富的多媒体资料,对各种媒体都具有良好的支持。各种专题知识资源库组成了数字图书馆的物质基础。资源库的建设不可能一蹴而就,它要随着时间的推移、知识的不断更新,动态地更新内容。由于资源库的信息资源使用统一的加工、发布标准(例如元数据标准),可吸收各信息资源优势单位参与共建,形成系列知识库群,使信息资源最大限度地被公众所共享。

三. 方志资源库的结构和内容

根据方志内容特点和用户需求,我们的方志资源库设计成由一个全文影像库,一个OCR数据库和八个专题子库组成。

用户既可通过全文检索进入全文影像库或OCR库,也可通过“跨库检索”、“字段联接”和“词语置标标引”等方式进入各个专题子库,再通过8个专题子库跨库进入全文影像库或OCR库,该方法实现了不同专题库中的字段及字段中的内容的链接。

1 全文影像库:就是将国图分馆所藏的1949年前编纂刊行约6000余种地方志书进行全文扫描,即志书的数字化处理,全文影像库并没有改变原有的信息组织,它只是对纸制志书的载体形式进行了一次平面转移,即将纸制旧志通过扫描处理,变成可在网上阅读的电子书。在全文影像库用户除了阅读原书,还可以做多幅影像的比较即版本校勘。(最多4幅图像同时显示)。

2 OCR数据库:OCR是英文Optical Character Recognition 的缩写。意为“光学字符识别”,也可简称为文字识别。通俗地说就是计算机认字,是一种文字自动输入方法。它的作用是将全文影像库中的志书影像转换成文本格式再进行切词标引,按设计要求规定标引到志书中的“标目”。在OCR数据库中,用户不但可以阅读到旧志的原文,还可以对志书进行全文检索,也可进行精确到“标目”的词组检索。同时用户还可以根据需要进行个性化处理,例如添加标记、注释,选择自己需要的内容进行编辑、复制,对文本形式的不同版本的影像进行多屏幕比较研究等。

以上两个库内容的外延都没有超出志书提供的内容。而只是将原书载体形式做了转换,以电子图书的形式显现。

3 八个专题子库:八个子库的建库原则是以原书为基础,按照元数据标准进行规范化处理,多角度、多途径地丰富、补充、扩展原书内容,将原来分散或不完整的方志信息集合起来,形成地方志知识网络。八个专题资源库彼此相连,并且都与全文影像库和OCR库相连接,专题资源库的检索条件可以单独使用,也可以两个检索条件组配,进行复合检索。在专题资源库,用户根据需要,从一个知识点入手检索,就可以方便、快捷地跳转到全文影像库、OCR库或不同的专题资源库,检索到与入口知识点相关的各种信息,从而为用户节省大量的精力和时间,最大限度地为用户提供个性化的服务。

(1)地名资源库地名资源库的建设分为两步:首先建立志书名称中涉及到的方志地名资源库,其次再逐步扩大地名收录范围,建成为更大规模的中国地名资源库。地名库中的规范地名是依据2002年国家行政区划表及有关规则进行规范处理后的地名。客观地名是规范地名以外该地历史上通行或常用的地名。地名异名包括客观地名的又名、别名、俗称、简称等。规范地名与客观地名相互参见。用户可根据需要选择入口词。该库的基本内容包括:规范地名、客观地名、规范地名的异名、地名隶属关系、地名沿用时间(朝代)、地名简介(沿革、变迁情况)、地名文化(相关人物、事件、景点和插图名称等)、周边地名、所辖地名、影像原文和OCR原文等。以苏州为例,商代末年始建吴国。秦统一中国后,在此地置吴县,后或称吴郡,或称吴州,到隋代始称苏州;宋代升为平江府,

[1] [2] 下一页

下页更精彩:1 2 3 4 下一页