在数字博物馆资源建设中引入知识组织体系
资源建设是数字博物馆建设中的核心内容,也是实现信息服务与共享的基础,更是实现数字博物馆可使用性、可持续发展性的前提条件。作为基于网络环境下的提供数字信息资源服务的系统机制,数字博物馆的资源建设应以用户需求为出发点,将为用户提供方便、快捷、全面、准确的数字信息资源服务作为建设的终极目标。为此,数字博物馆资源建设应在加强数字资源采集能力的同时,重视从用户需求出发的数字资源的组织与管理,不断提升数字资源组织与管理水平,提高资源的检索效率,提升资源的利用效果,尽最大可能地满足用户需求。
知识组织是信息组织的深化与提高,是传统信息组织理论与方法在互联网时代的不断完善与深入。在数字博物馆资源建设中引入知识组织体系是提高资源管理与应用水平的有效措施,应当引起高度重视。
一、知识组织与知识组织体系
知识组织是在信息组织的基础上,研究知识的获取、描述、整理、表达、控制、共享等整个知识组织过程的理论与方法,对知识间的关联进行揭示和组织是知识组织的精髓,也是知识获取、知识处理、知识表达和知识共享等知识组织内容的基础与核心。
知识组织体系(Knowledge Organization System,KOS)是对信息实现有效知识组织的各类规范和方法的统称,是获取、描述、整理、表达、控制、共享信息的重要手段,是对资源内容概念及其相互关系进行描述与组织的有效机制。
在现代信息技术的支撑下,现代知识组织体系正在逐渐发展成为力图包括用于知识组织、提供信息管理的所有模式,并将这些模式连接成一体,成为用于表述和描述信息,用于信息组织的术语与符号。
二、知识组织体系的功能和作用
信息社会要求知识共享,而知识共享不仅仅要求可以找到信息,还要求符合条件的信息能够被完整地获取和展示。这就有两个异构性的问题需要解决:一个是结构异构性,意指不同的信息系统用不同的方式和结构存储数据;二是语义异构性,意指不同的信息系统用不同的信息描述与表达形式。知识组织体系的作用就是解决语义异构性,希望为不同的信息系统建立共同的信息表达模式,或为不同的信息表达模式建立联系。
作为对内容概念及其相互关系进行描述和组织的机制,知识组织体系可以对各种信息对象按照知识内容和知识结构进行描述、关联和组织。知识组织体系的主要功能主要体现在以下五个方面:
1.描述:知识组织体系是一系列规范的、受控的标识语言(或称符号)的统称。它们可以独立地用来描述事物,或联合起来建立描述事物的相互参照体系;
2.定义:明确标识的意义,确定标识的应用范围;
3.翻译:在表达形式之间建立匹配的联系,以支持有效的信息检索;
4.导航:在有组织的表达结构中进行关系的推导;
5.整合:通过概念之间的关系,将各种概念有机地连接在一起。
建立知识组织体系的目的就是在用户的需求和信息资源之间搭建一座桥梁,就是将无序的信息按照一定的规范和方法组织成有序的知识库,供用户选择和利用资源创造条件,实现高层次的信息资源共享。
三、知识组织体系的类型
根据知识组织体系的结构、复杂度、语词之间关系、所实现功能等要素,知识组织体系大致可以分为三大类:
1.词汇表(Term List):指提供一系列词汇的列表,包括对概念的定义和解释。它接近于自然语言,一般不涉及复杂的语义关系,是形式最简单、最低层次的知识组织体系。这类组织体系包括各类人名表、地名表、专业术语表、各类词典等。
2.分类和聚类体系(Classification/Categorization):指以一个层级关系体系囊括所有用于信息描述的概念。它强调概念间的层级关系和类别体系,具备相对固定规范的语义结构,主要起到范畴归类、聚类导航等作用,是目前应用最为广泛,发展最为成熟的知识组织系统和知识组织工具,如知识分类、分类表等。
3 .关系体系(Relationship Groups):指揭示各种用于信息描述的概念之间的复杂关系的知识组织体系。他强调概念之间的关系,语义结构强,是经过规范化的、机器可读的人工语言体系。主要包括叙词表(Thesauri)、主题图(Topic Map)和本体(ontology)等,是较新的知识组织方法。
四、主要知识组织体系概况
1.分类法
分类法是按学科内容描述、组织、检索信息的知识组织系统。它以等级结构显示概念间的关系,按学科体系排列类目。分类表主要包括三种类型,即等级列举式、分面组配式、列举组配式等。
1)等级列举分类法
等级列举式分类法是一种比较传统的分类法,也是使用最为广泛的分类法。等级列举式分类法又称列举式分类法、枚举式分类法。列举式分类法主要是将所有的类目组成一个等级系统。著名的列举式分类法有《杜威十进分类法》(DDC)、《美国国会图书馆分类法》(LCC)和《中国图书馆分类法》(中图法)等。
2)分面组配分类法
分面组配分类法是指在类目之间完全采用分面结构,将信息的内容分析为若干个因素,从分面寻找相应的类号,并按照一定的次序将其组配成一个完整的分类号。分面组配分类法的特点主要在于将事务分面。所谓分面就是按某种分类标准产生出来的一组面类目。由于在对信息进行分类的过程中,信息所涉及的主题往往不只是一个,多主题的情况,就包括多个组面。分面组配分类法采用不同的组面区分符号,在明确了分面符号以后,再按照每个类目规定的相应的组配公式进行组配。这类分类法的代表是《冒号分类法》。
3)列举组配分类法
列举组配分类法,也称半分面分类法,是指以等级列举式的类目体系为基础,在类目拓展方面采用分面组配的方法,实现等级列举式类表与分面组配同等标引的功能。这类分类法以《国际十进分类法》为代表。
2.主题法
主题法是指以信息资源表达的主题概念或词语来描述、组织及检索信息的知识组织方法。按照选词方法的不同,主题法可分为四类:标题法、元词法、叙词法与关键词法。
1)标题法
标题法是以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。所谓标题,是指经过词汇控制,用来标引文献的词或词组,通常为比较定型的事物名称。如“博物馆”、“信息组织”等都可以作为标题。标题法的标引工具是标题表。目前使用最广泛的标题表是《美国国会图书馆标题表》。
标题法具有以下特点:
a) 采用列举式词表,形式清晰、直观,易于使用。
b) 采用先组式(定组式)标题,结构固定,含义明确。
c) 按照词表列举的标题、副标题进行标引,操作简单。
d) 主要通过参照方式对词汇进行控制、揭示标题间的关系。
由于采用列举先组式的方法,采用标题表进行主题标引与检索的方法,普遍存在专指度不强、检索角度单一,标题表修订量大的缺点与问题。
2)元词法
元词法是为克服标题法的不足而发展起来的一种主题法类型。它是以元词作为主题标识,通过字面组配的方式表达资源主题的主题法。所谓元词,是指用来标引资源的最基本的、字面上不能再分的语词。如“学校”“博物馆”“中国美术馆”就是元词等。而“美术展览”“艺术教育”就不是元词,因为它们可以进一步划分成“美术”“展览”“艺术”“教育”。元词法的标引工具是元词表。元词表是元词按照一定的规律排列的集合。
在元词法中,复合主题资源的标引和检索是通过单元词的组配进行的。如“美术展览”要通过“美术”“展览”两个单元词进行标引。
与标题法相比,元词法具有体积小、标引专指度强,便于从不同或多个主题词角度检索的特点。其主要缺点是字面分解和语义分解不一致时容易造成误差。
3)叙词法
叙词法是以从自然语言中精练出来的、经过严格处理的语词作为资源主题标识,通过概念组配方式表达资源主题内容的主题法类型。叙词法的标引工具是叙词表(或称主题词表)。它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。
叙词法是目前使用最为广泛的主题法,它的主要特点表现如下:
a) 结构完备,词汇控制严格,可以根据检索系统的需要对词汇进行有效控制。
b) 组配准确,标引能力强,能够准确、专指地标引和揭示各种主题内容。
c) 检索效率高,可以通过灵活组配方式进行多途径检索,达到更好的检索效果。
d) 适应能力强,能较好适应计算机标引与检索系统的要求。
虽然相比标题法与元词法,叙词法有很大优势,但由于其词汇控制要求较为严格,词表的编制与管理难度较大,需要投入大量的人力、物力。
4)关键词法
关键词法是用没有规范的,或少做规范的自然语言对资源进行主题标引和检索的主题法类型。关键词法是最早用于计算机信息检索的自然语言形式。在全文检索时代,关键词标引与检索发挥了重要作用。
关键词法具有很多优点,其具体表现在:
a) 每个关键词都是平等的,都按字顺轮流排到检索位置,提供多途径的主题字顺检索。一般的,每一个信息的关键词有多个,它们不仅都能作为检索入口,分别提供主题字顺检索途径,而且共同表达信息主题,有时还与非关键词一起表达主题概念。
b) 因为使用自然语言,所以关键词表达主题比较直观、专指,可以保证较高的检准率。所以,关键词语言在快速提供主题检索工具上是首屈一指的。
3.主题图
主题图是一种用于描述信息资源的知识结构的元数据格式,它可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系。现实世界中的客观事物往往具有其自身的某些特征,比如名称、位置、存在的特定范围以及一事物和其他事物之间的联系等,这些事物在主题图中的反映就是一组主题。这些主题同样也包含自身的特征集合,最基本的特征是:主题的名称、主题所在的资源出处,以及它与其他主题间的关联,从而形成一个网络化的知识结构,便于知识的组织和查询。一个主题图就是一个由主题(Topic)、关联(Association)以及资源出处(Occurrences)组成的集合体(TAO)。
4.本体(Ontology)
本体最早是一个哲学上的概念,是关于存在及其本质和规律的学说,关心的是客观现实的抽象本质。在现代信息管理领域本体是指给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则。
本体是网络信息时代的产物,采用了容易为计算机所接受和处理的体现描述逻辑的组织方式,不仅有利于概念之间关系的表达,而且更有利于计算机对知识的集中、挖掘、共享、处理和利用。本体能更规范、准确地描述概念含义以及概念之间的内在关联,可以构造丰富的概念间的语义关系,有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系,并成为语义网结构的主干和核心。
五、知识组织体系在数字博物馆建设中的功能与作用
知识组织体系在用户的信息需求和信息资源之间起着桥梁的作用,通过这种桥梁,用户可以找到自己感兴趣的信息,而不必事先知道它的存储位置。无论是通过浏览还是直接的检索,知识组织体系都能够通过一个知识发现的过程来指导用户。数字博物馆是综合的、分布式信息服务平台,在一个统一的平台实现为用户提供方便、快捷、全面、准确的数字信息资源,不仅需要解决数据异构问题,更需要解决语义异构,需要通过标准规范的知识组织体系,对资源进行更全面、深入、准确的内容描述与揭示。
1.知识组织体系是数字博物馆为用户提供信息浏览与检索服务的基础
建立数字博物馆的目的就是为用户提供高质量的信息服务。数字博物馆的信息来自多个方面,既有实体博物馆信息的数字化转化,也有原生态数字信息,更有来自互联网的丰富信息。为了追求为用户提供高质量的信息服务的目标,数字博物馆在资源建设的过程中必须重视资源的加工,特别是内容描述,通过使用适用的知识组织方法与工具,将这些来源不同、杂乱无章的信息进行精细加工,深度挖掘,并在数字博物馆应用服务平台——数字博物馆网站引导用户浏览与检索。
2.知识组织体系是数字博物馆进行知识标引和知识加工的依据
为用户提供科学的、高质量的、学习型的信息浏览与检索服务,数字博物馆就必须对其管理的资源进行深入、准确、广泛的内容加工与标引。标引和加工是给予检索标识并予以排序的过程,知识的标引和加工必须依据一定的标准和规范来进行,而知识组织体系提供了这种标准和规范。
目前,出现在国际互联网上的数字博物馆大多是实体博物馆数字化资源的集中展示与服务。在国际互联网出现之前,博物馆的服务主要集中在展览展示、公共教育,并没有形成图书馆的信息检索服务。因此,我国大多数博物馆的信息资源管理,即使建立在非常先进的技术平台之上,但所能提供的信息检索服务依然是简单粗放的,不能满足用户的基本需要。许多数字博物馆平台的资源检索服务主要以资源客观信息为检索途径,极少或根本没有提供对资源内容主题的检索,不仅不能使数字博物馆的资源得到全方位的揭示,也为用户检索信息带来不便,数字博物馆的建设效益受到极大影响。为此,数字博物馆应在进行资源建设、应用服务建设的同时,引入知识组织体系建设,建立一个既满足当前需要,又具有可拓展性、可以持续发展的知识组织体系。