
RDA与关联数据.docx
8页RDA与关联数据 摘要:作为新一代编目规则,RDA在应用模型、书目记录的结构、术语和编目规则等方面与其前一个版本AACR2相比,有很大变化RDA首先区分书目对象相关实体,再确定各类实体所需描述的属性,以及各类实体、属性、取值等要素之间的关系,并对各类规范取值词表进行规定这种基于概念模型的描述特别适合利用语义网技术来实现关联数据是语义网的一个简化方案,以RDA编目的书目数据用关联数据发布,能使RDA的潜力发挥到极致不久的将来,具有语义的书目数据在互联网上将不断增多,书目数据的普遍关联将指日可待图3.表3参考文献16关键词:RDA,关联数据,开放数据分类号:G254书目数据是图书馆最重要的财富之一,也是图书馆赖以开展一切业务和服务活动的基础图书馆的书目数据历来以有序、规范、有效地反映馆藏著称,如果将一馆的书目数据看成是其整个馆藏资源的结构化索引,那么所有图书馆目录的联合体就可以看成是人类所有社会知识的缩影然而网络时代信息与知识高速增长,图书馆作为社会知识主要传播者和集聚地的地位岌岌可危,但职业的终极梦想——收藏和整序人类所有知识——不会轻易放弃,图书馆传统的书目控制方法有必要引入新的理念、方法和技术,进而走出“围城”,不断适应数字化环境,正在成为网络从业者的共同理想,不断得到验证和推崇书目数据的有序化,直接取决于图书馆行业长期使用的编目规则。
然而迄今为止,还没有哪一套编目规则,能够为全球一致采用,涵盖所有文献资源类型,并支持图书馆与外界信息系统进行内容整合而且至今,图书馆的信息资源还基本上没有成为一种广为人知的网络存在,能够被方便地查找、标识、选择、获取、验证、参考引用以及进行再创造近年来“资源描述与检索”(简称RDA,下同)的推出和“关联数据”技术的兴起,第一次为上述目标的实现提供了一种可能[1-2]1 从AACR2到RDA:不同的世界观图书馆编目是对将要纳入馆藏的资源进行描述(也称为“著录”)和处理的过程,其目的是便于读者的利用和图书馆的管理,可以总结为“功能需求”,其结果是书目记录构成的体系,不论是书本的、卡片的、机读的或者网络的根据“元数据是关于数据的数据”的定义,图书馆的目录系统也就是图书馆馆藏资源的元数据体系目录是对于馆藏的模拟,对馆藏结构有什么样的认识,就会有什么样的目录结构当然,这种认识是不断发展的,其发展过程尤其与计算机技术的进步密切相关,计算机所创造的信息世界本身就是对现实世界的模拟,从面向过程到面向对象,有许多分析方法和建模方法,都丰富和发展了人们对于知识内在结构的认识,使人们能够更好地通过计算机操纵、管理和利用知识。
编目规则从AACR2(英美编目条例第二版)发展到RDA就深刻反映了这种变化RDA是旨在取代AACR2的新一代编目条例,这种变化不仅仅是简单的编目规则的变化,它其实反映了两种世界观的不同:AACR2把知识世界看成是文献的空间,通过文献(记录有知识的一切载体)来管理和传播知识,文献需要区分种类,需要从各个角度,以各种指标和参数去描述和揭示,才能很好地利用;而RDA把知识世界看成是相互联系的各类实体的空间,这些实体对象有类型,有属性,有关系等,需要利用实体一关系方法进行分析建模前者的知识空间可以看成是一个硕大的平面结构,而后者是相互联系的一个多维度的网状空间(参见图1和图2)RDA和AACR2在文本结构上的不同也反映了它们不同的特点RDA应用了国际图联(IFLA)提出的“书目记录功能需求”(简称FRBR,下同)概念模型,该模型采用实体—关系分析方法,把图书馆编目对象抽象为三类实体:作品及其各类物化实体(作品—表达—表现—单件)、责任者实体(个人、家族和机构团体)和主题类实体(概念、实物、事件、地点等),从属性描述和关系描述两个方面进行规范,改变了AACR2以具体的资源类型(图书、舆图、手稿、乐谱、音像资料、图像资料、电子资源、三维艺术作品及教具、缩微资料、连续出版物等)分述编目规则的体例(参见表1)。
这些类型在FRBR中基本都属于“载体表现”层次同时,RDA所采用的术语发生了很大变化(参见表2)所有这些改变有助于将图书馆的资源对象抽象为一个统一的模型,资源类型的不同只是它们实体属性和关系的不同,并无实质性的区别,从而可以在同一个框架中以不同的属性、关系和取值来区别这样做的结果是改变了传统书目数据平面结构,并且使编目规则完全独立于数据编码和格式(尽管现在还都是以MARC字段来论述RDA)表1 AACR2与RDA体例结构的比较AACR2结构RDA结构Part I Description①General Rules for Description②Books,Pamphlets,and Printed Sheets③Cartographic Materials④Manuscripts⑤Music⑥Sound Recordings⑦Motion Pictures and Video recordings⑧Graphic Materials⑨Electronic Resources⑩Three.Dimensional Artefacts and Realia⑾Microforms⑿Continuing Resources⒀Analysis Part II Headings,Uniform Titles,and References(21)Choice of Access Points(22)Headings for Persons(23)Geographic Names(24)Headings for Corporate Bodies(25)Uniform Titles(26)References FRBR/FRAD Attributes①Attributes of Manifestation and Item②Attributes of Work and Expression③Attributes of Person,Family,and Corporate Body④Attributes of Concept,Object,Event,and Place FRBR/FRAD Relationships⑤Primary Relationships⑥Relationships to Persons,Families,and Corporate Bodies Associated with a Resource⑦Subject Relationships⑧Relationships between Works,Expressions,Manifestation,and Items⑨Relationships between Persons,Families,and Corporate Bodies⑩Relationships between Concepts,Objects,Events,and Places表2 AACR2和RDA主要术语的比较AACR2术语RDA术语Area著录项Element元素Main Entry主要款目Authorized Access Point规范检索点Added Entry附加款目Access Point检索点Area著录项Element元素Uniform Title统一题名Preferred Title of Work作品的首选题名Heading标目Preferred Access Point首选检索点See Reference见参照Variant Access Point变异检索点Author,Composer,etc.作者、作曲者等Creator创作者Physical Description稽核项Carrier Description载体描述Chief Source主要信息源Preferred Sources首选信息源2 从语义网到关联数据:一个简化的实现语义网(Semantic Web)的基础是采用资源描述框架(Resource Description Framework,RDF)对内容进行编码,从而使计算机能够处理语义。
RDF本身就是表达元数据的基本结构,即“资源—属性—属性值”三元组形式,是最基本的语义单位,也是语义网的结构要素这里对于“资源”的定义是“具有统一资源标识符(URI)的任何东西”,也就是说资源必须是一种网络存在,如果是物理资源,它也必须有一个具有URI的网络替身(surrogate)语义网是万维网的发明人Tim Burners-Lee于1998年提出的概念,依据是其著名的语义网“堆栈”图,它是指在现有的万维网基础上,通过增加语义描述(RDF编码),使一部分网络资源具有语义表达能力[3]元数据是一种最基本的语义表达,在此基础上,可进一步利用本体语言(也是基于RDF)来表达领域模型中各类实体、属性、属性值之问的各种逻辑关系(主要是表示为描述逻辑的一阶谓词逻辑),从而支持一定的语义搜索,甚至具有初步的逻辑判断和推理能力语义网概念1998年提出至今已经十多年了,可能是因为语义堆栈过于复杂,RDF的抽象概念又很难被大众所认识,其应用基本还局限于学术研究领域的试验性项目开发对于计算机技术来说不普及往往就意味着遭淘汰,Tim Burners-Lee在2006年提出“关联数据”概念[4],通过规定四个简单的发布原则,使所有的网络用户都可以进行自定义语义信息的发布。
这四个原则是②:①使用URl作为任何事物的标识名称;②使用HTTP URl使任何人都可以访问这些标识名称;③当有人访问某个标识名称时,以标准的形式(如RDF,SPARQL)提供有用的信息;④尽可能提供相关的URI,使人们可以发现更多的事物这四个原则只是对数据发布的基本方式——命名和编码(URI+RDF)——作出了规定,这两项内容属于语义网堆栈的基础内容,因而可以认为关联数据是语义网的一个简化实现[5]下文针对图书馆的编目工作来解释上述四个原则:原则一:要求编目对象所涉及的一切实体都应该是一个网络存在,并以URI表示这个网络存在的名字,而不是一个简单的文档链接;原则二:规定了这个网络存在可以通过万维网上最通用的“超文本传输协议”进行获取,不需要任何特殊的、私有的协议(如SRU/SRW之类)或者任何应用程序接口(API),这实际上决定了关联数据的通用性和开放性;原则三:希望以标准的元数据格式(最好是 RDF),尽可能完整地提供书目信息,也就是说元数据越丰富越好;原则四:非常关键,它希望在对一个资源进行元数据描述时,尽可能复用已有的URI资源,例如某本书的作者,应该以某个权威机构发布的人名规范档中该作者的URI作为属性值,而避免使用作者名的字符串(这里称为“普通文字”,即literal),更不宜采用“空节点”(blank node,即没有全局命名域的本地资源)。
符合上述四个原则的书目数据都是关联数据从上述四个原则的表述可以看出,只有第一、二个原则是硬性规定,第三、四个原则很灵活,只是一种建议或推荐而已如对于原则三,很多人并不赞同一定要以RDF形式发布数据,认为也可以有其他形式,如目前谷歌和微软等公司都支持的微数据Microdata也算一种描述语义的标准格式;对于原则四,只有当网上以URI形式发布的数据越来越多时,才能建立起丰富的语义链接[6]W3C(世界万维网协会)对数据的关联程度进行了定义,提出了五个“星级”的渐进标准③:一星:以任何开放协议和格式发布于万维网;二星:以一种机读格式,例。
