
科学数据库生态研究元数据标准及其应用课件.ppt
44页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,科学数据库生态研究元数据标准及其应用,侯艳飞,中国科学院计算机网络信息中心,2004.8.25 北京,科学数据库技术培训,1,科学数据库生态研究元数据标准及其应用侯艳飞科学数据库技术培训,思 考,元数据标准之于实际数据管理的作用,中国科学院科学数据库生态研究元数据标准的主要内容,如何基于元数据标准进行实际管理系统的分析设计?,2,思 考元数据标准之于实际数据管理的作用2,目 录,1.元数据标准与实际的数据管理,2.中国科学院科学数据库生态研究元数据标准(SDB-ERM)简介,3.SDB-ERM在实际数据管理中的具体应用实例,3,目 录1.元数据标准与实际的数据管理3,1.元数据标准与实际的数据管理,元数据标准对实际数据管理有何作用?,思考:元数据标准规定了什么?,元数据元素,元素之间的关系,发展应用方案的扩展规则,只分析一种情形下的作用:,Metadata is recorded outside of the file in which the data being described is saved.,4,1.元数据标准与实际的数据管理元数据标准对实际数据管理有何作,specifies information content,but not how to organize this information in a computer system There are several reasons:There are many means by which metadata could be organized in a computer.There include incorporating data as part of an information system,in a separate data base,and as a text file.,Organizations can choose the approach which suits their data management strategy,budget,and other institutional and technical factors.,-引自:CSDGM2.0,5,specifies information conten,需求说明书,元数据标准,需求分析,Information system analysts and developers,元数据需求,功能需求,系统设计说明书,管理系统(利用元数据管理数据),Creators of records,元数据记录,拟组织和管理的数据资源,用户发现、理解、选择和获取数据,实现元数据的功能,总体设计,数据结构设计,6,需求说明书元数据标准需求分析Information syst,代替数据管理系统分析人员完成一部分需求分析工作,约束和在一定程度上统一系统设计人员对系统数据结构的设计,对元数据著录人员理解和著录元数据元素起帮助作用,7,代替数据管理系统分析人员完成一部分需求分析工作7,元数据标准的使用方式,元数据标准,拟组织和管理的数据资源,元数据需求,对比,扩展使用,应用方案,直接使用,扩展规则,需求说明书,功能及其他需求,预算、技术、管理策略等因素,系统设计说明书,开发实现,8,元数据标准的使用方式元数据标准拟组织和管理的数据资源元数据需,元数据标准结合实际需求进行应用流程:Step by step,1.需求访谈-,需求访谈的目的是为了解拟要组织和管理的数据资源的内容、系统建设目标、基本元数据需求等。
2.,需求工作表的说明和填写-,需求分析人员向内容专家发放元数据需求工作表单,专家对各自的需求进行初步分析和填写3.,收回需求工作表,进行初步分析,-分析人员对反馈回来的需求工作表进行初步分析,理解用户的真正需求,初步确定参考的元数据标准9,元数据标准结合实际需求进行应用流程:Step by step,4.,参考元数据标准的选取、比对和调整/扩展,-,进行需求和参考元数据标准的初步比对与分析,对元数据标准于本数据管理系统案例的适用性进行评估,在此基础上,决定直接使用标准还是扩展使用标准,形成本案例需要的元数据方案(格式架构),包括基本元素的设置以及元素与元素之间的基本关系等5.与内容专家讨论和确认元数据方案,-将元数据方案反馈给内容专家,讨论调整确定该基本架构6.,元数据需求说明书,-与系统设计人员一起编写完成元数据需求说明书,作为系统需求说明书的一部分,10,4.参考元数据标准的选取、比对和调整/扩展-进行需求,7.采用或研发系统雏形及测试,8.,在系统中进行元数据著录,并从著录者和数据管理者角度对元数据方案进行评估,9.系统对外提供元数据服务,并从用户角度对元数据方案进行评估,10.根据评估结果,可能需要对元数据方案和系统进行改进,11.在实际应用中发现元数据标准可能存在的问题,向元数据标准制定者反馈,供修订时参考,11,7.采用或研发系统雏形及测试11,2.SDB-ERM简介,制定背景,“十五”科学数据库元数据标准体系建设,生态学研究具有明显的时空性特点,需要丰富而易于存取和共享的数据作为研究支撑,长期性,由定性走向定量,由静态走向动态,由小尺度走向大尺度,跨站点、大范围甚至全球尺度的大规模研究成为热点,在对生态学有关建库单位数据资源调研过程中,发现数据资源特别是观测、试验数据资源的分散保存及缺乏有效的数据组织和管理问题,12,2.SDB-ERM简介制定背景12,制定过程,CNIC联合南京土壤所、西北水保所、成都山地所、东北农业所等制定,2002.8 启动项目,2002.9 需求和基础调研工作,2002.11 SDB-ERM草案,2002.12 召开SDB-ERM工作研讨会,2003.1 SDB-ERM1.0,2003.2-5 标准试应用,用户反馈,部分调整标准,2003.8 SDB-ERM1.1和通用元数据管理工具,2003.9-12 通用元数据管理工具试应用和用户反馈,2004.2-4 列表类型生态学数据管理系统(关系数据库系统)需求,调研和分析,2004.4-7 系统设计、开发,13,制定过程CNIC联合南京土壤所、西北水保所、成都山地所、东北,标准范围和目标,范围,主要针对列表类型生态学数据资源,主要包括关系表格、Excel文件以及具有一定结构的文本文件,数据集层次,目标,为列表类型生态学数据集资源提供一套完整而规范的描述元素,用以指导这类资源的组织和管理。
14,标准范围和目标范围14,标准特点,基于科学数据库核心元数据标准(SDBCM),结合列表类型生态学数据资源的特点进行扩展,模块性,可扩展性,兼容性,15,标准特点基于科学数据库核心元数据标准(SDBCM),结合列表,标准主要内容,内容结构,8个主要模块,3个辅助模块,200多个元数据元素,语义结构,语义定义规则和定义方法,语法结构,推荐采用XML语言及其相关语法结构,16,标准主要内容内容结构16,0.,数据集描述信息,数据集分发信息,研究项目信息,元数据参考信息,服务描述信息,研究方法信息,研究场地信息,结构描述信息,SDB-ERM,范围信息,联系信息,引用信息,0.,0.,0.,主要模块,辅助模块,17,0.数据集描述信息数据集分发信息研究项目信息元数据参考信,应用实例1通用元数据管理系统,直接使用(不针对更特定的数据资源),“虚拟的”数据管理系统(元数据和数据不在同一系统中保存),利用XML技术,元数据记录保存为XML文档,通用元数据管理工具(A desktop application used to create metadata and to store that metadata record both locally and on a shared network server located in SDB Center)元数据管理系统(A metadata database on a server located in SDB Center,for storing metadata,for data users to search and retrieve metadata,and for others)。
3.SDB-ERM在实际数据管理中的应用实例,18,应用实例1通用元数据管理系统3.SDB-ERM在实际数据管,应用实例2试验观测类生态数据管理系统,关键词/句,扩展使用(针对特定需求),利用关系数据库技术开发的管理系统,B/S架构,元数据与数据在同一系统中保存,有效防止数据资产流失,保证数据共享和保护的均衡,19,应用实例2试验观测类生态数据管理系统关键词/句19,需求分析,背景/问题,数据的不可再生:观测/试验的不可重复,历史性试验/观测原始数据的亟待抢救,数据的分散保存和异构:来自观测、试验的原始数据分别保存在专家、项目组手中,数据的保存和组织方法五花八门,数据的不完整保存:数据的相关信息完整保存意识的缺乏和不完整保存现状,通用元数据管理系统相对于需求的局限性,20,需求分析背景/问题20,需求分析(Cont.),所针对的资源范围,“原始的”列表类型生态观测/试验数据,价值珍贵的历史性原始数据,刚产生及正在产生的原始数据,使用范围,机构的信息/数据中心、科技档案处或其他类似部门,系统目的,来自观测、试验的原始数据的挽救和保值,来自观测、试验的原始数据的集中保存,充分尊重和有效保证数据生产者利益和权利基础上的数据管理和服务,21,需求分析(Cont.)所针对的资源范围21,需求分析(Cont.),元数据需求,数据集描述信息(M,1),数据集名称,(M,1),数据集中文名称(M,1),未变,数据集其他名称(O,1),未变,数据集标识(O,1),未变,主题,(M,1),学科主题词,(O,n),主题词(M,1),删除,理由:成本因素;无合适词表。
相应地,自由关键词变为必填主题词表(M,1),删除,自由关键词(M,n),修改,O,M,描述(M,1),未变,目的(O,1),未变,类型(O,1),删除,理由:可通过实体类型反映,数据量,(O,1),记录数(O,1),删除,理由:记录实体的数据量更合理,存储量(O,1),删除,22,需求分析(Cont.)元数据需求数据集描述信息(M,1)数据,理由:资源粒度;可通过场地反映,删除,空间范围(O,1),结束时间,n,1;,理由:同上,修改,开始时间,时间段(O,1),理由:数据资源的时间范围特点,删除,时间点(O,n),时间范围(O,1),学科分类表(M,1),n,1;一个系统宜使用一个分类表,整个系统使用同一个分类表,修改,学科类别(M,n),学科范围(M,1,),数据集范围,(O,1),理由:涉及的引用只可能在研究方法,删除,数据集引用(O,1),理由:相对完整且独立,删除,关联数据集,(O,n),理由:数据与元数据存于同一系统,删除,URL(O,1),理由:皆为汉语,删除,语种(O,1),未变,数据集最近修改时间(O,1),未变,数据集创建时间(M,1),数据集时间,删除,更新频率(O,1),未变,数据集贡献者(O,n),理由:创建数据集,需突出。
添加,数据集编写者(M,n),未变,数据提供者(M,n),理由:针对原始观测和试验数据,删除,数据来源(O,1),数据集描述信息(M,1),续,删除,23,理由:资源粒度;可通过场地反映删除空间范围(O,1)结束时间,数据集分发信息,(O,M,1),数据格式(O,1),删除,理由:可通过实体反映,技术要求(O,1),删除,理由:无需特殊技术,收费策略(O,1),未变,权限声明(O,1),未变,订购指南(O,1),删除,理由:因系统的数据管理策略,访问时间(O,1),删除,理由:必要性很小,分发联系信息(M,1),修改,n1;删除职务名称、主页,24,数据集分发信息数据格式(O,1)删除。