
基于生命周期的动态科学数据服务模式研究.docx
13页基于生命周期的动态科学数据服务模式研究 杨传汶,徐坤摘要探讨如何有效开展科学数据服务,通过专家访谈法参考专家意见,借鉴国内外相关研究和实践,以科学数据生命周期理论为基础,结合科研工作流程,提出动态科学数据服务模式,并给出渐进开展科学数据服务的建议关键词科学数据生命周期动态科学数据服务引用本文格式杨传汶,徐坤.基于生命周期的动态科学数据服务模式研究D].图书馆论坛,2015 (10):82-87.1 国内外科学数据服务研究概况欧美发达国家的科学数据服务发展较快,在数据开发、检索、存储、咨询、分析等方面取得了较好的成绩数据开发服务主要是对科学数据进行组织,使之更好地被共享和利用,如美国加州大学图书馆对学校实验室数据进行收集和整理数据检索服务主要是帮助用户获取所需数据和相关资源的信息,实现文献资源和相关数据资源的交叉链接,为科学数据用户提供系统服务,如德国国家科技图书馆利用给数据对象分配唯一的标识符实现文献对科学数据的链接科学数据存储服务是科学数据服务的重要内容,是其他相关服务的基础,有效地对相关数据进行存储才能实现科学数据的共享和复用,如哈佛和麻省理工大学联合建立数据中心,供本校教师进行数据存储和获取。
数据咨询服务主要是针对用户需求,帮助用户选择数据知识库,协助用户制定相应的数据管理计划,如麻省理工大学图书馆提供地理GIS数据、社会科学数据、生命科学数据的咨询服务科学数据分析服务主要是对科学数据之间的相互关系进行分析,总结出新内容或者发现相关领域的研究趋势,如哈佛大学Data-verse Network项目就提供利用sPss和STATA对数据进行分析服务,并能对分析结果进行下载另外,数据服务人员的教育培训、数据服务软件工具的开发等在国外都有较好发展国内科学数据服务的研究起步较晚,但近年呈现蓬勃发展趋势,在CKKl上以“科学数据”为主题进行检索,对检索到的相关文献进行筛选,得到科学数据相关论文篇数见表1(检索时间:2015年2月27日)由检索结果可知,科学数据一直是科研人员关心的热点,2013年开始受到更多的关注和研究从内容看,多为对国外相关理论和经验的介绍,洪程以东南大学研究生为对象调查科学数据需求与利用情况,还有一些单位做了科学数据管理上的实践,如武汉大学的社会科学数据管理中心从实际效果看,虽然国内科学数据服务对科学研究产生了积极影响,但与欧美发达国家相比还存在差距,许多方面仍然需要完善。
尽管国外有较多的实践经验,但由于服务对象和科研环境不同,国内科学数据服务不可能完全照抄国外经验同时又因为数据服务是一项系统的持续的任务,有大量工作需要做,如何系统地开展国内科学数据服务,具体有哪些工作需要做,这些问题是在目前科学数据服务研究蓬勃发展的情况下亟待解决的,需要一个有效合理的科学数据服务模式来指导科学数据服务的具体实践,以促进科学数据服务更好实施基于此,本文参考国内外相关研究和实践,结合科学数据生命周期和科研过程,提出覆盖整个科学数据生命周期的动态科学数据服务模式,并对科学数据服务实施提出建议2动态科学数据服务模式构建构建动态科学数据服务模式需要正确理解科研过程和其所需数据服务,为此,本研究在参考相关研究文献的基础上,于2014年10月对相关专家进行访谈访谈过程如下:(1)拟定访谈提纲除介绍访谈目的、意义、匿名保证等基础项目外,还需参考相关研究文献,从中抽取整理科研过程、科学数据生命周期等知识,访谈人员要熟悉相关内容,保证访谈过程中与专家有良好的互动交流访谈提纲可在与专家访谈后进一步完善,以利于后续访谈取得更好的效果2)选择专家为使访谈有效进行,笔者从吉林医药学院选择访谈对象,包括临床医学、检验、口腔影像、药学等科学数据产出较多的专业。
首先由笔者工作部门领导与相关院长沟通,而后院长推荐专家,保证访谈工作顺利进行在被访谈的40名专家中,教授25人,副教授12人,均曾主持过省级以上科研项目或者是项目的主要完成人,了解和掌握科研过程,对数据服务具有较高需求,其中3名是中级职称,主要从事实验室实验工作,日常工作中科学数据接触频繁,对科学数据服务需求内容较了解因为被访谈人员均由各个学院院长选择推荐,在科研过程、科学数据服务需求内容等方面的意见具有一定代表性,能够对相关内容做出较真实的反应3)进行访谈,访谈地点双方约定,保证不受外界干扰,一般宜选择小型会议室首先记录专家的性别、年龄、专业、学历、研究方向等基本信息,使用录音笔需经专家同意访谈内容按照提纲顺序进行,注意访谈过程与专家进行适度互动,主要是介绍和解释相关研究成果中的科研过程、科学数据生命周期等内容,同时在访谈过程中保证对访谈核心问题理解的全面性与深刻性访谈时间一般在30分钟左右,访谈结束后请专家核实记录内容4)访谈结果分析整理整理专家访谈结果,再选择10名被访谈教授对结果进行修正和确认,最终得到一般科研过程和科学数据生命周期科研过程一般包括如下步骤:①制定计划,设计如何实施整个科研项目;②进行实验,采用相关的仪器设备采用相关的方法进行实验;⑧收集数据,对实验过程中所产生的数据进行收集整理;④解释与分析,将整理好的数据进行加工,分析其相互关系;⑤得出结论,整理分析结果,得到相应结论;⑥表达与交流,对结论进行合适的表达,与其他科研人员交流;⑦评价与改进,在交流过程中对结论进行评价,改进不够理想的地方。
在科研活动中,科学数据由最初创建的初始数据,经过科研人员的解释和处理形成中间数据,并进行存储管理、复用,最后随着研究的进展将数据发布整理结果数据,再被其他研究所引用,形成这样一个生命周期过程各研究机构和学者给出了不同的数据生命周期模型,如英国的Data Archive项目把数据生命周期分成6个阶段”,澳大利亚国家数据服务项目将数据监护分成了创造、存储、描述、标识、登记、获取、检索、开发等8个环节在与专家有效沟通上述科学数据生命周期的情况下,获取专家对科学数据生命周期的设置建议,经整理后将科学数据分为计划、生产、保存、筛选、存储、利用、更新等7个阶段,在每个阶段所需进行的工作内容也不相同,具体如下:①计划:进行科研工作前须有周密计划,在计划阶段设计好数据生命周期每个阶段的任务和需注意的问题,能使科学数据服务实施更加容易和可靠,同时让相关人员清楚自己的任务,保证工作有效地开展对科学数据而言,要满足后续的数据存储和共享复用,需]要针对本学科并兼顾科学数据的跨系统应用做好科学数据的元数据模板,明确需要记录的内容,以及应以怎样的方式对记录进行有效组织,方便科学数据在不同的系统中处理和利用②生产:做详细计划后是实施科研工作,在这个过程中科研人员利用自己的专业知识,参考其他相关知识和数据,进行科学研究.利用科学数据元数据模板记录科学研究产出的数据。
由于科研人员在查找资料和相关数据上要花费大量的时间和精力,他们需要更专业的人员和机构为他们提供相关服务,基于国内科学数据交流与共享的实际情况,对科学数据的服务需求更为明显⑧保存:科研过程生产的科学数据存入临时存储系统,为进一步研究使用这些原始数据来自于科研人员的研究项目,不同的研究人员对同一数据可能产生不同的想法,进而产出新的研究成果,这就是科学数据的增值性特点即使是错误的或者失败的数据对避免同类错误发生也具有重要的借鉴价值而科研人员保存数据的情况亟待改进,目前,这些数据多数是零散的以表格的形式存在于计算机中,缺乏安全机制,数据丢失情况严重,更不利于数据的复用和共享,科研人员急需专业的服务将他们从不太合格的数据管理员的角色中解放出来⑧筛选:由于科研实验产生大量的原始数据、中间数据和结果数据,鉴于科学数据存储需要花费一定的人力物力,并不是所有的原始数据都需要进行存储,只需要对原始数据进行筛选,选出具有长期存储价值的数据,这个过程需要同行的参与,在与其他研究人员充分交流的基础上筛选的数据才能更好的保证有用的数据不被误删,发挥其应有价值而要实现这一目标需要有一个合适的交流平台,既能保证数据交流,又能保证数据的安全。
⑤存储:将筛选出的科学数据存储到数据中心,让更多的科研人员复用和与其他科研人员共享交流,并做好备份工作共享和交流最多的是结果数据,但因为各种原因结果数据往往不够完整,并且加入了研究人员的主观因素,导致复用数据的人员对科学数据产生误解和误用因此,存储数据需要将更加完整的原始数据和中间数据也以不同的版本存储,这样科研人员可根据需要对数据进行较好的利用,减少因误解而造成的错误信息组织不是科研人员的专长,需要专业的服务技术帮助他们实现科学数据的有效组织,发挥科学数据的最大价值⑥利用:数据中心的科学数据应可较方便地为科研人员提供检索、下载等服务,根据需要,还可以进行数据分析等高级应用服务,这部分一般是科研数据创建者已经完成科研工作,将数据完全公开在科学数据中心,由科学数据中心向其他科研人员提供服务⑦更新:因为科学数据是动态存在的,在被其他科研人员共享复用的过程中可能不断对原有数据进行完善和更新,并且这一过程可能多次出现,科学数据服务中应该能够提供该项功能,如果不是数据创建者本人对数据更新,应该提供便利的沟通渠道,使双方对数据更新达成一致意见,以保证数据的质量和数据不被滥用科学数据经历一个从创建到更新,再到其它研究继续应用进而产生新的科学数据的一个动态的循环过程,并且与科研过程紧密相联。
通过调研得知在科学数据生命周期的每个阶段都需要不同的科学数据服务,并且服务随着科研过程的推进而动态变化着,其在科研活动过程中的周期如图1由图1可知,科学数据在科研过程中不是一成不变的,可能会经过若干次的利用和修正,在利用中被不断更新和完善,是一个循环上升的过程,不但如此,一个科研项目虽然结束,其数据存储到数据平台还可以被其他项目所应用,继续发挥其更大的价值,这也正是进行科学数据服务的目的所在在确定科研工作流程与数据生命周期的基础上,将第一轮访谈中专家建议的服务基于生命周期进行分类整理,如计划阶段需要哪些数据服务,本研究采用德尔菲法的理念选择15名教授(包括做确认的10名)进行了三轮调查,对所调查内容专家们具有较高的收敛度,整理后得出动态科学数据服务模式,如图2所示在此模式下,数据服务人员参与整个科学数据生命周期,在不同阶段提供不同服务,使数据服务形成一个动态的有机的整体,保证科学数据的完整性,避免数据描述不全而造成的理解上的误解,更有利于科学数据被有效共享复用或者二次开发,发挥科学数据的最大价值动态科学数据服务模式要求科学数据服务人员与科研人员密切合作,对提高科研人员的数据信息素养具有重要意义,能更有效地促进科研人员共享科学数据,发挥科学数据的最大价值,提高科研效率。
动态科学数据服务模式需要具有以下特点:①科学数据服务内容的整体性动态科学数据服务模式基于科研工作过程和科学数据生命周期,覆盖科研过程的各个阶段,针对科学数据的整个生命周期对科研人员提供科学数据服务②科学数据服务的动态性与及时性动态科学数据服务模式不但要覆盖科研过程的各个阶段,同时还要根据科研人员的工作的动态需要及时地为科研工作提供服务③以科研用户为中心从科研人员进行科研计划、资料搜集到科研工作的进行、科研成果的存储与利用,数据服务人员要提供相应的数据服务,如帮助科研人员制定科学数据管理计划、帮助科研人员搜集相关科学数据、有效组织存储数据、利用数据服务等,做到按照科研人员的需求,并以科研人员的科研活动为重心为科研人员提供科学数据服务④完整存储科学数据动态科学数据服务强调对整个科学数据生命周期进行服务,能够对科学数据的各阶段的状态做及时准确的存储,并由专业的信息组织人员与相关领域人员共同完成,既保证数据的准确完整性,又能保证数据的长期可用,避免因数据描述不全而造成的理解上的。












