基于引用的科学数据评价研究丁楠黎娇李文雨泽白晋铭潘有能.docx
11页基于引用的科学数据评价研究丁楠黎娇李文雨泽白晋铭潘有能 丁楠1黎娇2李文雨泽2白晋铭2潘有能2(1.浙江大学图书馆浙江杭州310027)(2.浙江大学公共管理学院信息资源管理系 浙江杭州 310058)Reference:科学研究离不开数据的支持,科学数据评价是对科学数据实施有效管理、促进数据共享与重用的基础文章借鉴引文分析方法,选取数据发布量、数据被引量、数据平均被引频次及h指数等指标,构建了基于引用的数据评价体系,并以DCI中的人口调查数据为例进行了实证研究研究发现通过数据引用可以有效地对科学数据的发布及存储机构的影响力进行评估,而DCI虽然由于建立时间较短而不够成熟,但仍可为科学数据的定量评价提供强有力支持Keys:数据共享 数据引用 数据评价 引文分析C250.25 :A:1003-6938(2014)05-0095-051引言现代科学经过数百年的发展,产生了数量庞大而又结构复杂的科学数据,在这些已有数据的基础上开展进一步研究是科学研究的一种重要模式从某种程度上来说,基础数据的质量直接决定了研究的质量,因此科学数据的评价具有重要意义然而目前国内外学界尚缺乏统一的数据引用规范,也没有完整的科学数据评价标准,这为科学数据的评价带来了很大的困难,也影响到了作者和机构共享数据的积极性。
本项研究试图借鉴传统的引文分析,探讨基于引用的科学数据评价方法,选择合理的评价指标,从而达到对科学数据及相应的机构和数据仓储进行客观、有效地评价的目的,促进数据的共享与利用图书情报学领域的专家学者在引文分析研究中已经积累了宝贵的经验并形成了一些较为成熟的方法,这些经验与方法可为数据引用分析提供借鉴但数据引用分析与引文分析仍有明显区别,引文分析的对象主要是文献,而数据引用分析的对象是原始数据或派生数据,在科研素材体系中处于更底层的位置,其粒度也相对更细对数据引用进行分析可以从更原始、更基础的层面上了解科研产出情况,从而提供一个新的对科研机构或学者进行评价的视角2数据评价概述目前专门针对科学数据评价的研究尚不多见,绝大部分的相关研究都是直接针对“数据”这一概念,大致可以分为两种类型:一种是如何评价一般开放数据,即对数据本身的评价;另外一种则是如何评价特定数据环境中的数据,即将数据置身于数据库或信息系统中进行评价 (1)对数据本身的评价对数据本身的评价方法可分为单维度准确性评估和基于多维度指标的评价等在单维度准确性评估中,针对总量数据,可采用逻辑规则检验、经验参数比对、相关指标变动趋势对比、基于模型的异常数值识别与参数稳定性分析等方法,针对个体数据,则可采用统计分布检验与基于统计分布的异常数值识别、基于事后重复调查的偏差估计、误差效应的测量及其模型建构等方法。
基于多维度指标的评价方法通常在给出精确性(给定数据集合与相应正确实际的相符程度)、可达性(数据可以得到的程度)、一致性(数据能以相同格式表达的程度)、完整性(数据无缺失的程度)、时效性(数据的时间特性对应用的满足程度)等指标的定义和计算方法的基础上,对计算结果进行再加工2)对特定数据环境中的数据的评价根据所处数据环境的不同,该类评价方法又可细分为基于数据库的评价和基于信息系统的评价在基于数据库的评价中,依照用户的不同可将评价指标分为数据使用质量和数据质量两方面数据使用质量包括数据查询率、安全性、敏捷性、可响应性、可使用性(可采集到的数据是否在数据超市中得到应用)、有效性(数据的更新频率);对数据质量的评价存在于数据仓库其他模块对数据的操作当中,是反映数据仓库物理层数据的固有属性,包括完整度(非法空值记录的条数)、可信度、正确度(缺省值的记录条数)、一致性、唯一性等在基于信息系统的评价中,数据被视为有生命周期的产品,从数据表示质量、数据值质量、数据模型质量和数据体系结构质量4个维度,对数据质量进行评价以上两种方法在进行数据评价时,尽管针对层面和开展角度有所不同,但都需要建立一个评价体系并设立各种指标,此外还需确定指标的权重,从而不可避免地具有较大的主观性。
更为重要的是,该类评价方法的适应性在复杂的数据环境中将遭受极大的考验,正如很难有一套指标体系直接对各个学科中的论文质量进行评价一样因此,本项研究将摒弃直接对数据质量进行评价的思路,而试图通过科学数据被引用的情况来评价其影响力,并从侧面反映数据的质量及重要程度,从而保证了该评价方法的客观、有效及广泛的适用性3基于引用的科学数据评价数据引用类似于文献引用,是指作者在论文中以Reference、脚注或文中注等方式,对其所引用的数据提供来源出处的做法与文献引用类似,数据被引用意味着数据进入了交流领域被获取和使用,并产生影响数据引用不但意味着使用者对被引用数据及其所有者的认可,还可在数据管理与共享中起到重要作用首先,科研工作者可通过数据引用信息定位并获取数据,从而促进数据的共享与重用;其次.科研人员或管理者可通过数据引用获取科学研究的原始数据,重现研究过程,从而对其结果进行验证;最后,数据引用可以增强数据生产者的被认同感,激励研究人员进行科研创造和共享目前,基于文献引用的引文分析方法在长期发展中已趋于完善和成熟,并被广泛应用于各个层面的测度评价研究,包括微观层面(作者个人、研究小组)、中观层面(机构、期刊)和宏观层面(国家、跨国区域)。
常用的引文分析指标则有发文量、被引量、篇均被引次数、影响因子、h指数等,其中发文量和被引量是两个基本的测度,篇均被引次数和影响因子主要用于衡量机构或期刊论文的平均影响力由于影响因子可以消除由于载文量不同和论文质量参差不齐所造成的对期刊被引率的影响,从而能够在不同期刊间进行比较,目前已在引文分析和期刊评价中得到广泛应用h指数是近年新出现的一种评价指标,综合考虑到了论文发表的数量和质量,在各个层面的测度评价中具有较强的适应性因为数据引用与文献引用之间的相似性,这些指标也可以被数据引用分析所借鉴参照引文分析方法,并综合考虑数据评价的特点与可行性,本项研究拟选取微观层面的团体作者和中观层面的数据仓储作为研究对象,统计其数据发布量、数据被引量、数据平均被引频次及h指数其中,数据发布量即一定时间段内某研究团体或数据仓储发布的总数据量,发布数据是被引用的前提,所以该指标是基于引用的数据质量评价的基本指标;数据被引量即发布的所有数据被引用的总次数,用于衡量某研究团体或数据仓储所发布数据的总体影响;数据平均被引频次即数据被引量除以数据发布量,该指标用于衡量某研究团体或数据仓储所发布数据的平均影响;h指数则综合考虑数据的质和量,某个研究团体或数据仓储的h指数为n是指其发布的数据中至少有n条数据每条被引了至少n次。
2012年10月,全球领先的信息供应商汤森路透旗下的知识产权与科技事业部宣布推出数据引用索引( DataCitation Index.DCI),并将其作为Weh of Knowledge平台上一个新的研究资源,旨在推动对数据的检索、引用与评价,并把这些数据与Web of Knowledge中的文献连接起来借鉴SCI、SSCI等引文索引系统的成功经验,数据引用索引试图为数据的管理、共享、评价提供强有力支持使用者只需在数据引用索引中进行检索,便可获得所需要数据的元数据信息,包括数据的创建者、机构、标题、创建日期等,还可链接到所在数据仓储( Data Repository)中数据仓储是数据的实际存储地,其中包含数据研究( DataStudy)和数据集(Data Set)一个数据研究中往往包含了若干个数据集,例如某数据仓储中存有大量人口普查数据,所有这些数据可作为—个数据研究,而这些数据又可分为20世纪70年代的人口数据、20世纪80年代的人口数据等,这些不同年代的人口数据即是多个数据集对数据仓储来说,数据引用索引的出现不但能提高其数据的被引率,还完善了其元数据,提供了引用信息,让数据生产者知道有哪些作者或机构利用了其数据,也让数据使用者了解到哪些数据属于高被引数据。
数据引用索引的出现有利于建立有效的数据评价机制,激发数据生产者和拥有者共享数据的积极性4应用实例4.l方法与数据考虑到数据的相对全面性和完整性,本项研究选择Web of Science的DCI数据库作为数据来源因为DCI目前所收录的数据量还较为有限,其中图书情报学领域的数据尤为少见,本项研究选取了和图书情报学同属于社会科学大类的人口调查领域进行研究,即在主题检索中输入Population Survey进行查询,时间范围为1900~2014年,共获得13796条数据,然后将数据以txt形式下载并导入Excel中进行处理及统计分析需要注意的是,不同于Web of Scienc,e核心合集,DCI目前的功能尚不完善,平均被引频次及h指数等均需下载数据后自行计算,而作者及机构信息也需进一步精炼4.2数据仓储引用分析经统计,人口调查领域被引次数排名前10的数据仓储如表l所示可以看出,英国国家数据仓储( UK Data Arc,hive,UKDA)和美国高校校际政治与社会研究联盟(InterUniversity Consortium for Political and Social Research,ICPSR)的总被引次数和h指数均遥遥领先。
其中UKDA是英国最大的人文社会科学数据收藏机构,由英国埃塞克斯大学(University of Essex)、经济与社会研究会(Economic and Social Research Council,ESRC)和国家档案局( National Archives)等机构合作建设,其数据收录范围涵盖了人文社会科学及环境保护中的各个领域,资源丰富、类型多样而ICPSR足全球最大的社会科学数据中心,成立于1962年,隶属于美国密歇根大学ICPSR拥有涵盖约6000个主题的50余万种数据资料,主要以会员制的形式提供服务,目前已有约700家学术机构会员遍布全球,包括中国的北京大学、中国人民大学等UKDA和IC PSR中均收录有大量的人口调查数据,并得到了广泛应用UKDA和ICPSR之所以能在社会科学领域产生如此大的影响,其原因不但在于收录的数据量较大,还和这两个机构非常重视服务与推广有关例如,UKDA自1975年起便发行数据通报,2007年起发行电子报,2010年开始举办数据使用案例的征集活动ICPSR同样也非常重视数据的有效使用,自1963年开始便在每年暑假举行社会科学定量研究方法培训班,近年来均吸引到全球近千名青年教师与学生前往学习与交流。
澳大利亚南极数据中心( AUSTRALIAN ANTARCTICDATA CENTRE.AADC)虽然被DCI收录的数据只有41条,但总被引达3082次,平均被引频次达到75.17,说明这些数据的权威性和认可度较高而Figshare是创立于2012年的为科研人员提供发布各类研究产出的平台,其理念是可发现( discoverable),可共享(shareable)和可引用( citable),数据是其主要的发布形式之一,任何用户均可在Figshare上面发布数据因为数据发布者的分散性和成立时间较短,目前Figshare上的数据被引较少综合来看,目前DCI中人口调查领域具有较大影响力的数据仓储主要是UKDA和ICPSR,而Figshare由于其先进的理念和广泛的用户群,有望在数据引用领域产生更大的影响4.3机构引用分析经统计,人口调查领域被引次数排名前10的机构如表2所示可以看出,数据被引次数排名前十的机构中大部分为政府机构,其中英国的政府机构占据4席,包括被引次数最多的英国国家统计署(Office for National Statistics.ONS),英国国家统计署成立于1996年,由原英国中央统计署(Central Statistical Office,c。





