
[2022年以来国外引文分析研究进展]引文分析范文.docx
12页[2022年以来国外引文分析研究进展]引文分析 摘要 引文分析是指采用各种数理统计和逻辑方法对文献的引用频率、模式和图像进行计量研究该文综述2022年以来国外在引文分析的基础理论、研究方法、研究前沿探测应用、引文指标四个方面的研究进展 关键词 引文分析 加权直接引用 卡罗林卡指数 王冠指数 引文分析(Citation Analysis)是指采用各种数理统计和逻辑方法对文献的引用频率、模式和图像进行计量研究,将文献、著者、大学、国家以及其他感兴趣的特征项作为分析对象,以便揭示其内在规律分析文献的引用关系可以揭示出科研成果之间的联系,发现学科热点与前沿,预测学科的发展趋势,遴选核心期刊、评价科研机构或国家的学术地位等 作为信息计量学的子领域,引文分析的迅猛发展源于20世纪73年代科学引文索引(SCI)的诞生进入21世纪,Scoups、Google Scholar等新型数据库工具的出现进二步丰富了引文研究的数据源,通过这些大规模的引文数据,学者们可运用统计分析、线性代数、聚类算法等数理方法来分析和评价科研产出活动,与此同时,引文分析研究领域自身也形成了一系列新理念和新方法,如影响因子、皇冠指标、文献耦合等。
近年来,加权直接引用、VOS等新型方法工具的出现使引文分析研究成为国内外学者眼中一颗耀眼的明星为此,本文以上述知识为基础,综述近年来引文分析在理论与实践两方面取得的研究进展,以供国内同行参考 1 引文分析的基础理论研究 回顾引文分析的发展历程不难发现,基础理论的研究都有力促进了领域的变革,丰富了引文分析的实践来源,著名文献计量学家Garfield、Persson、Small等对引文分析的基础理论作出了杰出贡献“]引文分析的基础理论主要包括引文关系的相关概念和引文方法及其相关指标的研究引文关系的研究是引文分析的基础广泛使用的引文分析工具ISIWeb of Knowledge数据库、BibexceI等均涉及多种引文关系在引文基础理论研究中,Small对引文关系进行了划分,Small将引文关系划分为直接引用(Direct Citation)、文献耦合(Bibliographic Cou-pling)和同被引(Co-citation)等三种类型如图1所示瑞典学者Persson在上述三种引文关系类型的基础上,在最新的研究中引入共享引用(sharedReferences)和加权直接引用(Weighted Direct Cita-tion)的概念,对引文关系的基础理论进行了拓展。
图1表示一组引用数据集,圆和箭头分别表示文献和引用关系记文献A-E,M-P发表的时间分别为t(sub)1(/sub)和t(sub)2(/sub)、t(sub)1(/sub)>t(sub)2(/sub))若A引用M,那么二者就构成直接引用关系如文献簇(A,M,N)同理还有文献簇(C,D,O),(E,P)若两篇或多篇文献同时引用一篇文献,其中施引文献簇构成耦合关系,如文献簇(C,D),若一篇文献同时引用两篇乃至多篇文献,则这组文献存在同被引关系其中,施引文献和被引文献簇的集合称为同被引(Co-citation Analy-sis),亦称共引,如文献簇(A,M,N);被引文献簇表示共引聚类(Co-citation Clusters),如文献簇(M,N) 共享引用是指文献耦合中的被引文献簇,如图1中耦合文献簇(C,D,O)中的文献OPersson综合直接引用、共享引用和同被引三种引文关系类型提出了加权直接引用的理论方法,所谓加权直接引用,是指将共享引用和同被引两种情形与直接引用整合,使之成为一个新的引用强度,Persson把它称为加权直接引用(Weight Direct Citations,缩写WDC)。
其测量可用图2解释:由于A和B引用c,所以文献簇A和B对于C来讲,是耦合关系;同时D引用A和B,文献簇(D,A,B)是同被引关系,综合这两种关系,A到B的直接引用链接被加强假设对每一种关系计分为1分,那么,在这个集合中,对于AB的加权直接引用得分为3如图2所示 加权直接引用理论在引文分析应用实践中具有重要作用以探测研究前沿为例,它有利于更加理性看待直接引用、文献耦合和同被引在探测研究前沿方面的作用Shibata研究认为,直接引用较同被引探测研究前沿更理想,主要原因是同被引需要一定的时间才能体现出来Persson认同Shibata的观点,同时叉认为,共享引用和同被引均能够对前沿探测产生重要的影响,这是因为论文的参考文献会随着引证文献主题的相似发生相当大的变化,直接引用链接越多,基于相似性产生共享引用和频繁被引的可能性越大因此在探测研究前沿方面要对共享引用和同被引进行加权引入加权直接引用,有利于在研究前沿中探测有意义的子领域加权直接引用的方法已经用于Persson所开发的著名引文分析软件Bibexcel中 2 引文分析研究方法的实践进展 引文分析研究方法是引文分析中的核心。
回顾引文分析的每一次发展,引文分析研究方法都对引文分析有着显著的促进作用引文分析研究方法一般由引文分析工具、引文分析流程、引文分析指标等构成例如,文献耦合的流程可概括为图3所示: 2.1 VOS科学图谱在共现机理中的应用 基于文献数据建立科学图谱的研究方法可直观地发现文献中的各种现象,从而总结引文规律多维尺度分析、可视化分析等分析手段均是引文分析中的科学图谱分析方法荷兰莱顿大学Van Eck等人在多维尺度分析(Multidemensional Scaling,缩写MDS)的基础上提出了一种新的文献计量地图技术VOS(Visualization of Similarity)多维尺度法是运用压力函数(Stress Function)将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法VOS方法是对MDS压力函数的加权,较多维尺度法基于邻近指数和余弦方程产生的MDS-AS和MDS-COS方法,COS在聚合度和区分度两种关键评价指标上均要优于多维尺度法 Van Eck选取情报学中的作者共引、社会学期刊的期刊共引和运筹学领域的关键词共现三种数据集,分别采用MDS-AS、MDS-COS和VOS三种方法进行实验,其结果如下图所示: 由上图看出,VOS方法在三种领域均有较好的聚合度和区分度,明显优于MDS。
为了配合VOS在实践中的推广应用,Van Eck于2022年推出了开源软件VOSviewer供学者使用,可到网上下载开源软件包 2.2 多视角共引分析法识别学科结构 近年来纳米学科的结构是怎样的?该结构中的主要板块是什么?其中有哪些研究领域/专家?这 些类似的问题在不同学科经常引起学者的关注引文分析自产生以来就对学科结构的揭示进行了研究,常用的方法有:聚类、多变量因子、主成分分析 等2022年,Ibekwe-SanJuan运用文本分析软件TermWatch和网络可视化软件pajek绘制了情报学的结构Chen Chaomei等人则从情报学知识图谱的动态视角运用多视角共引分析法解析共引网络的动态属性 Chen Chaomei选取情报学领域2022-2022年间12种著名期刊所发表的论文,运用Citespace软件绘制了作者共引分析(Author Co-citation Analy-sis,ACA)和文献共引分析(Documentation Co-cita-tion Analysis,DCA)可视化知识图谱,分别对两种地图从结构、时态、语义模式以及共引聚类的引用与被引项进行解析识别情报学的学科结构和专家。
较Ibekwe-SanJuan在2022年的研究,Chen Chaomei等人讨论了被引参考文献的结构模式,在揭示文献间的隐含信息方面推进了一步 3 研究前沿探测方法的应用进展 在科学研究中,研究前沿对于科研人员捕捉创新思想,占领学科制高点有着不可估量的作用,运用引文分析来探测研究前沿也就成为引文分析应用研究最活跃的领域之一荷兰、美国、瑞典、日本等国学者都在此方面作出了重要贡献近年来引文分析在研究前沿的探测应用研究方面有进一步加强的趋势 3.1 最佳引用类型探测研究前沿 确定研究前沿是建立在对研究前沿概念界定的基础上的研究前沿至今尚无统一的定义,较具代表性的观点可分为三种派别:一种是以瑞典学者Persson为代表的施引文献派别:即将一组高被引文献簇的施引文献作为研究前沿;一种是以Price和Small为代表的高被引文献簇派别:即将特定领域内被新近发表的论文引用的早期高被引文献作为研究前沿;一种是以Chen Chaomei为代表的以突发热点主题称为研究前沿的突发热点派别不同的流派在分析方法上各有不同如表1所示: 上述三种派别充分体现了研究前沿定义的争议性但是,这并不妨碍学者对不同学科研究前沿的揭示。
从发表的文献来看,文献计量学界运用引文分析探测研究前沿依据学科特点的不同,一般综合了上述三类派别的观点在研究前沿的认定上,需要结合相关的评价指标进行综合研究2022年,日本东京大学Shibata等人在分析研究前沿时提出了能见度、平均出版年和密度(拓扑相关性)三种指标能见度是对文献簇进行归一化处理后的文献簇大小文献簇越大,越容易辨别前沿文献簇与普通文献簇之间的分布;平均出版年更小,意味着文献簇可更快地被探测到前沿文献簇包括的核心论文;文献簇越密集反映出文献簇形成的核心文献群更具价值,故研究前沿是那些平均出版年越小探测到范围更大和文献更集中的文献簇,Shibata等人将此定义为最佳引用类型该研究选取氮化钾、复杂网络和碳纳米管三个不同研究领域,对每一个领域分别建立直接引用、文献耦合和同被引三种引用网络进行比较研究发现,直接引用能够探测大量和新近出现的早期聚类,在探测研究前沿具有最好的表现同被引效果最差研究还发现直接引用网络的聚类系数(clustering coefficient)最大,反映出直接引用所测出的论文内容相似度最好 3.2 加权直接引用探测研冤前沿 如第1节所述,Persson认同Shibata的研究结论,同时又认为共享引用和同被引也对研究前沿产生一定的影响,但是其影响较直接引用而言要小。
因此,对直接引用网络进行策略上的优化,Perssson引入加权直接引用的概念如图2所示Persson对直接引用、共享引用和同被引赋予不同的权重值与此同时,可能存在论文引用形式不一致的情况:比如有的论文共享引用更多,有的论文同被引情形更多为了区分这一情况,对共享引用和同被引要进行归一化处理例如:如果C受到10篇文献引用它,即共享引用为10,那么1/10即是C的归一共享引用值D引用5篇论文,归一化共引值为1/5最后A到B的归一化加权直接引用值为1+1/10+1/5=1.3 通过设置加权直接引用,形成新的直接引用网络,在探测研究前沿时要通过设置引文链接强度阈值去除不达标的链接对于没有被引用或很少引用的论文可直接排除同时,可去除重复作者集定义的自引链接,以避免论文的聚类被相同的作者或相同集合所统治 较Shibata的研究而言,Persson是对前述研究的深化研究表明,用共享引用和同被引作为直接引用强度的加权是剖析论文网络的有效工具设定阀值对于研究结果有着重要的影响由于网络的复杂度很高,提高阈值将导致更多的论文不被纳入计算范围,从而影响结果及对结论的分析 4 引文分析指标研究进展――卡罗林卡指数 2022年普赖斯奖得主,匈牙利科学家Vinkler P认为指标是科学计量学和文献计量学的本质。
Garfield的影响因子、荷兰莱顿大学的王冠指。
