
可视化同被引分析技术综述.doc
15页可视化同被引分析技术综述摘要可视化同被引分析步骤主要包括选择数据 源、确定分析的元素、计算同被引频次、对数据进行 标准化处理、对数据进行降维和图示、对图形进行分 析解释这些步骤中的关键技术在于对获得的高维引文关系数据进行降维和图示,目前应用较多的主要有 聚类分析、多维尺度分析、因子分析、自组织映射神 经技术、寻径网络技术、最小生成树法、三角测量、 力矢量布局算法等其中寻径网络技术以其较好的图 示效果得到较多的应用关键词同被引分析可视化技术分类号G354.2随着信息可视化技术的发展,文献计量学中的引 文分析越来越多地借鉴信息可视化的技术,以形象、 直观的图形方式显现分析结果,使得结论更加具有说 服力在各种引文分析方法中,利用信息可视化技术 最多的应属同被引分析最近几年,通过可视化同被 引分析生成学科知识图在国外得到了蓬勃的发展,并 被应用于科学结构的图示、知识领域的显现、学科前 沿预测等方面本文将对可视化同被引分析中涉及的 一些关键技术进行分析和介绍,希望能够对我国可视 化同被引分析的研究与应用起到抛砖引玉的作用1同被引的概念同被引(co —citation)的概念是由美国人Henry Small在1973年提出的,他最初是以文献为单位进行 分析的,即如果两篇论文a和b被一篇后来的文献C 同时引用,则a与b之间的关系称为同被引关系。
同 时引用a和b的文献越多,则a和b之间的关系越近, 内容上的相似度越大继HenrySmall之后,1981年美 国人Howard D.White把同被引的概念扩展到著者,进 行了著者同被引分析之后,学者们把同被引分析扩 展到了学科、期刊甚至类目等,形成了文献同被引分 析、著者同被引分析、学科同被引分析、期刊同被引 分析、类目同被引分析等虽然分析对象不同,但这 些不同类型的同被引分析有一个共同原理,就是同时 引用两个单元的文献越多,则这两个单元之间的同被 引强度越大,两者的关系越紧密2可视化同被引的步骤和关键技术分析可视化同被引分析的步骤,包含以下几个过程:① 根据要进行的研究选择合适的数据源,抽取数据;② 选定要分析的元素对象,例如期刊、论文、著者、 类目等;③计算元素对象之间的同被引频次,构造原 始同被引频次矩阵;④确定合适的相似度算法对原始 同被引频次矩阵进行标准化处理;⑤用一定的算法把 多维数据在二维或三维空间中聚合并图示出来;⑥对 图形进行分析和解释考虑到操作和应用的便利,目前的一些可视化软 件常常把上述步骤中的④和⑤集成到一起供用户选择 使用由于可视化同被引分析是一个比较复杂的过程, 以上每个步骤涉及到的技术也有很大差异,下面对这 些关键技术进行简要的对比分析。
2.1数据源的选择进行同被引分析首先需要计算数据元素之间的同 被引次数,这一般要依托某一引文数据库的相关统计 数据来进行,但是元素之间的同被引次数的多寡有可 能随所选择引文数据库的不同而有所区别以我国中 国科学院推出的《中国科学引文数据库》和清华同方 推出的《中国引文数据库》为例:2007年3月,以同 样的数据获取方式计算我国水稻研究专家袁隆平和程 式华的同被引次数,在《中国科学引文数据库》中, 两者的同被引次数为2;而在《中国引文数据库中》, 两者的同被引次数则是6造成这一差别的原因是两 个数据库的期刊收录范围大小不一样,前者只收录核 心刊,后者收录范围则比较广因此,作为同被引分 析数据源的引文数据库的选择十分重要,既要保证最 后计算所得的同被引次数不能过低,也要兼顾数据库 所选择期刊的标准,因为引文数据库期刊收录范围如 果过于庞杂,容易使论文被引用作为影响力的测度标 准失去公正性,被高水平的学术期刊引用一次和被一 般推广性科普杂志引用一次显然是不等价的国外学 者做同被引分析一般选用《美国科学引文数据库》(简 称SCI)作为数据源而国内目前可用的具有引文检索 功能的数据库较多,这就需根据将要分析的专业学科 范围以及同被引次数获得的难易程度来选择。
国内的 几个数据库中能够直接检索获得同被引频次的有清华 同方的《中国学术期刊全文数据库》和重庆维普公司 的《中国科技期刊数据库》,对于其他几个引文数据库, 则必须根据下载的引文数据,利用一定的程序进行计 算,才能得到同被引频次2.2分析元素对象的确立这里的元素对象既可以是期刊,也可以是成篇的 文献,或者是著者,或者是类0,甚至是学科类别 数据元素不同,所得到的学科知识图反映的内容和作 用也有所不同用期刊或类目或学科类别作为分析元素时,往往 能够图示出科学的宏观结构,可以显示出比较大的主 要学科专业之间的相对位置和关系,但有时也被用于 对某一学科内各专业分支之间关系的图示分析例如,Kevin W Boackv、LoetLeydesdorff、J.M.Campanario、 I.Samoylenko等人就分别对期刊引用关系进行可视化 分析,展示了大科学的结构;而Kevin W.Boacky在其 另一篇论文中,则用期刊引用数据对有关科技管理这 一学科的领域结构进行了可视化显示文献(论文、专利文献等)是同被引分析时最常用 的数据元素,以文献为元素进行可视化同被引分析生 成的学科知识图被广泛应用于领域分析、文献检索、 科学管理等方面。
以著者为分析元素时,比较常见的是通过著者的 同被引关系来展示某一学科范围内由不同著者代表的 学科结构或划分科学家群体等2.3元素范围的确定和原始同被引频次矩阵的构造这一步就是根据分析元素的特点选择一定数量的 元素,两两计算它们之间的同被引频次,构造出原始 同被引频次矩阵利用期刊或类目、学科作为分析元 素时,可以根据要分析的学科范围选择该学科里的所 有期刊或类目、专题学科;而利用文献或著者进行可 视化同被引分析构造某一专业学科的学科知识图时, 就涉及到文献或著者的选择问题目前还没有一个统 一的方法,较为普遍又相对客观的方法是通过被引用 频次的高低来确定,即通过检索引文数据库确定某个 被引用频次为阈值,选择在阈值之上的文献或著者 在选择阈值时,一方面不能过低,过低容易使无意义 的数据量增加太多,徒增工作量;同时也不能过高, 过高有可能过滤掉重要的文献或著者,不能全面代表 该学科的研究状况确定好文献或著者后,就要通过 一定的方式计算文献或著者的同被引频次,以便构造 出同被引矩阵目前计算著者或文献的同被引频次时,主要有以 下三种方法:?通过下载相关文献和它们的参考文献来计算这 是目前比较通用又相对简便的一种方法,就是根据自己要分析研究的学科专题,从所选定的数据库中检索 下载有关这一专题的所有文献及它们对应的参考文献 条0,用一定的计算机程序来计算选定文献或著者之 间的同被引频次。
相对于用下面的第二种和第三种方 法在整个数据库范围内计算而言,这样获得的同被引 频次由于是在专业学科范围内计算,数值往往较低, 生成的可视化图也有所偏差直接手工检索这只能用于著者同被引分析SCI过去曾经支持直接通过检索获得两个著者之 间的同被引频次,但现在已经不再支持国内的清华 同方出版的《中国期刊全文数据库》和维普公司出版 的《中文科技期刊数据库》现在有这方面的功能根据选定著者发表的文献和引用它们的文献来 计算即对于选定著者,在数据库中查找所有引用这 些著者发表的论文的文献,把这些文献目录进行处理, 编写一定的程序计算著者之间的同被引频次这种方 法同样是基于整个数据库的统计来计算的为了简化 数据处理过程,一般只计算著者作为第一著者与其他 第一著者之间的同被引频次2.4数据的标准化处理技术对于关系矩阵中的原始数据,从目前的研究情况看,有学者对其进行了标准化处理,有学者则主张直 接采用原始数据进行标准化处理一般采用皮尔逊相 关系数法或Cosine法等但在采用皮尔逊相关系数法 时,由于SPSS软件的限制,数据量不能超过256对 随着可视化算法和软件的开发,有学者开始采用原始 数据,并获得了良好的效果。
How-ard D White在2003 年采用与1998年相同的数据对情报科学著者重新作 的同被引分析中就是采用了原始同被引频次Steven Noel等把采用原始同被引频次和经过皮尔逊相关系数 转换而所得的图进行比较后认为,经过转换,那些同 被引次数高的元素(文献或著者)和同被引次数低的元素(文献或著者)的差别减少,显示在图上的结果就是 未经转换时居于中心的核心元素(文献或著者)在转换 后其核心地位不再明显2.5引文关系数据的降维和图示技术 经过上述几个步骤形成的引文关系矩阵反映了各 元素之间的关系的远近,这是一个多维的空间关系, 有多少个元素就有多少个维数,对多维数据之间的复 杂关系进行可视化生成图表必须进行降维处理,把高 维的数据转换成低维数据,从而在低维空间上简单地 表现高维空间中的复杂对象间的关系目前在可视化 同被引分析中应用较多的主要有以下几种技术:2.5.1聚类分析聚类分析是指把分析对象根据彼此之间的相关程度分成类群,使群内尽量相似,群 间尽量相异,然后进行分析研究的过程聚类分析的 一般过程是计算分析对象之间的相似系数矩阵,然后 把相似系数矩阵作为输入数据,根据一定的聚类算法 把分析对象分成类群。
聚类方法有多种,但目前使用 最多的是非重叠的、内在的,即把分类对象的各属性 数据同等对待,每个对象都只能属于最后划分成的类 群之一,而不能同时属于两个以上的类群在对引文 数据进行分析,特别是进行同被引分析时,运用最多 的是等级聚类法,并用树状图表示结果目前常用的 统计软件如SPSS等可以用来进行聚类分析,并生成树 状图用等级聚类进行数据分析,整个分析对象集合与 任何最后分组之间有着很简化的联系路线,聚类结果树状图中可以反映这种路线和聚类过程的细节信息 但是,等级聚类树状图无法直观反映对象之间的距离 与结构关系2.5.2多维尺度分析多维尺度分析 (MultidimensionalSealing,简称 MDS)是指通过某种非线性变换把高维空间的数据转换成低维空间中的数据 以疏密不同的散点在低维空间中近似地表现原高维数 据间关系的一种技术通过MDS可以在较低维空间中 直观地看到一些高维样本点相互关系的近似图像,该 技术己经成为当今较流行的统计分析软件SPSS中的 一个分析模块虽然多维尺度分析中点的疏密远近可 以反映一定的类群关系,伹不够明确,同时由于是用 散点方式代表分析对象节点,不能表示出对象节点之 间的连接。
因此,同被引分析中常把多维尺度分析与 聚类分析结合起来使用做法是首先用多维尺度分析 把对象表示成平面上的散列的点,然后根据聚类分析 的结果把这些点用线圈成点群,最后根据点与点之间、 点与点群之间、点群与点群之间的位置关系进行分析 研究国外在20世纪90年代中期以前采用这种方式 进行同被引分析的研究较多,近几年国内学者在同被 引分析研究中采用的也是这种多维尺度分析与聚类分 析相结合的方法多维尺度分析的一个局限性是由于 通常借助于通用统计软件SPSS来进行,而SPSS能处 理的数据数量有限,特别是当对数据进行标准化处理 时,如果用相似系数,则数据量不能超过100对例 如Howard D.White和MacCain在1998年对情报科学 进行著者同被引分析可视化,采用多维尺度分析时就 不得不把著者数量限制在头100名著者2.5.3 因子分析因子分析(Factor Analysis)是最早被应用于学科结构分析和图示的降维技术之一在 分析处理多元素间的关系时,元素间的关系往往极为 密切,使观测数据反映的信息有重叠,因此,人们希 望找出较少的彼此间互不关联的综合元素,尽可能近 似地反映原来元素之间的信息,这些不可观测的少数 几个综合性的元素被称为公共因子或潜在因子。
表现 在学科知识结构分析上,因子分析能够把。
