
基于主题词和LDA模型的知识结构识别研究.docx
20页基于主题词和LDA模型的知识结构识别研究 黄月 张昕Key:知识结构;LDA模型;主题词;共词分析;数据挖掘文献数据知识发现的研究对象一般是学术检索系统提供的科学文献题录,包含题目、作者、Summary、Key、分类号、来源、Reference等元素,这些元素分别作为检索系统的检索项提供检索入口,此外通用的学术检索系统还提供了包含题目、Key、Summary3种元素构成的“主题词”知识结构(IntellectualStructure),指根据某一领域的科学文献进行分析,通过对基于某种关系构成的文献矩阵进行聚类而得到的组群及其关系其中,每一组群对应该领域的一个研究子领域(或称研究主题)[1]针对科学文献题录信息进行知识结构识别是文献计量分析的一项重要任务,有助于帮助该领域的研究者了解研究主题及其关系相比于Key,学术检索系统中的主题词更能反映作者关于这篇文献主旨的概括与传统的知识结构识别方法相比,LDA模型可以有效挖掘文献词语之间的语义关系,弥补传统文献计量在词语间处理能力的不足,对题目、Summary等长文本进行主题提取可以在更大程度上保留文献原始信息,能在一定程度上解决Key无法很好概括文献信息的问题。
本文探索基于主题词和LDA模型的知识结构识别,以数据挖掘领域顶尖期刊论文为例,并通过实验证明了其有效性1相关工作概述1.1知识结构识别传统学科知识结构识别方法是二步式的,即首先构建文献元素相似性矩阵,然后对该矩阵进行结构识别常见文献元素相似性矩阵构建方法包括:文献共被引、作者共被引、文献耦合、作者文献耦合和共词分析等这些思想已被广泛应用于知识结构识别,并获得了有效性验证其中,通过共同词语联系到一起的文献可能表示一个共同的研究主题[2],共词分析常以高频Key作为分析对象,在研究过程中没有涉及到文本中包含的语义信息,得到研究结果比较粗略越来越多的学者开始利用主题模型构建方法,对文本语义内容进行分析,对学科主题进行研究隐含狄利克雷分配(LatentDirichletAllocation,LDA)模型,是一种比较成熟的主题模型[3],是一种无监督学习技术,可被用来识别大规模文档集中潜在主题信息,与针对某一领域进行知识结构识别的本质一致LDA已被广泛用于科学文献情报分析,既包括主题识别[4]、主题演化[5]、新兴主题发现[6]、学科交叉主题识别[7]等将LDA应用于不同领域的研究,也包括不同语料下主题抽取效果分析[8]、最优主题个数确定[9]等利用LDA优化主题识别研究。
1.2LDA模型LDA模型,在2003年由BleiDM等[10]提出认为一篇文档是由一组词组成的集合,词与词之间没有前后顺序关系,且语料库中的文档也没有顺序关系它是一个关于文档、主题、词语的3层贝叶斯概率生成模型,其核心思想是把文档看成隐含主题的一个概率分布,主题看成词语的一个概率分布文档到主题服从多项式分布,主题到词服从多项式分布,而该多项分布的参数服从Dirichlet分布LDA模型首先由Dirichlet分布得到主题分布的参数的分布,然后随机生成一个文档的主题分布,之后在该文档的每个位置,依据该文档的主题分布随机生成一个主题;然后由Dirichlet分布得到词语分布的参数的分布,再得到主题的词语分布,在该位置依据该主题的词语分布随机生成一个词语,直到文档的最后一个位置,生成整个文档;最后重复以上过程,生成所有的文档2研究设计2.1研究思路为探究考虑主题词和LDA模型进行知识结构识别的有效性,本文进行3步研究,如图1所示首先,根据选定领域特点确定数据源、获取原始数据、进行数据预处理,以得到格式统一、主题词(题目、Summary和Key)齐全的实验数据然后,以Key或主题词为实验对象,利用共现聚类或LDA模型分别进行知识结构识别,即进行4组知识结构识别实验。
其中,利用文献计量网络可视化软件VOSviewer的共现聚类进行知识结构识别,利用自编的Python程序构建Key或主题词语料库作为LDA模型输入,使用开源GibbsLDA++工具包进行LDA模型训练得到知识结构识别结果最后,结合数据挖掘领域知识,对上述4组实验结果进行两两有共性分析元素的对比分析,获得基于Key和主题词进行知识结构识别的差异、基于共现聚类和LDA模型进行知识结构识别的差异2.2基于LDA模型的知识结构识别方法本文结合目前主流做法,提出如下基于LDA模型的知识结构识别方法步骤1:根据实验目的获取实验数据本研究针对两种数据进行基于LDA模型的知识结构识别,一种是针对论文的Key,另一种是针对由题目、Summary和关键詞得到的切分后的主题词步骤2:语料库的数据预处理因为题目和Summary是短句和短篇形式,需要针对实验数据进行分词、去符号、词性还原和去停用词处理步骤3:参数估计和推断利用LDA开源工具GibbsLDA++进行模型训练,得到两个超参数α、β的值步骤4:最优主题个数K的确定观察不同主题个数下困惑度[11]的变化,利用拐点来确定K步骤5:计算在确定α、β、K下的研究主题情况。
3实验数据3.1数据源选取数据挖掘作为一个相对新的研究领域还不是一种现有学科的子类别,因而采用在“谷歌学术指标(GoogleScholarMetrics,GSM)”的“工程和计算机科学”类别的子类“数据挖掘与分析”中出现的出版物作为数据源GSM主要使用h5指数和h5中位数两种指数来帮助研究者去评估近期学术出版物中文章的可见度和影响力2019版GSM涵盖2014—2018年发表的文章,指标基于2019年7月在谷歌学术搜索中索引的所有文章的引用,这也包括来自谷歌学术指标本身未涵盖的文章的引用[12]在2019版GSM中列出了数据挖掘领域的9种学术期刊[13],进行统计,如表1所示,数据挖掘顶尖期刊的历史都不是很长《IEEETransactionsonKnowledgeandDataEngineering》是这里的第一个专业期刊,创刊于1989年,也比计算机其他领域(如:人工智能)的顶尖期刊历史要短此外,只有3种数据挖掘顶尖期刊创刊于21世纪之前,其余期刊创刊时间全部在2007年之后综上,本文以2019版GSM中“数据挖掘与分析”类别下的9种学术期刊在2014—2018年的题录作为数据源3.2原始数据获取及预统计本文数据获取策略:首先从文摘数据库中WebofScience数据库(WOS)中进行检索,检索不到的以Scopus数据库作补充。
在WOS核心合集,利用基本检索精确匹配出版物名称,时间跨度为2014—2018年,选择全记录与引用的Reference进行题录下载保存为.txt文件在Scopus中按ISSN进行精确检索,出版时间为2014—2018年,选择所有字段进行题录下载保存为.ris文件最终,共计下载3341条题录通过对2014—2018年9种数据挖掘领域顶尖学术期刊的年度发文量(599篇、691篇、712篇、663篇、676篇)统计发现,总体呈现先上升后下降趋势2014—2016年发文量增长率逐年降低,2016年发文量达到了最高点(712篇),这说明2016年是数据挖掘领域的一个重要转折点,2016年之前数据挖掘领域一直是研究的热点之后在2017年发文量达到最低点,2018年略有回升,但仍低于2015年的发文量数据,说明数据挖掘领域研究已经逐渐成熟,发文量逐渐趋于平稳3.3原始数据预处理由于本文获取的原始数据来源于不同科学文献数据库(WOS和Scopus)的题录格式不同,需要对此异构数据进行预处理1)把Scopus题录格式转换为更为普遍的WOS题录格式利用CiteSpace对从Scopus获取的原始题录将.ris转换为.txt格式,获得3341条具有统一WOS格式的题录。
2)保证WOS和Scopus中的Key字段含义相同已知WOS包括作者KeyDE和扩展KeyID,而Scopus中只提供作者KeyKW经核实发现,经过格式转换过的题录将Scopus中作者Key的缩写由KW变为ID,这与Scopus本意不一致,因此将格式转换过的题录文本中的作者Key缩写由ID替换为DE至此,获得本文实验数据共计3341篇文档4 实验结果与分析4.1基于Key和共现聚类的知识结构识别结果利用VOSviewer针对实验数据中的作者Key进行Key共现聚类分析,结果采用图谱显示结合领域知识,得到2014—2018年数据挖掘领域顶尖期刊研究,可以归纳为7个研究主题(如图2所示,括号里数字为类规模)研究主题1为“聚类分类算法研究”,包括:clustering、classification、machinelearning、featureselection、informationretrieval、sentimentanalysis、datastreams、transferlearning等研究主题2为“复杂网络和图挖掘”,包括:socialnetworkanaly⁃sis、communitydetection、graphmining、anomalydetection、complexnetwork、communitystructure等。
研究主题3为“大数据和云计算”,包括:bigda⁃ta、queryprocessing、mapreduce、cloudcomputing、hadoop等研究主题4为“社会媒体语义分析”,包括:socialnetworking(online)、socialmedia、onlinesocialnetwork、website、semantics等研究主题5为“社会网络预测和影响力分析”,包括:so⁃cialnetwork、forecasting、linkprediction、socialin⁃fluence、informationdiffusion等研究主题6为“算法设计与实现”,包括algorithms、experimentation、performance、design等研究主题7为“推荐系统研究”,包括:collaborativefiltering、recommendersystems、matrixfactorization等这7个研究主题之间,聚类分类算法与大数据和云计算、复杂网络和图挖掘、社会媒体语义分析联系较为紧密,复杂网络和图挖掘与社会媒体语义分析、社会网络预测和影响力分析联系较为紧密,推荐系统研究与社会网络预测和影响力分析联系较为紧密。
4.2基于主题词和共现聚类的知识结构识别结果把实验数据中的作者Key部分整理为分词词典,利用自编的正向最大匹配算法对题目和Summary进行分词,并对每一条题录内容中筛选出的Key部分通过自编算法进行去重,用Notepad++对筛选出的Key添加作者KeyDE及VOSviewer软件读取数据必须识别到的缩写内容经多次共现次数实验,基于主题词共现聚类得到的网络结构均不是十分清晰,大致可以得到5個主题(如图3所示,括号里数字为类规模)研究主题1为“大数据管理与算法效率研究”,包括:datamining、bigdata、scalability、pri⁃vacy、effectivenessandefficiency、semantics、exper⁃imentalevaluation等研究主题2为“分类和预测研究”,包括:classification、prediction、optimiza⁃tion、machinelearning、regression、featureselection等研究主题3为“社会网络分析和图挖掘”,包括:socialnetwork、socialnetworks、twitter、socialmedia、theor。












