基于STM的科研资助对研究主题影响研究.docx
23页基于STM的科研资助对研究主题影响研究 滕广青 吕晶 江瑶 庹锐 彭洁摘 要:[目的/意义]科研资助是科学研究工作中有效的激励政策,分析与揭示科研资助影响作用,对促进国家科技发展具有重要的积极作用[方法/过程]基于Web of Science收录的我国计算机与人工智能领域的科研论文,按照有/无科研资助对其进行划分,使用结构主题模型(STM)重点将科研资助对主题内容与主题契合度的影响进行分析[结果/结论]研究发现,科研资助能够有效促进科技成果数量的增加,科研资助能够影响主题偏好和具体主题内容,科研资助与时间的交互作用会对主题的契合度产生积极的影响Key:科研资助;主题内容;主题偏好;主题契合度;结构主题模型DOI:10.3969/j.issn.1008-0821.2022.05.006〔〕G250.2 〔〕A 〔〕1008-0821(2022)05-0058-11Abstract:[Purpose/Significance]Research funding is an effective incentive policy in scientific work.Analyzing and revealing the impact of research funding has an important and positive role in promoting the development of national science and technology.[Method/Process]Based on computer and artificial intelligence papers of China collected in Web of Science,the papers were classified according to whether or not research funding was available.The structured topic model(STM)was used to focus on the impact of research funding on the topical content and topical prevalence.[Result/Conclusion]The results show that research funding can promote the increase in the number of scientific achievements;Research funding can have an impact on the topic preference and topic content;Interaction between research funding and time will have a positive impact on topic prevalence.Key words:research funding;topic content;topic preference;topic prevalence;structural topic model科研资助是指为支持科学研究而授予的资金补贴,其不仅仅牵动着科研产出的宏观绩效,更是推动科学研究内容创新的关键一环。
随着人类社会进入科学技术高速发展的时代,世界各国政府、学术界均致力于调控科研资助投入的配置,通过推出相应政策、计划来影響和指导科学研究的发展2018年,欧洲委员会提出了《Horizon Europe》[1]计划,其目标就是希望通过投入精准有效的科研资助,提高科研效率促进科技创新美国国家科学基金会(NSF)推出的《Building The Future:Investing in Discovery and Innovation-NSF Strategic Plan for Fiscal Years 2018—2022》[2],将科学发现与创新的资助目标定位于通过对基础研究的资助加快科学发现和创新我国政府近年来对加大科研领域资助与优化资助效果采取了一系列措施,极大地提升了国家综合科技实力2016年5月,中共中央、国务院印发《国家创新驱动发展战略纲要》[3]明确指出,要多渠道增加科技创新的投入,以及完善突出创新导向的评价制度2020年9月,[4]主席《在科学家座谈会上的讲话》中进一步指出,要加大基础研究的科研资助,建立健全科学评价体系及激励机制科研资助作为科学研究过程中的重要组成部分,已成为全球科学发现和创新的主要驱动力之一。
2021年3月发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中指出,要加大基础研究财政投入力度,对基础研究探索实行长周期评价,创造有利于基础研究的良好科研生态[5]在各国政府对科研资助日益重视的同时,科研资助对于科研工作的影响也逐渐受到学术界的关注,国内外学者纷纷致力于科研资助产生的影响的研究早期的研究工作重点主要集中于科研成果产出数量与成果影响力的视角,近年来随着自然语言处理(NLP)技术的日渐成熟,研究重点逐渐转向更细粒度的科研资助对研究主题的影响本研究从科研成果文档层面将科研资助对领域研究主题的影响作用进行分析,以期为我国科研资助政策科学制定及实施提供可资借鉴的参考1 相关研究综述科研资助在科学体系中所发挥的重要作用和日益增长的影响,被认为是在科研政策、学术界和申请接受资助的研究者之间进行调解的中介[6]科研资助对科学活动的影响研究多与科研成果的数量以及质量相关,因此截至目前,从成果产出数量以及成果影响力视角对科研资助效果开展的研究仍然占据主流Butler L[7]通过获得科技成果产出数量与期刊的被引量对澳大利亚的科研资助的效用开展研究Aagaard K等[8]将出版物数量与引文数量作为绩效,分析了丹麦的科研资助与出版物绩效之间的关系。
事实上,由于近年来科技界对成果质量的关注程度远高于成果数量,因此研究工作越来越偏重于科研资助对成果影响力影响的研究Mussurakis S[9]通过对比获得资助与未获得资助的出版物的被引情况等因素,进而探究获得资助与没有资助对于成果引用量的影响Korytkowski P等[10]对波兰科研资助与科研成果数量进行评估,认为科学激励政策有助于实现科学本身至关重要的目标Shen C C等[11]分析有/无资助条件下论文的研究影响力,研究发现,获得资助的科研成果的影响力要比没有资助的成果的影响力更高与此同时,相关研究在国内得到广泛开展宋志红等[12]比较科研人员在“获得科学基金资助”和“未获得科学基金资助”两种情形下的科研产出差异张诗乐等[13]基于论文产出数量和被引频次对国家自然科学基金资助的效果进行评价王菲菲等[14]基于对科研资助成果发文量、被引量和h指数等测度,对科技项目资助对论文产出绩效进行探究截至目前,此类研究虽然取得了丰富的成果,但关注的焦点仍然停留在成果数量、被引数量等外在统计指标BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A随着大数据与人工智能技术的发展,传统基于外在特征的分析方法已不再适用于处理高维数据与解决复杂问题,研究人员开始利用新的自然语言处理(NLP)方法从科技文档的层面开展更加细粒度的研究。
Shi X等[15]使用LDA主题模型从计算机领域的资助计划和其出版物的样本中提取主题,分析两个语料库中概念之间的滞后性的关系进而探究资助计划与出版物之间的主题关联Li K等[16]使用RAKEKey提取方法,分析了NIH研究资助计划和他们资助的出版物之间的Key匹配率刘自强等[17]利用LDA主题模型探索基金、论文中研究主题扩散演化的滞后效应刘博文等[18]使用LDA主题模型对比分析基金项目数据和论文数据探究研究主题前沿叶文豪等[19]使用Word2Vec模型计算基金标题与论文标题及Summary间的相似度,计算相关性进而证明基金内容与其资助论文在大规模数据分析上存在差异吕晶等[20]通过基金文档与成果文档主题相似度分析,发现科研资助对科学论文的引导与促进作用更大,且影响作用的持续时间更长总体而言,当前科研资助效用研究仍以绩效的定量分析为主导,以对于数量、影响力方面的描述性统计为主,基于文档内容层面的细粒度研究较少在研究手段上,自然语言处理(NLP)技术已经为很多研究所使用,使用主题建模技术提取和观察研究趋势的可行性已被研究证实[21]基于此,本研究在现有成果基础上,使用STM(Structural Topic Model)[22]结构主题模型,从文档内容层面识别与分析科研资助对科研主题偏好、主题词分布、主题契合度的影响。
2 基础理论与方法2.1 STM主题模型常规的文档主题建模主要采用经典的狄利克雷分布(Latent Dirichlet Allocation,LDA)[23]主题模型尽管从目前学术界已取得的研究成果来看该模型已经被学术界普遍接受,但相对于本研究力图洞察科研资助对科学研究主题的内容偏好及契合度等研究目标而言仍显不足本研究工作采用STM(Structural Topic Model)[22]结构主题模型,其基于协变量的主题建模特性更加贴近研究目标,能够借助协变量洞察资助/非资助产生的影响STM是一种无监督的机器学习方法,用于识别文档中主题分布的模式特征该模型在基于早期潜在狄利克雷分布(LDA)[23]主题模型的基础上,融入了元数据(协变量)可用于探索文档元数据(协变量)与文档主题分布之间的作用关系在实际的研究过程中,元数据(协变量)对文档中主题内容(Topical Content)和主题契合度(Topical Prevalence)有一定的影响主题内容指的是主题中使用的主题词,主题契合度指的是文档与主题的关联程度因此,解释主题契合度的元数据被称为主题契合协变量,解释主题内容的元数据被称为主题内容协变量。
其基本原理如图1所示2.2 主题数目计算主题建模过程中具有挑战的工作是主题数量的确定主题数量K是一个固定的参数,其影响模型计算过程中的结果STM主题模型的SearchK函数中能够综合不同指标进而衡量主题数量,具体包括Held-Out(保留文档可能性)、Semantic Coherence(语义一致性)、Residuals(残差)、Lower Bound(下限)等其中,Held-Out(保留文档可能性)的基本思想是提取一组文档中的部分单词,训练模型使用文档级潜在变量来评估保留部分的概率Semantic Coherence(语义一致性)即当一个给定主题中最可能出现的单词经常同时出现时,语义连贯性就会最大化,这是与人类对主题质量的判断高度相关的度量[24]Residuals(残差)计算是对STM数据生成过程中多项式方差的过度分散的测试,如果残差过度分散,则表明设置的主题数量较少,需要更多的主题来吸收一些额外的方差Lower Bound(下限)表示可以通过近似变化来检查收敛性保留文档的可能性和語义一致性越高,残差与边界越低,模型性能越好具体的研究工作中首先设置较大的K值范围,通过得到指标情况来逐渐缩小主题数量的选择区间,并最终确定K值。
3 研究流程3.1 数据来源与预处理研究数据依托Web of Science核心合集数据库,获取中国计算机与人工智能领域的论文检索式为:WC=(“Computer Science,Artificial Intelligence”AND CU=“China”),文章类型选择“Article”,语言为“English”Web of Science数据库在2008年开始完善文献的资助信息[25],为获得有效的资助信息以及提高研究的准确性,本文选择数据时间区间为:20。





