
多特征融合的电气领域主观题自动评分方法.docx
17页多特征融合的电气领域主观题自动评分方法 王金水 郭伟文 陈俊岩 唐郑熠摘 要:智慧教育运用人工智能等技术来实现教育的智能化,将智慧教育应用到电气类高校教学、注册电气工程师考试和电网员工入职培训等领域,有助于学生和工作人员快速掌握电气专业知识基于电气领域本体和自然语言处理技术,探索了电气领域主观题自动评分方法针对通用词语相似度计算存在的不足,设计了一种融合《同义词词林》和《知网》的词语相似度方法,并结合文本的表层结构信息以及语义信息,提出了一种结合句子的词序、词形和搭配词对三种特征的电气领域主观题自动评分方法试验表明,该方法能够有效解决传统评分算法对专业术语的识别不全面和未考虑文本中句子的语义关系等问题,有效地提升了评分结果的准确度关键词:电气领域;主观题自动评分;领域本体;相似度计算:TP314文献标志码:A随着计算机、大数据以及人工智能等技术的兴起,智慧教育运用现代信息技术来实现教育的信息化和智能化自动评分作为智慧教育的一项重要环节,不仅可以减少教师在阅卷过程中的工作负担,而且能够避免因个人主观因素导致的评分偏差的问题在电气工程领域中,智慧教育被应用到高校教学、注册电气工程师考试和电网员工入职培训等环节,有助于学员完善电气领域的知识体系。
自动评分作为智慧教育的一项重要环节,不仅可以减少教师在阅卷过程中的工作负担,而且能够避免因个人主观因素导致的评分偏差的问题现阶段,客观题自动评分算法已经非常成熟,并广泛运用于各类考试系统另一方面,关于作文和短文本等领域无关的主观题自动评分的研究也取得很多成果[1-6]铉静等[7]基于卷积神经网络的方法,使用全维度和单维度的卷积核进行卷积,得到词语之间长距离依赖信息李寒[8]提出了基于深度学习的中文句子相似度计算方法,使用大量未标注数據进行训练模型参数,该模型在自动评分中具有更好的性能胡艳霞等[9]在依存关系树的基础上使用深度学习的方法,采用多头注意力机制Tree-LSTM的神经网络实现句子相似度的计算彭琦等[10]针对词语间信息内容的差异性的问题,为实现词语信息内容的相似度计算方法,提出了一种相似度计算策略应用于改进的《同义词词林》但是,将作文或短文本自动评分算法直接应用在特定领域主观题评分的效果并不好[11]评分算法无法准确地理解电气领域的专业术语,且缺乏对领域知识的理解,容易导致语义分析出现较大误差,进而影响评分结果的准确度本文以电气工程学科为背景,从本校电气工程研究生的专业课程中选取部分课程涉及的专业术语,以此为基础构建电气领域本体,并提出了一种多特征融合的电气领域主观题自动评分方法。
该方法借助语义词典以及电气工程领域本体,分别完成对通用词语和专业术语的相似度计算,此后,方法通过加权融合句子的词形相似度、词性相似度和搭配词对相似度的特征,计算电气领域主观题的评分1 电气领域本体构建领域本体作为专业性本体,具有非常强的领域区分性通过构建电气领域本体,能够更准确地获取电气领域的专业术语、数据属性以及术语间的关系,进而有助于完成领域概念查找以及专业术语的相似度计算等任务[12]将电气领域本体作为主观题自动评分的知识库,能够提高对电气领域专业术语的识别能力和语义理解能力[13]电气领域本体构建的具体步骤图1所示在构建领域本体之前,需要结合本体的使用对象、应用目的和作用等因素,确定构建的本体所涉及到专业领域和范畴由于电气领域包含的课程较多,因此本文从本校电气工程研究生的专业课程中的课程体系中选取了《电力系统概述》、《电机与电力拖动》、《电力工程基础》、《发电厂电气部分》等核心课程,从中尽可能多地列出课程涉及的概念、专业术语、以及概念详细的定义等知识所构建本体所涉及部分概念和术语如表1所示完成电气领域的关键知识和术语的获取后,需要确定本体中概念、属性以及彼此之间的关系其中,关系类型的确定是构建本体过程中最关键的一个环节。
由于电气领域专业术语的同一概念存在多种表述,并且概念之间存在上下位关系、部分与整体的关系,导致相关知识在通用词典中难以体现因此,本文构建的本体关系类型涵盖了同义关系、继承关系、组成关系,以尽可能完整地涵盖相关领域知识2 电气领域主观题自动评分方法如图2所示,多特征融合的电气领域主观题自动评分模型在获得学生答案文本和参考答案文本之后,通过文本分词、词义扩充、停用词过滤、句法分析等技术对文本进行预处理基于电气领域本体、语义词典,分别计算专业术语和通用词语相似度,并结合三个特征的加权计算结果,得到学生答案文本的相似度最后进行分数转换,得到学生答案的最终得分2.1 词语相似度计算根据文本中词语的所属类别(通用词语或专业术语),多特征融合的电气领域主观题自动评分方法采用以下三种方法计算词语的相似度:1)若词语两个词语都属于通用词语,采用融合《知网》和《同义词词林》的通用词语相似度计算方法;2)若两个词语都属于专业术语,采用基于电气领域本体的专业术语相似度计算方法;3)若其中一个词语是通用词语,另一个词语是专业术语则设定两个词语的相似度为02.1.1 基于《知网》的词语相似度计算与传统的语义词典不同,《知网》通过一系列的义原来描述义项,义项是对词汇的进一步解释。
影响义原相似度计算的因素主要有节点密度、节点深度和义原距离等用y1和y2表示两个义原,根据刘群等[14]提出的义原相似度转换成计算义原距离,y1和y2的相似度计算如下:S(y1,y2)=λD(y1,y2)+λ(1)式中,D(y1,y2)代表y1和y2的语义距离,即y1和y2在义原树的路径长度;λ为可调参数词语的不同语义是通过多个义项进行描述,根据刘群等对义项的研究[14], 将义项分为四个部分,分别为第一基本义原描述、其他基本义原描述、关系义原描述,以及符号义原描述y1和y2在这四个部分的相似度分别记为S1(y1,y2)、S2(y1,y2)、S3(y1,y2)和S4(y1,y2)将Y1和Y2表示为两个义项,则他们的相似度分别由Y1和Y2在四个语义表达式的相似度组合而成,即义项语义相似度计算公式如下:S(Y1,Y2)=∑4i=1ρiΠSj(Y1,Y2)(2)式中,ρi为可调参数,ρ1+ρ2+ρ3+ρ4=1由于部分词语会包含多个义项,因此应取最大义项相似度作为词语C1和C2最终的语义相似度,计算如下:Sz(C1,C2)=MAXi=1…mj=1…n(S(Y1i,Y1j))(3)2.1.2 基于《同义词词林》的词语相似度计算结合电气领域自动评分的特点,基于《同义词词林》的词语相似度算法考虑的主要因素是词语的语义距离,次要因素分别是分支节点总数n和分支间距k。
按照底层到高层的结构顺序,根据朱新华等[15]提供的试验参数设计,本文对连接上下两层的有向边语义距离给予不同权重,分别设置为W1=2.5;W2=1;W3=2.5;W4=0.5词语C1和词语C2的语义距离计算如式(4)所示D(C1,C2)=2×∑d≤i≤4Wi(4)节点总数n和分支间距k属于词语相似度计算的次要因素,作用是对语义距离进行修正,并且该修正只能微调,因此将这两个调节参数加入词语相似度计算中,从而降低计算公式对参数n和k的敏感度,以此避免修正幅度过大由此得到基于《同义词词林》的相似度计算如下:Sc(C1,C2)=(1.05-0.05×D(C1,C2))e-k2n(5)2.1.3 通用词语相似度计算通过分析2.1.1和2.1.2小节中两种词语相似度计算方法,可以发现各自计算规则是不一致的考虑到两个语义词典的知识体系是不一致的,其性质和结构具有较大的差别,因此有必要设计一种融合不同语义词典的通用词语相似度算法以弥补单一方法的不足,从而提高词语相似度计算结果的准确性该算法根据词语在《知网》或《同义词词林》的收录情况计算两个词语的相似度,算法过程描述如下算法1 融合《知网》和《同义词词林》的通用词语相似度算法输入:词语C1和C2输出:C1和C2的相似度S(C1,C2)1 if(C1∈Z and C2∈Z-T)2 S(C1,C2)=MAXi=1…mj=1…n(S(Y1i,Y1j))3 else if(C1∈T and C2∈T-Z)4 S(C1,C2)=(1.05-0.05×D(C1,C2))e-k2n5 else if(C1∈Z-T and C2∈T-Z)6 {7 G=getSig(C2) //查找C2的同义词集合8 M=NULL9 Foreach w in G:10 S(C1,w)=MAXi=1…mj=1…n(S(Y1i,Y1j))11 M.append(S(C1,w))12 S(C1,C2)=max(M) //取M集合中最大值13 }14 else if(C1∈Z∩T and C2∈T∩Z)15 S(C1,C2)=MAXi=1…mj=1…n(S(Y1i,Y1j))+(1.05-0.05×D(C1,C2))e-k2n216 else17 S(C1,C2)=018 return S(C1,C2)2.1.4 專业术语相似度计算专业词语相似度计算通过引入电气领域本体作为知识库,对该领域的专业术语进行相似度计算。
其中专业术语的语义相似度是由节点距离相似度和节点信息相似度构成在电气领域本体中,各个节点间的有向边代表的作用是不一致的,对于电气领域本体中任意两个节点h和t的节点距离相似度计算如下:sd(h,t)=1-d(h,t)2×dmax(6)式中,d(h, t)表示节点h和t之间的语义距离;dmax是电气领域本体中节点的最大深度节点信息相似度通过最低公共祖先进行表示,当概念间共享的信息量越多,则说明概念的相似度越高当上层节点细化到下层的多个节点时,下层节点得到了父节点的信息,因此可以说相同的公共祖先是下层节点间共享信息的表现之一任意两个节点h和t的节点信息相似度计算如下:si(h,t)=1-2×I(c(h,t))I(h)+I(t)(7)式中,I(c(h,t)),I(h),I(t)分别是最低公共祖先节点、h节点、t节点的信息量综合考虑以上两个因素,得到专业词语的相似度计算如下:sonto(h,t)=λsd(h,t)+ηsi(h,t)(8)式中,λ、η表示调节因子权重2.2 句子相似度计算2.2.1 句子的词序相似度计算词序相似度反映的是参考答案文本A1和学生答案文本A2之间词语的相对位置关系,根据词语的顺序来衡量句子的相似度。
本文用m表示文本A1和文本A2中同时出现且仅出现一次的词语集合大小词序相似度的计算方法如下:so(S1,S2)=1-C(A1,A2)s-1,s>11,s=10,s=0 (9)式中,C(A1,A2)表示文本A1和文本A2的逆序数2.2.2 句子的词形相似度计算词形的相似度反映的是参考答案文本A1和学生答案文本A2中所包含的词语在形态层次上的语义相似度当两个词语相似度大于指定阈值时,记为相似词结合公式,词形相似度计算方法如下:Swf(S1,S2)=2×W(A1,A2)L(S1)+L(S2)(10)式中,W(A1,A2)表示文本A1和文本A2中相似词的个数;L(A1)和L(A2)分别表示文本A1和文本A2的词语总数2.2.3 句子的搭配词对相似度计算搭配词对相似度是从中心词的相似度、依存词的相似度和词语间关系类型三个维度来量化句子相似度搭配词对可用采用三元组<中心词,关系类型,依存词>进行表示搭配词对虽然丢失了词语之间的顺序关系,但可以呈现词语之间的内在逻辑关系和深层语义关系通过提取文本的搭配词对,并对搭配词对进行简化首先,运用词语相似度计算方法对搭配词对中的词语进行词语相似度计算,进一步。
