
例析Rasch模型在化学试卷质量分析中的应用.docx
15页例析Rasch模型在化学试卷质量分析中的应用 王桂桃+严文法+田秀云摘要:化学测试是化学课程实施的重要组成部分,对测试试卷质量进行客观、科学的分析具有重要意义客观、等距性的Rasch模型在试卷质量分析应用中显示出传统测量模型不具备的优势以某市一次中考化学模拟试题分析为例,从Rasch检验指标及特征量、试卷整体质量、单维性检验、拟合度、测量误差检验和被试水平与项目难度匹配性检验五个方面阐述了Rasch模型在化学试卷质量分析中的应用,并讨论了应用过程中应注意的问题期望为一线教师进行试卷分析提供新的技术参考关键词:Rasch模型;化学测试;试卷质量分析:1005–6629(2016)11–0014–06 :G633.8 :B化学测试是化学课程实施的重要组成部分,为教师改进教学方法、调整教学内容提供基本依据,是学生自我检验、查漏补缺的有效途径,在化学教学过程中扮演着教学质量监控和教学效果诊断等角色因此,如何对化学测试试卷的质量进行科学、客观的分析具有重要意义当前,试卷质量分析主要以经典测试理论(Classical Test Theory)和项目反应理论(Item Response Theory)为理论指导。
经典测试理论从上世纪初问世以来,经过百年来的发展、完善,已形成了包括信度、效度、难度、区分度、标准差、平均分等在内的一系列项目分析指标项目反应理论作为经典测试理论的继承、发展,也将信度、难度等作为分析指标Rasch模型作为一种以项目反应理论为指导的非线性概率模型,在应用该模型进行试题分析时,首先要对试题与模型的拟合性以及试题单维性进行检验,且Rasch分析的质量指标给出的特征量也不同于经典测量理论中的指标特征量Rasch模型具有客观、等距的测量优点,因此自提出以来已经被广泛应用于心理学、健康学、经济学、社会科学等不同领域,但在中小学试卷质量分析中的应用研究还较少本文以某市一次化学中考模拟试卷质量分析为例,探讨了Rasch模型在化学试卷质量分析中的应用,以期为一线教师进行试卷质量分析提供新的技术参考1 Rasch模型简介Rasch模型是丹麦数学家、心理学家、教育家George Rasch于1960年提出的一种测量模型该模型成功克服了传统测量中项目难度与被试水平估计之间相互干扰的问题,使测量不再存在工具依赖和样本依赖,从而使测量的结果达到客观等距模型的数学表达式如下:其中Pni为被试n答对项目i的概率,Bn为被试水平,Di为项目难度。
当Bn=Di时,被试n答对项目i的概率值为0.5,当被试水平远远大于项目难度时(Bn>>Di),被试答对概率值趋近于1,相反,概率值趋近于0Bn与Di单位相同,可加减,换言之,Di为客观等距尺[1]模型将被试能力水平与项目难度放在同一等距尺上,这决定了其Wright图(怀特图)可以直观、简洁地进行被试与被试、被试与项目、项目与项目之间的比较分析随着验证Rasch模型应用软件的不断开发完善,国内外学者对该模型在教育领域的应用研究也不断深入著名物理教学研究者Maja Planinic利用Rasch模型进行了力学概念测试的评价[2]我国利用Rasch模型对全国大学生英语四六级考试(CET4/6)进行分数等值化已有二十多年,且效果较为理想[3]王蕾在利用Rasch模型对PISA(Program for International Student Assessment,国际学生评估项目)试题进行分析的基础上,讨论了Rasch这种客观等距测量量尺对完善我国教育评价及心理测量的参考价值[4]也有学者利用该模型的DIF(Differential Item Functioning)检验功能进行了一些相关关系研究,比如分析教师对学生自主学习支持程度与学生化学学习的相关关系[5],学生化学学科能力与性别差异的关系[6]。
除此之外,Rasch模型还被用于认知表现水平评价研究、题库建设、试卷设计、学习进阶研究等方面,但多数研究仍停留在理论分析层面,较少将该技术用于中小学试卷的质量分析中2 研究方法笔者于2016年6月对某校参加市中考模拟的全体初三年级学生进行了整群取样,样本人数为199,运用Winsteps3.72.3软件对其化学成绩进行了数据处理与分析,在此基础上讨论了Rasch模型在化学试卷质量分析中的应用以及在应用过程中需要注意的问题本次化学测试试卷分为选择题与非选择题两个部分,选择题共10个题目,非选择题共17个题目其中非选择题又分为物质推断题、实验题和化学计算题,物质推断题和实验题均以填空形式呈现,共计14个题目,化学计算题为3个题目为满足Rasch模型分析要求,将整套试题所有27个题目均采取二级记分,答对记1,答错记0利用Excel进行数据初步处理之后,将数据转化为Winsteps3.72.3导入格式导入并分析3 运用Rasch模型进行试题质量分析3.1 Rasch检验指标及特征量Rasch模型使用根据残差计算的两个卡方拟合检验指标MNSQ和ZSTD进行拟合度检验,其中ZSTD是MNSQ的标准化形式。
理想拟合情况下的MNSQ值为1,MNSQ值在0.5~1.5之间表示数据与模型预期拟合程度可接受[7],理想拟合情况下ZSTD值为0,当ZSTD值介于-2~2时,可认为拟合较好[8]单维性检验指标的特征量是项目分数与可能影响因素的相关关系值,当该值介于-0.4与+0.4之间时,认为对应项目符合单维性要求,Rasch模型可对该项目进行准确分析本研究涉及到的质量检验指标包括信度、分离度、难度、被试及试题分布信度是对试卷测试结果一致性、可靠性、稳定性的描述,特征量Reliability大于0.70表示具有较高可信度[9]分离度是对试题区分度的描述,分离度越高,表示试题对不同水平被试的区分度越高,特征量Separation大于2表示试题具有较高区分度[10]Rasch模型将试题难度与被试能力水平高低放在同一量尺上,用Logit值表示难度大小与能力水平高低,在怀特图中Logit值自上而下减小,表示题目难度降低、被试能力水平降低[11]不同能力水平被试及不同难度试题是否呈正态分布或近正态分布可以从怀特图中直接观察出,无需对特定参数进行数值分析,这也是Rasch模型的直观优势 3.2 整体质量检验利用Winsteps3.72.3软件对199名学生的数据进行整体质量检验,结果如图1所示。
检验结果显示试题及被试的MNSQ和ZSTD值均十分接近理想值,与模型拟合较好学生整体信度(Kid Reliability=0.81,>0.70)、试题整体信度(Tap Reliability=0.97,>0.70)均较高项目分离度(Tap Separation=5.89,>2)显示试题能够对不同能力水平被试加以区分3.3 单维性检验Rasch模型是一种参数项目反应理论(Parameter Item Response Theory,P-IRT)模型[12]项目反应理论建立在单维性假设的基础上,即被试在特定项目上的表现可归因为单一变量(知识、能力、人格特质等),其他因素对被试表现的影响可忽略[13]因此,单维性检验是运用Rasch模型进行测量分析的必要步骤[14]当试题的Rasch检验结果符合单维性要求时,Rasch模型对该试题的信度、难度、区分度等分析才更为精确对于这些单维性检验结果不佳的题目,不适合使用Rasch模型进行质量分析,可结合经典测量理论进行质量分析在Rasch检验中,标准残差图可判断是否有其他因素影响被试反应,用于进行单维性检验残差图横坐标表示项目难度,纵坐标为项目分数与可能影响因素的相关关系值。
标准残差图如图2所示从图2中可以直观地看出,本次测量试题的绝大多数项目在-0.4与+0.4之间,符合单维性要求,只有题目A、B、C、a显示出受其他因素干扰,测量的不是单一心理结构这种涉及多维能力测量的题目(如涉及到数学计算能力的化学定量计算试题)不符合Rasch模型基本假设,就会与模型不拟合[15]查表得出题目A、B、C、a分别对应试题3、23、19、5,需对这四个题目进行进一步分析以确定其不拟合的原因3.4 题目拟合度、测量误差检验气泡图(Bubble Chart)可以更直观地显示题目与模型的拟合程度和题目的测量误差如图3所示,横坐标为用于拟合度检验的未加权均方拟合统计量(Outfit Mean Square,简称Outfit MNSQ)[16],该值介于0.5到1.5之间表示结果与模型预期拟合,小于0.5表示过度拟合(Overfit),大于1.5则表示结果与模型不拟合(Underfit)[17]从图3可以看出该试卷中题目拟合度总体上可以接受,即大部分试题的被试反应与模型预测一致性较好,模型可对这部分试题质量做出准确估计但题目1的Outfit MNSQ小于0.5,即被试反应过度一致题目3、5、6、19、23的Outfit MNSQ均大于1.5,这五个试题与模型预期结果不拟合,即被试实际作答跟模型预测结果不一致,说明高、低能力的被试都答对或答错题目。
其中题目1、3、4、6的气泡半径较大,表明题目测量误差较大,测量结果不准确[18]造成不拟合或误差大的原因很多,比如被试在考试过程中的猜测、作弊、创造性作答等[19]对于拟合不佳或难度误差较大的题目须进一步分析,以便了解不拟合或难度误差大的可能原因3.5 题目难度与学生能力的匹配检验Rasch模型的客观等距性反映在怀特图中,即表现为怀特图将学生能力与项目难度放在同一水平尺度上,不仅可以对不同项目难度进行对比分析,而且可直观、简洁地进行项目难度与学生能力的匹配检验本研究中试题分析的怀特图如图4所示图中最左端数字是用于对比被试能力水平和题目难度的Logit量尺值,自下而上Logit值增大,表示被试能力水平升高、题目难度增加代表两个被试者,“·”代表一个被试者,右端数字为不同题目编号理想的试卷题目分布应该是不同难度题目均存在能力水平与之对应的被试,且在被试分布相对密集处所设置的题目数量相应较多[20]图4显示大多被试能力水平在0以上,表明该试题相对被试整体水平偏易Logit值3以上没有与被试能力相对应的题目,而题目1、3、6太过简单,没有能力水平与之对应的被试需要适当减少难度较低的题目,增加难度较高的题目,以增加不同难度题目的覆盖面。
由图4还可看出,被试分布呈负偏态分布,这也说明试题整体难度较低,能力水平较高的被试较多综上所述,试卷整体信度较高,具有良好的区分度,与Rasch模型拟合较好,但试题难度较被试能力水平而言偏易,缺少难度较大的题目存在个别不拟合、过度拟合、不符合单维性要求等题目,有待进行具体分析4 利用Rasch模型进行试卷质量分析应注意的问题利用Rasch模型进行试卷质量检验可以更直观地对试题质量和学生能力水平加以分析,便于教师更好把握试题对应内容的教学质量以及学生能力发展状况但应用过程中存在以下值得注意的问题4.1 根据实际分析需要选择Rasch模型的相应分析功能Rasch模型的分析功能较多,应根据实际需要选择相应功能进行分析比如,许多学校的平时测验采取教师或教科组自命题,这就可以选择上述3.2的试卷整体质量检验功能进行信度、区分度等检验,还可以根据3.3所述的单维性检验功能检验是否存在影响项目作答的其他因素,也可以选择气泡图来分析被试在哪些项目上反应过度一致或反应与期望反差太大又比如,在对单元小结考试的试卷分析中,教师可以选择怀特图来分析不同能力水平学生的分布情况,以确定本单元的教学质量上述功能只是Rasch分析中可用于试卷质量分析功能的一部分,教师可根据实际分析需要选择对应功能,也可结合多项功能进行分析。
教师还可根据实际分析需要选择其他的功能,如使用Rasch分析的DIF(D。
