
八年级数学学业测试卷质量分析中Rasch模型的应用.docx
8页八年级数学学业测试卷质量分析中Rasch模型的应用一、问题提出数学学业评价既是衡量数学课程实施效果必不可少的手段,也是学生数学学习的重要环节《义务教育数学课程标准(2011年版)》(以下简称《课标2011》)明确提出“学习评价的主要目的是为了全面了解学生数学学习的过程和结果,激励学生学习和改进教师教学”[1]数学学业评价是否科学公正,关键在于采用的数学学业测试卷能否客观、准确地评估学生的数学能力水平因此,有必要采用科学有效的方法评估数学学业测试卷的质量经典测量理论(CTT)是教育领域中评估试卷质量的主要方法,但它无法避免题目难度估计和学生能力估计的相互干扰,即在判断题目难易时容易出现样本依赖,因而在估计学生能力时,容易产生测试依赖[2],这也使得其建立客观评价尺度的初衷很难达到近年来,Rasch模型能克服样本差异或测验难易而导致的测量客观性不足的问题[3],因而逐渐被应用于心理学、教育学领域Rasch模型的原理在于,特定个体对特定题目做出特定反应的概率可以用个体能力与该题目难度的一个简单函数来表示[4]它通过对数转换,将被试和题目在同一单维度标尺上进行标定[5],从而使得题目与题目之间、被试与被试之间,以及被试与题目之间可以直接进行比较[4]。
Rasch模型的这一特点为心理学、教育学等学科进行客观性测量提供了行之有效的方法然而,到目前为止,国内在学科学业测评中关于Rasch模型的实际应用并不多本研究试图通过运用Rasch模型分析软件Winsteps,对一份八年级数学学业测试卷的质量进行分析,从单维性检验、怀特图、项目拟合度、气泡图等维度了解测试卷的整体质量,以期为教师在设计高质量的测试题中应用Rasch模型提供参考和借鉴二、研究方法1.研究对象本研究的数学学业测试卷以《课标2011》为依据,借鉴PISA、TIMSS等国际上较为成熟的大规模教育测评中数学学科测评的经验,从内容维度(数与代数、图形与几何、统计与概率)和认知维度(了解、理解和应用)进行试题设计本测试在关注学生数学知识与技能的同时,突出了对学生基本数学能力的要求本测试卷的前期开发过程严格按照科学规范的程序进行第一步,对国内外的相关测评项目开展充分调研,同时认真研读《课标2011》,最终确定了试卷的测试框架、开发原则与理念,界定了测评工具的内涵,编制了测评工具的开发指南与细目表第二步,征集、研磨测试题目,对随机选取的6名学生进行访谈,并依据反馈意见对试题的内容和结构进行修改和完善,第一次修改完成后对不少于30名学生的班级进行试测,同时组织内部专家对试题进行评审,给出评审意见。
而随后的300人测试作为大规模数学学业水平测试工具开发的关键环节,其结果可以为后续测试工具的分析与修订提供科学的依据,确保其符合测量学的要求,从而充分发挥每一道题目的测评作用因此,选择对本测试卷进行质量分析具有一定的代表性该测试卷包含12道客观题、16道主观题(按照小题数量计数),题型分布如表1所示本研究在北京市随机选取304名八年级学生,要求他们在90分钟内完成试卷,取样时尽量涵盖数学学业水平高、中、低的学生我们将所有试卷当场回收,随后对学生的作答情况进行分析2.统计软件本研究先使用SPSS20.0软件对收集的测试数据进行单维性检验,再使用Winsteps3.72.3软件对测试数据进行Rasch模型分析三、基于Rasch模型的八年级数学学业测试卷质量分析1.单维性检验项目反应理论(itemresponsetheory,IRT)建立在单维性假设基础之上Rasch模型是基于IRT模型提出的一个潜在特质模型,因此需要满足单维性假设,即被试在特定项目上的表现只取决于一种潜在特质或能力,其他因素对被试表现的影响可以忽略不计[6]本研究中的八年级数学学业测试卷考查的是学生的数学学业能力,因此我们假设整套试卷只包含一个维度,即学生的作答表现仅受所学的相关数学知识的影响,而不受其他因素的影响。
为了验证这一假设,本研究采用SPSS20.0软件对学生的测试数据进行探索性因素分析表2为KMO检验和Bartlett’s球形检验结果若KMO值大于0.70及Bartlett’s球形检验显著性p<0.01,则可以进行探索性因素分析[7]由表2可知,KMO值为0.90,Bartlett’s球形检验显著性p<0.001,因此可以进行探索性因素分析表3呈现的是采用主成分分析法提取出来特征根大于1的因子解释的总方差,图1为因子分析的碎石图当因素分析发现存在多个成分时,若成分1与成分2的特征根比值超过5,则说明该数据具有单维性[8]由表3可知,该测试卷有多个因子的特征根大于1(即不只存在一个成分),成分1的特征根为8.393,成分2的特征根为1.626,成分1与成分2的特征根比值超过5,说明该测试卷只受到一个因子的影响表1八年级数学学业测试卷的题型分布从图1可以看出,曲线在X轴上仅一处出现明显的弯折,说明测试卷只受到一个因子的影响也就是说,本次测试中,学生的作答表现只受其掌握的数学知识的影响,符合Rasch模型单维性假设的要求,可以进行Rasch模型分析表2KMO和Bartlett’s球形检验结果表3解释的总方差2.怀特图Rasch模型把学生能力与题目难度放在同一个水平尺(怀特图)上,从而可以直观清楚地比较学生能力与题目难度、学生与学生、题目与题目之间的关系及其差异。
图2的怀特图(Wrightmap)在同一标尺上显示了题目难度与学生能力水平间的对应关系图2中的竖线为logit刻度尺,竖线左侧表示学生能力水平的分布情况,每个#号代表2名学生,每个点表示1名学生,竖线右侧为试卷所有题目的难度分布情况;竖线旁边的字母M是mean的缩写,指平均水平,S是onestandarderror的缩写,代表距离均值的1个标准差,T是twostandarderror的缩写,代表距离均值的2个标准差自上而下,学生的能力水平依次递减,题目难度也逐渐降低学生之间的距离代表学生能力水平之间的差异,距离越近,差异越小;题目间的距离也如此处在同一位置的学生能力水平相等,处在同一位置的题目难度相当当学生能力水平与题目难度越接近时,测试卷所获得的学生数学学业表现的信息量越大,越能精确地估计出学生的能力水平图2题目难度与学生能力关系图(怀特图)从图2可以看出,该测试卷的试题难度分布范围约为4.2个logit,分布形式为正偏态分布;学生能力水平范围宽度约为6.4个logit,分布形式为负偏态图2也清楚地呈现了试题难度的顺序,且试题难度基本都在-1.6个logit到1.5个logit之间,难度分布集中于中等难度,其中题目M8AO071的难度最大,题目M8AS1611的难度最低。
此外,学生能力水平范围大于试题的难度分布范围,试题没有覆盖从1.5个logit到4个logit的高能力水平学生3.项目拟合和误差统计表4呈现了运用Winsteps软件进行参数估计所得到的题目拟合指数,包括平均分(measure)、标准误(S.E.)、infit与outfit的残差均方以及相关系数(CORR.)其中,对于题目难度的估计按照自上而下逐渐降低的顺序进行排序outfitMNSQ和infitMNSQ这两个拟合指标都通过计算残差得到,前者是标准残差的均方,对极端值较为敏感,后者是加权后的残差均方,对于题目难度与能力水平相当的数据比较敏感outfitMNSQ和infitMNSQ值介于0和正无穷大之间,其值为1时表示数据与模型完全拟合,通常情况下,MNSQ值介于0.50到1.50之间表示数据与模型预期拟合程度是可接受的[6]由表4可知:infitMNSQ的取值范围为0.77~1.45,表明所有题目与模型拟合得很好;outfitMNSQ的取值范围为0.37~1.98,M8AS1611、M8AO101、M8AO071及M8AS142这4道题目稍微偏离了0.50~1.50的正常取值范围,与Rasch模型预期结果的拟合程度不高,说明被试的实际作答与模型的预测结果不一致,能力水平高的学生与能力水平低的学生均可能答对或答错这些题目。
除了这4道题目,其余24道题目都与模型拟合较好Rasch标准误反映的是题目测量被试能力水平的稳定性,标准误越小说明题目对学生能力水平估计的结果越稳定由表4可知,除了M8AS1611,其余27道题目的误差值均在0.10左右,误差估计值较小,说明试题对学生能力的估计是稳定的,即试卷信度较高相关系数表示的是题目与题目测量目标的接近程度,相关系数越高,表明题目与其测量目标越接近从表4可以发现,除了M8AO071、M8AO051及M8AO101的相关系数在0.20左右,略低于可接受的最低值0.30,其余25道题目的相关系数都可以接受4.气泡图气泡图可以更加直观清晰地对每一道题目的测量误差和拟合情况进行分析图3中,每一个气泡代表一个题目,气泡半径大小表示Rasch标准误,气泡越小说明误差越小,测量结果越精确;气泡位置表示题目outfitMNSQ参数大小,气泡越靠近气泡图的中轴线说明题目与模型拟合得越好;气泡越靠近上方,说明它所代表题目的难度越大通过气泡图,研究者可以快速查找出不符合Rasch模型的题目表4题目拟合和误差统计表图3横轴中的underfit(大于1.50)代表的是数据的变异量大于Rasch模型的预期,overfit(小于0.50)表示的是数据的变异量小于Rasch模型的预期。
[9]从图3中可以看出,除了题目M8AO101、M8AO071及M8AS142非常靠近underfit,其余25道题目的outfitMNSQ参数值都在0.50~1.50范围内,表明绝大部分题目的数据变异量符合Rasch的预期另外,图中有部分题目相互之间有重合,说明这些题目的难度水平相近不仅如此,从图3还可以看出:M8AO071难度最大,M8AS1611难度最小;M8AS1611的气泡位置与其他气泡明显分离,且气泡大小大于其他气泡,说明M8AS1611的标准误较大,所测量结果的精确性较小,它可能没有准确估计出学生的能力水平四、结论与讨论图3气泡图1.试卷整体质量较高本研究通过运用Rasch模型分析软件Winsteps对八年级数学学业测试卷质量进行了分析,从单维性检验、怀特图、项目拟合度、气泡图等方面了解和评价测试卷的整体质量怀特图反映出本次测试卷中,试题难度分布集中在中等难度,其中题目M8AO071难度最大,题目M8AS1611难度最小而学生能力水平范围大于试题的难度分布,该测试题目相对于学生来说偏简单,高能力水平的学生没有相对应难度的题目,故为了让测试题也能对高能力水平学生进行精确估计,应考虑在后期修订测试卷时增加部分高难度题目。
从上述数据与Rasch模型拟合的情况可以发现:所有题目的infitMNSQ值均在正常范围以内,表明题目难度与学生的能力水平吻合较好,两者都能得到比较精确的估计;M8AS1611、M8AO101、M8AO071、M8AS142这4道题目的outfitMNSQ值稍微超过了正常的取值范围,意味着学生在回答这4道题目时,部分高能力水平的学生可能出于失误没有答对,而低能力水平学生却可能因为猜测答对了除此之外,绝大部分题目均能与Rasch模型很好地拟合除了M8AS1611,其余题目的Rasch误差值都比较小,说明测试卷的信度较高,试题对学生能力估计比较稳定结合怀特图我们发现,M8AS1611是测试卷中最简单的题目,但在这一档难度没有相应能力的学生,除了两名学生的能力值在这一标尺之下,其余学生的能力水平均高于答对该题所需的能力水平这也说明,题目如果过于简单,在估计学生能力水平时容易出现较大的误差另外,除了少数几道题目,本测试卷的题目与题目测量目标之间。
