您所在位置：网站首页 > 办公文档 > 解决方案计算机化自适应测验中能力估计新方法

计算机化自适应测验中能力估计新方法

11页

卖家[上传人]：工****

文档编号：431491461

上传时间：2022-11-09

文档格式：DOCX

文档大小：23.62KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金贝

/ 11 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、Rr0T寸88【杀】仪廿ssnvRoomm offi EdsssMt Ss-Edsos offi EdsssMiiid i 亚屋H迪紳【w绘】t(9 寸叩CN寸 Id)Ks【SKew】CNoorn寸0)6I0CN【s(狒)出】 (策菱ml)嚣衆翟EH【蛊i.nwi 瀏宋只摄BKKK-密出乏N.(出乏N)損归出乏gffl衣ZSIT皿&1呂廂1CN舉、4S Mus T轴槪0轴殺摄K-(出乏)損归左也抵空-K泾g左也只摄BS】豊H迪紳接蚩蚩蛊任sliws皿菁M44计算机化自适应测验(computerized adaptive testing,CAT )具有测验精度高、长度短、成本低、实时反馈考试成绩、题型灵活多样、考试时间灵活等优点,是项目反应理论(Item response theory,IRT )最成功的应用之一,被广泛应用于美国医生护士资格考试、美国研究生入学考试和中国汉语水平考试中1.国内外学者主要研究 CAT的选题策略,具有大量的研究成果，但在CAT中对能力估计方法的研究较少而事实上,CAT自适应选题是建立在对被试能力准确估计的基础上的，这关系到测验结果的准确性、测验

2、的安全性和测验的可信度因此，能力估计的准确性决定了 CAT的使用效果2.目前屆际上流行的CAT能力估计方法主要有极大似然估计法(MLE)3、贝叶斯众数估计法(MAP)4 和贝叶斯期望后验估计法(EAP)5 这些方法各有特点:MLE方法的主要缺点是参数估计中需要不断迭代估计以及无法处理被试全对或全错的反应模式，其优点是MLE估计是能力参数的充分统计量，是一种渐近无偏的能力估计方法;EAP方法不需要迭代;但是EAP和MAP等贝叶斯方法的主要缺点是需要选择能力的先验分布,且当先验分布方差比较小时,估计会收敛到先验分布期望附近,有可能会缩小能力估计的范围.0.1极大似然能力估计方法在IRT中假定同一被试对各个项目的作答是相互独立的(局部独立性假设)，各个被试的作答模式是相互独立的,则被试反应向量(即为被试作答反应的得分阵)为 U=(ua1,ua2,.,uam),对应的似然函数为表示被试a对项目j的反应，取值为0或1, 分别表示答对或答错该项目m为施测项目数在IRT框架下,Paj可以取不同的形式, 表示能力为0a的被试正确作答项目j的概率，比较常见的是3参数Logistic模型

3、(3PLM):Paj=cj+(1-cj)/(1+exp(-Daj(0a-bj),其中 D=1.7若猜测度 cj=0,则化为双参数Logistic模型(2PLM);若cj=0且区分度aj=1则化为单参数Logistic模型 (1PLM),bj表示项目j的难度因为L(U|0a)表示得分向量U与能力0a之间的关系,所以称使|加)成立的为0a的极大似然估计值又因为对数似然函数和似然函数L(0a)在同一个处达到最大求0a的极大似然估计值可令dlnL(0a)/d0a=0,(1)因为(1 )式是非线性方程，需使用牛顿-拉夫逊迭代算法对其求解，的第t+1次估计值为直到达到终止条件为止.3PLM对数似然函数1阶和2阶偏导数为因为模型参数的似然函数包含了观察数据值所能反应的所有信息,MLE估计是能力参数的充分统计量,具有渐近一致性和渐近正态性等优良特性6.在理想条件CAT 下,当测验较长时,MLE是一种渐近无偏的能力估计方法7;但是MLE方法有一个明显的缺点，即当被试作答全对或者全错时似然方程会出现没有有限解的情况.为了解决这个问题，通常人为设定一个最小和最大的能力估计值对MLE估计值的界限加以

4、约束8,这是一种强行拉回的处理方式,会破坏MLE计算过程中的不连续性,从而缩小能力估计的有效范围虽然如此,但因为MLE对被试能力分布不作要求，带界限的 MLE方法(MLET)还是被广泛地应用于CAT实测中.0.2贝叶斯众数估计方法F. Samejima认为若在测验之前知道被试总体的能力分布信息，则应充分利用这种信息，以提高测验的估计准确度.MAP方法直接将先验概率密度(一般取标准正态概率密度函数)乘以似然函数构建后验分布并求极大值,似然函数其中f(0a)是0a的先验分布，其对数似然函数令 dlnLMAP(0a)/d0a=O,求得为0a的极大似然估计值同理方程(2)也是非线性方程，需要进行牛顿-拉夫逊迭代.MAP会出现估计向先验均值回归的现象，即有偏估计事实上,MAP的先验分布不一定是标准正态分布，还可以是一般正态分布、均匀分布或者是其它先验分布.0.3期望后验估计方法被试能力的EAP估计的理论依据是贝叶斯定理h(0a|U,E)二P(U|0a)g(0)/(P(U),其中设被试后验分布为g(0a),其均值可以表示为/).由于该式含有积分,R. Bock等5使用高斯-厄尔米特

5、积分公式给出了它的数值积分形式/),其中Xk=-3.5+7(k-1)/(q-1)为数值积分节点,k=12.,q,q为等距点方法不需要迭代.0.4改进MLE的能力估计新方法在MLE方法的基础上，设计2个有固定反应的项目来限制能力估计值具体而言，改造MLE方法中的对数似然函数新的似然函数为In L*(0a) = Paj).在题库中,记所有题目中的最大难度为bmax,最小难度为bmin,最大区分度为 amax构造2个虚拟题目,一个是具有大区分度且特别容易的题目:难度为bmin,区分度为 amax,猜测度为 0，在 3PLM 下 Pmin = 1/(1+exp(-Damax(0a-bmin),并且假设被试一定能做对;另一个是大区分度且特别难的题目，难度为bmax,区分度为 amax,猜测度为 0,在 3PLM 下 Pmax=1/(1+exp(-Damax(0a-bmax),并且假设被试一定会做错.再令dln L*(0a)/d0a=O,求得为0a的极大似然估计值.新方法在任何被试反应模式下均存在估计值,可适用于各种反应模式;其先验信息仅由Pmin和Pmax给出，这仅涉及2个项目，不会

6、影响能力估计的整个过程，所以不会缩小被试能力估计范围和能力估计的MLE相比,NMLE仅仅增加了 2个噺的” 项目，所以NMLE具有MLE的基本性质比如NMLE仍然是能力参数的充分统计量, 也具有渐近一致性和渐近正态性等优良特性当测验较长时,NMLE像MLE方法一样是一种渐近无偏的能力估计方法.0.5新方法的合理性和可行性为了检验新方法的合理性和可行性，共有4种能力估计方法参与比较:(i)MLET方法, 用牛顿-拉夫逊迭代方法对方程(1)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束,并且被试能力估计值限制在-3.5 3.5之间;(ii)MAP方法,设能力的先验分布为正态分布,用牛顿-拉夫逊迭代方法对方程(2)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束;(iii)EAP方法,设能力的先验分布为正态分布，从-3.5 3.5中共取35个积分点;(iv)NMLE方法，用牛顿-拉夫逊迭代方法对方程 (3)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束.1 模拟实验1.1 被试及题库模拟为了考察能力的先验分布对各种能力估计方法的影响,

7、共设计3组被试:(i)被试组1, 模拟产生1 000个被试,被试能力真值均服从均值为0、方差为1的标准正态分布;(ii)被试组2,模拟产生1 000个被试，被试能力真值均服从均值为-1、方差为1 的正态分布;(iii)被试组3,模拟产生1 000个被试，被试能力真值均服从均值为1、方差为1的正态分布;后续内容中被试组a简称为组a,a = 1,2,3.本文在3PLM模型下设计题库，所有试验模拟条件同文献9题库结构如下:模拟生成 520 个项目且满足条件 In a N(0,1),b N(0,1),c Beta(5,17),0.2vav2.5,- 3.5vbv3.5,|a-b|v4,cv0.4 题库的项目数据见表1.表1题库的项目数据项目数据区分度a难度b猜测度c平均值1.001 30-0.006464 70.223 380标准差0.608 370.979 380 00.807 6101.2模拟CAT的施测过程本文不考虑内容平衡，项目曝光控制以及机会红利对CAT的影响，简化CAT设计为：(i)取被试的能力初值为0；(ii)采用最大Fisher信息量选题策略，信息量计算公式1 为(ii

8、i)分定长和不定长2种测验定长测验的测验长度分别为10和40,取测验长度为 10是为了考察NMLE方法是否适用于短测验和CAT测验初期的能力估计，取测验长度为40是为了考察NMLE是否和MLE 样在长测验中是一种渐近无偏的能力估计方法；不定长测验在被试累积信息量达到16时结束.1.3 评价指标评价指标有:测验偏差测验平均绝对离差测验均方根误差能力估计效率(ability emin),不定长测验的测验平均长度其中N为被试总人数,0i为第i个被试的能力真值，为第i个被试的能力估计值,0max为N个被试中能力的最大值,0min为N个被试中能力的最小值，为N个被试中能力估计的最大值，为N个被试中能力估计的最小值,test_length(i)为被试i的测验长度.测验偏差(Bias )表示能力估计的无偏性，测验平均绝对离差(ABS)和测验均方根误差 (RMSE)表明了能力估计的准确性.Bias和ABS反映了能力估计的系统偏差,RMSE 反映了能力估计值和真实值的随机误差,它们都是评价测验准确性的常用指标,它们越接近0,表示能力估计越接近无偏，即能力估计越准确能力估计效率(AEE)是本文

9、提出的一个新的评价指标，用来评价能力估计方法对能力估计范围的影响,AEE取值越接近1表明该能力估计方法受外界影响越小,不会缩小能力估计范围.因为不定长测验中每个被试的测量精度类似,所以早达到测验精度的被试所需测验长度更短,而晚达到测验精度的被试所需测验长度就更长,这项指标体现了测验效率10.1.4 实验结果及其分析3种测验条件下的测验偏差(Bias)值见表2,当测验长度为10时結果见表3,当测验长度为40时,结果见表4,当测验为不定长时,结果见表5.能力估计的无偏性对项目反应模型的应用非常重要,若参数估计的偏差较大,则会给更深入的测评带来严重的误差11-13,测验偏差(Bias)用于评价无偏性和偏差的方向性(正偏或负偏)在长测验中，较小的Bias值体现了 MLET方法和NMLE方法一样,具有能力估计的渐近无偏性.表2 3种测验条件下测验偏差(Bias)值能力估计方法测验长度为10组1组2组3 测验长度为40组1组2组3不定长测验组1组2组3MLET0.024 0.0350.0280.0020.0010.0020.0170.0140.015MAP0.0330.036- 0.0280.0010.007-0.0060.0120.020-0.019EAP0.0300.032-0.0230.0000.009- 0.0080.0110.019- 0.017NMLE0.0220.0310.0260.0020.0010.0010.0160.0110.012表3当测验长度为10时4种能力估计方法的表现能力估计方法ABS组1组2组 3RMSE组1组2组3AEE组1组2组3MLET0.2510.2670.2730.3110.3640.2770.90

《计算机化自适应测验中能力估计新方法》由会员工****分享，可在线阅读，更多相关《计算机化自适应测验中能力估计新方法》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源