电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

计算机化自适应测验中能力估计新方法

11页
  • 卖家[上传人]:工****
  • 文档编号:431491461
  • 上传时间:2022-11-09
  • 文档格式:DOCX
  • 文档大小:23.62KB
  • / 11 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、Rr0T寸88【杀】 仪廿ssnvRoomm offi EdsssMt Ss-Edsos offi EdsssMiiid i 亚屋H迪紳【w绘】t(9 寸叩CN寸 Id)Ks【SKew】CNoorn寸0)6I0CN【s(狒)出】 (策菱ml)嚣衆翟EH【蛊i.nwi 瀏宋只摄BKKK-密出乏N.(出乏N)損归出乏gffl衣ZSIT皿&1呂廂1CN舉、4S Mus T轴槪0轴殺摄K-(出乏)損归左也抵空-K泾g左也只摄BS】 豊H迪紳接蚩蚩蛊任sliws皿菁M44计算机化自适应测验(computerized adaptive testing,CAT )具有测验精度高、长 度短、成本低、实时反馈考试成绩、题型灵活多样、考试时间灵活等优点,是项目 反应理论(Item response theory,IRT )最成功的应用之一,被广泛应用于美国医生护 士资格考试、美国研究生入学考试和中国汉语水平考试中1.国内外学者主要研究 CAT的选题策略,具有大量的研究成果,但在CAT中对能力估计方法的研究较少而 事实上,CAT自适应选题是建立在对被试能力准确估计的基础上的,这关系到测验结 果的准确性、测验

      2、的安全性和测验的可信度因此,能力估计的准确性决定了 CAT的 使用效果2.目前屆际上流行的CAT能力估计方法主要有极大似然估计法(MLE)3、贝叶斯众 数估计法(MAP)4 和贝叶斯期望后验估计法(EAP)5 这些方法各有特点:MLE方法 的主要缺点是参数估计中需要不断迭代估计以及无法处理被试全对或全错的反应模 式,其优点是MLE估计是能力参数的充分统计量,是一种渐近无偏的能力估计方 法;EAP方法不需要迭代;但是EAP和MAP等贝叶斯方法的主要缺点是需要选择能 力的先验分布,且当先验分布方差比较小时,估计会收敛到先验分布期望附近,有可能 会缩小能力估计的范围.0.1极大似然能力估计方法在IRT中假定同一被试对各个项目的作答是相互独立的(局部独立性假设),各个被试 的作答模式是相互独立的,则被试反应向量(即为被试作答反应的得分阵)为 U=(ua1,ua2,.,uam),对应的似然函数为表示被试a对项目j的反应,取值为0或1, 分别表示答对或答错该项目m为施测项目数在IRT框架下,Paj可以取不同的形式, 表示能力为0a的被试正确作答项目j的概率,比较常见的是3参数Logistic模型

      3、(3PLM):Paj=cj+(1-cj)/(1+exp(-Daj(0a-bj),其中 D=1.7若猜测度 cj=0,则化为 双参数Logistic模型(2PLM);若cj=0且区分度aj=1则化为单参数Logistic模型 (1PLM),bj表示项目j的难度因为L(U|0a)表示得分向量U与能力0a之间的关系,所以称使|加)成立的为0a的极大似然估计值又因为对数似然函数和似然函数L(0a)在同一个处达到最大求0a的极大似然估计值可令dlnL(0a)/d0a=0,(1)因为(1 )式是非线性方程,需使用牛顿-拉夫逊迭代算法对其求解,的第t+1次估计值 为直到达到终止条件为止.3PLM对数似然函数1阶和2阶偏导数为因为模型参数的似然函数包含了观察数据值所能反应的所有信息,MLE估计是能力 参数的充分统计量,具有渐近一致性和渐近正态性等优良特性6.在理想条件CAT 下,当测验较长时,MLE是一种渐近无偏的能力估计方法7;但是MLE方法有一个明 显的缺点,即当被试作答全对或者全错时似然方程会出现没有有限解的情况.为了解 决这个问题,通常人为设定一个最小和最大的能力估计值对MLE估计值的界限加以

      4、 约束8,这是一种强行拉回的处理方式,会破坏MLE计算过程中的不连续性,从而缩 小能力估计的有效范围虽然如此,但因为MLE对被试能力分布不作要求,带界限的 MLE方法(MLET)还是被广泛地应用于CAT实测中.0.2贝叶斯众数估计方法F. Samejima认为若在测验之前知道被试总体的能力分布信息,则应充分利用这种 信息,以提高测验的估计准确度.MAP方法直接将先验概率密度(一般取标准正态概 率密度函数)乘以似然函数构建后验分布并求极大值,似然函数其中f(0a)是0a的先 验分布,其对数似然函数令 dlnLMAP(0a)/d0a=O,求得为0a的极大似然估计值同理方程(2)也是非线性方程,需要进行牛顿-拉夫逊迭 代.MAP会出现估计向先验均值回归的现象,即有偏估计事实上,MAP的先验分布不一 定是标准正态分布,还可以是一般正态分布、均匀分布或者是其它先验分布.0.3期望后验估计方法被试能力的EAP估计的理论依据是贝叶斯定理h(0a|U,E)二P(U|0a)g(0)/(P(U),其 中设被试后验分布为g(0a),其均值可以表示为/).由于该式含有积分,R. Bock等5使用高斯-厄尔米特

      5、积分公式给出了它的数值积分 形式/),其中Xk=-3.5+7(k-1)/(q-1)为数值积分节点,k=12.,q,q为等距点方法不 需要迭代.0.4改进MLE的能力估计新方法在MLE方法的基础上,设计2个有固定反应的项目来限制能力估计值具体而言,改 造MLE方法中的对数似然函数新的似然函数为In L*(0a) = Paj).在题库中,记所有题目中的最大难度为bmax,最小难度为bmin,最大区分度为 amax构造2个虚拟题目,一个是具有大区分度且特别容易的题目:难度为bmin,区 分度为 amax,猜测度为 0,在 3PLM 下 Pmin = 1/(1+exp(-Damax(0a-bmin),并且 假设被试一定能做对;另一个是大区分度且特别难的题目,难度为bmax,区分度为 amax,猜测度为 0,在 3PLM 下 Pmax=1/(1+exp(-Damax(0a-bmax),并且假设 被试一定会做错.再令dln L*(0a)/d0a=O,求得为0a的极大似然估计值.新方法在任何被试反应模式下均存在估计值,可适用于各种反应模式;其先验信息仅由Pmin和Pmax给出,这仅涉及2个项目,不会

      6、影响能力估计的整个过程,所以不会 缩小被试能力估计范围和能力估计的MLE相比,NMLE仅仅增加了 2个 噺的” 项目,所以NMLE具有MLE的基本性质比如NMLE仍然是能力参数的充分统计量, 也具有渐近一致性和渐近正态性等优良特性当测验较长时,NMLE像MLE方法一 样是一种渐近无偏的能力估计方法.0.5新方法的合理性和可行性为了检验新方法的合理性和可行性,共有4种能力估计方法参与比较:(i)MLET方法, 用牛顿-拉夫逊迭代方法对方程(1)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束,并且被试能力估计值限制在-3.5 3.5之间;(ii)MAP方法,设能力 的先验分布为正态分布,用牛顿-拉夫逊迭代方法对方程(2)求根,迭代更新30次后或 者在更新值误差小于0.001时迭代结束;(iii)EAP方法,设能力的先验分布为正态分 布,从-3.5 3.5中共取35个积分点;(iv)NMLE方法,用牛顿-拉夫逊迭代方法对方程 (3)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束.1 模拟实验1.1 被试及题库模拟为了考察能力的先验分布对各种能力估计方法的影响,

      7、共设计3组被试:(i)被试组1, 模拟产生1 000个被试,被试能力真值均服从均值为0、方差为1的标准正态分 布;(ii)被试组2,模拟产生1 000个被试,被试能力真值均服从均值为-1、方差为1 的正态分布;(iii)被试组3,模拟产生1 000个被试,被试能力真值均服从均值为1、 方差为1的正态分布;后续内容中被试组a简称为组a,a = 1,2,3.本文在3PLM模型下设计题库,所有试验模拟条件同文献9题库结构如下:模拟生 成 520 个项目且满足条件 In a N(0,1),b N(0,1),c Beta(5,17),0.2vav2.5,- 3.5vbv3.5,|a-b|v4,cv0.4 题库的项目数据见表1.表1题库的项目数据项目数据区分度a难度b猜测度c平均值1.001 30-0.006464 70.223 380标准差0.608 370.979 380 00.807 6101.2模拟CAT的施测过程本文不考虑内容平衡,项目曝光控制以及机会红利对CAT的影响,简化CAT设计 为:(i)取被试的能力初值为0;(ii)采用最大Fisher信息量选题策略,信息量计算公式1 为(ii

      8、i)分定长和不定长2种测验定长测验的测验长度分别为10和40,取测验长度为 10是为了考察NMLE方法是否适用于短测验和CAT测验初期的能力估计,取测验 长度为40是为了考察NMLE是否和MLE 样在长测验中是一种渐近无偏的能力 估计方法;不定长测验在被试累积信息量达到16时结束.1.3 评价指标评价指标有:测验偏差测验平均绝对离差测验均方根误差能力估计效率(ability emin),不定长测验的测验平均长度其中N为被试总人数,0i为第i个被试的能力真 值,为第i个被试的能力估计值,0max为N个被试中能力的最大值,0min为N个被 试中能力的最小值,为N个被试中能力估计的最大值,为N个被试中能力估计的最 小值,test_length(i)为被试i的测验长度.测验偏差(Bias )表示能力估计的无偏性,测验平均绝对离差(ABS)和测验均方根误差 (RMSE)表明了能力估计的准确性.Bias和ABS反映了能力估计的系统偏差,RMSE 反映了能力估计值和真实值的随机误差,它们都是评价测验准确性的常用指标,它们 越接近0,表示能力估计越接近无偏,即能力估计越准确能力估计效率(AEE)是本文

      9、 提出的一个新的评价指标,用来评价能力估计方法对能力估计范围的影响,AEE取值 越接近1表明该能力估计方法受外界影响越小,不会缩小能力估计范围.因为不定长 测验中每个被试的测量精度类似,所以早达到测验精度的被试所需测验长度更短,而 晚达到测验精度的被试所需测验长度就更长,这项指标体现了测验效率10.1.4 实验结果及其分析3种测验条件下的测验偏差(Bias)值见表2,当测验长度为10时結果见表3,当测验 长度为40时,结果见表4,当测验为不定长时,结果见表5.能力估计的无偏性对项目反应模型的应用非常重要,若参数估计的偏差较大,则会给 更深入的测评带来严重的误差11-13,测验偏差(Bias)用于评价无偏性和偏差的方 向性(正偏或负偏)在长测验中,较小的Bias值体现了 MLET方法和NMLE方法一 样,具有能力估计的渐近无偏性.表2 3种测验条件下测验偏差(Bias)值能力估计方法测验长度为10组1组2组3 测验长度为40组1组2组3不定长测验组1组2组3MLET0.024 0.0350.0280.0020.0010.0020.0170.0140.015MAP0.0330.036- 0.0280.0010.007-0.0060.0120.020-0.019EAP0.0300.032-0.0230.0000.009- 0.0080.0110.019- 0.017NMLE0.0220.0310.0260.0020.0010.0010.0160.0110.012表3当测验长度为10时4种能力估计方法的表现能力估计方法ABS组1组2组 3RMSE组1组2组3AEE组1组2组3MLET0.2510.2670.2730.3110.3640.2770.90

      《计算机化自适应测验中能力估计新方法》由会员工****分享,可在线阅读,更多相关《计算机化自适应测验中能力估计新方法》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.