好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

计算机自适应考试设计中的误区.doc

4页
  • 卖家[上传人]:
  • 文档编号:42774449
  • 上传时间:2018-06-03
  • 文档格式:DOC
  • 文档大小:79.50KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 计算机自适应考试设计中的误区计算机自适应考试设计中的误区张华华(作者简介:张华华,博士,天津市教育招生考试院特约研究员,美国德克萨斯大学奥斯汀分校教育心理系副教授)摘要:计算机自适应考试分数低于纸笔考试分数的现象时有发生该问题于计算机自适应考试的应用过程中呈上升趋势,这主要由其连续选题规则导致如果这个问题不能很好解决,计算机自适应考试的信度将显著降低在这篇论文中,我们将提出相关问题及其解决办法关键词:计算机自适应考试; 连续选题规则; 考试安全性计算机自适应考试(Computerized adaptive testing-CAT)已成为美国大规模教育测试的一种主要模式现有的这类考试包括研究生入学考试(GRE)、商学院研究生入学考试(GMAT)、护士资格考试,以及新兵入伍考试(ASVAB)等CAT 与传统纸笔考试的最大区别在于,前者是个别化的考试,所选项目的难度将尽量拟合估计中的考生能力参数;而后者针对全体考生统一组题,所有考生将做一套(或几套)共同项目由于针对考生能力选题,高水平的考生将可避免应答太多太容易的项目;而低水平的考生则可以避免应答太多难度高的项目,这样考生最终将考出自己真实水平。

      如 Weiss(1982)所指出,与传统纸笔考试相比,CAT 的主要优点在于使用较少的项目而达到更精确的考生能力估计值CAT 还具有许多优点,例如新颖的项目形式、方便和快捷的数据分析,以及即时评分等然而,CAT 也存在目前尚未解决的问题其中之一是 CAT 与纸笔考试的一致性近年来美国常有这方面的报道,例如一些 GRE 机考成绩差的考生,当他们再参加 GRE 纸笔考试后却获得了较高的成绩然而,ETS 早已取消 GRE 纸笔考试,GRE—CAT 已成了美国考生的惟一选择据美国高等教育年鉴报道(Carlson,2000):2000 年 ETS 曾允许大约 0.5%的GRE 考生自愿免费重考,原因是他们的机考成绩不可信尽管 ETS 拒绝对考分是否过高或过低作出评价,但笔者认为一定是这些考生的分数低得令人无法相信机考成绩是由选题算法根据考生能力估计值而转换成的正整数考生能力估计值 θ 的范围通常在-4 与+4 之间当 θ 估计值接近或达到-4,除了该考生能力极低外,笔者以为还有可能就是算法的不稳定性促使部分考生的 θ 估计值“发散” 这种现象如不加更正,将严重损害机考的声誉和可信度目前 CAT 最常用的选题算法是 Lord 在 20 世纪 70 年代提出的极大项目信息法。

      GRE 和GMAT 都使用项目反应理论(IRT)的三参数 Losistic 模型设 θ 是考生能力变量,对于随机抽取的考生具有能力 θ 者,答对第 j 个项目的概率为其中,aj是第 j 项目的区分度,bj是它的难度,cj是猜测参数,D 是常数 1.7项目信息函数的定义为GRE 机考采用极大似然估计法设为考生答完第 m 题之后,通过极大似然估计法(MLE)ˆm估计得能力值根据极大项目信息法(The Maximum item information method),第 m+1 题的选取将先由计算机算出题库中所有项目在这点上的信息量,并选出第 m+1 题使得该ˆm题的信息量 Im+1()达到最大值该算法的理论依据出自统计中的大样本理论即的ˆmˆm估计误差方差是 Fisher 信息的倒数在 IRT 中,Fisher information 便是 Test information,,由于 θ 值未知,并已知收敛于 θ,通常用代替 mjIjI1)()(ˆmˆmθ由,极大信息法将保证的估计误差方差最小事实上,极大信息法将选)(1)ˆ(ImVarˆm取区分度大的项目然而这个理论根据出自大样本理论,而 GRE 单项考试一般只有三十几个题目,加上这些题目还必须满足内容和题型分配比例(Content balance),大样本的假设往往不存在。

      那末美国高等教育年鉴报道的超低分现象是由何引起的呢?Chang and Ying(2002)对此进行了理论推导,为了便于讨论,假设猜题参数 Cj都为 0,则第 n 步 MLE 和第 n+1 步 MLE 之间满足下列关系其中 an+1和 bn+1是第 n+1 题的区分度参数和难度参数,Xn+1为项目反应变量,I(n+1)(θ)为信息函数是与的一个点,Xn+1取值 0 或 1当接近 bn+1时,* 1nnˆ1ˆnnˆ的值接近 1/2,因此等式(1)右边中括弧中的量近似于±1/2,实际上等式(1)右边第二项可以解释为 θ 估计值从第 n 步到 n+1 步的“修正” 显然,在考试的初级阶段因I(n+1)(θ)较小,这一步修正的大小由 an+1决定由于采用极大信息量的选题算法,在考试的初级阶段将选取题库中 a 值最大的题这时如果考生答错几题,算法将把考生的修正估计值向反方向“推”很远由于单项考试的长度固定在 30 题左右,尽管有些考生后阶段发挥得不错,在他们爬回来之前,考试已结束了Hau 和 Chang(2001)指出,极大信息选题法在有许多附加控制(例如 item exposure )]ˆ(exp[1]exp[11)ˆ(11nnnbbaannn rate control)的情况下乃是 a-值递减法(descending-a method)。

      即在考试一开始计算机将选取 a-值最大的项目,以后将选择中等 a-值的项目,在考试快结束时才使用较小 a-值的项目这一算法的缺点在于增加开始估计的不稳定性Chang 和 Ying(2002)利用公式(1)进行计算机模拟试验他们发现初使估计的不稳定性体现在两个方面:①如果考生在考试刚开始的时候错了几题,该算法将有可能把估计值向负方向推很远②如果考生在一开始连续答对,算法将有可能把估计值向正方向推很远这样,即使考生在最后连错若干题,也有可能获得较高成绩克服初始值不稳定性的有效方法是采用 Chang 和 Ying(1999)a-值递增法即在考试初级阶段使用 a-值小的项目因为此时能力估计值很有可能不准确,根据公式(1) a-值小的项目不至于将考生能力值推太远,而当项目个数逐步增加时,a-值亦应该逐步增加而 a-值最大的项目应放在考试的最后阶段使用正如他们指出:“it shrinks weights at early stages,making it less likely to have extreme values in estimating θ.It also inflates weights at final stages,counteracting the effect of the multiplier and making it more )(* 11 1 nnIlikely to adjust the final estimator of θ. ”(Chang and Ying,2002)极大信息选题法的另一缺点是所选题目的不平均性。

      计算机将只选 a-值较大的题目,而许多 a-值小的题目永远没有机会被计算机选到根据著名学者 Wainer(2000)的研究,GRE 题库中 12%的项目将负担 50%的被选中的项目然而这不是计算机的过错,因计算机是根据算法选题其实,所有的项目在放入题库前,都必须经过严格的审查,如有问题,尽早在审查中被剔除由此可见该算法的设计思想存在问题由于诸多题目得不到使用,这不仅浪费了有限的资源,还将危害机考的安全性机考的特性之一便是小规模和连续性后考的考生可以通过向先考的考生打听题目而获益由于许多题目(多为 a-值小的题目)计算机选不到,实际题数将大大小于原有题数这就大大方便了不法者有组织的偷题活动早在 1994 年,美国最大考试补习公司(Kaplan Educational Center)做了一个试验,他们派出本公司的 GRE 补习教练参加 GRE 机考并向本公司汇报所记下的题目不出几天,Kaplan 发现新汇集的题目与前几日汇集的题目重复ETS 在接到 Kaplan 报告后暂停了本次GRE 机考,并向法院控告 Kaplan 侵权(Mills,1999;Wainer,2000)专家认为,提高机考安全性除了增大题库外,还必须平均地使用项目(Wainer,2000)。

      显然,Wainer 的观点意味着 Chang 和 Ying(1999)提出的 a 值分层选题法对于高危度(high stakes)机考应是一种有前途的选题法原因之一是它将平均地使用每一道放进题库的项目it equalizes item exposure rates)以下是 a 值分层法的一种简单的设计:(1)根据 a-值大小将题库分为 k 层,第一层具最小 a 值,第 k 层的题目(项目)具最大a 值;(2)将机考分为 k 个阶段;(3)第 k 阶段时在第 k 层题库中选 nk项目所选项目的 b 值将尽量接近能力估计值ˆ(注意:n1 + n2 + ∧ + nk =考试的长度)(4)重复(3)对 k=1,2,∧k以上是一个简化的过程a-值分层法的初始指导思想很简单,因的精确度随着题数ˆ的增加而增加,一种有效的选题策略是在不够精确时使用 a-值小的项目,而当精确度ˆˆ提高时使用 a-值大的项目然而,最近的发展使我们认识了 a-值分层法还有一个新的优点,它将减低由估计不稳定性所造成的大步误差如公式(1)所示,在 n 值较小时,如果选择a-值小的项目将缩小更新的步长ˆ参考文献[1] Carlson,S.(October 20,2000).ETS finds flaws in the way online GRE rates some students.Chronicle of Higher Education, Vol 47 Issue 8, pA47,2p.[2] Chang, H.&Ying, Z.(1996).A global information approach to computerized adaptive testing.Applied Psychological Measurement, 20,213—229.[3] Chang, H.& Ying, z.(1999). A-stratified multistage computerized adaptive testing.Applied Psychological Measurement, 23(3),211—222.[4] Chang, H.&Ying, z.(April, 2002).To weight or not to weight? Balancing influence of initial and later items in adaptive testing.Paper presented at the Annual Meeting of National Council on Measurement in Education.New Orleans, LA.[5] Hau, K-T. & Chang, H.(2001).Item selection in computerized adaptive testing:should more discriminating items be used first? Journal of Educational Measurement, 38, 249—266.[6] Mills, C.N.(1999).Development and introduction of a computer adaptive graduate record examinations general test.In F.Drasgow & J.Olson—Buchanan(Eds), Innovation in com。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.