好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Chapter5 效度.ppt

69页
  • 卖家[上传人]:cl****1
  • 文档编号:586068188
  • 上传时间:2024-09-03
  • 文档格式:PPT
  • 文档大小:2.92MB
  • / 69 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第五章 效 度孔 明苏州大学医学部9/3/20241 •信度:信度:测量的稳定性(弹着点的密集程测量的稳定性(弹着点的密集程度)度)•效度:效度:测量是否有效(弹着点离靶心的测量是否有效(弹着点离靶心的距离)距离)9/3/20242 本章要点• 1. 1. 效度概念及其演变趋势• 2. 2. 传统的三种效度类型:内容效度、效标关联效度、构想效度的概念及其评估方法• 3. 3. 现代效度理论:单一效度•4. 4. 影响测验效度的因素9/3/20243 1. 效度概念及其演变趋势9/3/20244 1.1 什么是效度•效度:是一个测验能够测量其所要测量的东西的程度(the extent or degree to which the test measures what it was designed to measure)•或测验使用者的预定目的与实测结果相吻合的程度–这个测验测什么?–测得有多准?9/3/20245 效度的性质•效度是针对测验结果的•效度是针对某种特定的测验目的的–尺子可以用来度量长度,但不能用来度量重量,即便每次度量的结果都完全一样–16PF16PF是用来测人格的,如果那来测智力的话,就缺乏效度 。

      •效度只有程度上的差异9/3/20246 1.2 效度的测量学定义•真分数理论回顾:•系统误差(包含在真分数中):•Sv2 :有关(有效)变异•SI2 :无关变异(系统误差)•效度的测量学定义:与测量目的有关的真实变异(或有效变异)在总变异中的比例•rxy=Sv2/Sx29/3/20247 1.3 效度与信度的关系?•rxy=Sv2/Sx2• =(Sx2- SI2- SE2)/ Sx2•=1- SI2/ Sx2- SE2/ Sx2•= rXX - SI2/Sx2•SI2>=0•rxy<= rxx•信度是效度的必要而非充分条件•信度:只考虑随机误差随机误差(random error)对测量的影响•效度效度:同时受到随机误随机误差差和系统误差系统误差(systematic error)两方面的影响9/3/20248 例子:三个算术测验的比较Sv2SI2SE2SX2 Sv2Sv2SI2SI2SE2SE2Test 1Test 2Test 39/3/20249 1.4 效度概念的演变趋势•早期:测验成绩与效标的相关•20世纪4、50年代:四类效度–内容效度内容效度(content validity)、构想效度构想效度(construct validity)、预测效度预测效度(predictive validity) 和同时效度同时效度(concurrent validity) •1966《教育与心理测验的标准和指南》(美国心理学会、美国教育研究学美国心理学会、美国教育研究学会) :效标关联 (criterion-related or empirical)、构想 、内容•单一效度:测验结果的有效性9/3/202410 2. 传统的三种效度类型9/3/202411 传统的效度的种类•证明一个测验是有效的(validation),必须保证在以下三方面均是有效的:–内容效度(content)–效标关联或实证效度(criterion-related or empirical)–构想或结构效度(construct)•不能只独立地保证一方面。

      9/3/202412 2.1.1 什么是内容效度•内容效度(content validity):测验内容对测验目的的适合程度•基本前提:测验试题应为所欲测内容或行为范围之代表性样本(representative sample)•主要用于建构或评价成就测验或职业测验9/3/202413 •需要考虑的基本方面:–测验内容范围:应能确切涵盖所界定对象之范围–测验题目的代表性:每个试题应与所界定内容或行为范围有适度相关;试题分配应能反映范围内各种变项或成分所应占的比重–保证测验本身结构、要求受测者对试题做出反应的方式–保证有一定的题量9/3/202414 2.1.2 内容效度的估计步骤•评估内容效度的基本过程:•(一) 详细描述内容范围 –课程内容、教育目标以及各类题目所占比例 •(二) 明确每一个测验项目,即每一道题所测的内容范围•(三)在内容范围和结构方面对测验项目与全测验作比较9/3/202415 1、 内容范围:10以内加减法运算 内容分类:A.运算类型 B.运算范围 1)加法 2)减法 运算结果≤10 各类的相对重要性2 2、、分析每一测验题的内容、结构。

      <10 =10 >10加法40% 10% 0减法50% 0 0 例:9/3/202416 2.1.3 内容效度的估计方法•方法:–专家评判 问题:缺乏数量化指标–经验方法–前测-学习-再测9/3/202417 2.1.4 内容效度与表面效度•表面效度(Face validity): 表面看起来测验内容与测验目的的一致性程度–市井或通俗测验多有高的表面效度,但它不能保证测量的正确性•提高表面效度可以起到“包装”的作用•对表面效度的要求–最高水平测验:高;典型行为测验:低9/3/202418 内容效度的适用•成就测验•标准参照测验•不适用:能力倾向(aptitude)与人格•为什么?9/3/202419 2.2 效标关联效度(Criterion-related validation)•又称实证效度,指一个测验对处于特定情境中的个体的行为预测的准确性即:测验结果与效标的关联程度(求相关)•效标(Criterion):希望做出推断的行为或被预测的行为,是检验测验有效性的标准–测验=预测源–行为=效标•效标关联效度是基于数据的( data based)–一个选拔测验与工作绩效的相关–一个成就测验与年级的相关–一个诚实测验与偷窃的相关9/3/202420 2.2.1 常见的效标•学业成就:–学科成绩,学历,获奖•实际的工作表现–产量、治愈率、违规次数•特殊训练成绩–培训•临床诊断•对团体的区分(人口统计学变量)–年龄,种族,疾病类型•其他现成的测验9/3/202421 2.2.2 效标的选择•有效——符合测验目的•可靠——高信度、误差小•可行——可以收集到•客观——避免“效标污染”9/3/202422 效标污染•效标污染效标污染(criterion contamination ) :一般指由于评定者知道其预测源分数而使效标“纯度”降低的情况(Anastasi, 1988)–预测源的知识–评定偏差–团体特征偏差•好的效标应是适当的、可信的和无偏见的(Thorndike, 1949)9/3/202423 2.2.3 两种效标关联效度•预测效度(predictive validity):–预测未来–他将来会患焦虑症吗?•同时效度(concurrent validity):–诊断现状–他患有焦虑症吗?•二者的重要差别:进行测验(即预测源)与进行效标测量之间的时间•不同时间=预测效度•同一时间=同时效度9/3/202424 做法不同•理想的策略:预测效度理想的策略:预测效度–学生参加高考,把所有的人都录取–一段时间以后,将他们的平均学业成绩与高考分数求相关–这个相关称为效度系数–困境?实践上,伦理上•实践中的选择:同时效度实践中的选择:同时效度–已经上了大学的学生参加高考,同时收集他们的平均学业成绩–计算高考分数与学业成绩的相关•优势:可行性、易行性•二者的差别–表面上:时间长短–实质上:对样本代表性的要求9/3/202425 2.2.4 效标关联效度的估计方法•1. 相关法: 计算测验分数与效标的相关系数。

      •2.区分法:根据效标上的成绩将被试分为好、坏两组,那么,这些组在预测分数上应该有显著差异如果存在显著差异,说明测验的预测效度高•3.命中率:当使用测验进行决策时,决策的正命中率和总命中率可以作为效度的指标9/3/202426 总命中率=命中人数/总人数正命中率=被录取的成功者/录取人数9/3/202427 2.2.5 效标关联效度的实际应用问题•1. 统计的显著性 样本量对相关系数显著性的影响相关系数r样本量n.9973.7078.51415.32537.195102.098402相关显著性与样本量之间相关显著性与样本量之间的关系的关系(p < .05 水平) 9/3/202428 •2. 估计的标准误•估计的标准误标准误 (standard error, SE):使用测验分数预测效标分数时的误差大小的估计值:•rxy:测验的效度系数 sy:效标成绩的标准差9/3/202429 估计的标准误的应用:估计真正效标分的变化范围•某能力倾向测验的效标的标准差是15,测验和效标的相关是0.50,那么从该测验估计等级水平的标准误是多少?如果某学生预测的效标得分是50,那么实际获得的效标分数有68%的可能落在哪个区间范围内?9/3/202430 3. 效标关联效度在人事选拔中的应用:预期表( empirical expectancy table) 9/3/202431 4. 测验的效用问题•基础率(base rate):未经选择的人群总体中具有欲选特征的人数百分比 .•录取率(selective ratio):从申请者中选择出的人数的比例 •切割线的确定(cutting - off score )决策的可能结果决策的可能结果 测验成绩低高决Y错误正确接纳接纳策N正确错误拒绝拒绝9/3/202432 泰勒-罗赛尔预期表9/3/202433 9/3/202434 增益效度增益效度(incremental validity):由于应用测验而在决策中提高的效度。

      9/3/202435 例子:•假设你是一家公司的人事部经理有100个人申请某一职位根据以往公司招聘员工的资料,你了解到申请该职位的平均成功率为60%现在你手头上有个针对该职位的测验,效度为0.7,而因额度限制,你只能招收30人•你将预期招到的人中有多少是成功的?•如果胜任该职位但未被录取的人提出质疑,你将如何给出合理的解释?9/3/202436 9/3/202437 决决 策策选择 拒绝 小计 60绩绩效效成功失败小计 30 10027704033337根据泰勒-罗塞尔表,正命中率=.9191*30=27.3在所有被拒绝的人中漏报的比率=33/70=.479/3/202438 2.3.1 结构(构想)效度的概念•结构(构想):假设性的概念或特质•结构(构想)效度(Construct validation ):一个测验度量一个理论上的构想或特质的程度•例如,–一个测验在多大程度上测量了“幸福感”(责任感、自主性等等)?–这个面试(interview)测量了人际技能人际技能了吗?•假设验证与累积证据9/3/202439 2.3.2 结构效度的验证步骤•第一步:第一步:对结构或特质进行界定(建立理论框架),说明该结构的心理学意义、它与其他结构或特质间的关系•第二步:根据理论定义,推论出一些可能的假设,并验证假设。

      •例:焦虑测验的结构效度验证–当人面临危险时,焦虑度会升高;–服用某种特殊药物,可以减轻焦虑;–患有某种精神病的人,他们的焦虑程度会比普通人高9/3/202440 2.3.3 结构效度的估计方法(一)测验内方法:主要通过测验内部构造来分析测验的结构效度• 内容效度——可以作为结构效度的证据• 被试解答测题时的反应过程——看是否测到要测的结构• 测验的同质性——内部一致性方法9/3/202441 内部一致性方法•人格测验常用–题目分数与总分相关–分测验与总分相关注:这种考察方法一般只能根据结果推论出测验是测单一特质还是多种特质的,对于测验效度的贡献比较有限,只是结构效度高的必要条件,需要作进一步的研究才能确定测验所测构想 9/3/202442 (一)测验间方法:通过测验间的相互关联•1. 相容效度(congruent validity):新编测验与某个已知的能有效测量相同特质的旧测验之间的相关 例:新编智力测验与韦氏智力量表的相关如果高,则新测验的相容效度高2.3.3 结构效度的估计方法9/3/202443 (一)测验间方法: 2.会聚(辐合)效度(convergent validation):也叫求同效度。

      •基本思想:如果两个测验是测量同一特质的,那么即使用不同的方法进行测量,他们之间的相关也应该是高的–例:一个艺术能力测验与其他不同形式的艺术能力测验有高相关2.3.3 结构效度的估计方法9/3/202444 (一)测验间方法:3.区分效度(discriminant validation) :也叫求异效度基本思想:如果两个测验是测量不同特质的,那么即使用相同的方法进行测量,他们之间的相关也应该是低的–例:一个纸笔形式的智力测验和一个纸笔形式的人格测验,相关应该比较低2.3.3 结构效度的估计方法9/3/202445 (一)测验间方法:4.因素分析(factor analysis):一种多变量统计法目的是降维降维,即用更少量的因素概括解释许多相互关联的变量基本思想:通过对一组测验进行因素分析,找出影响测验的共同因素,从而了解测验的结构效度2.3.3 结构效度的估计方法9/3/202446 因素分析 (Factor analysis, FA)•例如:假设你有一个包括四个部分的成就测验–阅读理解–词汇–数学计算–数学推理•你可能猜想,阅读理解和词汇都测量了言语技能,数学计算和数学推理都测量了数学技能。

      •要知道你的想法是否正确,你需要进行因素分享9/3/202447 2.3.3 构想效度的估计方法•(三)发展(年龄)水平变化–如,智力随年龄而变吗?•(四)实验(干预)研究–如,力图提高艺术能力的干预措施确实提高了在艺术能力测量上的分数了吗?–焦虑量表的效度考察:•实验组:焦虑的环境•控制组:舒适安闲的环境9/3/202448 2.3.3 构想效度的估计方法•(五)考察效标关联效度的方法•基本思想:从效标的性质与种类来推论测验的结构效度•具体做法:–根据效标把人分为两类,考察得分上的差异•如,将一个艺术能力测验施测两组人,艺术系和法律系学生二者的差别?–根据测验分数把人分为高分组和低分组,考察这两组人的差别•如,根据一个内外向测验将被试分为两组,二者的差别?9/3/202449 (六)多特质-多方法矩阵(multitrait-multimethod matrix)•Campbell & Fiske(1959)提出的方法:如果我们采用两种以上的方法去测量两种以上的特质或构想,那么这些测量的结果之间可以形成多方法--多特质矩阵形式•假设我们测量了三种特质:–诚实,攻击性,智力•假设我们测量这些特质使用了三种不同的方法–教师评定,纸笔测验,旁观者评定9/3/202450 9/3/202451 小 结–不同方法测量不同特质之间的相关应小于效度对角线–同一方法测量不同特质之间的相关应小于效度对角线9/3/202452 MTMM原理次低9/3/202453 效度的含义小结 类别类别效度效度要说明的问题要说明的问题内容效度内容效度被试过去学得怎样?构想效度构想效度聚合效度被试的BDI抑郁得分与其它抑郁测验(SDS)有关系吗?  区分效度被试的BDI抑郁得分与自尊测验(SES)有关系吗?  因素分析被试的抑郁真正由哪些因素构成?效标效度效标效度同时效度被试的抑郁得分与临床抑郁评定有关系吗? 预测效度被试的抑郁得分会影响将来的学习成绩吗?9/3/202454 统一的效度概念•更广泛的效度概念:由测验分数所得出的推理和所采取行动的充分性充分性(sufficiency)和适宜适宜性性(adequacy)应得到实验证据和理论观点的支持,而对这种支持力量的综合性评估和判断结果便是测验的效度。

      麦斯科麦斯科(Messick(Messick,,1989)1989) •内容效度与构想效度•效标关联效度和构想效度9/3/202455 内容效度与构想效度•表面的内容效度 受测者的反应过程–例:几何定理测验题 ,测记忆 or 测推理?•只有借助于有关行为行为或操作操作的某些概念概念或构想理论构想理论,才能最终描述内容范围的边界和结构 9/3/202456 效标关联效度和构想效度预测源构想(认知能力)实际预测源(SAT)效标度量(GPA)效标构想(学业表现)构想-度量之间的关系9/3/202457 构想-构想关系•人们关心的理论问题预测源构想(认知能力)实际预测源(SAT)效标度量(GPA)效标构想(学业表现)9/3/202458 测量-构想关系•由操作定义的度量作出推断•应根据构想选择操作性度量预测源构想(认知能力)实际预测源(SAT)效标度量(GPA)效标构想(学业表现)9/3/202459 测量-测量关系•效标关联效度研究获得的东西预测源构想(认知能力)实际预测源(SAT)效标度量(GPA)效标构想(学业表现)9/3/202460 预测源-构想关系•效标效度研究真正关心的问题预测源构想(认知能力)实际预测源(SAT)效标度量(GPA)效标构想(学业表现)9/3/202461 效度的种类构想内容效标关联9/3/202462 2.4 影响效度的因素•1、一切影响信度系数的因素均影响效度系数测验本身的因素例如测验的长度,它与效度的关系表现为: N = [1 - rxx] / [(rxy2 / r(nx)y) - rxx]式中,N为测验的长度;rxx为原测验的信度;rxy为原测验的效度;r(nx)y为新测验的效度。

      测验实施过程9/3/202463 2.4 影响效度的因素•2、被试群体的性质•3、效标的可靠性•所得相关(观察到的)之大小受下列因素影响:–预测源和效标度量的低信度度均导致低效度9/3/202464 效度的校正•如:rxy =.30, rxx =.70, ryy =.79•r’xy=rxy/(rxx*ryy)1/2=.30/(.7*.9) 1/2•=.389/3/202465 •4、全距限制:降低预测源分数与效标度量分数之间的相关•样本分数的变异(方差)小于总体分数的变异(方差)–如:现有的学生样本是经过某种选拔性考试录取的–又如:所选的员工样本均是工作成绩优秀者2.4 影响效度的因素9/3/202466 全距限制的图例工作绩效与机械知识的关系9/3/202467 全距限制的校正•统计上,我们可以对全距限制加以校正•我们需要知道样本的方差与以及估计的总体的方差•在确定有关工作绩效与预测源的关系时,全距限制几乎总是存在的为什么?9/3/202468 全距校正公式9/3/202469 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.