
研究工具性能的测定.ppt
36页第八章第八章研究工具性能的测定评价研究工具质量上下的指标评价研究工具质量上下的指标Ø信度Ø 效度〔一〕信度n n1.1.信度的概念信度的概念n n信度是指使用某研究工具所获得结果的一致程度信度是指使用某研究工具所获得结果的一致程度n n同一研究工具、重复测量、某一研究对象、结果同一研究工具、重复测量、某一研究对象、结果的一致程度越高,该工具的信度就越高的一致程度越高,该工具的信度就越高n n越能反响真实情况,信度就越高越能反响真实情况,信度就越高n n2.2.信度的测评方法信度的测评方法n n信度的测定主要包括信度的测定主要包括3 3个方面,即对其稳定性、个方面,即对其稳定性、内在一致性和等同性的测定内在一致性和等同性的测定1 1〕稳定性的测定〕稳定性的测定n n常用方法为重测信度法 重测信度法就是使用同一研究工具对一组受试对象在两次不同的时间进行测定,对两次结果做相关性检验,以估计量表结果稳定性的方法计算方法计算方法 so ……复杂复杂 !!n计算公式 n使用计算软件spss统计分析软件n n重测信度法具体方法如下:重测信度法具体方法如下:①①选择样本总数选择样本总数1/101/10的重测对象,先进的重测对象,先进行第一次测试。
行第一次测试②②隔一段时间〔间隔以可能忘却上次测隔一段时间〔间隔以可能忘却上次测验内容为宜〕以后进行重测验内容为宜〕以后进行重测③③然后计算两次测试结果的相关系数然后计算两次测试结果的相关系数如用领导潜能量表测量如用领导潜能量表测量1010名护理人员,名护理人员,一周后再次测评,两次测试结果如表一周后再次测评,两次测试结果如表1 1所示,计算其重测信度所示,计算其重测信度表表1 1 领导潜能量表重测结果领导潜能量表重测结果研究对象研究对象第一次测评第一次测评第二次测评第二次测评 1 1 55 55 57 57 2 2 49 49 46 46 3 3 78 78 74 74 4 4 37 37 35 35 5 5 44 44 46 46 6 6 50 50 56 56 7 7 58 58 55 55 8 62 8 62 66 66 9 9 48 48 50 50 10 10 67 67 63 63 经相关分析,该量表的重测信度是经相关分析,该量表的重测信度是本卷须知本卷须知n n两次测量之间的间隔时间n研究工具所测量的变量的性质n测量环境的一致l优点是简单、直观,适用于评估性质相对优点是简单、直观,适用于评估性质相对优点是简单、直观,适用于评估性质相对优点是简单、直观,适用于评估性质相对稳定的问题,如个性、价值观、自尊等。
稳定的问题,如个性、价值观、自尊等稳定的问题,如个性、价值观、自尊等稳定的问题,如个性、价值观、自尊等l局限性在于计算结果受多种因素影响例局限性在于计算结果受多种因素影响例局限性在于计算结果受多种因素影响例局限性在于计算结果受多种因素影响例如时间、受测对象的第二次反响、态度和如时间、受测对象的第二次反响、态度和如时间、受测对象的第二次反响、态度和如时间、受测对象的第二次反响、态度和记忆力等如果第二次测量时间距离第一记忆力等如果第二次测量时间距离第一记忆力等如果第二次测量时间距离第一记忆力等如果第二次测量时间距离第一次间隔时间过短,由于受试对象记住了上次间隔时间过短,由于受试对象记住了上次间隔时间过短,由于受试对象记住了上次间隔时间过短,由于受试对象记住了上次的结果可能导致信度值偏高;或者间隔次的结果可能导致信度值偏高;或者间隔次的结果可能导致信度值偏高;或者间隔次的结果可能导致信度值偏高;或者间隔时间过长,导致第一次测量确实改变了受时间过长,导致第一次测量确实改变了受时间过长,导致第一次测量确实改变了受时间过长,导致第一次测量确实改变了受试对象的行为,从而导致信度值偏低试对象的行为,从而导致信度值偏低。
试对象的行为,从而导致信度值偏低试对象的行为,从而导致信度值偏低2 2〕内在一致性的测定〕内在一致性的测定n n内在一致性是指研究工具中各工程之间的同内在一致性是指研究工具中各工程之间的同质性或内在相关性质性或内在相关性n n 以心理问卷为例:这里题目间的一致性含以心理问卷为例:这里题目间的一致性含有两层意思:其一是指所有题目测的是同一有两层意思:其一是指所有题目测的是同一种心理特质;其二是指所有题目得分之间都种心理特质;其二是指所有题目得分之间都具有较高的正相关具有较高的正相关n n常用的计算方法有折半系数法、克伦巴赫常用的计算方法有折半系数法、克伦巴赫аа系数、系数、KR-20KR-20值9/23/20249/23/2024折半系数法折半系数法n n折半系数法是将量表中的工程一分两半,计算两局部间的相关程度r’=2r/1+r ,其中,r 为折半相关系数,r’为整个量表估计信度n n前后折半、奇偶折半l优点为应用方便,且最大程度地克服了重测所带来的一系列问题l局限性在于由于折半方法很多,不同折半方法可以得到不同的信度值,研究者可能会不断改变折半方法以期得到较高的信度值。
克龙巴赫克龙巴赫 系数系数当测验题型较多,并非都是二分计分题时,当测验题型较多,并非都是二分计分题时,当测验题型较多,并非都是二分计分题时,当测验题型较多,并非都是二分计分题时,估计测验信度可采用克龙巴赫估计测验信度可采用克龙巴赫估计测验信度可采用克龙巴赫估计测验信度可采用克龙巴赫 系数,系数,系数,系数,其计算公式为:其计算公式为:其计算公式为:其计算公式为:S2iS2i表表表表示示示示所所所所有有有有被被被被试试试试在在在在第第第第i i题题题题上上上上得得得得分分分分的的的的方方方方差差差差,,,,S2xS2x表表表表示示示示所所所所有有有有被被被被试试试试各各各各自自自自总总总总分分分分的的的的方方方方差差差差,,,,K K为为为为题目数〔〔1- 1- 〕〕 3 3〕等同性的测定〕等同性的测定n等同性是指不同观察者使用相同工具测量相同对象或用两个相似的量表同时测量同一对象时所得结果的一致性程度n一般用评定者间信度和复本信度表示评定者间信度评定者间信度 评分者信度指的是多个评分者给同一批人的评分者信度指的是多个评分者给同一批人的评分者信度指的是多个评分者给同一批人的评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。
用于测量不同答卷进行评分的一致性程度用于测量不同答卷进行评分的一致性程度用于测量不同答卷进行评分的一致性程度用于测量不同评分者产生的误差评分者产生的误差评分者产生的误差评分者产生的误差两个人:两个评分者给同一批被试的答卷所评两个人:两个评分者给同一批被试的答卷所评两个人:两个评分者给同一批被试的答卷所评两个人:两个评分者给同一批被试的答卷所评分数的相关系数分数的相关系数分数的相关系数分数的相关系数多个人:评分者信度可用肯德尔和谐系数进行多个人:评分者信度可用肯德尔和谐系数进行多个人:评分者信度可用肯德尔和谐系数进行多个人:评分者信度可用肯德尔和谐系数进行估计本卷须知本卷须知l评定者间信度可用评定者间一致的数目与评定者间信度可用评定者间一致的数目与评定者间信度可用评定者间一致的数目与评定者间信度可用评定者间一致的数目与评定者间可能一致和不一致数目之和的百评定者间可能一致和不一致数目之和的百评定者间可能一致和不一致数目之和的百评定者间可能一致和不一致数目之和的百分比来表示这一计算方法容易导致数值分比来表示这一计算方法容易导致数值分比来表示这一计算方法容易导致数值分比来表示这一计算方法容易导致数值偏高,尤其对于二分制选项的量表,由于偏高,尤其对于二分制选项的量表,由于偏高,尤其对于二分制选项的量表,由于偏高,尤其对于二分制选项的量表,由于随机选择的概率达随机选择的概率达随机选择的概率达随机选择的概率达50%50%50%50%之多,更是误差较大。
之多,更是误差较大之多,更是误差较大之多,更是误差较大比较适宜的方法为相关分析法,它用来计比较适宜的方法为相关分析法,它用来计比较适宜的方法为相关分析法,它用来计比较适宜的方法为相关分析法,它用来计算多个评定者间的相关系数另外,可用算多个评定者间的相关系数另外,可用算多个评定者间的相关系数另外,可用算多个评定者间的相关系数另外,可用方差分析法比较多个评定者间的差异方差分析法比较多个评定者间的差异方差分析法比较多个评定者间的差异方差分析法比较多个评定者间的差异l当评定者知道被注意时,她们对结果观察当评定者知道被注意时,她们对结果观察当评定者知道被注意时,她们对结果观察当评定者知道被注意时,她们对结果观察的精确性和一致性要比没有意识到被注意的精确性和一致性要比没有意识到被注意的精确性和一致性要比没有意识到被注意的精确性和一致性要比没有意识到被注意时增强所以当评定者被隐蔽评估时,评时增强所以当评定者被隐蔽评估时,评时增强所以当评定者被隐蔽评估时,评时增强所以当评定者被隐蔽评估时,评定者间信度要相应地下降所以,应注意定者间信度要相应地下降所以,应注意定者间信度要相应地下降所以,应注意定者间信度要相应地下降。
所以,应注意采取策略减少信度值的变化采取策略减少信度值的变化采取策略减少信度值的变化采取策略减少信度值的变化〔〔2 2〕复本信度的测定〕复本信度的测定n n复本信度是指两个大致相同的工具同时施测复本信度是指两个大致相同的工具同时施测复本信度是指两个大致相同的工具同时施测复本信度是指两个大致相同的工具同时施测于同一研究对象时结果一致性的程度,其信于同一研究对象时结果一致性的程度,其信于同一研究对象时结果一致性的程度,其信于同一研究对象时结果一致性的程度,其信度值可通过计算复本信度来表示度值可通过计算复本信度来表示度值可通过计算复本信度来表示度值可通过计算复本信度来表示n nEg:Eg:Eg:Eg:如课程结束后,教师通常编制两套试卷,如课程结束后,教师通常编制两套试卷,如课程结束后,教师通常编制两套试卷,如课程结束后,教师通常编制两套试卷,即试卷即试卷即试卷即试卷A A A A和试卷和试卷和试卷和试卷B B B B,在判断两套试卷在反映学,在判断两套试卷在反映学,在判断两套试卷在反映学,在判断两套试卷在反映学生知识掌握程度方面是否一致时那么需要计生知识掌握程度方面是否一致时那么需要计生知识掌握程度方面是否一致时那么需要计生知识掌握程度方面是否一致时那么需要计算复本信度。
可直接用算复本信度可直接用算复本信度可直接用算复本信度可直接用Pearson Pearson Pearson Pearson 相关系数计相关系数计相关系数计相关系数计算相关系数越接近算相关系数越接近算相关系数越接近算相关系数越接近1 1 1 1,那么试卷的等同性就,那么试卷的等同性就,那么试卷的等同性就,那么试卷的等同性就越好,在考试时抽取任何一套试卷都是合理越好,在考试时抽取任何一套试卷都是合理越好,在考试时抽取任何一套试卷都是合理越好,在考试时抽取任何一套试卷都是合理的不同信度指标间的比较不同信度指标间的比较 类类 型型 假设测量的误差源假设测量的误差源 测量目的测量目的 测量次数测量次数 公公 式式 稳定性稳定性 被测者的不稳定性,被测者的不稳定性, 考察在不同考察在不同 2 2次次 Pearson's Pearson's 相关系数相关系数 比方情绪和人格发比方情绪和人格发 时间点上的时间点上的 展,记忆等。
展,记忆等 可靠性可靠性 等同性等同性 两种测量方式的等两种测量方式的等 利用复本之利用复本之 1 1次次 Pearson's Pearson's 相关系数相关系数 价性价性 间的相关系间的相关系 数估计信度数估计信度 内部一内部一 选用特定问卷测量选用特定问卷测量 考察某种特考察某种特 1 1次次 KR20 KR20 和和 Cronbach ’s Cronbach ’s 致性致性 同一能力而产生的同一能力而产生的 质的一致性质的一致性 Alpha Alpha 差异差异 反响反响 评分者评分者 评分人或者编码人评分人或者编码人 评价者和编评价者和编 1 1次次 Kendall's Kendall's、、Friedman Friedman 和和 不同引起的差异不同引起的差异 码者之间的码者之间的 Cochran Cochran 系数、系数、F F 检验检验 差异差异 信度可以接受的水平信度可以接受的水平n n一般能力测验和成就测验的信度系数都在以一般能力测验和成就测验的信度系数都在以一般能力测验和成就测验的信度系数都在以一般能力测验和成就测验的信度系数都在以上。
人格测验、兴趣、态度、价值观等测验上人格测验、兴趣、态度、价值观等测验上人格测验、兴趣、态度、价值观等测验上人格测验、兴趣、态度、价值观等测验的信度一般都在的信度一般都在的信度一般都在的信度一般都在n n一般原那么是:一般原那么是:一般原那么是:一般原那么是:n n☆☆☆☆当当当当rXXrXXrXXrXX<时,测验不能用于对个人作出评价<时,测验不能用于对个人作出评价<时,测验不能用于对个人作出评价<时,测验不能用于对个人作出评价或预测,而且也不能做团体比较;或预测,而且也不能做团体比较;或预测,而且也不能做团体比较;或预测,而且也不能做团体比较;n n☆☆☆☆当当当当0.70≤rXX0.70≤rXX0.70≤rXX0.70≤rXX<时,可用于团体比较;<时,可用于团体比较;<时,可用于团体比较;<时,可用于团体比较;n n☆☆☆☆当时,才能用来鉴别或预测个人成绩或行当时,才能用来鉴别或预测个人成绩或行当时,才能用来鉴别或预测个人成绩或行当时,才能用来鉴别或预测个人成绩或行为n n另一原那么是:新编的测验信度应高于原有另一原那么是:新编的测验信度应高于原有另一原那么是:新编的测验信度应高于原有另一原那么是:新编的测验信度应高于原有的同类测验或相似测验。
的同类测验或相似测验的同类测验或相似测验的同类测验或相似测验小结小结n n在计算量表的信度时,应首先用随在计算量表的信度时,应首先用随机抽样的方法选择样本量的机抽样的方法选择样本量的1/101/10,,或者至少或者至少1010~~2020例例样本进行量表的样本进行量表的信度测定信度测定n n介绍量表时,最重要的是要报告出介绍量表时,最重要的是要报告出量表信度计算方法和信度值,以使量表信度计算方法和信度值,以使同行判断量表的性能,并根据自己同行判断量表的性能,并根据自己研究的内容和特点进行选用研究的内容和特点进行选用〔二〕效度〔二〕效度n n1.1.效度的概念效度的概念 l效度即有效性,指某一个测量工效度即有效性,指某一个测量工具能够真正反映它所期望研究的具能够真正反映它所期望研究的概念的程度概念的程度n n任何一种测验只任何一种测验只是对一定目的来是对一定目的来说才是有效的说才是有效的n n测验的效度是对测验的效度是对测量结果而言的测量结果而言的 , , 即一种测量工即一种测量工具只有经过实际具只有经过实际测量测量 , , 才能根据才能根据测量结果判断它测量结果判断它的效度。
的效度n n测验的效度是相测验的效度是相对的而非绝对的对的而非绝对的测验是根据行为测验是根据行为样本样本 , , 对所要测对所要测量的心理特性作量的心理特性作间接推断间接推断 , , 只能只能到达某种程度的到达某种程度的准确性准确性 , , 而没有而没有全有、全无的差全有、全无的差异异 如果对于一个焦虑评定量表,如果对于一个焦虑评定量表,评定结果确实可说明是受试者评定结果确实可说明是受试者的焦虑特性,而且对于焦虑的的焦虑特性,而且对于焦虑的严重程度测评准确,说明这一严重程度测评准确,说明这一焦虑量表的效度就好,反之那焦虑量表的效度就好,反之那么不好2.2.效度的测评方法效度的测评方法外表效度外表效度内容效度内容效度效标关联效度效标关联效度1 1〕外表效度的测定〕外表效度的测定n n评估人根据自己对所要测量的概念的理解,尽其判断能力之所及来判断工具是否适当n n缺点:一种直觉判断,未表达效度在程度上的上下问题,因此一般不能作为工具质量的有力证据2 2〕内容效度的测定〕内容效度的测定n n内容效度其结果来源有三文献有代表性的相关人群有相当经验的专家n n将专家配对后,计算每对专家对量表中每一将专家配对后,计算每对专家对量表中每一工程的内容效度。
工程的内容效度n n方法为计算每个对子中专家评价工程与内容方法为计算每个对子中专家评价工程与内容相关〔结果为相关〔结果为2 2或或3 3〕与相关和不相关〔结果〕与相关和不相关〔结果为为0 0或或1 1〕之和的百分数然后计算全部专家〕之和的百分数然后计算全部专家的平均效度的平均效度n n效度为专家的主观判断,没有客观标准,一效度为专家的主观判断,没有客观标准,一般认为效度值应为以上,否那么该工程应果般认为效度值应为以上,否那么该工程应果断剔除或修改断剔除或修改n n内容效度可用内容效度指数来表示内容效度可用内容效度指数来表示内容效度可用内容效度指数来表示内容效度可用内容效度指数来表示n n具体做法如下请具体做法如下请具体做法如下请具体做法如下请3-103-103-103-10位专家,位专家,位专家,位专家,5 5 5 5位较为适宜,将位较为适宜,将位较为适宜,将位较为适宜,将专家进行两两配对,对每一个工程应用专家进行两两配对,对每一个工程应用专家进行两两配对,对每一个工程应用专家进行两两配对,对每一个工程应用4 4 4 4分制方法分制方法分制方法分制方法给予评价其中给予评价其中给予评价。
其中给予评价其中n n“0“0“0“0〞代表该工程与研究内容一点都不相关;〞代表该工程与研究内容一点都不相关;〞代表该工程与研究内容一点都不相关;〞代表该工程与研究内容一点都不相关; n n“1“1“1“1〞代表该工程必须经过修改否那么不能和研究〞代表该工程必须经过修改否那么不能和研究〞代表该工程必须经过修改否那么不能和研究〞代表该工程必须经过修改否那么不能和研究内容相关;内容相关;内容相关;内容相关;n n“2“2“2“2〞代表该工程和研究内容相关但是仍需要小改〞代表该工程和研究内容相关但是仍需要小改〞代表该工程和研究内容相关但是仍需要小改〞代表该工程和研究内容相关但是仍需要小改动;动;动;动;n n“3“3“3“3〞代表该工程与研究内容非常相关〞代表该工程与研究内容非常相关〞代表该工程与研究内容非常相关〞代表该工程与研究内容非常相关n n案例见表案例见表案例见表案例见表2 2 2 2表表2 应对方式量表内容效度测定说明应对方式量表内容效度测定说明项项 目目分析结果分析结果一点一点都都不相不相关关 需经修改需经修改否则不相关否则不相关 相关但相关但仍需改仍需改动动 非常非常相关相关 1 1.通过抽烟、喝酒等方式来解.通过抽烟、喝酒等方式来解除烦恼除烦恼0 01 12 23 32 2.幻想可能会发生某种奇迹改.幻想可能会发生某种奇迹改变现状变现状0 01 12 23 33 3.找出几个不同的解决问题的.找出几个不同的解决问题的方法方法0 01 12 23 3…… …… n n如果选择了如果选择了5 5名专家〔名专家〔A A、、B B、、C C、、D D、、E E〕,可配成〕,可配成1010对,即对,即ABAB、、ACAC、、ADAD、、AEAE、、BCBC、、BDBD、、BEBE、、CDCD、、CECE、、DEDE,以工程,以工程1 1为例,第为例,第1 1对:对:A A专家评价为专家评价为2 2,,B B专家评价为专家评价为3 3,可见,可见2 2位专家均认为该工程与研位专家均认为该工程与研究内容相关,内容效度为〔究内容相关,内容效度为〔1+11+1〕〕/ /〔〔1+11+1〕〕=1=1;;而第而第2 2对:对:A A专家评价为专家评价为2 2,,C C专家评价为专家评价为1 1,二者,二者意见不一致,内容效度为意见不一致,内容效度为1/1/〔〔1+11+1〕;以次类推,〕;以次类推,第第3 3对到第对到第1010对专家对工程对专家对工程1 1的内容效度分别为、的内容效度分别为、1 1、、1 1、、1 1、、、、、、1 1、、1 1,计算平均值为,说明,计算平均值为,说明1 1是可是可以保存的。
然后,分别计算各个工程的内容效度,以保存的然后,分别计算各个工程的内容效度,如果小于,那么给予剔除或修改,修改之后,再如果小于,那么给予剔除或修改,修改之后,再次请专家评判,直到到达标准次请专家评判,直到到达标准3〕效标关联效度〕效标关联效度n n侧重反映的是研究的工具与其它测量标准之间的关系,而未表达工具与其所测量概念的相符程度n n引用、借鉴、桥梁的意味n n例子4〕结构效度〕结构效度n n工具的内在属性n n信度是效度的前提;信度上下的工具也仅能说明其有效度高地可能性n nEg:用校正好的体温计测量病人体温以反映其焦虑水平,校正好的体温计信度高,因其能较好地反映病人的体温情况,但其效度不高,因“焦虑〞的概念不能简简单单地用体温计数值来表示结构效度的评价结构效度的评价 最理想的方法还是利用因子分析来考察研究工具的结构效度通过因子分析可以根据测量数据考察所用的研究工具是否能反映出内在的结构,反过来也可验证研究者的假设是否成立,分析一般只能借助统计软件包 结构效度评价举例结构效度评价举例注意注意n效度高,信度一定高;但是信效度高,信度一定高;但是信度高,效度不一定高。
度高,效度不一定高也就是说信度是效度的必要条也就是说信度是效度的必要条件,但不是充分条件件,但不是充分条件自己总结:信度就是可信度自己总结:信度就是可信度 效度就是准确度效度就是准确度国外量表的翻译和应用过程的性能测定国外量表的翻译和应用过程的性能测定n n翻译n n回译n n检测原量表与中文版量表之间的等同性。
