
教育测验的常模及其建立讲座.ppt
55页第六章 教育测验的常模及其建立,,,,教学目标,说出测验常模的含义; 列举几种常见的测验常模类型; 解释年级常模、年龄常模的意义; 解释百分等级、标准分数的意义和应用; 利用相对差异量数分析处理数据参考文献,[1]范晓玲.教育统计学与SPSS[M].长沙:湖南师范大学出版社,2005:23-95. [2]程书肖.教育评价方法技术[M].北京:北京师范大学出版社,2003:30-40,120-125. [3]张厚粲,徐建平.现代心理与教育统计学[M].北京:北京师范大学出版社,2004:24-107. [4]黄光扬.教育测量与评价[M].上海:华东师范大学出版社,2002:141-166.,爸爸看到小丽的期末考试成绩单上说,“上次你数学考了80,这次考了92分,有进步;语文才78分,比数学差多了,要努力啊,总分是多少,我看看……” 你认为小丽爸爸对小丽的成绩评价科学吗?,你来评一评!,原始分数(raw scores),又称观测分数,是观测直接所得、未经任何加工的数据 原始分数没有普遍意义,而且不等距 原始分数的参照点不同 学生各次考试所得的成绩不具有可比性 不同学科的成绩不具有可比性 不同学科的成绩不具有可加性,,对测验分数进行解释和评价是教育测量的一个重要组成部分,如何正确解释分数呢?——参照测验的常模资料,测验分数的解释 (一)解释测验分数的原则1.主试应充分了解测验的性质与功能 2.对导致测验结果的原因的解释应慎重,谨防片面极端3.必须充分估计测验的常模和效度的局限性4.解释分数应参考其他有关资料 5.对测验分数应以“一段分数”来解释,而不应以“特定的数值”来解释6.对来自不同测验的分数不能直接加以比较,(二)向受测者报告测验分数的原则1.使用当事人所理解的语言 2.要保证当事人知道这个测验测量或预测什么,这里并不需要作详细地技术性解释3.如果分数是以常模为参考的,就要使当事人知道他是和什么团体在进行比较 4.要使当事人认识到分数只是一个估计5.要使当事人知道如何运用他的分数 6.要考虑测验分数将给受测者带来什么影响 7.测验结果影响无关的人员保密 8.对低分者的解释应谨慎小心 9.报告测验分数时应设法了解当事人的心理感受,并采用适当的措施加以引导,目 录,第一节 教育测验常模的意义和类型 第二节 发展常模的类型 第三节 相对地位量数分析 第四节 相对差异量数分析 第五节 标准分数在我国高考中的试点应用,一、什么是常模,测验的常模 一个有代表性的样组在某种测验上的表现情况 一个与被试同类的团体在相同测验上得分的分布状况与结构模式,测验常模注意事项,(一)有代表性的样组 常模团体,在建立测验常模过程中实际受测被试样组,代表着一个有明确定义的人群。
二)测量某种身心特性 (三)同一身心特性的测验可能多种多样例如,在某地区范围内按一定方法选取600名小学四年级学生参加某种语文阅读理解水平测验特定人群,特定身心特性,特定测验,二、常模的用途,解释测验分数的参照系 用途 不同学科领域中的表现 能力与成就发展在其团体中的相对位置状况 不同时期的发展变化情况,三、常模的获取,(一)获取一个有代表性的常模团体 地区性,全国性 合理的抽样方案 常模团体的抽取(是否按年龄分组) 常模团体的大小 (二)常模资料的统计学描述,四、教育测验常模的主要类型,发展常模(Development Norm) 某类个体正常发展过程中各个特定阶段的一般水平 包含年级常模和年龄常模 组内常模(Within-Group Norm) 同一身份的人在某种测验所测特性上的一般表现水平 包含百分等级常模和标准分数常模,一、年龄常模,人的某些能力特性,在某个年龄阶段随着年龄的增长逐渐发展变化 不同年龄组其能力变化的差异有统计学上的显著意义 年龄常模多用于少年儿童阶段,尤其对义务教育的意义很大 例如,6岁儿童的智力发展水平,建立年龄常模的方法,(一)用平均值作为指标 基于不同年龄组所得的平均分,与相应的年龄当量联系起来构成年龄常模资料。
例如,10岁零2个月的常模团体在某个记忆能力上的平均分是24分 各年龄成长速度不相等,年龄当量不相等,10岁零1个月 10-1 10岁零2个月 10-2 …… …… 10岁零12个月 10-12,建立年龄常模的方法,(二)用一组题目作为指标 用一批能使某年龄组大多数被试(80%)都能通过的题目代表该年龄组的发展水平 最早:比纳的智力测验,二、年级常模,不同年级学生在某种测验上的正常的一般的表现水平 测验的平均分和相应的年级当量,年级当量,两位数表示,第一位为年,第二位为月 一学年有10个月在校学习,其余两个月对测验成绩的影响不计 例如,四年级中期成绩数学-5.5,语文-5.0,阅读-6.0,英语-4.5 不同时期,不同学科,单位不相等 一般水平,而非优秀水平,年级当量,3~8年级阅读测验的年级当量,绘图:12月初和次年5月各年级的平均分 查表,三、年级常模和年龄常模的局限性,许多身心特性发展在某年龄段中速度不一 学校的课程进度不一 课程内容呈现明显的异质性——消弱常模的功能,第二节 百分等级分数及其应用,一、百分等级分数的意义 百分等级(Percentile Rank)是一个地位量数,能够反映某个测验分数在一个次数据中的相对地位 针对顺序量表,它以中位数(常模)为参照点,以百分等级为单位,每个百分等级表示其相应的测验分数在该年级或该年龄组被试中所占有的位置,即低于这个分数的人数的百分比,通常用PR表示。
百分等级越高,越优秀二、百分等级的计算,原量数法(“未分组分数资料”) 公式:R:原始分数在按大小排列的数列中的名次N:总次数次数分布法( “频数分布表”法),,二、百分等级的计算,原量数法(“未分组分数资料”) 公式:例22:某被试在一次由50人参加的测验中,得80分,排名第9,则该生成绩(80分)的百分等级是多少?解:PR=100-(100R-50)/N=100-(100×9-50)/50=83其百分等级为83,即是说比80分低的原始分数占全体得分的83%,比其高的只占17%◆首先,编制频数分布表: 第一步:求全距 第二步:决定组数和组距一般在10—20之间 第三步:决定组限 第四步:列出各组组中值 第五步:登记各组频数 第六步:计算各组至上限的累积频数,◆对数据进行了如上整理后,可采用如下公式计算百分等级分数上面公式中:X为原始分数L为X所在组下限f为X所在组的频数,Fb为X所在组以下各组频数之和i为组距N为被试总人数,三、百分等级的应用,(一)建立百分等级常模 教育与心理学中的主要用途 特别适用于教育成就测验和智力测验 例如,一学生在智力测验中得分为110,通过查“百分等级常模”可知其百分等级为80,表明该生的智力水平超出80%的人。
1、基于未归类数据建立百分等级常模的方法,第一步:把观测数据从大到小依次排列 第二步:按不同的数据逐个地统计次数 第三步:从低分开始向高分方向,计算各个得分点数据以下的累积总人数 第四步:计算各得分点数据的“以下累积相对次数”即比例数 第五步:确定各得分点数据的百分等级PR,计算方法是把各数据的“以下累积相对次数”乘上100 第六步:把原始分数与百分等级有关数据取出来列表,形成该测验的百分等级常模表某一分数 x 的百分等级的计算公式:,Fb 为小于 L 的累积频数 f 为 x 所在组的频数 L 为 x 所在组的下限 i 为组距 N 为总频数,2、基于分组归类数据建立百分等级常模的方法,三、百分等级的应用,2、衡量成绩优劣,确定学生的相对地位,94.6,120,化学,92.0,98,物理,92.1,110,英语,52.7,88,数学,96.5,112,语文,百分等级,原始分数,科目,,,,,,,,,,,,,,,,,,,,,,三、百分等级的应用,3、比较多个群体成绩的优劣 例如,某省高考文科的普通本科录取线是518分,根据甲、乙两地考生的成绩次数分布求得甲地区518分的百分等级为76.4,乙地区为88.3。
四、百分等级的局限,一种顺序量表,单位不等距 不能进行代数法的运算,也不能进行综合指标、变异系数的统计处理 对于同一被试总体而言,来自不同测验的原始分数转化后可以进行比较,但是对不同被试总体来说,因分数转换参照标准不同,其百分等级之间无法比较,在这种情况下,只能进行同一测验中同一原始分数百分等级的比较,而无法进行不同测验百分等级的比较第三节 标准分数及其应用,一、定义 : 标准分数包括线性标准分数和正态化标准分数(总体分布不是正态分布,需要一个标准化的过程) 线性标准分数针对定距变量,是以平均数为参照点,以标准差为单位 线形标准分数的几种形式:(1)Z分数(0,1)(2)教育与心理测验:T分数=10Z+50 (50,10)(3)美国大学入学考试:CEEB=100Z+500 (500,100) (4)美国的研究生资格考试:GRE=100Z+500 (5)“托福”考试:TOEFL=70Z+500 (6)大学英语四、六级考试: T=70Z+500,各种导出分数与正态分布对应图,第三节 标准分数及其应用,一、定义 :(二)性质:平均数为0 ,标准差为1 (三)应用,,,,比较同一个体不同科目的成绩,例如:对某校高二学生进行期中学习质量检测,语文、数学和英语成绩的平均数分别是80分、70分和85分,这三种成绩的标准差分别是10分、15分和12分。
某学生的三科成绩分别是85分、82分和90分,问:该生这三科成绩哪一科最好?,评价不同个体多科成绩的优劣,例如:假设一次高考中某地各科平均成绩、标准差见表5-15所示,现有甲生、乙生成绩,试问根据总分如何录取?,表5-15 高考各科平均成绩,350,348,-,-,总分,87,72,8,75,理综,40,53,6,50,数学,72,68,8,69,英语,62,70,5,65,政治,89,85,10,70,语文,差,乙生,甲生,乙生,甲生,标准分数,原始分数,标准差,平均数,科目,,,,,,,,,,,,,,,,,,,,评估同一个体同一学科不同次测验的成绩,学习成绩平面图的设计(教材P220),异常值的取舍,出现异常数据的可能原因: 该数据确实是该总体中的一个个体,只是偏差较大; 该样本混入了另一总体中的某个个体; 调查实验过失,或是记分失误造成的 正态法 ±1.96σ:95% ±2.58σ:99% ±3σ:99.73%,思考,如何计算标准分数?,SPSS描述统计功能,描述统计 (Analyze/Descriptive Statistics/Descriptive),第四节 相对差异量数分析,一、定义 差异量数与集中量数的百分比,又称作差异系数,用符号CV表示。
二、计算公式 三、应用,(一)比较不同单位资料的差异程度,例5-21 期中考试某班学生的化学平均分为76.5,标准差为7.8;物理平均分为82.5,标准差为6.8,试问该班学生物理、化学成绩哪门课差异程度大一些?,(二) 比较单位相同而平均分 差异较大的差异程度,例5-22 化学期末考试中,一班的平均分为89,标准差为9.24,二班的平均分为67,标准差为8.02,试问哪个班的化学成绩更整齐一些?,(三)比较班内学习分化情况,例5-23 某校初三(1)班各科成绩的差异程度见下表所示,试分析各科的分化情况第五节 标准分数在我国高考 中的试点应用,一、标准分与我国高考我国在高考中引入标准化考试始于1985年 ★改革的第一阶段(1985——1992) 主要是引入“标准化考试”的概念,实现分卷考试,引入计算机等先进技术设备,实现考试手段现代化标准化考试要对考试的全过程进行质量控制,使各种误差尽可能减少,从而保证考生的水平得到准确而可靠的反映这一过程包括:命题标准化、考务管理标准化、评阅试卷标准化、分数的解释和使用的标准化★改革的第二阶段(1993—) 1989年,国家教委正式提出,将标准分数制度的建立作为标准化考试改革第二阶段的主要任务,并提出在1992年以后抓紧完成。
在此之后,研究和试点工作不断进行到1997年,正式在高考录取中使用标准分数的省扩大到广东、海南、陕西、广西、山东、福建等7省,模拟使用标准分数的有22省尽管国家教委试图推广标准分数制度,但是由于种种原因,在当前的高考中,仍然存在两种分数制度。
