
对外汉语教学第7章测试.ppt
38页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,语言测试,第一节 概说:发展、作用、学科特点,第二节 语言测试基本类型,第三节 语言测验开发过程,第四节 题目编写和分析方法,第五节 质量评估:信度和效度,语言测试,第一节 概说,1、语言测试主要发展阶段:,传统时期或前科学时期(,20,世纪初,-50,年代初):依靠直觉判断作文、口试、翻译等方法心理测量,-,结构主义时期或科学时期(,50,年代末,60,年代初,-70,年代):以结构主义语言学、行为主义心理学、心理测量学为基础,,Lado,R.(1961),为标志分立式测试心理语言学社会语言学时期或后现代时期(,70,年代,-80,年代初):注意功能性社会性和语言应用综合式测试,出现完型填空(,Cloze Test,)等形式,,Oller,J.,提出“一元能力假说”(,Unitary Competence Hypothesis,)交际法语言测试时期(,80,年代初至今):,ACTFL(American Council on Teaching of Foreign Languages)Guidelines,和欧洲,功能意念大纲,交际大纲,为基础。
Bachman,的“语言交际能力模型”2、中国的语言测试:,中国是最早使用考试(西周)科举是一个标准化程度很高的测试体系70,年代末受,TOEFL,等影响开始第二语言测试,出现“英语水平考试(,EPT,)”“大学英语考试(,CET,)”对外汉语教学界“汉语水平考试(,HSK,)”影响广泛3、语言测试作用:,评价学习者的学业成就和语言水平评估教学的实际效果为选拔人才提供依据为改进教学中的问题提供反馈对于各种有关人的语言能力的假说,需要实证性数据的证实,语言测试在这方面可以为语言研究(语言教学研究)提供信息,发挥重要作用语言测试研究能够为第二语言习得研究提供更为可靠而有效的方法和手段4、学科特点:,理论与实践结合非常紧密综合性很强:应用语言学(语言学、语言教学)、认知科学、心理测量学、教育统计学、信息科学第二节 语言测试基本类型,一、从用途的角度分:,1、成绩测验(Achievement)、学业成就测验、回顾性测试:,特点是教什么测什么,怎么教怎么测,测试内容必须以教学大纲、教材、教学内容为依据最后成绩测验(Final Achievement Tests,期末、结业)和进步测验(Progress Achievement Tests,单元测验)。
2、水平测验(Proficiency Tests)、熟巧程度测验:,测试对目的语运用的熟练程度(TOEFL、HSK、出国人员外语水平考试WSK)必须弄准什么叫“语言水平”、要求能够预测未来完成特定任务情况3、能力倾向测验(Aptitude Tests)、学能测验、性向测验、潜能测验、禀赋测验:,了解考生学习目的语的潜力必须弄准什么是“能力倾向”,Carrol等“Modern Language Aptitude Test”认为包括:语音能力、语法能力、综合归纳能力、语言记忆能力、语言表达能力等4、诊断性测验(Diagnostic Tests):,目的是了解学习者对教学内容掌握情况,以便调整教学不一定需要打分,非正式的测验5、安置性测验(Placement Tests)、分班测验、分级测验:,目的在于妥善地将学习者按程度分班或编组最好以本单位教学大纲或可能开设的课程内容为依据各种用途测验又互相联系:水平测验也可以安置学习者,成绩测验可以诊断教学问题但各种测验用途有区别,基本特性也有区别二、主观性测验和客观性测验,1、Subjective Tests:,根据评分时是否需要凭主观判断问答、简述、完成句子、完成会话、造句、翻译、作文、口试。
有层次,适合考察被试语言运用能力和产出性技能;命题容易;防止猜题评分不一致;阅卷费时费力2、Objective Tests:,选择题,0/1计分法,multiple-choice items(唯一正确答案、多个、不同选项不同得分)是非判断题配伍题(如连线)听写、填空是不是客观题(不是根据题目答案是否唯一)内容覆盖面广;评分简单客观不适合测试产出性语言技能和被试综合运用语言能力;可以猜题;编题费时费力三、分立式测验和综合式测验,1、Discrete-Point Tests,建立在结构主义语言学理论基础上,把语言分解成语音、语法、词汇等不同的语言点来测采用多项选择、是非判断等题型评分客观、准确;试题针对性强2、Integrative Tests,了解被试综合运用语言知识的能力写作、口试、完形填空、听写、多项选择的阅读听力理解有效测量被试整体语言水平四、标准化测试非标准化测试,Standardized Tests在教育(心理)测量学理论指导下编制,特点一是具有统一的标准,二是对整个测试过程可能出现的误差都可严格监控(试题编制、测验实施、阅卷评分、分数转化解释四个标准化),忽视不同个体习得第二语言特点,客观性多项选择题能否测量真实语言水平受到怀疑,对语言教学产生误导。
Non-standardized Tests:表现评价(Performance Assessment),真实评价(Authentic Assessment),五、常模参照测试和标准参照测试,norm-referenced tests:,显示被试语言能力的差异,考分拉开TOEFL,、,HSK,Criterion-referenced tests:,显示被试是否达到规定的标准,可以都得满分第三节 语言测验开发过程(p297图),一、设计阶段,明确测试目的,明确目的语使用范围(词汇量、语法点、功能项目等),明确需要用目的语完成的任务(如写出专业性文章),明确测试对象特征:个体特征(年龄、性别、受教育情况、母语背景、参试目的)、一般语言能力水平,所测语言能力的基本特征作理论构想(,construct,)理论构想在理论上定义所要开发的测验试图测到的语言能力的基本特征制定质量监控计划:信度、效度、对教学的影响(,washback,)、实用性,资源配置计划(人、物、财、时),二、操作化阶段,1、作业任务细则(p306-7示例):,概述含名称、对象、目的、用途、时间,题目细则含答题指导语、例题、题目特点(刺激属性)、对考生要求(反应属性)、评分方法和记分方法。
2、试卷构成说明(p308示例):,包括几个部分及各部分顺序、题目数量、答题时间、客观性程度等3、对命题人员(特别是兼职命题员)培训,三、施测阶段,1、预测:在测验正式进行之前,让一组有代表性的被试试做题目分析,筛选正式题目2、实测:把符合标准题目合成正式试卷,进行测试报告分数统计研究施测结果(信度、效度的定量定性分析),第四节 题目编写和分析方法,一、多项选择题的编写:题干(stem)、备选答案(alternatives)、正确答案、干扰项(distracters、迷惑项、迷项),听力理解,,语法结构(位置判断p313例4、选择填空例5、完成句子例6、挑错题例7),,阅读理解,,综合运用:,综合填空和完形填空前者在一段语言材料中涉及很多空儿让被试选择填空,考察点很多;后者不提供备选答案,被试根据上下文自己把答案写在空格处HSK填汉字题属于综合式客观题总的编写原则是要明确测试目的具体编写需要积累经验,针对情况具体分析二、题目分析(item analysis)的方法,1、难易度(facility):p=答对此题人数/总人数,范围应在之间平均难易度(一个测试的各个题目的难易度相加,再除以题目的数量),宜在0.5左右。
2、区分度(discrimination):水平高被试答对的人数大于水平低被试答对人数区分度指数(discrimination index):取全体被试分数最高27%作为高分组,最低的27%作为低分组,D=(高分组答对此题人数-低分组答对此题人数)/高分组或低分组人数例题见P326-327D在-1+1之间,一般要求在0.3左右点双列相关系数(point-biserial correlation coefficient),双列相关系数,3、选项被选次数应比较均匀4、答案唯一性、正确性(高分被试选对),5、题目分析表(信息汇总p329),6、主观评判:是否有冒犯、是否为大纲规定重点,三、其他数据分析重要概念,1、正态分布(normal distribution):,2、平均数(mean);众数(mode,出现次数最多的分数);中位数(median,原始分数排列起来,最中的那个数),示例:3,7,8,8,8,9,13;3,7,8,9,83(22),3、标准差(standard deviation),方差(v)的平方根,s=(x-M),2,/N),总和,X每个考生分数,N考生总人数,M平均分,计算下列数的方差:3,5,2,7,6,第五节 质量评估:信度和效度,一、reliability,1、可靠性、稳定性,对同样一组被试反复测量结果保持一致。
2、信度估计,再测(retest):稳定性系数,要防止练习效应,等值复本(equivalent-form),平行试卷,分半(split-half),反映内部一致性程度,内部一致性公式:Kuder-Rechardson系数和Cronbach 系数评分者之间信度3、影响因素:题目数量;题目同质性;难易度;被试水平,二、validity,1、测量对所要测的东西准确测量的程度相对于特定目的而言2、类别:,内容效度(content):实际测量内容对所欲测量内容的代表性程度成绩测验最应讲求内容效度,即最强调题目代表性,需要确定测验的范围和各部分的比例靠经验判断等定性分析的方法进行表面效度(face):考查书面表达能力可以用写作文的方式和改错句的方式,前者表面效度高,并不一定标准关联效度(criterion-related):测验结果与某一标准之间关系的密切程度,标准通常指测验所要预测的行为,如大学学习情况、语言运用熟练程度预测效度(predictive):测验分数与一段时间后被试的行为表现之间的相关程度共时效度(concurrent):以测验实施相同或相近时间内搜集到的其他经验性资料为标准教育测验用学科成绩或教师评定,能力倾向测验用特殊训练成绩,一般标准化测验用另一被证实可靠有效的标准化测验为标准。
构想效度(construct):理论、观念效度,测验结果与设计者关于能力的理论构想之间的相关程度第二语言习得理论有许多假说,用测验验证,涉及构想效度,3、影响效度的因素:题目的质量(难度等);参照标准的质量;测试实施的程序是否标准化4、信度、效度关系,信度是效度前提;信度高的不一定效度高,一个可靠的数学考试对选拔运动员无效参考文献,李清华(2006),,语言测试之效度理论发展五十年,现代外语第1期。












