
对外汉语教学 第7章测试.ppt
38页语言测试• 第一节 概说:发展、作用、学科特点 • 第二节 语言测试基本类型 • 第三节 语言测验开发过程 • 第四节 题目编写和分析方法 • 第五节 质量评估:信度和效度语言测试•第一节 概说 •1、语言测试主要发展阶段: ① 传统时期或前科学时期(20世纪初-50年代 初):依靠直觉判断作文、口试、翻译等 方法 ② 心理测量-结构主义时期或科学时期(50年 代末60年代初-70年代):以结构主义语言 学、行为主义心理学、心理测量学为基础, Lado, R. (1961)为标志分立式测试③ 心理语言学社会语言学时期或后现代时期(70年代-80年代初):注意功能性社会性和 语言应用综合式测试,出现完型填空(Cloze Test)等形式,Oller, J. 提出“一 元能力假说”(Unitary Competence Hypothesis) ④ 交际法语言测试时期(80年代初至今): ACTFL (American Council on Teaching of Foreign Languages) Guidelines和欧洲《功能意念大纲》《交 际大纲》为基础Bachman的“语言交际能 力模型”。
•2、中国的语言测试:① 中国是最早使用考试(西周) ② 科举是一个标准化程度很高的测试体系 ③ 70年代末受TOEFL等影响开始第二语言测 试,出现“英语水平考试(EPT)”“大学英语 考试(CET)” ④ 对外汉语教学界“汉语水平考试(HSK)”影 响广泛• 3、语言测试作用: ① 评价学习者的学业成就和语言水平评估教学 的实际效果为选拔人才提供依据为改进教 学中的问题提供反馈 ② 对于各种有关人的语言能力的假说,需要实证 性数据的证实,语言测试在这方面可以为语言 研究(语言教学研究)提供信息,发挥重要作 用 ③ 语言测试研究能够为第二语言习得研究提供更 为可靠而有效的方法和手段•4、学科特点:① 理论与实践结合非常紧密 ② 综合性很强:应用语言学(语言学、语 言教学)、认知科学、心理测量学、教 育统计学、信息科学第二节 语言测试基本类型一、从用途的角度分: 1、成绩测验(Achievement)、学业 成就测验、回顾性测试: 特点是教什么测什么,怎么教怎么测,测 试内容必须以教学大纲、教材、教学内 容为依据 最后成绩测验(Final Achievement Tests,期末、结业)和进步测验( Progress Achievement Tests, 单元测验)。
2、水平测验(Proficiency Tests)、熟巧程度测验: 测试对目的语运用的熟练程度( TOEFL、HSK、出国人员外语水 平考试WSK) 必须弄准什么叫“语言水平”、要求能 够预测未来完成特定任务情况3、能力倾向测验(Aptitude Tests) 、学能测验、性向测验、潜能测验、禀 赋测验: 了解考生学习目的语的潜力 必须弄准什么是“能力倾向”,Carrol等 “Modern Language Aptitude Test”认为包括:语音能力、语法能力 、综合归纳能力、语言记忆能力、语言 表达能力等4、诊断性测验(Diagnostic Tests):目的是了解学习者对教学内容掌 握情况,以便调整教学不一 定需要打分,非正式的测验5、安置性测验(Placement Tests) 、分班测验、分级测验:目的在于妥善地将学习者按程度分班或编 组最好以本单位教学大纲或可能开设 的课程内容为依据 各种用途测验又互相联系:水平测验也可 以安置学习者,成绩测验可以诊断教学 问题但各种测验用途有区别,基本特 性也有区别二、主观性测验和客观性测验 1、 Subjective Tests: 根据评分时是否需要凭主观判断。
问答、 简述、完成句子、完成会话、造句、翻 译、作文、口试 有层次,适合考察被试语言运用能力和产 出性技能;命题容易;防止猜题 评分不一致;阅卷费时费力2、 Objective Tests: 选择题,0/1计分法,multiple- choice items(唯一正确答案、多个 、不同选项不同得分)是非判断题 配伍题(如连线)听写、填空是不是 客观题(不是根据题目答案是否唯一) 内容覆盖面广;评分简单客观 不适合测试产出性语言技能和被试综合运 用语言能力;可以猜题;编题费时费力 三、分立式测验和综合式测验1、Discrete-Point Tests 建立在结构主义语言学理论基础上,把语 言分解成语音、语法、词汇等不同的语 言点来测 采用多项选择、是非判断等题型评分客 观、准确;试题针对性强 2、Integrative Tests 了解被试综合运用语言知识的能力 写作、口试、完形填空、听写、多项选择 的阅读听力理解有效测量被试整体语 言水平四、标准化测试非标准化测试Standardized Tests在教育(心理) 测量学理论指导下编制 特点一是具有统一的标准,二是对整个测 试过程可能出现的误差都可严格监控( 试题编制、测验实施、阅卷评分、分数 转化解释四个标准化) 忽视不同个体习得第二语言特点,客观性 多项选择题能否测量真实语言水平受到 怀疑,对语言教学产生误导。
Non-standardized Tests: 表现评价(Performance Assessment),真实评价( Authentic Assessment)五、常模参照测试和标准参照 测试① norm-referenced tests:显示被试 语言能力的差异,考分拉开TOEFL 、HSK ② Criterion-referenced tests:显示 被试是否达到规定的标准,可以都得满 分第三节 语言测验开发过程( p297图)•一、设计阶段 ① 明确测试目的 ② 明确目的语使用范围(词汇量、语法点 、功能项目等),明确需要用目的语完 成的任务(如写出专业性文章) ③ 明确测试对象特征:个体特征(年龄、 性别、受教育情况、母语背景、参试目 的)、一般语言能力水平n所测语言能力的基本特征作理论构想( construct)理论构想在理论上定 义所要开发的测验试图测到的语言能力 的基本特征 n制定质量监控计划:信度、效度、对教 学的影响(washback)、实用性n资源配置计划(人、物、财、时)二、操作化阶段1、作业任务细则(p306-7示例):概述含名称、对象、目的、用途、时间 题目细则含答题指导语、例题、题目特点 (刺激属性)、对考生要求(反应属性 )、评分方法和记分方法。
2、试卷构成说明(p308示例):包括几个部分及各部分顺序、题目数量、 答题时间、客观性程度等 3、对命题人员(特别是兼职命题员)培 训三、施测阶段1、预测:在测验正式进行之前,让一组 有代表性的被试试做 题目分析,筛选正式题目 2、实测:把符合标准题目合成正式试卷 ,进行测试 报告分数统计研究施测结果(信度、效 度的定量定性分析)第四节 题目编写和分析方法一、多项选择题的编写:题干(stem)、 备选答案(alternatives)、正确答 案、干扰项(distracters、迷惑项、 迷项) 听力理解, 语法结构(位置判断p313例4、选择填 空例5、完成句子例6、挑错题例7), 阅读理解,综合运用: 综合填空和完形填空前者在一段语言材 料中涉及很多空儿让被试选择填空,考 察点很多;后者不提供备选答案,被试 根据上下文自己把答案写在空格处 HSK填汉字题属于综合式客观题 总的编写原则是要明确测试目的具体编 写需要积累经验,针对情况具体分析二、题目分析(item analysis)的方法1、难易度(facility):p=答对此题人 数/总人数,范围应在0.2-0.8之间 平均难易度(一个测试的各个题目的难易 度相加,再除以题目的数量),宜在0.5左右。
2、区分度(discrimination):水平 高被试答对的人数大于水平低被试答对 人数 区分度指数(discrimination index ):取全体被试分数最高27%作为高 分组,最低的27%作为低分组,D=( 高分组答对此题人数-低分组答对此题 人数)/高分组或低分组人数 例题见 P326-327 D在-1~+1之间,一般要 求在0.3左右点双列相关系数(point- biserial correlation coefficient)双列相关系数3、选项被选次数应比较均匀 4、答案唯一性、正确性(高分被试选对 ) 5、题目分析表(信息汇总p329) 6、主观评判:是否有冒犯、是否为大纲 规定重点三、其他数据分析重要概念1、正态分布(normal distribution ):2、平均数(mean);众数(mode, 出现次数最多的分数);中位数( median,原始分数排列起来,最中的 那个数) 示例:3,7,8,8,8,9,13;3,7 ,8,9,83(22)3、标准差(standard deviation), 方差(v)的平方根,s=√(∑(x-M)2/N) ∑总和 X每个考生分数 N考生总人数 M平均分 计算下列数的方差:3,5,2,7,6第五节 质量评估:信度和效度一、reliability 1、可靠性、稳定性,对同样一组被试反 复测量结果保持一致。
2、信度估计 再测(retest):稳定性系数,要防止 练习效应 等值复本(equivalent-form),平行 试卷分半(split-half),反映内部一致性程 度 内部一致性公式:Kuder- Rechardson系数和Cronbach α系 数 评分者之间信度 3、影响因素:题目数量;题目同质性; 难易度;被试水平二、validity1、测量对所要测的东西准确测量的程度 相对于特定目的而言 2、类别: 内容效度(content):实际测量内容 对所欲测量内容的代表性程度成绩测 验最应讲求内容效度,即最强调题目代 表性,需要确定测验的范围和各部分的 比例靠经验判断等定性分析的方法进行表面效度(face):考查书面表 达能力可以用写作文的方式和改错句的 方式,前者表面效度高,并不一定标准关联效度(criterion-related): 测验结果与某一标准之间关系的密切程 度,标准通常指测验所要预测的行为, 如大学学习情况、语言运用熟练程度 预测效度(predictive):测验分数与 一段时间后被试的行为表现之间的相关 程度共时效度(concurrent):以 测验实施相同或相近时间内搜集到的其 他经验性资料为标准。
教育测验用学科成绩或教师评定,能力倾 向测验用特殊训练成绩,一般标准化测 验用另一被证实可靠有效的标准化测验 为标准 构想效度(construct):理论、观念 效度,测验结果与设计者关于能力的理 论构想之间的相关程度第二语言习得 理论有许多假说,用测验验证,涉及构 想效度3、影响效度的因素:题目的质量(难度 等);参照标准的质量;测试实施的程 序是否标准化 4、信度、效度关系信度是效度前提;信度高的不一定效度高 ,一个可靠的数学考试对选拔运动员无 效参考文献• 李清华(2006),语言测试之效度理 论发展五十年,《现代外语》第1期。












