
语言测试学第二组.ppt
34页王敏,骆明丽,陈丹,侯宇飞,马亚丽,语言测试,第二组,概说语言测试,语言测试的总体设计,语言测试的质量评估,目录,,,,测量,测试,评价,语言测试的主要类型,语言测试的作用,发展,,第一部分,总体概况,概说语言测试,,调研方法,,,测量,测试,评价,第一部分,测量(measurement)就是按照一定的规则给事物的属性指派数字或符号的过程 事物及属性这是测量的对象及其属性 指派数字或符号即用数字或符号来代表某 一事物或事物的某一属性的量法则是指测量所依据的规则和方法, 这是测量的关键调研方法,,,第一部分,测量,测试,评价,测试包括以下三个基本要素: 行为样本:所谓行为样本,是指对语言能力表现行为的有效的抽样 客观的测量:所谓客观的测量是指测量的标准是否符合实际 标准化的测量:是指在测试题目的编制、测试的实施、计分以及对分数的解释等方面有一套严密的系统的程序2.测试(Test)又称测验不同的心理学家对此下的定义不同 Anastasi(1982)认为,测试实际上是对行为样本所做的客观的标准化的 测量这是公认的最有权威的定义调研方法,,,第一部分,测量,测试,评价,3.Weiss(1972)认为,评价 (evaluation)是指为作出某种决策而收集资料,并对资料进行分析,作出解释的系统过程。
与测量、测试相比较,评价的含义更 广、综合性更强 并非所有的 测量都是测试,并非所有的测试都属于评价,而且并非所有的评价活动都涉及到测试或测量调研方法,,,第一部分,水平测试 proficiency test 成绩测试 achievement test,也叫学业测试 分班测试 placement test 潜能测试aptitude test (能力倾向) 诊断测试 diagnostic test,以测试用途为标准的分类:,语言测试的主要类型,,调研方法,,,第一部分,按学习阶段来分: 分班测试(placement test) 随堂测试(classroom test) 期中测试(mid-term test) 期末测试(end-of-term test) 按考试方式来分: 分离式测试(discrete-point test):把知识和能力分解为若干小的单位,如集中考查语言的某一方面,或考查学生单方面的技能 综合性测试(integrative test):听写、完形填空、写作、翻译语言测试的主要类型,,调研方法,,,第一部分,语言测试的主要类型,按对考试分数的解释来分: 常模参照性测试(norm-referenced test) 标准参照性测试(criterion-referenced test) 按试卷的评阅方式来分: 主观性测试(subjective test):作文、口试、简述、翻译等。
客观性测试(objective test):选择、判断、配对题等调研方法,,,第一部分,(1)一般作用:评价学习者的学业成就和语言水平评估教学的实际效果为选拔人才提供依据为改进教学中的问题提供反馈 (2)对于各种有关人的语言能力的假说,需要实证性数据的证实,语言测试在这方面可以为语言研究(语言教学研究)提供信息,发挥重要作用 (3)语言测试研究能够为第二语言习得研究提供更为可靠而有效的方法和手段语言测试的作用:,语言测试的作用,发展,,调研方法,,,第一部分,语言测试的作用,发展,(1)传统时期或前科学时期(20世纪初-50年代初):依靠直觉判断作文、口试、翻译等方法 (2)心理测量-结构主义时期或科学时期(50年代末60年代初-70年代):以结构主义语言学、行为主义心理学、心理测量学为基础, Robert Lado 《语言测试——外语测验的开发与使用》(1961)为标志主要是分立式测试 (3)心理语言学社会语言学时期或后现代时期(70年代-80年代初):注意功能性社会性和语言应用综合式测试,出现完型填空(Cloze Test)等形式 (4)交际法语言测试时期(80年代初至今):ACTFL 和欧洲《功能意念大纲》、《交际大纲》为基础。
Bachman的“语言交际能力模型”语言测试主要发展阶段:,,,,,外语测试的发展,Language Teaching Movement 语言教学的发展,Language Testing Movement 语言测试的发展,Linguistic Basis 语言能力观,Prescientific 前科学时期,Ability to translate 翻译能力,1960s-1970s: Audiolingual + Structuralist 专门人士—学生,听说+结构训练,Psychometric-structuralist 心理测量-结构主义语言学时期,Ability = Component + skills 语言知识+语言技能,1980s-1990s: Communicative language teaching 普及,交际教学,Communicative 交际语言测试时期,Ability to communicate 交际能力:功能、意念、任务,21th: Education for intercultural citizenship,???,Integrative-sociolinguistic,Task-based language assessment 基于任务的测试时期,-1950s: Grammar translation 精英,语法翻译,,,,,,,,,调研方法,,,第一部分,(1)中国是最早使用考试(西周)。
(2)科举是一个标准化程度很高的测试体系 (3)70年代末受TOEFL等影响开始第二语言测试,出现“英语水平考试(EPT)”“大学英语考试(CET)” (4)对外汉语教学界“汉语水平考试(HSK)”影响广泛中国的语言测试:,语言测试的作用,发展,,语言测试的作用,发展,哲学观:分析转向综合 语言观:形式、知识转向内容、运用 测试方式:个别技能转向多项技能 题型:客观题转向主观题 从只注重测试结果转向注重考试过程 从间接测试到直接测试 语言测试以人为本,语言测试发展趋势,第二部分,1、确定考试类别 2、确定考试内容 3、确定考试题型 4、确定试卷结构 5、制定考试细目表 6、命题及编辑试卷 ——编写试卷,语言测试的总体设计,,第二部分,考试目的不同,试卷的内容、要求也不一样1、确定考试类别,2、确定考试内容,3、确定考试题型,(1)根据测试目的选择题型,(2)纵横结合,确定题型是否有效,(3)考虑被试的能力范围,(1)多项选择题,(2)是非题、判断题,(3)配对题,语言测试的总体设计,第二部分,语言测试的总体设计,第二部分,语言测试的总体设计,第二部分,语言测试的总体设计,第二部分,语言测试的总体设计,第二部分,语言测试的总体设计,,4、确定试卷结构,首先,要确定试卷各部分的比例; 其次,是研究每一部分有多少题目才能保证测试起码的效度; 第三,题目数确定了,还要看时间是否够。
第二部分,语言测试的总体设计,,5、制定考试细目表,,6、命题及编辑试卷,整个命题过程包括选材、编写试题、审题等环节 命题原则:先出容易的题,后出现较难的题目;题型相同的题应放在一起;客观题在前,主观题在后 规模大、影响大的测试在正式实施前还要进行试测,以验证试卷有没有缺失,要不要作一些改动等 命题要求:效度、信度,注意试题的难度和区分度等第二部分,语言测试的总体设计,,第二部分,语言测试的总体设计,1.区分度:指一个题目对于鉴别被试的水平所起的作用有多大 (1)区分度指数(极端分组法):27% D=(高分组答对此题人数-低分组答对此题人数)/高分组或低分组人数 例题:P326-327 D在-1―+1之间,一般要求在0.3左右 特点:简便;不够精确,题目分析的方法,,难度的形成,知识的综合程度 试题的呈现形式 试题提问的思维跨度 有用信息的提取难度,第二部分,语言测试的总体设计,,试题的难易度,第二部分,语言测试的总体设计,2.难易度:指某个题目的答对率,即答对某题目的被试占全部参加测试的被试的比例 p=答对此题人数/总人数,范围应在0.2-0.8之间 平均难易度(一个测试的各个题目的难易度相加,再除以题目的数量),宜在0.5左右。
特别要求:被试的同质性,,题目的修改,题目的修改,用语表达:注意准确规范 试卷格式:注意整齐美观 试题内容:注意科学无误 知识点覆盖面广、重点突出 难度、比例和区分度适宜,设计的题目是否如实地反映出考试细目表中的内容和要求? 题目的要求是否明白无误? 试题前后是否有提示? 题目的难度是否适中? 题目的覆盖面是否够广?,,第二部分,语言测试的总体设计,,第三部分,语言测试质量评估,第三部分,语言测试质量评估,第三部分,1.信度 2.效度 3.真实性 4.互动性 5.可行性 6.后效作用,,语言测试质量评估,第三部分,1.信度,信度(reliability) 指同一个卷面和难易程度相同的试题用于水平基本相同的测试对象,测试结果是否基本相同 阅卷员信度,阅卷员自身信度,2.效度,效度(validity) 指测试的有效程度,也就是测试的内容和方法是否达到了测试目的 要求:该测的当测,不该测的尽量不涉及;是否有缺漏或出现偏题、怪题;代表性、准确度和覆盖面如何 类型:构念效度、内容效度、表面效度、预测效度,方法效度,,语言测试质量评估,第三部分,3.真实性,语言测试的真实性指目标语言使用任务特征( target language use task) 与测试任务特征( test task) 的一致程度。
目标语言使用任务指通过测试所要预测的被试者在将来工作中为达到一定目的在特定场合用所学语言所进行的一系列活动 测试任务指能够考察、预测、判断被试者在将来工作中目标语言使用能力的最佳测试方式语言测试质量评估,第三部分,交互性指被试者在完成一件测试任务( test task) 时所涉及到的个人特征类型( individual characterist ics ) 及程度与语言测试最有关的个人特征主要有: 语言能力( language ability 其中包括语言知识language knowledge、策略能力strategic competence 或称元认知策略metacognit ive st rategies ) 话题知识( topical knowledge ) 情感图式( affective schemata),4.互动性,,语言测试质量评估,第三部分,可行性主要指考试在现实的条件下能否行得通,即可操作性,主观愿望是否符合客观条件的问题Available resources Practicality = ------------------------------ Required resources If practicality 1, the test development and use is practical.(分子大于分母,即可利用资源要大于考试所必需资源) If practicality 1, the test development and use is not practical.,5.可行性,,语言测试质量评估,第三部分,5.可行性,制约施考过程的因素有三方面: 人力资源:命题人员、考官、监考人员、阅卷人员等。
足够数量的精通业务的人员) 物质资源:考试场地、考试所需的设备(录音机、计算机、阅卷机)、印制考卷的纸张和设备等 财力:钱测试对于人力和物力的要求都要有财力的支持才能满足语言测试质量评估,第三部分,6.后效作用,反拨作用或称反拨效应(washback effect) 是测试对教学和学习产生的影响,这种影响有正面的,也有负面的 举例: 正面(对老师;对学生) 负面(。
