好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

语言测试概论定稿(张凯).pdf

194页
  • 卖家[上传人]:野鹰
  • 文档编号:12601612
  • 上传时间:2017-09-04
  • 文档格式:PDF
  • 文档大小:2.78MB
  • / 194 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1 语言测试概论 2 目 录 第一章 绪论 一 语言能力问题 二 技术手段的限制 第 二 章 语言测试的分类 第一节 按用途分 一 水平测验 二 成绩测验 三 能力倾向测验 四 分班测验 五 诊断测验 第二节 按测验方式分 一 分立式测验和综合式测验 二 笔试和口试 三 纸笔测验和计算机辅助测验 第三节 按评分方式分 一 主观测验 二 客观测验 第四节 常模参照性测验和标准参照性测验 第五节 测验的标准化 第 三 章 语言测试的编制和开发 第一节 规划和设 计 一 确定目标团体 二 确定测验目的 三 确定测验内容 四 确定测验方式、卷面构成和指导语 五 确定评分方式和分数体系 第二节 操作和实施 3 一 编写测验说明和题目细则 二 训练命题员 三 命题和拼卷 四 聘请专家组就有关问题向其咨询 五 预测和实测 第三节 分析和检验 一 题目分析和修改 二 信度、效度分析 三 后效研究 第 四 章 试题 第 一 节 客观性试题的类型 一 多项选择题 二 是非题 三 配伍题 第 二 节 半客观(半主观)性试题的类型 一 完形填空题 二 成 段改错题 第 三 节 主观性试题的类型 第 五 章 预测、选题、拼卷 第一节 预测的要求和方式 一 被试样本 二 预测的条件 三 预测的方式 四 评分方式 第二节 题目分析 一 难易度 二 区 分度 4 三 选项的分布 四 题目参数的二重性 第三节 题目的修改 第四节 选题、组卷、施测 一 选题标准 二 组卷和施测 第 六 章 分数和信度 第一节 分数 一 原始分数 二 百分等级( percentile) 三 Z 分数 四 导出分数: 五 正态化 Z 分数及导出分数 第二节 信度 一 信度的基本概念 二 测验信度的估计 三 影响测验信度的一些因素 第 七 章 效度 第一节 效度的基本概念 一 测量的有效性: 二 理论的有效性 三 应用的有效性 第二节 内容效度 一 内容效度检验的基本特征 二 内容效度检验的一般程序及定量方法 三 内容效度本身的局限 第三节 效标关联效度 5 一 共时效度 二 预测效度 三 效度系数的计算 四 效标关联效度的局限 第四节 构想效度 一 什么是构想 二 检验构想效度的经验性方法 第 八 章 项目反应理论( IRT)和概化理 论简介 第一节 项目反应理论 一 项目反应理论的出现 二 IRT 的基本原理 第二节 概化理论 一 概化理论的出现 二 几个基本概念 三 概化理论的基本方法 第 九 章 国内外几种语言测试 第一节 托福 一、托福考试的性质和用途 二、试卷结构和题型设计 三、分数体系 第二节 托业 一、托 业 考试的性质和用途 二、试卷结构和题型设计 三、分数体系 第三节 雅思 一、 雅斯 考试的性质和用途 二、试卷结构和题型设计 6 三、分数体系 第四节 汉语水平考试 一、 汉语水平考试 的性质和用途 二、试卷结构和题型设计 三 、分数体系 四、考试规模 五、研究现状 六、发展趋势 第五节 实用汉语水平认定考试 一、 实用汉语水平认定 考试的性质和用途 二、试卷结构和题型设计 三、分数体系 四、考试规模 7 第一章 绪论 1961 年, Robert Lado 写了一本书,叫做 Language Testing: the Construction and Use of Foreign Language Tests,这是全面讨论语言测试问题的第一本专著。

      从此,语言测试成了应用语言学里的一个专门的研究领域 虽然 Lado 的书出版于 20 世纪 60 年代,但语言测试方面的实践,在 20 世纪初就已经出现了 20 世纪 60 年代以前的语言测试,除了在技术上有一些革新外,如使用多项选择题,在理论上并无建树 20 世纪 60 年代,除了 Lado 的那本书外,语言测试的历史上还出了一件事,那就是 TOEFL的出现当时,从世界各地到美国求学的国际学生急剧增加,美国的高校行政部门感到,需要一个能够测出外国学生英语水平的测试为了满足这种需要,应用语言学中心组织了一次研讨,会议最后决定,开发一个新型的语言测试,这就是后来的 TOEFL( Testing of English as a Foreign Language)研制和开发 TOEFL 的工作交给了 ETS 从 20 世纪 60 年代至今,语言测试的实践和理论研究已经走过了半个世纪的路程,然而它也面临着一些困难,它所面临的困难,大致在以下 两 个方面 一 语言能力问题 语言测试是一种测量活动,它所用的工具叫做语言测验从本质上讲,语言测验是一种测量工具,这和尺子或天平是测量工具一样,没什么不同。

      说是没有不同,但不同还是有的尺子或天平所测的东西,在物理学家看来似乎是明确的,而语言测验所测的东西却大可商榷 如果我们问:语言测验测的是什么东 西?大家也许会不假思索、异口同声地说:语言能力!但如果我们再问:语言能力是什么东西?历史文献告诉我们,对这个回答的回答是其说不一的 关于语言能力问题, TOEFL 最初的研制者们,如 Carroll、 Harris、 Palmer 等人似乎并不认为是个多大的问题, Lado 的那本专著,也没有给予充分的讨论 Lado 及 Carroll 等人认为,语言能力,也就是语言测验所测的东西,无非就是语言的各种要素(如语音、词汇、语法)以及听、说、读、写等语言技能在那个时候,人们甚至没有为“语言能力”找一个专门的术语,只是用 ability 这样的普通名词指称这个东西然而没过多久,事情开始变得复杂起来 8 了 20 世纪 70 年代末, Oller 对语言能力进行了一些研究 Oller 大概是受了 Spearman 关于智力研究的启发 20 世纪上半叶,英国心理学家和统计学家 Spearman 提出,人的智力是由两个因素构成的,一个叫做“一般智力因素”,简称“ g 因素”( g 是 general),一个叫做“特殊因素”。

      一般智力因素与人的所有活动都有关,而特殊因素只与少数特殊的活动有关,而智力测验,测的就是人的一般智力因素 Oller 使用 Spearman 发明的因素分析方 法,对语言测验(主要是 TOEFL)进行了大量的研究,然而 Oller 的结论却不那么让人信服 Oller 用因素分析对测试的数据反复计算,数据显示,他所分析的所有的语言测验都只有一个单一的因素由于语言测验所测到的只有一个单一的因素, Oller 便认为,所谓的“语言能力”是一种不可再分的单一的能力 Oller 根据他的这个观察结果,提出了他的“单一能力假说( Unitary Competence Hypothesis , UCH)”除了提出一个关于语言能力的假说外, Oller 等人还发现,在所有测验中,语言测验和智力测验 的相关最高,根据这个现象,他们甚至认为,语言能力和智力就是同一种能力 Oller 的 UCH 固然和 Spearman 的 g 因素很像,但多数人从直觉上认为这是不可能的 20 世纪 70 年代, Hymes 提出了交际能力,应用语言学界很快就接受了这个理论 1980年, Canale 和 Swain 提出了一个交际能力模型, 1983 年, Canale 又对这个模型做了改进。

      到了 20 世纪 80 年代末、 90 年代初, Bachman 提出了一个更为复杂的交际能力模型 迄今为止, Bachman 的模型是最复杂的交际模型这个模型提出后,一些人认为,该 模型已经很完备了,今后的工作,就是如何用统计手段验证这个模型 Bachman 的模型固然是复杂,看起来也很完备,但是,他的整个模型至今仍处于有待验证的状态不仅 Bachman 的模型是这样,其他人提出的各种各样的语言能力模型也都没有得到经得起推敲的检验因此,语言测试面临的第一个困难,就是语言能力问题尚未解决 二 技术手段的限制 语言能力究竟是什么?语言能力的组成成分究竟是什么?这种问题固然是高深的理论问题,但决不是只靠纯粹的思辨就能解决的 语言测试的手段,绝大多数人都很熟悉:测试者采用书面或口头的形 式,向被试提出一些问题,这些问题也许是开放性的(如请被试描述一个事件),也许是封闭式的(如多项选择题);被试则根据测试的要求回答这些问题然后,测试者根据被试答对题数或答题质量给出一个分数 9 当然,现代语言测试不会停留在给出一个分数这一步上,它还会使用一些科学上常用的方法对整个测验和分数做进一步的分析(这些分析方法后面会介绍),其分析结果表现为题目难度、信度、效度等各项指标。

      通过这些分析,测试者和被试及社会各界都可以知道测验的质量如何 语言测试最重要的指标就是效度问一个语言测试是否有效,就是问它是否测到 了所谓的语言能力;问一个测试有多高的效度,就是问它在何种程度上测到了所谓的语言能力 那么,我们是如何把一个测试的效度展示给人看呢?到目前为止,我们所用的手段极为有限 —— 主要是使用一些多元统计方法我们先举一个简单的例子 假定我现在有一个测试,我想证明它是有效的,我该怎么办呢?我的做法是,首先找一个已被公认为有效的测试,然后找一批被试我们让这些被试把两个测试都做了,这样这些被试就有了两个分数,一个是根据我的测试给出的,另一个是根据那个公认有效的测试给出的接着,我们计算着两个分数之间的相关,如果我们的测 试和那个有效的测试之间呈现高相关,我门就可以说,我们这个测试是有效的这个结论的逻辑是:已知那个测试有效地测出了某种能力,如果我们的测试和它有高相关,这说明我们的测试也测到了同样的能力;因为那个测试声称测到的是语言能力,所以我们的测试测到的也是语言能力 也许有人问了:就算那个测试和你的测试都是有效的,它们都测到了所谓的语言能力,那么语言能力是什么呢?那好,我们再举一个稍微复杂一点儿的例子。

      首先,我们对语言能力做一番思考,比如说,我们认为语言能力是由听、说、读、写四种子能力构成的为了测到这些能力,我们第 二步要做的,就按照我们的想法编制听、说、读、写四种测验测验编好后,我们还是要找一批被试来做这些测验最后,我们用一些统计方法对测试结果进行分析如果分析结果显示,听、说、读、写四种测验确实测到了四种不同的能力,我们就有理由认为我们当初的想法是正确的,语言能力是由那四种能力构成的如果分析结果显示只有两种或一种能力( Oller 得出的结果),我们关于语言能力的想法就可能是错的,当然,还有另一种可能,那就是我们编制的测试有问题 到目前为止,语言能力研究所用的办法也就是上面所说的那些 上面所说的两种方式的缺陷 是明显的,它们都没有真正触及语言能力的实质 我们知道,语言能力说到底是大脑的一种能力,语言行为(无论是口头的还是书面的)是语言能力的表现在测试情境下,被试答对或答错题目,也是语言能力的表现然而,我们现在能够观察和分析的,仅仅是这些表现(题目是否答对以及被试得分)我们观察不到那个所谓的语言能力,也看不到被试的表现(语言行为)和语言能力之间有什么样的关系 1。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.