您所在位置：网站首页 > 行业资料 > 其它行业文档 > 语言测试概论定稿(张凯)

语言测试概论定稿(张凯).pdf

194页

卖家[上传人]：野鹰

文档编号：12601612

上传时间：2017-09-04

文档格式：PDF

文档大小：2.78MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 194 举报版权申诉马上下载

文本预览

下载提示

常见问题

1 语言测试概论 2 目录第一章绪论一语言能力问题二技术手段的限制第二章语言测试的分类第一节按用途分一水平测验二成绩测验三能力倾向测验四分班测验五诊断测验第二节按测验方式分一分立式测验和综合式测验二笔试和口试三纸笔测验和计算机辅助测验第三节按评分方式分一主观测验二客观测验第四节常模参照性测验和标准参照性测验第五节测验的标准化第三章语言测试的编制和开发第一节规划和设计一确定目标团体二确定测验目的三确定测验内容四确定测验方式、卷面构成和指导语五确定评分方式和分数体系第二节操作和实施 3 一编写测验说明和题目细则二训练命题员三命题和拼卷四聘请专家组就有关问题向其咨询五预测和实测第三节分析和检验一题目分析和修改二信度、效度分析三后效研究第四章试题第一节客观性试题的类型一多项选择题二是非题三配伍题第二节半客观（半主观）性试题的类型一完形填空题二成段改错题第三节主观性试题的类型第五章预测、选题、拼卷第一节预测的要求和方式一被试样本二预测的条件三预测的方式四评分方式第二节题目分析一难易度二区分度 4 三选项的分布四题目参数的二重性第三节题目的修改第四节选题、组卷、施测一选题标准二组卷和施测第六章分数和信度第一节分数一原始分数二百分等级（ percentile）三 Z 分数四导出分数：五正态化 Z 分数及导出分数第二节信度一信度的基本概念二测验信度的估计三影响测验信度的一些因素第七章效度第一节效度的基本概念一测量的有效性：二理论的有效性三应用的有效性第二节内容效度一内容效度检验的基本特征二内容效度检验的一般程序及定量方法三内容效度本身的局限第三节效标关联效度 5 一共时效度二预测效度三效度系数的计算四效标关联效度的局限第四节构想效度一什么是构想二检验构想效度的经验性方法第八章项目反应理论（ IRT）和概化理论简介第一节项目反应理论一项目反应理论的出现二 IRT 的基本原理第二节概化理论一概化理论的出现二几个基本概念三概化理论的基本方法第九章国内外几种语言测试第一节托福一、托福考试的性质和用途二、试卷结构和题型设计三、分数体系第二节托业一、托业考试的性质和用途二、试卷结构和题型设计三、分数体系第三节雅思一、雅斯考试的性质和用途二、试卷结构和题型设计 6 三、分数体系第四节汉语水平考试一、汉语水平考试的性质和用途二、试卷结构和题型设计三、分数体系四、考试规模五、研究现状六、发展趋势第五节实用汉语水平认定考试一、实用汉语水平认定考试的性质和用途二、试卷结构和题型设计三、分数体系四、考试规模 7 第一章绪论 1961 年， Robert Lado 写了一本书，叫做 Language Testing: the Construction and Use of Foreign Language Tests，这是全面讨论语言测试问题的第一本专著。

从此，语言测试成了应用语言学里的一个专门的研究领域虽然 Lado 的书出版于 20 世纪 60 年代，但语言测试方面的实践，在 20 世纪初就已经出现了 20 世纪 60 年代以前的语言测试，除了在技术上有一些革新外，如使用多项选择题，在理论上并无建树 20 世纪 60 年代，除了 Lado 的那本书外，语言测试的历史上还出了一件事，那就是 TOEFL的出现当时，从世界各地到美国求学的国际学生急剧增加，美国的高校行政部门感到，需要一个能够测出外国学生英语水平的测试为了满足这种需要，应用语言学中心组织了一次研讨，会议最后决定，开发一个新型的语言测试，这就是后来的 TOEFL（ Testing of English as a Foreign Language）研制和开发 TOEFL 的工作交给了 ETS 从 20 世纪 60 年代至今，语言测试的实践和理论研究已经走过了半个世纪的路程，然而它也面临着一些困难，它所面临的困难，大致在以下两个方面一语言能力问题语言测试是一种测量活动，它所用的工具叫做语言测验从本质上讲，语言测验是一种测量工具，这和尺子或天平是测量工具一样，没什么不同。

说是没有不同，但不同还是有的尺子或天平所测的东西，在物理学家看来似乎是明确的，而语言测验所测的东西却大可商榷如果我们问：语言测验测的是什么东西？大家也许会不假思索、异口同声地说：语言能力！但如果我们再问：语言能力是什么东西？历史文献告诉我们，对这个回答的回答是其说不一的关于语言能力问题， TOEFL 最初的研制者们，如 Carroll、 Harris、 Palmer 等人似乎并不认为是个多大的问题， Lado 的那本专著，也没有给予充分的讨论 Lado 及 Carroll 等人认为，语言能力，也就是语言测验所测的东西，无非就是语言的各种要素（如语音、词汇、语法）以及听、说、读、写等语言技能在那个时候，人们甚至没有为“语言能力”找一个专门的术语，只是用 ability 这样的普通名词指称这个东西然而没过多久，事情开始变得复杂起来 8 了 20 世纪 70 年代末， Oller 对语言能力进行了一些研究 Oller 大概是受了 Spearman 关于智力研究的启发 20 世纪上半叶，英国心理学家和统计学家 Spearman 提出，人的智力是由两个因素构成的，一个叫做“一般智力因素”，简称“ g 因素”（ g 是 general），一个叫做“特殊因素”。

一般智力因素与人的所有活动都有关，而特殊因素只与少数特殊的活动有关，而智力测验，测的就是人的一般智力因素 Oller 使用 Spearman 发明的因素分析方法，对语言测验（主要是 TOEFL）进行了大量的研究，然而 Oller 的结论却不那么让人信服 Oller 用因素分析对测试的数据反复计算，数据显示，他所分析的所有的语言测验都只有一个单一的因素由于语言测验所测到的只有一个单一的因素， Oller 便认为，所谓的“语言能力”是一种不可再分的单一的能力 Oller 根据他的这个观察结果，提出了他的“单一能力假说（ Unitary Competence Hypothesis ， UCH）”除了提出一个关于语言能力的假说外， Oller 等人还发现，在所有测验中，语言测验和智力测验的相关最高，根据这个现象，他们甚至认为，语言能力和智力就是同一种能力 Oller 的 UCH 固然和 Spearman 的 g 因素很像，但多数人从直觉上认为这是不可能的 20 世纪 70 年代， Hymes 提出了交际能力，应用语言学界很快就接受了这个理论 1980年， Canale 和 Swain 提出了一个交际能力模型， 1983 年， Canale 又对这个模型做了改进。

到了 20 世纪 80 年代末、 90 年代初， Bachman 提出了一个更为复杂的交际能力模型迄今为止， Bachman 的模型是最复杂的交际模型这个模型提出后，一些人认为，该模型已经很完备了，今后的工作，就是如何用统计手段验证这个模型 Bachman 的模型固然是复杂，看起来也很完备，但是，他的整个模型至今仍处于有待验证的状态不仅 Bachman 的模型是这样，其他人提出的各种各样的语言能力模型也都没有得到经得起推敲的检验因此，语言测试面临的第一个困难，就是语言能力问题尚未解决二技术手段的限制语言能力究竟是什么？语言能力的组成成分究竟是什么？这种问题固然是高深的理论问题，但决不是只靠纯粹的思辨就能解决的语言测试的手段，绝大多数人都很熟悉：测试者采用书面或口头的形式，向被试提出一些问题，这些问题也许是开放性的（如请被试描述一个事件），也许是封闭式的（如多项选择题）；被试则根据测试的要求回答这些问题然后，测试者根据被试答对题数或答题质量给出一个分数 9 当然，现代语言测试不会停留在给出一个分数这一步上，它还会使用一些科学上常用的方法对整个测验和分数做进一步的分析（这些分析方法后面会介绍），其分析结果表现为题目难度、信度、效度等各项指标。

通过这些分析，测试者和被试及社会各界都可以知道测验的质量如何语言测试最重要的指标就是效度问一个语言测试是否有效，就是问它是否测到了所谓的语言能力；问一个测试有多高的效度，就是问它在何种程度上测到了所谓的语言能力那么，我们是如何把一个测试的效度展示给人看呢？到目前为止，我们所用的手段极为有限 —— 主要是使用一些多元统计方法我们先举一个简单的例子假定我现在有一个测试，我想证明它是有效的，我该怎么办呢？我的做法是，首先找一个已被公认为有效的测试，然后找一批被试我们让这些被试把两个测试都做了，这样这些被试就有了两个分数，一个是根据我的测试给出的，另一个是根据那个公认有效的测试给出的接着，我们计算着两个分数之间的相关，如果我们的测试和那个有效的测试之间呈现高相关，我门就可以说，我们这个测试是有效的这个结论的逻辑是：已知那个测试有效地测出了某种能力，如果我们的测试和它有高相关，这说明我们的测试也测到了同样的能力；因为那个测试声称测到的是语言能力，所以我们的测试测到的也是语言能力也许有人问了：就算那个测试和你的测试都是有效的，它们都测到了所谓的语言能力，那么语言能力是什么呢？那好，我们再举一个稍微复杂一点儿的例子。

首先，我们对语言能力做一番思考，比如说，我们认为语言能力是由听、说、读、写四种子能力构成的为了测到这些能力，我们第二步要做的，就按照我们的想法编制听、说、读、写四种测验测验编好后，我们还是要找一批被试来做这些测验最后，我们用一些统计方法对测试结果进行分析如果分析结果显示，听、说、读、写四种测验确实测到了四种不同的能力，我们就有理由认为我们当初的想法是正确的，语言能力是由那四种能力构成的如果分析结果显示只有两种或一种能力（ Oller 得出的结果），我们关于语言能力的想法就可能是错的，当然，还有另一种可能，那就是我们编制的测试有问题到目前为止，语言能力研究所用的办法也就是上面所说的那些上面所说的两种方式的缺陷是明显的，它们都没有真正触及语言能力的实质我们知道，语言能力说到底是大脑的一种能力，语言行为（无论是口头的还是书面的）是语言能力的表现在测试情境下，被试答对或答错题目，也是语言能力的表现然而，我们现在能够观察和分析的，仅仅是这些表现（题目是否答对以及被试得分）我们观察不到那个所谓的语言能力，也看不到被试的表现（语言行为）和语言能力之间有什么样的关系 1。

点击阅读更多内容