
古典测验理论简介.pdf
9页單元一 古典測驗理論簡介 2006/9/15 1古典測驗理論古典測驗理論 余民寧余民寧 教授教授 摘自「教育測驗與評量:成就測驗與教學評量」一書(摘自「教育測驗與評量:成就測驗與教學評量」一書(2002,台北,心理),台北,心理) 雖然根據歷史學家(DuBois, 1970)的描述,早在西元一千多年前科舉時代的中國,即 有能力測驗(即科舉考試制度)的雛型產生但是,對「測驗」這門學問進行科學化的量化 研究者,卻始於歐美各國,西風東漸之後,才又傳入中國 西元 1905 年,Binet-Simon 在法國所發展的智力測驗,可以說是人類第一個客觀的心理 測驗,也是測驗理論的真正濫觴至此,這門專研心理測驗與評量(psychological testing and assessment) ,內含:量化心理學 (quantitative psychology) 、個別差異 (individual differences) 、 和心理測驗理論 (mental test theory) 等研究範圍的科學 , 即稱為 「心理計量學」 (psychometrics) (或又譯成: 「心理測驗學」 ) ,正式確立。
心理計量學的誕生,乃心理學者企圖將心理學發展 成為一門「量化的理性科學」 (quantitative rational science)的結果,到目前為止,它雖然已 邁入不同的新紀元,但成長與茁壯的腳步,卻未曾停止過 談到測驗理論的發展,很多人喜歡以某某學派來作為區分,雖然這種分法不見得正確, 但為了討論方便起見,我們亦可以一本著作或一位人物,作為某個學派理論的開始或代表 如此一來,我們大概可以將測驗理論粗分為下列兩派: 1.古典測驗理論古典測驗理論(classical test theory,簡稱 CTT) :代表人物和作品分別為 H. Gulliksen 的「Theory of mental test」 (1950) 2.試題反應理論試題反應理論(item response theory,簡稱 IRT) :代表人物和作品分別為 F. Lord 的 「Applications of item response theory to practical testing problems」 (1980) 底下,僅先就古典測驗理論的重要內涵做個扼要的評述,下一節再敘述試題反應理論 「古典測驗理論」是最早的測驗理論,至今,它仍然是最實用的測驗理論,許多通用的 測驗仍然是根據傳統方法來編製,並且建立起測驗資料間的實證關係。
古典測驗理論也叫 「古 典信度理論」 (classical reliability theory) ,因為,它的主要目的是在估計某個測驗實得分數 (observed score)的信度;亦即,它企圖估計實得分數與真實分數(true score)間的關聯程 度因此,有時候它又稱作「真實分數理論」 (true score theory) , 因為它的理論來源都是建 立在以「真實分數模式」 (true score model)為名的數學模式基礎上 當某位受試者接受一份測驗的施測後,他(或她)在該測驗上的得分(即「實得分數實得分數」 ) , 即代表在某些特定的情境下,他(或她)在這些試題樣本上的能力能力(ability) 當然,有許 多因素會影響受試者在測驗上的表現即使在內容範圍相同但試題樣本不同的條件下,或在 不同的時間、主測者、與施測情境條件下,受試者的表現也都有可能會不一樣因此,如果單元一 古典測驗理論簡介 2006/9/15 2我們在所有可能的施測情境下、在所有可能的不同時間範圍內、或儘可能使用不同試題樣本, 來針對同一位受試者進行同樣的測驗多次 (理論上是無窮多次) ,則我們可以獲得許多有關該 受試者的實得分數。
這些實得分數的平均數(又稱為期望值(expected value) ) ,即代表該受 試者能力的不偏估計值(unbiased estimate),該估計值即被定義為「真實分數真實分數」 因此,所謂 的「真實分數模式」 ,即是指一種直線關係的數學模式(linear model) ,用來表示任何可以觀 察到、測量到的實得分數(又簡稱為觀察值觀察值或測量值測量值)皆由下列兩個部份所構成的一種數學 涵數關係,這兩個部份分別是:一為觀察不到,但代表研究者真正想要去測量的潛在特質 (latent trait)部份,叫作「真實分數真實分數」 ;另一為觀察不到,且不代表潛在特質,卻是研究者 想要極力去避免或設法降低的部份,叫作「誤差分數誤差分數」(error score) 這兩個部份合併構成任 何一個真實的測量值(即實得分數) ,並且彼此之間具有及延伸出多種基本假設,能符合這些 基本假設的測量問題,即為真實分數模式所探討的範疇 根據古典測驗理論的假設,受試者所具有的某種潛在特質,無法單由一次測驗的實得分 數來表示,它必須由受試者在無數次測驗上所得的實得分數,以其平均數來表示,該數值即 是受試者的潛在特質之不偏估計值,即是前述的「真實分數」 ;真實分數的存在並不受測量次 數的影響,它代表長期測量結果「不變」的部份。
而實際上,單獨一次測量所得的實得分數, 總會與真實分數間產生一段差距,這段差距即稱作「隨機誤差分數」 (random error score) , 或簡稱為「誤差」 (error) ;誤差分數深受測量工具之精確度的影響很大,它代表某次測量結 果「可變」的部份若以數學公式來表示,這兩種分數與實得分數間的關係可以表示如下: χ = t ++ e 其中,χ 代表實得分數, t 代表真實分數, e 代表誤差分數 古典測驗理論即是建立在上述這種真實分數模式及其假設的基礎上,針對測驗資料間的 實證關係,進行有系統解釋的一門學問 壹、真實分數理論的基本假設及其結論壹、真實分數理論的基本假設及其結論 真實分數模式的成立,必須滿足一些基本假設,這些基本假設就是真實分數理論所賴以 建立的基礎 真實分數理論的基本假設,可以歸納成下列七項: 1. et +=χ (即實得分數等於真實分數與誤差分數之和); 2. t=Ε)(χ (即實得分數的期望值等於真實分數); 3. 0=teρ (即真實分數與誤差分數之間呈零相關); 4. 021=eeρ (即不同測驗的誤差分數間呈零相關); 單元一 古典測驗理論簡介 2006/9/15 35. 0 21=teρ (即不同測驗的誤差分數與真實分數間呈零相關); 6. 假設有兩個測驗,其實得分數分別為χ和'χ,並且滿足上述 1到 5 的假設,且對每一群體考生而言,亦滿足 ' tt =和'22eeσσ= 等條件,則這兩個測驗便稱作「複本測驗」 (parallel tests); 7. 假設有兩個測驗,其實得分數分別為χ和'χ,並且滿足上述 1到 5 的假設,且對每一群體考生而言,亦滿足 1221ctt+=,其中 12c 為一常數,則這兩個測驗稱作「本質上τ相等測驗」 (essentially τ-equivalent tests)。
根據上述七個基本假設的數學公式所示可知,古典測驗理論對測量問題所持的觀點,可 以做如下的詮釋: 1.假設具有潛在特質存在假設具有潛在特質存在 從第一個假設可知,測量必須要有對象,此對象即是我們所假定的潛在特質(亦即是tt 所代表者) ,它是看不見的東西,但我們必須先假設它的存在,如此才值得我們去測量它,若 不先假設它是存在的,則我們的任何測量行為都將失卻目標,變得盲目無效 2.多次測量的推論結果多次測量的推論結果 既然上述所假設的潛在特質是看不見的,因此,我們就無法直接進行測量它我們僅能 從數學觀點去假設它與我們從外觀測量得到的數據間具有某種數學關係(通常都假設成直線 關係) ,為了釐清這種關係,通常需要使用多次的測量數據,再透過統計學的估算(如:求期 望值) ,才能估計出這種潛在特質的量到底是多少,並且推論出它與外觀測量得到的數據間具 有什麼關係 3.單獨一次的測量必有誤差存在單獨一次的測量必有誤差存在 既然潛在特質是經由多次測量才推論得到,因此,單獨一次的測量結果,除了測量到所 要測量的潛在特質外,也必定同時測量到誤差成份但是,在經過多次的測量後,我們由上 述說明所推論出來的結果將愈來愈接近真正的潛在特質,因此,這麼多次測量值所含的誤差 分數也就可以彼此抵銷。
這項結論也就是上述第一和第二個假設合併起來的推理結果 4.假設潛在特質與誤差之間是獨立的假設潛在特質與誤差之間是獨立的 第四個假設把測量問題單純化,僅假設潛在特質與誤差之間是獨立的由於有這項假設 存在,在測量時,我們不必考慮其他可能干擾測量結果的來源,僅將潛在特質以外的干擾, 統統歸類到所謂的測量誤差(measurement errors) ,不再進一步細部分析,如此,可以把測量 結果的推論問題單純化附帶一提的是,這項假設亦延伸出第四和第五個假設;但是,這種 把測量問題單純化的假設,卻是造成古典測驗理論飽受批評的地方 5.複本測驗的嚴格假設複本測驗的嚴格假設 單元一 古典測驗理論簡介 2006/9/15 4古典測驗理論對測量結果的解釋和比較,是建立在複本測驗的嚴格假設上換句話說, 從第六和第七個假設可知,唯有滿足複本測驗之嚴格假設的兩個測量結果間,才可以直接進 行比較大小和解釋優劣;若非滿足此假設,則任何兩次測量結果間的解釋和比較,均是無意 義的 根據上述的詮釋,從真實分數理論的基本假設可以推導出下列十八項結論,這些結論正 是古典測驗理論的研究主題所賴以推理及演繹的依據: 1. 0)(=Εe(即誤差分數的期望值為零); 2. 0),(==Εetteρ(即誤差分數與真實分數之期望值為零); 3. etx222σσσ+= (即實得分數的變異數等於真實分數的變異數與誤差分數的變異數之和); 4. xtxt222σσρ= (即實得分數與真實分數間之相關係數的平方等於真實分數之變異數和實 得分數之變異數的比值); 5. xext2221σσρ−= (即實得分數與真實分數間之相關係數的平方等於1減去誤差分數之變 異數和實得分數之變異數的比值); 6. '22xxσσ=(即複本測驗的實得分數之變異數相同); 7. yxxy'ρρ= (即複本測驗分數與另一變項分數間的相關係數相同); 8. '2'222 'xtxtxxσσσσρ== (即複本測驗分數間的相關係數等於其中一種測驗之真實分數變異數和實得分數變異數的比值); 9. xexx22 '1σσρ−= (即複本測驗分數間的相關係數等於1減去誤差分數之變異數和實得分數之變異數的比值); 10. xexx2 '1ρρ−= (即複本測驗分數間的相關係數等於1減去實得分數與誤差分數間之相關係數的平方) ; 11. '2 xxxtρρ= (即實得分數與真實分數間之相關係數的平方等於複本測驗分數間的相關係數); 12. '2 xxtσσ= (即真實分數的變異數等於複本測驗的實得分數間之共變數); 13. )1 ('22 xxxeρσσ−= (即誤差分數的變異數等於實得分數的變異數乘以1減去複本測驗間之相關係數); 14. ''yyxxxy ttyxρρρρ= (即 任兩個測驗的真實分數間之相關係數等於該二測驗的實得分數間之相關係數除以該二測驗之複本測驗相關係數的相乘積之開根號); 單元一 古典測驗理論簡介 2006/9/15 515. YXttN222σσ= (即如果X為N個複本測驗分數Y之和,則X的真實分數之變異數等於N 平方倍之Y的真實分數之變異數); 16. YXeeN222σσ= (即如果X為N個複本測驗分數Y之和,則X的誤差分數之變異數等於N 平方倍之Y的誤差分數之變異數); 17. '' ') 1(1YYYY xxNN ρρρ−+= (即如果X為N個複本測驗分數Y之和,則此為 Spearman-Brown 的折半信度公式); 18. 如果0'≠。












