1、20統計學概論第一章眾數 = 30;樣本中位數 = 33;差距中點 = 12 (20 + 98) = 59我們可從例 1.3-1 發現,有 8 位學生 (約 72%)的數學期中考試成績不但低於平均值,且遠低於差距中點。由此例子看來,平均值與差距中點顯然未能正確反映數據的中心位置,它們反而給我們一個錯誤印象。那些不正常的極端大或極端小的資料值稱為離群值 (outlier)。平均值與差距中點容易受樣本中一兩個比較極端的數值影響而增加或減少,但中位數較不受這些離群值影響。若數據嚴重不對稱,中位數是一個比較合適的中心位置統計量。1.3.2 位置統計量位置統計量 (location statistic) 是用來描述一組由小至大排列的數據的幾個重要位置,包括:最小值 (minimum),最大值 (maximum),第一四分位數 (first quartile) Q1(又稱下四分位數,lower quartile),第二四分位數 (second quartile) Q2和第三四分位數 (third quartile) Q3(又稱上四分位數,upper quartile) 。它們被稱為一組數據的五數綜
2、合 (five-number summary)。第一四分位數是中位數左邊 (不含中位數) 所有觀測值的中位數;第二四分位數即是中位數;第三四分位數是中位數右邊 (不含 中位數)所有觀測值的中位數。而四分位數間距 (inter-quartile range, IQR) 是指第一和第三四分位數兩者的差距,即 Q3 Q1。而所有小於 Q1 1.5 IQR 或大於 Q3 + 1.5 IQR 的數值為離群值。例 1.3-2 在例 1.3-1 中,最小值為 20,最大值為 98,第一四分位數 Q1為 24, 第二四分位數 Q2為 33, 第三四分位數 Q3為 42。所以, IQR = 42 24 = 18,Q1 1.5 IQR = 3,Q3 + 1.5 IQR = 69。因此數據中的 80 和 98 為離群值。21數據處理第一章五數綜合可用一個框線圖 (又稱為盒鬚圖或箱形圖,box plot / box-and-whisker diagram) 來表達。框線圖並不顯示所有觀察值而只顯示五數綜合,它可以用作檢驗資料的離群值及分佈型態。如圖 1.13所示,它是例 1.3-2 的框線圖,此圖可以鉛垂或水
3、平的形式展示。學生的數學期中考試成績框線圖圖 1.13框子的下界限是下四分位數,上界限是上四分位數,而框子的長度即代表四分位數間距。框中的鉛垂線 | 代表中位數,通常框內包含 50% 的觀察值,因此框子愈大,則表示觀察值散佈愈大。由框子上下界所延伸出來的線,稱為鬚 (whisker),是用以連接非離群觀察值的最大值與最小值 (上例中分別為 20 和 42) 。此外,框線圖中亦可顯示出資料的離群值 (以符號 * 表示) 。從框線圖可看出一組數據是對稱 (兩邊鬚長度均等) 、往右偏 (right-skewed) (右邊鬚較長) 或往左偏 (left-skewed) (左邊鬚較長) 。1.3.3 離差統計量除了數據的中心位置外,我們也要了解數據的分散幅度,這幅度稱為離差 (dispersion)。分佈域 (range) 是最簡單的離差統計量,通常以 R 表示,它是數據最大值及最小值之差。32統計學概論第二章2.1 引言在上一章,我們已介紹如何把調查所得的資料表達出來,亦即是敍述統計。接下來,我們將討論推論統計。推論統計是一門很有趣的課題,它是基於一些樣本數據作分析,從而推斷總體的參數,即是從
4、僅有少量資料去推斷實際的情形。例如我們抽取 5 罐某牌子的汽水,量度它們的容量,發覺平均每罐的容量為 345 毫升,我們便推斷這牌子的汽水每罐容量為 345 毫升。至於這個結論是否合理,是否過於武斷,我們會在較後的章節中討論。統計學上,任何一個記錄 無論是數據抑或是現象,都稱為觀察 (observation)。例如上述所量出 5 罐汽水的容量分別是 342、346、347、349、341 (毫升) ,則這五個觀察便構成一個觀察集 (set of observation)。又例如投擲硬幣 4 次,得出 H、T、T、 T,其中 H 代表正面向上而 T 代表反面向上,那麼 H, T, T, T 是一個觀察集 (這是一個重集 (multi-set),即其元素縱然相同也看成不一樣,因為每一個元素代表不同的投擲) 。所有可以產生觀察的過程稱為試驗 (experiment)。投擲硬幣是一個試驗,觀察的結果只可能有兩個 正面向上或反面向上,這些結果我們稱為觀察值。街頭訪問市民對外傭加薪的意見也是一個試驗,但它的觀察值卻有很多。在討論推論統計之前,我們必須了解一些基本知識,包括一些基本的數學語言及概念,
5、也包括統計學最基本的概念 概率。2.2 集合集合是數學最基本的概念,它是用來描述或規限我們所討論事物的範圍。在這書中我們不會對集合論作很深入的討論,而只會介紹一些簡單的定義和作一些集合的基本運算。33概率第二章簡單地說,集合是一個包含一些 物件 的個體,而這個體可以清晰地界定那些東西是屬於它的。19 世紀中葉的德國數學家康托爾 (Cantor, 1845 1918) 曾為集合下了一個定義,他認為當我們把一些清晰可分的事物看成一體時,這整體便稱為集合 (set)。我們通常以大階英文字母,如 A,B,C, 等來代表集合,而以小階英文字母,如 a,b,c,等代表 物件 。我們所說的 物件 是很廣泛的,它可以是數字或觀念,也可以是真實的物件。定義 2.2.1設 A 為 集 合 , 物 件 a 在 A 中 稱 為 A 的 元 素 (element), 並 記 作 a A,讀作 a 屬於 A。若物件 b 不是 A 的元素,則記作 b A。定義 2.2.2一個集合 A 包含有限個 (不同的) 元素稱為有限集 (finite set),否則稱為無限集 (infinite set)。我們以 A 代表 A
6、 所含元素的個數,若 A 為無限集,則 A = 。我們一般以一對大括號 表示一個集合,並把集合的元素放進去。例如 V = a, e, i, o, u 是英文字母所有元音的集合。把一個 集合的所有元素表列出來當然是最清楚,但有時是不可能的。例如當一集合包含的元素太多甚至是無限個,這時我們便會用一種稱為結構式的方法來表達該集合。其形式如下: x | P(x)其中,P(x) 是有關元素 x 的一些命題,這集合包含所有滿足 P(x) 的物件。例如 A = n | n 是整數,1 t16, 0.005 = 2.921。於是在 0.01 的顯著水平下,我們拒收 H0,即年齡會影響人體脂肪比率。我們也可以利用1的 99% 置信區間來決定接收或拒收 H0。現在我們可注意到 0 落在1的 99% 置信區間 (0.240, 0.858) 之外。所以在 0.01 的顯著水平下,我們拒收 H0,即年齡會影響人體脂肪比率。213迴歸分析第八章8.5 相關分析線性迴歸是把變量之間的線性關係表示出來,而相關分析 (correlation analysis) 是把變量之間的線性關係之強度表現出來。在迴歸分析中,我們想把整個關係式估計出來,而相關分析則只想求出一個數字,從而表現出兩變量之間的線性關係,這個數字我們稱它為線性相關係數 (linear correlation coefficient),記作。例如若要知道香港恆生指數和美國杜瓊斯指數的關係有多強便可應用線性相關係數。是用來形容變量 X 及 Y 之間的線性關係強度,它的定義為 = 1 N(xiX)(yiY)XY=Cov(X, Y) XY,其中 N 是總體容量,X及Y分別為 X 及 Y 的總體平均值,X及Y 分別為 X 及 Y 的總體標準差。Cov(X, Y) = 1 N(xi - X)( yi - Y),稱為 X 及 Y 的總體協方差 (covariance)。估計總體相關係數的統計量通常用r = (xi x)(yi y)(xi x)2(yi y)2= 1 n 1(xi x)(yi y)(xi x)2 n 1(yi y)2 n 1= 1 n 1(xi x)(yi y)SXSY其中 n 為樣本容量,SX及 SY分別為 X 及 Y 的樣本標準差。
《1.3.2位置统计量》由会员ldj****22分享,可在线阅读,更多相关《1.3.2位置统计量》请在金锄头文库上搜索。