检视资料与敍述性统计

资源ID：118619081 资源大小：498.01KB 全文页数：33页
资源格式： PPT 下载积分：20金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

检视资料与敍述性统计

第三章檢視資料與敍述性統計 3-1 檢視資料 3-2 敘述性統計分析 (Descriptive Statistics) 3-1 檢視資料檢視資料是在統計分析之前, 必需要作的事, 目的是為了確保資料分析結果的正確性。我們整理檢視資料時, 常見又可以避免或處理的問題如下： u登錄錯誤 u遺漏值 u遺漏值的處理 u偏離值(是否要刪除) u檢定多變量分析的基本假設 3-1-1 登錄錯誤登錄錯誤是很難避免的, 只要是有人工輸入的資料, 經常會發生登錄錯誤, 在筆者的經驗中, 不管是自行輸入或則找工讀生輸入資料, 都曾經發生過登錄錯誤, 例(1)：輸入性別, 男性為1, 女性為2, 在登錄資料時, 很容易發生資料登錄為12和21, 例(2)：輸入李克特(Linkert)5點量表, 非常不滿意為1到非常滿意為5, 在登錄資料時, 很容易發生資料登錄為11,12, 23, 34, 45等等, 這時候應如何處理呢? 我們提供最簡單的方式便是利用數值統計中的次數，最小值 (minimum)和最大值(maximum)來檢視資料一旦發現異常值, 則馬上可以回到資料集進行修正。 1. 開啟範例檔 missing data.sav 2. 按 Analyze Descriptive Statistics Frequencies 3. 選取 Sex 4. 按 >，將 Sex 選入Variable(s) 5. 按 Statistics，選取 Range、Minimum、Maximum 6. 按 Continue，回到 Frequencies視窗 7. 按 OK，出現報表結果，如下圖：實務操作如下：我們登錄性別是男性為1，女性為2，因此Minimum應為1， Maximum應為2，上表中的Maximum為11，顯然是有登錄錯誤，請回原始資料進行修正。輸出報表結果如下：遺漏值一直也是在數量方法中, 很常碰到的問題, 一般在E-mail(word檔)和當面填寫問卷回收後, 都會發覺有漏填, 甚至是有大半都未填, 這些漏填的值, 可能對於結果都有著多多少少的影響, 甚至會將結果倒轉, 也就是從顯著影響變成不顯著, 或則是從不顯著變成了顯著的影響, 因此, 當遺漏值發生時, 對於遺漏值的處理, 我們就必須謹慎小心, 適當地去處理。 3-1-2 遺漏值遺漏值發生的原因有很多, 有可能是未登錄而產生遺漏值, 填答者拒絶回答(隱私的問題), 或則是取樣不適當, 也就是找來的填答者, 根本不適合填答我們的問題, 這些都有可能導致於遺漏值的發生。當遺漏值發生時，我們就需要做遺漏值的分析。 1. 開啟範例檔 missing data.sav，按Analyze Missing Value Analysis 2. 選取 Score，Cost 3. 按 > ，將Score，Cost選入 Quantitative Variables，點選 Listwise、 Pairwise、EM、Regression，再選取 Sex、Income、Location 4. 按 >，將 Sex、Income、Location選入Categorical Variables 5. 按 Descriptives，選取 Univariate statistics、Percent mismatch、Sort by missing value patterns、t tests with groups formed by indicator variabels、 Crosstabulations of categorical and indicator variables 6. 按Continue，回到 Missing Value Analysis 視窗 7. 按 Variables，使用預設 Use all quantitative variables 8. 按 Cancel，回到Missing Value Analysis視窗 9. 按 EM，使用預設 Normal 10. 按 Continue，回到Missing Value Analysis視窗 11. 按 Regression，使用預設Residuals 12. 按 Continue，回到Missing Value Analysis視窗 13. 按 OK，出現報表結果遺漏值的分析 MVA (missing values analysis) 遺漏值分析 Univariate Statistics a Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR). Missing Count遺漏值的數量 Missing Percent遺漏值百分比報表結果一般處理遺漏值的方法有(1) 只採用填寫完整的資料 (2) 刪除樣本個數 (3) 插補法三大類, 我們介紹如下： 1. 只採用填寫完整的資料 2. 刪除樣本個數或變數 3. 插補法 (Imputation method) 插補法適用於量化的變數(metric variables), 常用的方法有 (a) 使用所有資訊 (b) 估計取代遺漏的資料兩個方法。 3-1-3 遺漏值的處理 1. 開啟範例檔missing data.sav 2. 按 Transform Replace Missing Values 3. 選取 Score 4. 在Method選取 Series mean，按 >，將 Score選入 New Variable(s) ，變成 Score_1 5. 選取 Cost 6. 按 >，將 Cost選入New Variable(s)，變成 Cost_1，在Method選取 Linear trend at point 7. 按Change 8. 按 OK，出現報表結果 9. 我們回到資料檔，會看到插補的數值，以新的變數 Score_1和 Cost_1 儲存，如下圖：實務操作如下：在Score_1變數中，用Score變數的Series mean 平均數:例如 75.78，來代替遺漏值。在Cost_1變數中，用Cost 變數的線性迴歸所預測的數值:例如 9072.93來代替遺漏值。偏離值指的是變數的觀察值明顯的與其它值有所有不同, 我們不能因此就判定偏離值的好與壞, 而是要依變數含的內容而定, 例如, 變數代表的是企業的年淨利, 若是有正的偏離值, 其所代表的是企業該年表現的很傑出, 賺了很多錢, 相反的, 調查物品的賣出價格時, 若是有多個偏離值, 其所代表的可能是售價有異常, 需要加以檢視, 以判定要保留或刪除, 以避免偏離值影響正常的研究結果。偏離值發生的原因很多, 常見的有輸入或編碼錯誤, 異常的事件發生, 若是具有代表性, 則保留偏離值, 若是不具有代表性, 則刪除此偏離值, 異常事件發生的偏離值, 雖然本身是偏離值, 但若是與其它變數結合時, 其有相當的代表含意, 則我們仍然需要保留此偏離值。有關偏離值的量測，我們會在檢定多變量分析基本假設的實務操作中，一併實作。 3-1-4 偏離值Outlier 在進行多變量分析之前, 我們須先確認收集而來的樣本, 必須符合多變量分析的基本假設, 有常態性(normality), 同質性 (homoscedasticity) 也稱為變異數相等, 和線性(linearity), 若是變數和變量無法符合多變量分析的基本假設, 則可以透過資料的轉換, 以達到符合多變量分析的基本假設, 在一般的量化研究中, 若是資料未符合多變量分析的基本假設, 並且未經由資料的轉換而符合多變量分析的基本假設, 那麼使用多變量技術, 進行統計的假設檢定結果, 無法支持其結果無法支持結果的論述, 原因就在於其收集的資料, 根本就不適用於多變量分析, 而是需要其它量化技術的處理。 3-1-5 檢定多變量分析的基本假設常態性的檢定有多種, 我們介紹常用的方式如下： lHistogram直方圖 lStem-and-leaf根菜圖 lskewness偏度 lkurtosis峰度 lkolmogorov-Smirnov, K-S檢定 lShapiro-wilk, S-W檢定常態性的檢定直方圖是簡易的判定方式, 如下圖, 其呈現的分配, 如同常態分配的型態中間較高, 兩邊較低 Histogram 直方圖根菜圖是另一種簡易的判別方式, 如下圖： Stem是根, 也就是觀察的值, leaf是次數, 觀察值發生的次數, 看根葉圖時, 必須轉90度看, 也是如同常態分配的型態中間較高, 兩邊較低。 Stem-and-leaf 根菜圖 Skewness 偏度資料分佈的情形, 以偏度來看除了正常的常態分配外, 有可能是左偏或右偏的資料分配, 如下圖：資料的左偏和右偏的分佈, 有時難以判定時, 可以用偏度的統計值Z skewness來作統計檢定 Z skewness = N是樣本數(Hair, 1998) 我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是1.96, 也就是說, z值介於1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是2.58, 也就是說z值介於2.58時, 接受常態分配。 kurtosis 峰度資料的分佈, 以峰度來看, 除了正常的常態分配外, 有可能是高狹峰態分佈和低闊峰態分佈, 如下圖：資料的高狹峰態分佈和低闊峰態分佈, 有時難以判定時, 可以用峰度的統計值 Z kurtosis來作統計檢定 Z kurtosis = N是樣本數(Hair, 1998) 我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是1.96, 也就是說, z值介於1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是2.58, 也就是說z值介於2.58時, 接受常態分配。 Kolmogorov-Smirnov 檢定和Shapiro-wilk檢定 Kolmogorov-Smirnov 檢定和Shapiro-wilk 檢定是常態性檢定中, 最常用的2個方法, 因為這兩種檢定都提供了統計檢定的顯著水準, 若是達到顯著水準, 以95%的信心水準為例, Sig.p0.05, 則會拒絶虛無假設也就是拒絶了常態性, 我們想要的是” 不顯著”, Sig.p0.05, 代表的是符合常態分配。 Homoscedasticity (同質性) Homoscedasticity (同質性)也稱為變異數相等, 我們檢定變異數相等的目的是避免依變數只被部份的自變數所解釋, 特別是在ANOVA單變量變異數分析和MANOVA 多變量變異數分析, 都需要作變異數相等的檢定, 一般最常用的方式如下： l依變數為一個計量變數(metric)時, 適用Levene test, 來檢測單一變數是否平均分佈於不同組別。 l依變數為兩個計量變數(metric)時, 適用Boxs M檢定, 來檢測變異矩陣或共變異矩陣的相等性。對於Levene test和Boxs M檢定, 我們在ANOVA和MANOVA章節有實作和解說。 Linearity 線性多變量分析中, 另一個重要的基本假設就是Linearity 線性, 只要是基於線性結合的多項式關係而進行的多變量分析技術, 都需要符合線性的特性, 例如, 多元迴歸(Multiple regression), 邏輯迴歸(Logic regression)和結

注意事项

本文（检视资料与敍述性统计）为本站会员（sh****d）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。