好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

一叶报秋互讯息在类别资料分析的应用.pdf

3页
  • 卖家[上传人]:ldj****22
  • 文档编号:35981757
  • 上传时间:2018-03-23
  • 文档格式:PDF
  • 文档大小:1.17MB
  • / 3 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 週報 第1568期一葉報秋: 互訊息在類別資料分析的應用劉長萱研究員(統計科學研究所) *特別感謝程爾觀、呂玉瑕及高鴻文教授的指正及建議 一、簡介 多變量類別(categorical)資料分析在社會科學及醫療保健研究領域,佔了相當大的比例;例如採用類別資料探討親子互動與學齡兒童情緒問題的關聯類別資料可採多向度列聯表(contingency table)方式表示,表中呈現不同屬性同時出現的頻數或比例;例如經常使用手機的男性並罹患腦瘤在總樣本中佔的比例「對數線性」模式(log-linear model),及與該模式密切相關的「勝算對數」模式(logit model) 為一般分析列聯表的統計方法,兩種方法都可用概似比(likelihood ratio)檢定模式估計值與實際觀察值是否接近概似比值在統計分析軟體 (例如SAS, SPSS)中又稱為離差值(deviance),該值之統計顯著性越強代表「模式」對資料的解釋力越弱,應用時可採離差值考驗模式假設傳統類別資料分析裡,較少參考訊息理論(information theory)中的基本定理或法則,兩者實際上有密不可分的關係;例如兩個變數的「相互概似比」在訊息理論中又稱為互訊息(mutual information;Kullback Cheng, Liou, Aston, Tsai, 2008),並以實際數據介紹該法則的應用。

      假設X, Y, 及Z為三個類別變數,I(X; Y; Z) 定義為變數之間的互訊息量;該訊息量的估計可在統計分析軟體中,選擇對數線性模式{X, Y, Z} (此處採Agresti,2013 使用的模式符號);也就是只包含主效果的模式,軟體輸出該模式的離差或概似比值即為三個變數的互訊息量該互訊息量可以拆解成下列三個正交的訊息成分 (Cover Y; Z) = I(X; Z) + I(Y; Z) + I(X; Y|Z)恆等式右邊 I(X; Z)及I(Y; Z) 為二維的互信息,而I(X; Y|Z)為三維的條件互信息(CMI; conditional mutual information);因此,三個變數的MI可以拆解為2個二維MI及1個三維CMI恆等式中條件互信息等同於對數線性模式{XZ, YZ}的離差值;也就是模式中包含三個主效果及XZ、YZ的交互作用,該值可進一步拆解成:I(X; Y|Z) = Int(X; Y; Z) + Par(X; Y|Z)式中Int(X; Y; Z)為三個變數的交互作用,可採模式{XZ, YZ, XY}的離差值估計Par(X; Y|Z)為{X, Y}在控制分層變數Z後的淨關聯值(partial association);由於正交性質,該值可用I(X; Y|Z) 減去 Int(X; Y; Z)的剩餘差值估計。

      由於三個變數只容許兩個二維的MI,所以若XZ, YZ已在模式中,XY對離差值的實際貢獻為三維的Par(X; Y|Z),而非二維的交互作用;所以不參考訊息法則,很難解讀XY在模式中的實質作用醫學界常使用的Cochran-Mantel-Haenszel (CMH)檢定,原理上等同檢定淨關聯Par(X; Y|Z)的樣本估計值;因此,若樣本估計的Int(X; Y; Z)值顯著時,則無需檢定「淨關聯」或CMH值總的來說,「兩階段檢定法」先檢定估計的Int(X; Y; Z)值是否顯著,若不顯著再檢定兩個變數X及Y在控制Z後的「淨關聯」值是否顯著(Cheng, Liou 血壓) = 105.425 (自由度為1, 顯著性p 6024645291Total72861789FSG > 7.8mmol/L≤ 6038644> 60622183Total10027127SBP >140mmHg或正常≤ 6013223155DBP >90mmHg> 60299140439Total431163594FSG > 7.8mmol/L≤ 60582785> 6020176277Total259103362週報 第1568期三、結論 恆等式法則係根據幾何的正交性質拆解變數間的互訊息量,此與代數估計主效果或交互作用參數的概似比值不盡相同;例如前述勝算對數模式的參數概似比值,與相對應的幾何MI值並不等價。

      在滿足訊息恆等式的情況下,幾何與代數途徑相似處為配適的列聯表(fitted table)相同,Type-I概似比與對照的MI或CMI相同,及最後進入模式的解釋變數(·)值與對應的Type-III概似比值相同相較於傳統的Akaike訊息準則,訊息理論對類別資料分析的貢獻在於選擇解釋變數之間的交互作用,也就是參考(·)值資料分析中,常遇到解釋變數的(·)值不顯著,但(·)值顯著;例如實例中(中風; 血糖|{血壓,年齡 }) = 2.678 (自由度為1, 顯著性p = .102),但(中風; 血糖|{血壓,年齡 }) = 19.690 (自由度為3, 顯著性p < .001)建立勝算對數模式時,若依據(·)值篩選解釋變數,將忽略「血糖」對預測「缺血性中風」的潛在貢獻並非所有考慮交互作用的勝算對數模式皆能滿足一個有效的訊息恆等式,不滿足恆等式的情況下,參數解讀將遇到類似前述主效果模式的困難;建立模式需參考並檢定(·)值,並在加入主效果及交互作用同時,參考訊息恆等式法則四、參考資料1. Agresti, A. (2013). Categorical Data Analysis (3nd Ed). New Jersey: Wiley. 2. Cheng, P. E.; Liou, M., Aston J. A. D., Liou, M., Liou, M.; Chung, H. W.; Liu, H. S.; Tsai, P. H.; Chiang, S. W.; Chou, M. C; Peng, G. S.; Huang, G. S.; Hsu, H. S. & Chen, C. Y. (2015). Middle cerebral artery calcification association with ischemic stroke. Medicine 94 (50): e2311.。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.