ancova(协方差分析)非参数和随机方法.doc
17页第7章ANCOVA(协方差分析):非参数和随机方法Peter S. PetraitisSteven J. BeaupreArthur E. Dunham7.1生态学问题生态学参数往往不能满足参数假定的要求当这种情况发生时,随机方法是更常用的参数方法,比如协方差分析(ANCOVA)和回归分析的一个很好的替代选择使用随机方法很简单,并且由于标准参数ANCOVA为生态学家所熟知,我们用它来激发对非参数和随机方法的优点和存在问题的讨论我们通过对检验随机和非参数方法分析性别和生境影响响尾蛇种群的个体大小来进行讨论,年龄在这里被作为一个混淆(confounding)因素考虑个体大小的变异常见于许多动物中(即, 无脊椎动物: Paine 1976; Lynch1977; Sebens 1982; Holomuzki 1989; 两栖动物: Nevo 1973; Berven1982;Bruce和Hairson 1990; 有鳞的爬行动物:Tinkle 1972;Dunham 1982; Schwaner 1985; Dunham等1989; 哺乳动物:Boyce 1978;Melton 1982; Ralls和Harvey 1985), 并且由于其与许多繁殖特征, 比如成熟年龄,子代个体的数量和大小,和亲代对子代的投入, 有协变关系,从而引起进化生态学家的极大兴趣,(Stearns 1992; Roff 180, 1992)。
对个体大小变异的解释包括资源的季节性,质量和可利用性(如,Case 1978; Palmer 1984; Schwaner和Sarre 1988), 基于个体大小的捕食性(Paine 1976), 种群密度(Sigurjonsdottir 1984), 特性替代(Huey和Pianka 1974; Huey 等 1974)和生长速率的渐变变异(Roff 1980)然而个体大小的地理变异可能常由于个体大小决定的生长速率和种群年龄结构的相互作用所致比如,King(1989)建议种群不同的年龄结构是水蛇(Nerodia sipedon insularm)个体大小变异的一个重要方面因此,懂得个体大小时间和地理格局和最终生长率需要对动物年龄的了解和修正以便同龄动物间的比较爬行动物的生长和性别个体二态性的格局传统上是利用非线性生长模型技术来分析的(Andrews 1982;Stamps1995)对非线性模型精确的拟合需要大量的观察样本,这些样本要求很好地分布在所有体态大小范围内,这在野外研究中常是难以实现的要求(第10章)此外,由于每一条线都有不同的模型拟合,最佳拟合模型形式(如,von Bertalanffy比之于用长度,或其它, 拟合的逻辑斯蒂模型)会发生变化,而比较工作复杂化。
同样的,当拟合参数在几个组间进行比较时,第I类错误的概率增加,就如同多元成对t检验的情形对于多组小到中等用于比较的数据集,用年龄作协变量的ANCOVA看来对于比较多组个体大小是最佳替代方法然而个体大小和年龄的野外数据常常杂乱分析常需对一个或多个协变量进行校正,拟合模型的残值也很少符合独立,同正态分布的假定(Sokal和Rohlf 1995; Zar 1996)传统的基于秩(rank)或其它随机类型检验的非参数统计能为参数分析提供好的替代选择参数分析假定误差呈正态分布,该假定在基于秩或其它随机类型检验的非参数检验中被放松另一方面,参数过程,随机过程,和基于秩的非参数检验都要求误差独立同分布随机方法和传统的非参数检验对方差的非奇性(heterogeneity-异质性)敏感,并常有这样的误解:方差的非奇性问题可以通过使用非参数检验来解决(Hayes 1996)典型的非参数检验用原始数据的秩;零假设要求秩在处理水平上是随机分配的对于小样本,由于所有可能的排列都能列出,因而可以计算出观测秩排列的准确概率因此,一个常规的非参数检验是对原始观测数据秩的随机检验对于大样本,计算大多数常用非参数检验的显著水平是通过χ2分布来估计。
检验统计量的χ2分布判定是以假定每个处理水平的取样秩数据之间区别只在分布位置(如,均值和中值)为基础做出的,且假定基本分布形态相同(即所有其它分布动差-方差,偏斜度等都相同)这些关于非参数检验的假定常常不能满足,并且,生态学家常常假定这样的检验是不要求数据有任何分布的其它类型的随机检验是以重洗原始数据排列为基础的(第14章)这些检验也要求关于总体分布的假定人们常混淆哪些过程构成随机检验和哪些过程构成置换排列(permutation)检验Kempthorne和Doerfler(1969)利用“置换排列”(permutation)这个词来称呼那些以数据所有可能的顺序为基础的检验随机检验一般只用在所有可能排列中一个随机选取的子集在严格意义上,常规非参数检验就是置换排列检验 下一部分,我们探讨用参数,非参数和随机方法解决常用ANCOVA解决的问题时的优点和缺点我们利用斑纹石响尾蛇(Crotalus lepidus)的个体大小在性别和地理上差别的数据来说明这个问题蛇的性别二态性的数据很少Beaupre(1995)研究了在德克萨斯两个地点的斑纹石响尾蛇的性别二态性问题在调整了年龄参数以后,他发现在两个地点,雌性个体都明显小于雄性个体,并且低海拔的蛇的个体大小明显小于高海拔较的蛇(Beaupre 1995)。
他还发现性别和海拔的相互作用他用非参数方法是因为他发现了与正态分布的显著偏差7.2统计学问题7.2.1 数据标记-重捕法观察得到的雄性和雌性响尾蛇年龄和大小的数据序列来自于6年来收集的德克萨斯州Big Bend 国家公园不同海拔的两个种群我们的数据和Beaupre(1995)使用的数据不完全一致,我们的数据包括 87个雄性和雌性个体,其中重捕的33个Beaupre(1995)有99个雌雄个体,其中重捕的31个对数据更详细的描述可见Beaupre(1995)每个捕到的蛇的相对年龄根据蛇尾鸣响部分形态估算(即用鸣响节段的数目调整为蜕皮频数; 见Beaupre 1995),并且,头体长度(SVL)用来估计个体大小有四个变量分别是生境(Boquillas和Grapevine Hill),性别,相对年龄和个体大小(SVL)生境和性别为固定影响,年龄为协变量生境作为固定影响是因为我们对这两个特殊地点不同海拔对微气候的影响感兴趣(Dunham et al. 1989)7.2.2 常规协方差分析对于主要影响(此例中,性别,生境)和他们之间相互作用的显著性可由双因子ANCOVA检验,个体大小作为因变量,年龄作为协变量。
在用ANCOVA前,进行对斜率奇性(homogeneity-同质性)假定的检验这是个体大小对年龄在处理水平上的线性依赖的相似性检验如果达到了斜率奇性的标准,ANCOVA过程有效ANCOVA在数据对模型假定小有违反时的稳健性众所周知,尤其在对固定因子显著性的检验在多数情况下,ANCOVA是喜用的参数方法然而,严重违反假定常见于野外捕获的动物数据中首先,因变量, 个体大小, 可能不符合参数统计的假定爬行动物种群中个体大小分布常呈很高的偏峰态并且,雌雄个体大小的分布方差可有很大差异(如Beaupre et al. 1998)因此,误差极不可能符合参数分析的要求呈正态分布第二,协变量每条蛇的年龄并不准确,然而采用ANCOVA,就像其它回归模型I方法一样, 假定协变量量测误差很小对于野外捕获动物的年龄估计,即使在最好的条件下,也是有问题的在多数情况下,生态学家采用年龄的替代,并假设它与年龄成线性,或至少是单调的关系回归模型I,甚至当自变量(或在ANCOVA中的协变量)有量测误差时也可以使用,只要自变量误差分布大大窄于因变量的误差分布(LaBarbara 1989)这是常有的,然而野外捕获的动物的年龄的估计可能与个体大小的不确定性相当或更大,因此,我们予期年龄的测量误差比个体大小的测量误差更大。
第三,有野外捕获动物的析因(factorial)设计极少平衡在每一点,几乎不可能捕获到相同数量的雄性和雌性个体非平衡的ANOVA和ANCOVA对方差非奇性很敏感,这在比较雄性和雌性时可能是个问题实验生态学家常试图修正这些难题,这包括修正参数模型本身的假定最常用的方法是转换因变量使误差方差奇性并将类型III平方和用于非平衡设计大多数人希望协变量的误差分布变得足够窄一些例子中,为减低方差,协变量自身被错误转换;然而,这种协变量的转换应该只在有线性关系时应用尽管它修正了一个问题,转换因变量却能产生另一个问题比如,个体大小可能通过转换,减小不同处理水平上的误差方差的非奇性,但转换可能使误差呈非正态分布转换也会改变自变量和因变量的关系个体大小的对数转换可减小误差非奇性,使误差分布正态,但转换使模型的累加效应变为乘数效应这可能是个严重问题,特别是当生态学家在实验中用ANOVA和ANCOVA检验相互作用来推论非累加生态效应,如高阶相互作用时(Wootton 1994)非平衡设计的难点可以通过剔除数据的方法得以解决平衡设计降低非奇性方差的影响然而,多数生态学家不喜欢放弃辛苦得到的数据放弃数据的一个潜在缺陷是缩减了的数据可能导致统计效力的显著丧失。
通过剔除数据得到的平衡设计的优点极少会超过缺点7.2.3 非参数方法有两种非参数协方差分析的一般方法第一种方法称作“配对”, 包括将数据限制于与协变量值匹配的数据对和产生基于数据对之差的转换数据(Quade 1982)配对方法在判定由哪些数据值构成配对子集时存有某种随意性,并且显然,它还没有超出单元分析第二种由Shirley(1981)正规化的方法,是一种基于因变量秩化的非参数ANCOVA方法Shirley的方法是在Benette(1968)工作的基础上完成的,Benette开发了对秩化后数据的一般线性假设的非参数检验对双因子ANOVA,Bennett检验最熟悉的例子是Scheirer-Ray-Hare检验(Scheirer et al. 1976),这是Kruskal-Wallis检验的扩展秩化后数据的常规非参数检验对数据的正态分布假定是不严格的还没有多少人认识到类似Kruskal-Wallis检验的非参数检验当比较中的各组在尺度(如,方差)或形状不同时,可能不会发现位置间的真正差异(如,不同组均秩间的差异)(Lehmann 1975)极端例子中,协变量也可能需要秩化(Shirley 1981)。
除了将秩化观测数据用于因变量,非参数ANCOVA与其它ANCOVA没什么两样如同往常,数值相同的观测数据被赋予所占秩距的平均秩值与标准ANCOVA(第五章)一样,使用两个模型:(1)包括协变量和处理影响相互作用的完整模型,用于斜率奇性检验(在SAS中成为斜率奇性模式,见公式5.2)和(2)不包括上述相互作用的模型,用于检验这种调整后的平均数(SAS中称协方差分析模型,见公式5.3)固定影响模型检验统计量由适当主要效应或相互作用效应的平方和除以总均方得到(即,总平方和SS除以总自由度)检验值与临界值进行比较,该临界值来自于给定α水平和所考虑影响因素自由度的χ2分布基于以中心极限定理应用于秩化数据的假定,用χ2分布判断显著性水平给出理论近似值(Lehmann 1975)而这个假定仅当样本很大,且几乎没有具相同秩值的数据时才安全描述了调整后均秩追溯比较过程见Shirley(1981,1987)检验统计量服从χ2分布而不是F分布,因为参数方差已知是来自秩化数据(Mood和Graybill 1963; Lehmann 1975; Sokal和Rohlf 1995)参数方差的公式是N(N+1)/12, 其中N是实验观察总数。





