检验分子水平自然选择的方法.docx
4页检验分子水平自然选择的方法在选择主义与中性主义的争论中,中性理论提出了很多的假设,其中的许多涉及到群体内等位基因频 率分布,以及种内—种间遗传变异的关系因此,可以利用统计学模型来验证中性学说的正确性,即把中性 理论作为统计学检验的零假设(null hypothesis),非中性选择作为选择性假设(alternative hypothesis),如果这个零假设被显著地拒绝(significantly rejected),那么中性假设将被认为是不合 适的(Kimura and Ohta 1971)关于在分子水平验证选择的方法,Garrigan和Hedrick(2003)认为可以按照种群的当前世代,种群 的短期历史和物种的长期演化历史三种时间尺度来划分为三类.然而,选择是一个长期作用的过程,种群的 当前世代体现出来的临时状态无法真实反映选择的作用;并且这种时间尺度的划分也不利于寻找种内-种 间遗传变异所反映的选择信号Nielsen(2005)则把选择检验分为群体遗传学检验(population genetic approaches)和比较数据检验(comparative data approaches), Biswas 和 Akey (2006)从基因组学的角 度出发,将选择检验的方法分为种内多态性,种内多态性与种间分歧,和种间检验三类。
事实上,不论如 何划分,不同的检验方法都有不同的数据类型作为检验对象.因此,在这篇综述里我将按照数据类型的不 同对目前常用的统计检验方法进行整理和归纳.(1) 基于群体内等位基因频率分布的中性检验在核酸的碱基测序时代之前,群体遗传多样性的研究手段主要是对遗传标记的电泳图谱进行分析,其 中等位基因的杂合度(allele heterozygosity)曾经是一个普遍用于描述遗传多样性的指标.以某单一等 位基因位点为例,在一个个体数为1000的群体里,如果其中50个个体在该位点是杂合子,那么我们可以 简单地把(Ho) =50/1000=0.05作为该位点的表观杂合度;说明该种群在以这个位点为遗传标记时得到的 遗传多样性程度不高,即仍有95%的个体是纯合子.这种评估方式适用于小片段的蛋白质或核酸序列(如几 十或者几百个氨基酸或碱基),但不适用于较长片段的研究事实上,在自然状态下,核酸水平上的变异是 比较丰富的,尤其从大片段的尺度来看例如比较两条长度为10, 000 bp的等位基因,如此长度的序列几 乎可以肯定他们是杂合的,因为序列越长,里面的变异越丰富,那么可以想象该位点在群体里杂合度Ho接 近1。
因此,在对核酸序列进行群体遗传多样性分析时,考虑两条序列间存在多少差异所获得的遗传多样 性信息要远远大于判断他们是纯合子还是杂合子(Li 1997)在后来发展起来的群体遗传学研究中,有三个重要指标被运用于评估核酸遗传多样性(Nei 1987; Li 1997)第一个是n,即将所研究群体的所有核酸序列中任意两条不同序列的碱基差异数取平均值;这个 指标对等位基因频率依赖很大第二个是K,即分离位点数(number of segregating sites),现在也被 称为SNP (single nucleotide polymorphism),是指所有序列排列比对后存在变异的碱基位点数目;这 个指标依赖于等位基因数目而与等位基因频率无关第三个是Na,即等位基因数(number of alleles)此外,有一个非常关键的反映种群动态的参数0将以上三个指标在数学上联系起来;这里 0=4N卩,其中N为有效种群大小,u为每一代的序列突变率(Watterson 1975; Tajima 1983)有两种 ee公认的0估值,一个是Watterson估值(Watterson's estimator, 0 ),把0与K联系起来,即W0 =K/a,其中 a= [1+1/2+1/3+ ?? ? +1/(n-1)] (Watterson 1975);另一个是 Tajima 估值(Tajima'sWestimator, 0 ),即0 =n(Tajima 1983).从理论上说,在中性条件下,应当有0=0 =4N u的平衡T T T W e状态.因此,Tajima (1989)设计了 D 值检验(Tajima's D),即。
[(0 -0 )/Var(0 -0 )],通过统T W T W计学模型来验证中性突变假说Tajima's D值检验的作用原理是(Tajima 1989):在原有的平衡状态中(0 = 0 =4N u),所以TWeD=0但是,如果群体中存在许多低频率的等位基因(稀有等位基因),可以期望K/a不断增大而n并未受 到严重影响,因为后者主要是由高频率等位基因决定的于是有0 <0,则D<0相反,当群体中是中等TW频率的等位基因占主导时,可以期望n增大而K/a不受影响;这时0)0,D>0.Tajima (1989)把过TW多低频率等位基因的存在归咎为定向选择时,选择性清除下选择性清除会削弱原有等位基因的在群体中的 频率,而使新等位基因以低频率补充进来成为稀有等位 基因相反,如果是中等频率的等位基因占主导, 则可能是平衡选择的结果,或者是种群大小在经历瓶颈时使稀有等位基因丢失因此,当Tajima's D显 著大于0时,可用于推断瓶颈效应和平衡选择;当Tajima's D显著小于0时,可用于推断群体规模放大和 定向选择•由于平衡选择与定向选择都属于正选择的范畴,因此,只要D值显著背离0,就可能是自然选择 的结果;而当D值不显著背离0时,则中性零假说则不能被排除。
之后,Fu和Li (1993)提出了与Tajima's D略为不同的方法来检验中性进化,即Fu and Li's D & F test他们考虑的是可以获得外类群的情况,因而对一组给定的等位基因序列可以构建一颗有根树•在这 棵树上,总突变数为y,内部分枝突变数为y ,外部分枝的突变数目为y,则y=y +y .这里y和y的数学期i e i e e望值分别为E(y)=a*E(y )=其中a=[1+1/2+1/3+ ??? +1/(n-1)].如果发生了选择作用,e那么外部分枝突变数将会偏离期望值,而内部分枝突变数并未受到严重影响•因此,可根据与Tajima's D类似的策略,构建统计模型来验证中性零假说此外,Fay和Wu(2000)构建了 H检验(Fay and Wu's H test),用以测试高频率变异与中等频率变异的差异•他们认为在中性占主流的状态下,并不期望会出现 很多高频率的变异,因而仅仅根据少数存在的高频率的变异就可以推断“搭车效应”在果蝇的一些低频 重组的区域中,H检验观察到了许多高频率变异,因此,Fay和Wu (2000)推断果蝇中的这些高频变异可能 是由于“搭车效应”时正选择保留了有利变异并使其以高频率在群体中存在。
到目前为止 ‘Tajima's D,Fu and Li's D & F test 和 Fay and Wu's H test,可能是针对群体 内的等位基因频率被运用得最广泛的中性检验模型(Nielsen 2005)2) 基于连锁不平衡的中性检验这里面首先涉及的参数是等位基因频率(allele frequency),基因型频率(genotype frequency)和 单倍型频率(haplotype frequency)在无视连锁的情况下,最简单的单一位点模型是"哈迪-温伯格平 衡"(Hardy-Weinberg equilibrium)模式假设在单一位点上有两种等位基因A和a,那么该群体存在 三种基因型:AA,Aa和aa如果用p表示A的等位基因频率,q表示a的等位基因频率,那么在经典的 Mendel的基因分离定律和独立分配定律下,p2为AA的基因型频率,2pq为Aa的基因型频率,q?为aa的 基因型频率,则有p?+2pq + q2=1 .哈迪-温伯格平衡模式认为(Hardy 1908; Weinberg 1908),对于一个 理想群体,即无穷大的随机交配且没有任何进化压力的群体,基因型频率将以p?,2pq和q2的比例存在于 随机交配后的各代中,等位基因频率不会逐代发生改变,故而这个基因座位的基因库不会发生进化。
事实上,当两对性状或者考虑两个等位基因座位时,我们必须考虑有可能的连锁和重组现象假设研 究对象为两个基因座位A和B,每个座位上的等位基因分别是A和A,B和B,那么用x来表示四种单倍1 2 1 2型的频率:AB:x1 1 11AB:x1 2 12AB:x2 1 21AB: x2 2 22而每一个等位基因的频率表示为:A: p = x + x1 1 11 12A :p =x +x2 2 21 22B: q = x + x1 1 11 21B: q = x + x2 2 12 22假设两个座位上的等位基因是自由地独立地分配到后代中去,那么以A B为例,我们可以期望x (e) =1 1 11pq这时单倍型频率的观察值x (o)与期望值x (e)之间的差异,就可以用来反映连锁不平衡1 1 11 11(linkage disequilibrium, LD):D= x (o) - pq.11 1 1连锁平衡(linkage equilibrium, LE)指的就是这种两个座位上的等位基因是自由地独立地分配 到后代中去的现象,A与B的组合是完全随机的,因此有D=0,即LD为零的状态我们其实可以把LE看作 是双位点版本的“哈迪-温伯格平衡”,只不过这里是单倍型频率而不是基因型频率。
当DMO时,观察值 与期望值不符,我们就说这两个等位基因处于连锁不平衡状态事实上,重组能打断连锁关系而使在很多代以后LD趋向于0假设c(0〈c〈 1)为两位点间的充重 组率,则在第二代时A B的单倍型频率为:11x' = (1 -c)x +c pq,也可以写成 x' -p q = (1-c) (x -p q ),即 D = (1-c) D.扩展到第11 11 1 1 11 1 1 11 1 1 1 0n代时,有D =(1 -c)nD如果n趋向于+8,则(1-c)n趋向于0,这时D =0•如果两位点在物理距离上越n 0 n接近,连锁越紧密,被重组的可能性就越低,则D 一0的速率就越慢n在前面提到的“搭车效应”中,当一个有利突变开始产生时,它是处于完全LD状态的,即可视为与 其构成单倍型的所有基因完全连锁,而其他单倍型因为不存在这个突变而被选择性清除所消灭(Ennis 2007)因此,搭车效应,正选择,选择性清除,连锁不平衡,基因重组以及群体结构相联系组成了一种 情况极为复杂的局面,使得基于LD检验统计模型的设计成为一个难度极高的挑战尽管如此,近几年,已经 发展出了一些检验方法用于检测与LD相关联的自然选择,包括LRH test (Sabeti et al。
2002),iHS test (Voight et al 2006),LDD test (Wang et al. 2006)等然而,这些检验效力如何,还需要更 多的研究结果来提供证据3) 基于种群分化的检验Wright (1931)首先给出了群体遗传分化系数F的计算公式,用以评估亚群体的分化程度Cavalli- stSforza (1966)认为自然选择可能会对群体亚分化形成贡献,因此首次建议用群体间的分化程度来推断自 然选择的作用随后,基于这一想法,大致有两种类型的方法被用于自然选择的测试一种是Lewontin一Krakauer test(Lewontin and Krakauer 1973),其作用原理是:群体间的基因流(gene flow) 会使大多数位点形成较。





