
基因组学课件:GWAS.pptx
36页关联分析 (Association Mapping)红叶石楠新叶为什么会变红?甘蓝为什么会结球?(一)关联分析基础知识1.关联分析的概念2.关联分析的基础连锁不平衡3.影响关联分析的因素4.关联分析的优点5.关联分析的方法6.关联分析的两种策略和发展趋势1. 关联分析的概念关联分析:以长期重组后保留下来的基因(位点)间连锁不平衡(linkage disequilibrium, LD)为基础,在获得群体表型数据与基因型数据后,采用统计方法检测遗传多态性与性状可遗传变异之间的关联其目标是找寻可能引发性状变异的基因组功能变异基因位点或标记位点2.关联分析的基础连锁不平衡 生物在进化的过程中,对于某一特定基因座,在自然选择、人工选择、重组、突变、遗传漂变、迁移、群体扩张和瓶颈效应等因素的影响下,某一“有利”变异(或等位基因)在正向选择的过程中被保留下来,因而群体中具有此等位基因个体的比例将会不断增加,成为优势变异而被固定下来; 同时,携带其它等位基因的个体则会逐渐减少甚至消失因此,该基因座的遗传多样性就会急剧下降由于存在连锁关系,该基因座两侧一定范围内的序列(包括中性基因座)也会随着该“有利”等位基因的固定而被大量保留下来,从而使其遗传多样性也大大降低。
连锁不平衡概念连锁不平衡(linkage disequilibrium, LD),又称等位基因关联,是指同一条染色体上,两个等位基因间的非随机相关即,当位于同一条染色体的两个等位基因(A,B)同时存在的概率,大于群体中因随机分布而同时出现的概率时,就称这两个位点处于LD状态SNP1(A, a)SNP2(B, b) 两个相邻的基因(A,B),他们各自的等位基因为(a,b)假设A,B相互独立遗传,则后代群体中观察得到的单倍体基因型AB中出现的P(AB)的概率为P(A)*P(B) 实际观察得到群体中单倍体基因型AB同时出现的概率为P(AB)计算这种不平衡的方法为:D=P(AB)P(A)*P(B)D是LD(连锁不平衡)的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差的度量的度量一般不直接使用定义式,而对进行归一化后,用系数和r2进行检验Dmax=Dmin(PAPb, PaPB) (D0)Dmin=Dmax(-PAPB, -PaPb) (D0)r2 = D2/(PAPaPBPb)D的意义1.当D =1时,这两个位点处于完全连锁不平衡态; 2.当D1时,表示祖先中的完全连锁不平衡被打破,在群体演化过程中两个位点间发生了重组; 尽管D可以测量连锁不平衡的强度,但D值在很大程度上依赖于样本的大小,当样本较小,特别是标记中有出现频率很小的等位基因时, D值将偏高。
因而很难比较不同样本间连锁不平衡的水平及衰减程度当值接近1时表示群体演化中几乎没有重组发生,而当D值小于1时,不管是用来测量连锁不平衡的大小还是比较不同研究之间连锁不平衡的强度都需要谨慎使用 r2的意义1. 当 r2= 0 时,说明两个位点之间是完全独立的;2. 当r2 = 1时, 说明两个位点无重组;4种可能单倍型中仅表现2种单倍型(AB, ab)3. r2在连锁不平衡作图中更加有用,因为其具有较强的群体遗传学理论基础和一些统计学上的优势 A, a B,b A B3 (25%)A b3 (25%)a B3 (25%)a b3 (25%)D=P(AB)P(A)*P(B)=0.25-0.5*0.5=0;D=0;r2=0;表明:两位点之间无LD,4种单倍型频率相等 A, a B,b A B6 (50%)a b6 (50%)D=P(AB)P(A)*P(B)=0.5-0.5*0.5=0.25;D=D/Dmax=0.25/(0.5*0.5)=1Dmax=Dmin(PAPb, PaPB)r2=D2/(PAPaPBPb)=(0.25*0.25)/(0.5*0.5*0.5*0.5)=1r2=1,说明两位点之间无重组;4种单倍型最多只能出现两种,且等位基因频率相同;称为完美LD:观察一个标记即可得到另一个标记的全部信息。
A, a B,b A B6 (50%)a b3 (25%)A b3 (25%)D=P(AB)P(A)*P(B)=0.5-0.75*0.5=0.125;D=D/Dmax=0.125/(0.25*0.5)=1Dmax=Dmin(PAPb, PaPB)r2=D2/(PAPaPBPb)=(0.125*0.125)/(0.75*0.25*0.5*0.5)=0.33r2=0.33,表示存在LDLinkage Disequilibrium (no recombination: time is important)A Disease Occurred due to a Point Mutation因点突变而引起的疾病HaplotypeThe Point Mutation Inherited from Generation to Generation (Pedigree谱系 1)点突变继 承了一代一代timeThe Point Mutation Inherited from Generation to Generation (Pedigree 2)timeThe Current PopulationPhenotype and Haplotype表型和单体型AmarkeriscorrelatedwiththetraitYou know the phenotype but not the causal mutation你知道的表型,但不是引起突变的原因Decay of LD with Distance(LD随着距离的减弱)1.什么是LD的衰减? LD 的衰减指位点间由连锁不平衡到连锁平衡的演变过程。
2.影响LD的因素 突变和重组是影响LD高低的主要因素,LD是由突变产生的多态形成的,因重组的发生而打破 不同物种的LD衰减距离不同,同一作物的不同群体、同一群体的不同基因座的LD衰减距离也不同3.研究LD的衰减有什么用? LD的衰减距离决定关联分析时所需标记密度,也在一定程度上决定关联分析的精度Decay of LD (LD 的衰减)3.影响关联分析的因素1)样本的遗传多样性2)LD的衰减(decay of LD)3)样本的大小4)群体结构(population structure)5)材料间亲缘关系(Kinship)6)交配体系(Calculate by Genetic Power CalculatorPurcell et al. (2003) Bioinformatics, 19:149-150).High Genotype-phenotype Covariance高基因型表型协方差 Eye color眼睛颜色 GWAS population 500 Chinese, 500 European关联分析全体:500中国人&500欧洲人 Population structure: Chinese are alike, while Europeans are a like.群体结构:中国人是相似的而欧洲人是一致的 Chinese: black eye, black hair, facial structure, height, body hair, etc.中国人:黑眼圈、黑头发、面部结构、身高、体发等。
群体结构: the non-random distribution of genotypes among individuals within a population(种群中个体间基因型的非随机分布, 可能导致基因多态性位点与性状的相关性并非由功能性等位基因引起,从而提供假阳性结果b)multi-familysample多家庭样本(d) sample with population structure(c)samplewithbothpopulationstructureandfamilialrelationships群体结构和家族关系的样本(e)samplewithseverepopulationstructureandfamilialrelationships(a)idealsamplewithsubtlepopulationstructureandfamilialrelatedness理想的样本具有微妙的群体结构和家族关联性MAGIC (Multi-parent advanced generation inter-cross) Population多父代杂交群体.MylesSetal.PlantCell2009;21:2194-2202(A) The power of an association test is a function of the allele frequency and the effect size. (B) The allele frequency spectrum from 3641 SNPs genotyped in 25 diverse maize inbred lines (www.panzea.org) demonstrates that most alleles in a population are rare. Therefore, if the frequency spectrum of functional alleles is similar to the frequency spectrum of random SNPs, most functional alleles will remain undetected through population mapping because of low power. For (A), phenotype data were simulated for 1000 haploid samples as a normal distribution with mean = 0 and = 1 for one allele and mean 0 + effect size and = 1 for the other allele. Effect size is therefore defined as the difference between the mean phenotypic values of the two alleles. Power is defined as the proportion of association tests (Pearson correlation) significant at P 0.05 out of 5000 simulated data sets. Rare Allele Is Difficult to Be detected罕见等位基因很难被发现4.关联分析的优点1) 不需要专门构建作图群体,自然群体或种质资源都可作为研究材料;2)广泛的遗传材料可同时考察多个性状大多数QTL的关联位点及其等位变异,不受传统的“两亲本范围”的限制;3)自然群体经历了许多轮重组后,LD衰减,存在于很短的距离内,保证了定位的更高精确性; A Fictional Depiction of a Simple Genotype-Phenotype Association Test. The functional SNP responsible for variation in berry number in grapevine is in gray and is not genotyped. The genotyped SNPs lie on either side of the functional SNP. The genotyped SNP to the right is in high LD with the functional SNP, while the genotyped。












