
BCC精品培训关联分析.ppt
56页全基因组关联分析周家蓬博士zhoujp@群:2598041811 1基本概念基本概念历史历史、现状和趋势、现状和趋势一般流程一般流程研究研究策略策略应用应用价值价值2 2全基因组关联研究•Genome-wide association study (GWAS) •检测全基因组范围的遗传变异与可观测性状间的遗传关联3 3遗传变异的检测•SNP芯片 Affymetrix: 500K chip (Randomly distributed) Illumina: 550K chip (gene-based)•高通量测序 Illumina/Solexa: DNA-seq, RNA-seq4 4遗传变异的数量•“单倍型图谱计划 1”(Nature 2005)SNP: 1M•“单倍型图谱计划 2”(Nature 2007)SNP: 4M•“单倍型图谱计划 3”(Nature 2010)SNP: 10M 5 5SNP和SNP基因型TTCAGTCAGATTCCAGCCCTTCAGTCAGATTCCAGCCC样本样本1样本样本2TTCAGTCAGATTCCAGCCCTTCAGTCAGAGTCCAGCCC6 6表型 & 模型和算法•表型:质量性状和数量性状•表型校正:去除outliers,取特征值,取剩余值•模型:混合线性模型方程组•算法:SNP,单倍型,CNV,Gene-set(SNPs) Add.,Dom.,Rec.,Int. Frequentist,Bayesian 方差/秩和,均值/中位数 打分值,似然比 Bonferroni,FDR,Permutation,Bootstrap7 7编码基因型•For one marker with two alleles, there can be three possible genotypes:GenotypeCodingAA2Aa1aa08 8病例/对照设计的数据结构individualaffectiongenderSNP 1SNP 2…SNP n11F21…221M22…130F12…241F11…250M0-9…1sample idcase/controlgenotypes9 9遗传假设和遗传模型•Genotypic modelHypothesis: all 3 different genotypes have different effectsGenotypeGenotypic ValueAAμAAAaμAaaaμaaAA vs. Aa vs. aa1010•Dominant modelHypothesis: the genetic effects of AA and Aa are the sameGenotypeGenotypic ValueAAμA-AaμA-aaμaaAA and Aa vs. aa遗传假设和遗传模型(续)1111•Recessive modelHypothesis: the genetic effects of Aa and aa are the sameGenotypeGenotypic ValueAAμA-Aaμa-aaμaaAA vs. Aa and aa1212遗传假设和遗传模型(续)•Allelic modelHypothesis: the genetic effects of allele A and allele a are differentGenotypeGenotypic ValueAA2μAAaμA+ μaaa2μaA vs. a1313遗传假设和遗传模型(续)卡方检验wGenotypic modelwNull hypothesis: Independence AAAaaacasesnAAnAanaacontrolsmAAmAamaadf = 21414wChi-squared test statistic:wO is the observed cell countswE is the expected cell counts, under null hypothesis of independence 统计量1515R code> Statistics <- rchisq(1000, df = 5)> hist(Statistics, prob=T)> curve( dchisq(x, df=5), col='blue', add=TRUE )> curve( dchisq(x, df=2), col='red', add=TRUE )> P<-1-pchisq(10,df=2);P[1] 0.006737947 统计量统计量P 值值1616GWAS的历史•2005年,Science杂志报道了第一篇GWAS研究:年龄相关性黄斑变性•之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症以及相关表型的报道1717GWAS的现状1818GWAS的趋势1919探求因果关系•逻辑推理:归纳法(从特殊到一般)、演绎法(从一般到特殊)•“穆勒五法”:求同法、求异法、求同求异法、共变法、排除法•全基因组关联研究主要基于共变法思想Ø科学技术史之父萨顿认为科学是人类唯一具有累积性和继承性的活动2020一般流程A.使用SNP分型芯片获得高通量的基因型B.对基因型进行质量评估和控制C.若为质量性状,需进行群体分层检测;如为数量性状,则对表型进行协变量校正D.采用若干遗传模型进行全基因组关联分析E.增加额外的数据进行结果验证2121AHMU案例A.Illumina Human 610Quad BeadChipB.Call rate < 90%, MAF < 1%, HWE P < 10-7C.1139病例 vs. 1132对照,PCA分析D.Cochran-Armitage 趋势检验E.5182病例 vs. 6516对照, 539病例 vs. 824对照 Nat Genet. 2009 Feb; 41(2):205-210.2222计算过程•PLINK http://pngu.mgh.harvard.edu/~purcell/plink/•plink –file AHMU –mind 0.05 –maf 0.01 –hwe 0.000001 –model –out AHMU2323输入输出•AHMU.ped•AHMU.map•AHMU.model2424GWAS主要策略Meta分析分析缺失填缺失填充充通路分通路分析析互作分互作分析析2525Meta分析•定义 合并多个研究数据,增加样本量,提高检测效力,发现新易感位点•成功案例 Ⅱ型糖尿病、克隆病、多发性硬化、类风湿性关节炎、直结肠癌等2626Meta分析•分析步骤1.检测研究异质性2.选择模型 固定效应模型,随机误差(弱) 随机效应模型,群体分层(强)3.单因素分析4.合并各研究检验统计量、标准误或p值•常用软件 METAL、Comprehensive Meta-analysis等2727缺失填充•定义 缺失基因型填充(Imputation)主要是为了解决致病变异或其紧密连锁标签分型遗漏的问题•成功案例 约1/3-1/2的 GWAS文章 使用该技术2828缺失填充•分析步骤1.对自产数据进行基因型质量控制2.选择合适的参考数据库,对高质量的基因型数据进行缺失填充3.根据计算得出的准确率(info > 0.8)对填充基因型进行筛选过滤4.进行关联分析•常用软件 BEAGLE、IMPUTE、MACH和PLINK等2929通路分析•定义 将SNPs按照生物学通路分组,比较各通路在病例/对照或连续性状数量上的差异•成功案例 克隆病、I型糖尿病、类风湿性关节炎、精神分裂症、乳腺癌等3030通路分析•分析步骤1.选择生物通路(KEGG)2.选择Tag SNPs (HapMap)3.多因素分析4.显著SNPs结果综合•常用软件 GSEA、IPA等3131互作分析•定义 研究基因-基因、基因-环境间交互作用•成功案例 老年黄斑变性、帕金森病、直肠癌、膀胱癌,哮喘等3232互作分析•分析步骤1.选择显著及近似显著SNPs2.选择风险环境因素3.构建互作模型4.多因素分析•常用软件 PLINK、Random Jungle、BEAM等3333其他策略•两阶段法•精细定位/目标测序•表型/性状联合•单倍型分析3434遗传变异的检测•SNP芯片 Affymetrix: 500K chip (Randomly distributed) Illumina: 550K chip (gene-based)•高通量测序 Illumina/Solexa: DNA-seq, RNA-seq3535高通量测序•Next-generation sequencing (NGS) •平行测序3636SNP分型:coverage & variant frequency3737参考基因组序列参考基因组序列个体正向序列个体正向序列个体反向序列个体反向序列遗传变异的种类•单核苷酸多态性单核苷酸多态性•Single nucleotide polymorphism•SNP占总变异的占总变异的90%•插入缺失插入缺失•Insertion-deletion•InDel1-50bp DNA片段片段•结构变异结构变异•Structural variation•SV>50bp DNA片段片段3838遗传变异的数量•“千人基因组计划”(Nature 2012)•SNP: 38M •InDel: 1.4M •SV: 14K 3939效应大小 vs. 变异频率40404040家系病例或极端性状个体 Nat Rev Genet. 2010 Jun;11(6):415-25.4141•外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病•价格相对低廉•目前主要用于检测孟德尔疾病•新的策略或方法:Lasso,折叠法,聚合法外显子组测序4242Lasso•岭回归: |beta|2
