好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第12讲包系统.ppt

34页
  • 卖家[上传人]:汽***
  • 文档编号:601280221
  • 上传时间:2025-05-16
  • 文档格式:PPT
  • 文档大小:1.54MB
  • / 34 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十二讲,Bioconductor,一系列的包系统,用来处理生物方面的数据,1、Bioconductor是一个开源和开放式软件开发项目2、该项目起始于2001年秋季,核心成员是哈佛医学院/哈佛公共卫生学院的Dana,Farber癌症研究所生物统计组,3、Bioconductor软件包,DNA微阵列数据的处理、分析、注释及可视化;,通用分析工具(被广泛用于基因组数据库的分析,如分析基因组序列、SNP数据、SAGE数据、蛋白质组数据等一、,Bioconductor,简介,主页http:/www.bioconductor.org,/,安装Bioconductor软件包,1、安装标准的bioconductor软件包,source(“http:/bioconductor.org/biocLite.R,”),biocLite,(),2、,安装特定的,xxxx,包,source(“http:/bioconductor.org/bioLite.R,”),连到包的数据库中,biocLite(“xxxx,”),#,biocLite(“affy,”),微阵列预处理,3、菜单栏-,程序包,设定CRAN镜像,选择软件库,安装程序包,4、从本地zip文件安装程序包,(,http:/www.bioconductor.org/help/bioc-views/release/bioc,/,),数据库访问,(database interaction),Rdbi,;,RdbiPgSQL,;,SAGElyzer,图形及用户接口,(graphics&user interface),widgetTools,;,tkWidgets,;,geneplotter,;,hexbin,;,limmaGUI,;,affylmGUI,;,webbioc,图结构,(,garphs,),Graphs;RBGL;,Rgraphviz,;,SNAData,通用工具,(general tools),reposTools,;Biobase;Biostrings;DynDoc;,Ruuid,;,ctc,;convert;,Icense,;,exprExternal,;,externalVector,注释,(annotation),Annotate;,AnnaBuilder,;,Resourcer,;,SNPtools,;Data packages,基因本体学,(,ontologies,),goTools,;,ontoTools,;,GOstats,微阵列数据预处理,(pre-processing),affy,;,affycomp,;,affypdnm,;,affyPLM,;,gcrma,;,makecdfenv,;,annaffy,;,marray,;,matchprobes,;,vsn,数据分析,(analysis),daMA,;,edd,;,factDesign,;,genefilter,;,globaltest,;,gpls,;,multtest,;,pamr,;,MeasurementError.cor,;,Limma,;ROC;,Siggenes,;,Splicegear,;RMAGEML,微阵列比较基因组杂交,(,arrayCGH,),aCGH,;,DNAcopy,蛋白质组学,(proteomics),PROcess,;,Gpls,;,apComplex,Bioconductor,各种包的分类介绍,下载包,affy,并查看其功能,1、高密度寡核苷酸阵列,每个微阵列产生一个探针水平数据集,一些探针检测特异,的全匹配寡核苷酸,(PM),,另一些检测非特异的失匹配寡核苷酸,(MM),。

      2、,cDNA,微阵列,每个微阵列产生两个探针水平数据集(红色和绿色通道,),二、,DNA,微阵列数据的来源和结构,高密度寡核苷酸阵列,cDNA,微阵列,一次微阵列试验能获得细胞在某种条件下的全基因组表达数据,包含成千上万个基因在细胞中的相对或绝对丰度不同条件(细胞周期的不同阶段、药物作用的不同时间、不同肿瘤类型、不同病人等)下的基因表达数据构成一个,GXN,的数据矩阵,M,,其中,G,代表基因的数目,,N,代表条件的个数,通常情况下,GN,矩阵,M,的每个元素,xij,表示第,i,个基因在第,j,个条件下的表达水平值行向量,xi=(xi1,xi2,xiN,),代表基因,i,在,N,个条件下的表达水平,称为基因,i,的表达普;列向量,mj,=(m1j,m2j,mGj,),代表某一条件下的各基因的表达水平Analysis of Microarrays,Spotted,cDNA,Oligo,Synthesis,三、高密度寡核苷酸阵列的预处理,Affymetrix公司是目前最大的、也是主要的寡核苷酸芯片生产和销售公司,芯片上的每个基因或EST都是由一个或几个探针组(probe,set)组成,每组探针组又由11-20对25mer的探针对(probe,pair)组成,每探针对包括两个探针单元(probe,cell),一个完全匹配探针(PM,perfectmatch)和一个中间位点互补的失配探针(MM,mis-match),用PM与MM之间的差值作为信号强度,。

      每一条探针的荧光强度数据称为探针水平数据(probe,level data)预处理概述,1.1简介,探针+靶序列,杂交Hybridization,专业扫描器检测与每个探针杂交的靶序列数量,得到其强度,预处理,1.2任务,图像分析、数据导入、背景校正、归一化、汇总,、,特定探针校正,图像分析(image,analysis),将扫描图像中的像素强度转换成探针水平数据(probe,-level data)数据导入(data,import),因为数据以不同的格式输入,需要有灵活的数据导入方法,数据常位于不同的文件或数据库表中,背景校正(background,adjustment),被检测的探针强度取决于非特异性杂交和光学检测系统的噪声,通过对观察强度的校正来给出特异杂交的精确检测,归一化(normalization,),对不同来源的不同杂交阵列进行比较,(,逆转录、加标记、杂交反应的不同效果、阵列的物理问题、反应物批量效应和实验环境,),校正系统阵列间的差异,汇总(summarization,),有些平台,转录物由多重探针表示对于每个基因,校正后的背景和归一化的强度需要汇总成一个总数,估计RNA转录物数量比例。

      特定探针校正,(,probe,specific,correction,),校正试验结果中的异常探针水平数据,质量,控制,(quality,control,),它在可接受的随机波动的水平下进行趋异检测,数据导入:从探针水平数据到表达值,一种数据导入方法:,1.Create a directory,move all the relevant CEL files to that directory,2.If using the,Rgui,for Microsoft Windows make sure your working directory,containsthe,Cel,files(use File-Change,Dirmenu,item).,3.Load the library.,library,(affy,)#load the,affy,package,4.Read in the data and create an expression,using RMA for example.,Data,eset,-,rma,(Data,),把导入的数据写到文件:,write.exprs(eset,file=,mydata.txt,),读取特定,CEL file,:,Data,library,(affydata,),eset,bgcorrect.methods,(),1,bg.correct,mas,none ,rma,归一化,:,normalize.methods(Dilution,),1 constant contrasts ,invariantset,4 loess methods ,qspline,7,quantiles,quantiles.robust,特殊点校正,pmcorrect.methods,(),1,mas,methods ,pmonly,subtractmm,汇总,express.summary.stat.methods,(),1,avgdiff,liwong,mas,medianpolish,5,playerout,手动选择参数,expresso(Dilution,widget=TRUE),探针水平数据,预处理参数选择,数据分析过程中的质量控制,读取数据的信息,Dilution,AffyBatch,object,size of arrays=640 x640 features(35221 kb),cdf,=HG_U95Av2(12625,affyids,),number of samples=4,number of genes=12625,annotation=hgu95av2,notes=,affydata包提供了DILUTION,数据集中的4块芯片的数据,保存在AffyBatch类的对象Dilution中。

      样本来自人的肝组织和中枢神经系统的细胞系,样本中,cRNA的浓度分别是10,g和20,g,与affymetrix公司的人类hgu95av2芯片杂交,每个样本进行两次重复实验phenoData(Dilution,),An object of class,AnnotatedDataFrame,sampleNames,:20A,20B,10A,10B,varLabels,and,varMetadata,description:,liver:amount of liver RNA hybridized to array in micrograms,sn19:amount of central nervous system RNA hybridized to array in micrograms,scanner:ID number of scanner used,pData(Dilution,),liver sn19 scanner,20A 20 0 1,20B 20 0 2,10A 10 0 1,10B 10 0 2,芯片图像:,par(mfrow,=c(2,2),image(Dilution,),数据可视化,par(mfrow,=c(2,2),plot(exprs(Dilution),1:2,log=,xy,pch,=.,main=1,vs,2 all),#,重复试验之间的散点图,plot(exprs(Dilution),3:4,log=,xy,pch,=.,main=3,vs,4 all),散点图:,芯片重复性的质量,hist和boxplot可以检查不同阵列的探针强度状态,;,hist(Dilution,),boxplot(Dilution,col,=c(1,2,3,4),阵列的值在分布的形状或中心位置的差异使得对归一化(标准化)的需求更加明显。

      横轴是样本名称,纵轴是数据值每个样本用一个方框表示,反映了4个分位值,框中间的横线表示数据的中位值,框的上下线分别表示75和25分位值,框上下用虚线相连的小横线分别表示最大和最小值标准化,Dilution.normalized,boxplot(Dilution.normalized,col,=c(1,2,3,4),MA图:将散点图坐标轴旋转45度,另外横轴为,A,j,=(,Y,2,j,+,Y,1,j,)/2,纵轴为,M,j,=,Y,2,j,-,Y,1,j,,,Y,1,和,Y,2,分别为两块芯片探针数据的对数,A,j,表示两快芯片对。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.