
如何找一个基因的启动子序列呢?.doc
19页11、 UCSC(1)网址:http://genome.ucsc.edu/cgi-bin/hgNear在Genome里选择物种,比如human,search里输入你的基因名PTEN,点击Go(2)出现新的页面,看到“Known Gene Names”下面的PTEN了吧,点它(3)又回到了和(1)类似的页面,此时,点击sequence(4)出现一个新的页面,选中promoter,同时可以输入数值修改具体的序列区域,比如Promoter including 2000 bases upstream and 100 downstream,即表示启动子-2000~+100区域(5)点击“get sequence”,出现页面中最上面的序列“>uc001kfb.1 (promoter 2000 100) PTEN - phosphatase and tensin homolog”就是你要的人PTEN启动子-2000~+100区域的序列了 2、Ensembl(1)网址:http://www.ensembl.org/index.html在“Search Ensembl“标题下search后的下拉框中选中物种名homo sapiens(人),for框中输入基因名PTEN,点击Go(2)出现的新页面中比较乱,但不要管它,直接寻找“Ensembl protein coding gene ”字样的,对,也就是第二个,点击它(3)新出现的页面也很乱,不过依然不用管它,看到左侧有点肉色(实在不知道怎么描述了)的那些选项了吗,对,就是“Your Ensembl”下面那一堆,在里面找“Genomic sequence”,点它(4)现在的界面就一目了然了,在“5' Flanking sequence”中输入数值确定启动子长度(默认为600),比如1000,点击update;(5)出现的序列中,标为红色的就是基因的外显子,红色之间黑色的序列就是内含子,而第一个红色自然就是第一外显子了,那么从开始的碱基一直到第一个红色的碱基间自然就是启动子-1000~+1的序列啦这样,你不仅查到了启动子,连它的外显子、内含子序列也全部搞定了 3、SIB-EPD(1)网址:http://www.epd.isb-sib.ch/(2)具体使用方法大同小异,就是输入物种名、基因名,限定启动子序列区域不过有了前两个,我想已经足够用了,个人感觉SIB-EPD的库容量太小,很多基因查不到 我以前回的贴,总结一下ensembl一般也和NCBI的一致,你的情况可能例外。
这就不清楚了ensembl有七个外显子可能有它自己的理由另外,NCBI的基因中gene库中同时有ensembl和genbank的链接,不如从这个链接看看此外,还可以看一看这个基因在物种间的同源性,以及其它物种有几个外显子,做为参考综合考虑一下 给你提供几个启动子区域查找的网站,慢慢摸索会学到更多的http://www.fruitfly.org/seq_tools/promoter.html 果蝇的PROMOTER 2.0 http://www.cbs.dtu.dk/services/Promoter/ 通常确定启动子的算法可以分成两种,一种根据启动子区各种转录信号,如TATA 盒、CCAAT 盒,结合对这些保守信号及信号间保守的空间排列顺序的识别进行预测如PROMOTER 2.0, 用神经网络方法确定TATA 盒、CCAAT盒、加帽位点(cap site) 和GC 盒(GCbox) 的位置和距离, 识别含TATA 盒的启动子 PROMOTER SCAN http://thr.cit.nih.gov/molbio/proscan/ 根据转录因子结合部位在基因组中分布的不平衡性,将转录因子结合部位分布密度与TATA 盒的权重矩阵(weight matrix) 结合起来,从基因组DNA中识别出启动子区[3 ] 。
但上述程序预测的假阳性率较高,PROMOTER 210 每23kb 出现一个假阳性;PRO2MOTER SCAN 平均每19kb 出现一个假阳性 PromoterInspector http://www.genomatix.de/products/PromoterInspector/PromoterInspector2.html 另一种方法根据启动子区序列的特征进行预测Promo2terInspector 从一组训练序列中提取出启动子区的环境特征,并将外显子、内含子和3’端非翻译区的特征与启动子区加以区分,从而在基因组中确定启动子位置 初来乍到,发个技术贴了!!1、获取目的基因的mRNA序列,并且在NCBI的数据库中查获转录起始点2、截取转录起始点为中心,上下约各1000bp,若在此范围内出现CDS,可到翻译起始点终止3、利用软件进行分析PromoterInspector http://www.genomatix.de/software_services/online_access/free_accounts.html PromoterScan http://bimas.dcrt.nih.gov/molbio/proscan Promoter 2.0 http://www.cbs.dtu.dk/services/Promoter NNPP http://www.fruitfly.org/seq_tools/promoter.html EMBOSS Cpgplot http://www.ebi.ac.uk/servicestmp/95441066796504.html CpG Islands Prediction http://www.ualberta.ca/%7Estothard/javascript/cpg_island.html本人是采取多种软件结合的方法,由于proscan和promoter 2.0的假阳性率较高,仅作为参考,而promoterinspector的特异性较高,结果比较可信。
同时,利用CpG岛预测,作为辅助参考4、最后,可以找到小鼠的同源区,进行同源性比较,启动子区域一定是高保守区5、到此,可以初步预测启动子区域的范围了请高手多多指教!!启动子预测:http://www-bimas.cit.nih.gov/molbio/proscan/转录因子预测:http://www.gene- FINDING AND ANALYSIS PROGRAMS ON THE INTERNET -------------------------------------------------------------------------------- TRANSPLORER (TRANScription exPLORER) Dnanalyze (TF mapping) Dragon Promoter Finder 1.2 (TSS finder and promoter region analysis) FunSiteP 2.1 HCtata (TATA signal prediction) McPromoter Ver.3 MatInspector (Search for TF binding sites) ModelGenerator and ModelInspector NNPP2.1 (TSS finder) PromoterInspector (Strand non-specific promoter region finder) Promoter2.0 (TSS finder) Promoter Scan II (Promoter region prediction) RGSiteScan Signal Scan (Search for Eukaryotic Transcriptional Elements) TESS (Search for Transcription Elements) TFSEARCH (Predicts TF binding sites based on TRANSFAC data) TRANSFAC (TF database and a number of associated programs) TSSG and TSSW PROMOTER 2.0 http://www.cbs.dtu.dk/services/Promoter/ 通常确定启动子的算法可以分成两种,一种根据启动子区各种转录信号,如TATA 盒、CCAAT 盒,结合对这些保守信号及信号间保守的空间排列顺序的识别进行预测。
如PROMOTER 2.0, 用神经网络方法确定TATA 盒、CCAAT盒、加帽位点(cap site) 和GC 盒(GCbox) 的位置和距离, 识别含TATA 盒的启动子 PROMOTER SCAN http://thr.cit.nih.gov/molbio/proscan/ 根据转录因子结合部位在基因组中分布的不平衡性,将转录因子结合部位分布密度与TATA 盒的权重矩阵(weight matrix) 结合起来,从基因组DNA中识别出启动子区[3 ] 但上述程序预测的假阳性率较高,PROMOTER 210 每23kb 出现一个假阳性;PRO2MOTER SCAN 平均每19kb 出现一个假阳性 PromoterInspector http://www.genomatix.de/products/PromoterInspector/PromoterInspector2.html 另一种方法根据启动子区序列的特征进行预测Promo2terInspector 从一组训练序列中提取出启动子区的环境特征,并将外显子、内含子和3’端非翻译区的特征与启动子区加以区分,从而在基因组中确定启动子位置 FirstEF http://rulai.cshl.org/tools/FirstEF/ 近来还有一些程序将上述方法与CpG 岛(CpG islands) 信息相结合。
CpG岛是一段200 bp 或更长的DNA 序列,核苷酸G + C 的含量较高,并且CpG双核苷酸的出现频率占G+ C 含量的50 %以上许多脊椎动物的启动子区都与CpG岛的位置重合FirstEF ( http :/ / rulai1cshl1org/ tools/ FirstEF/ ) 搜索通过5’UTR 定位技术构建的第一外显子数据库,识别第一剪切点(first splicing donor site) ,结合CpG 岛信息,确定启动子区这种方法使预测的敏感性和特异性都明显提高该程序预测含CpG岛的启动子的敏感性和特异性都高于90 % ,预测不含CpG岛的启动子的精确性相对略低 TRRD 数据库 http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/ 收录了真核基因调控区结构和基因表达方式的信息,每个条目对应一个基因 应用权重矩阵数据库搜索转录因子结合部位的程序包括 SIGNAL SCAN http://thr.cit.nih.gov/molbio/si。












