如何查找基因的序列(带图表)
如何查找基因序列?如何查找基因序列? 在在Genbank中寻找目的基因中寻找目的基因1. 根据文献搞reasearch肯定要读文献的,如果你曾经在文献中看到过你感兴趣的基因,而 且文中还提到了该基因在Genbank中的ID号,那就好办了,直接打开 http:/www.ncbi.nlm.nih.gov ,在Search后的下拉框中选择Nucleotide,把 Genbank ID号输入GO前面的文本框中,点“GO”,就可以找到他了。举例说明,例如:在2003年JBC的文章(Conditional Knock-out of Integrin- linked Kinase Demonstrates an Essential Role in Protein Kinase B/Akt Activation)中出现了“calreticulin (GenBank accession number gi 16151096)”, 那么把“16151096”输入GO前面的文本框中,点“GO”,就可以找到该基因了(当 然包括基因序列等相关信息)。在出现了检索结果界面(下图)后,直接点击红箭头所指的 AY047586就可以 看到基因的相关信息。这里需要指出一下,在显示基因的页面右侧有一个Link,点击后出现一个小菜单,里面 是与该基因相关的链接,很有用的。点击 AY047586后出现的界面如下:最下面就是核酸序列(ORIGIN后面)如果你只想获得序列(例如去设计PCR引物的时候),那就可以选择FASTA,这样 就得到了FASTA格式的序列文件,没有其他数字和格式的干扰。这就是FASTA格式的序列:练习 1: 请在Entrez的蛋白质数据库中查找,gi (NCBI GenBank ID)为13375618所登录的蛋白质的名称,并且回答该蛋白含 有什么样的特殊结构域(至少一个)?如何查找基因序列?如何查找基因序列? 在在Genbank中寻找目的基因中寻找目的基因 2. 根据已经获得的基因的相关信息进行查找如果只是知道基因的名字,怎么查序列呢?还是举例说明,比如我想做的基因名称是人 的VEGF基因,那么怎么在Genbank中找到它呢?在search后面的下拉框中选择Gene,然后在中间的文本框中输入基因名称 “VEGF”,点击GO. Too much!点击箭头所指的Limits, 出现了如下界面Limits的意思其实就是高级检索,你可以在这里对检索词进行很多限制,这样能 大大精简查询结果。在Limits这个界面,先选择查询的限定范围。人的VEGF基因,那就开始选择: 先选Gene name(基因名称);然后再选择Limit by Taxonomy(生物分类限定) 中的Homo sapiens(人类),然后再点击“GO”直接点击基因名称“VEGFA”就可以看到有关基因的信息了。需要指出的是,在Genbank中,基因有很多别名(Aliases),和Genbank中记录的 名称有可能不一致.比如在这里,VEGFA是Genbank中记录的基因名称,而它还有很 多别名,比如MGC70609, VEGF(这就是我们要找的基因名称 ), VEGF-A, VPF; 还有,在这里可以看到该基因在染色体上的位置. 下面就是点击VEGFA后出现的界面:再往下看,可以看到Genomic regions, transcripts, and products,这里显示 了该基因在基因组中的位置,以及转录本的生成情况 就看见了目的基因的mRNA的链接(如NM_001025366.1)和蛋白质的链接 (如NP_001020537.2)如果想找的基因是第一个序列即isoform a, 就可以点击NM_001025366.1, 得到如下界面:If the gene sequence is known, and you want to find the corresponding GenBank ID, use http:/www.ncbi.nlm.nih.gov/BLAST/ Click on the type of nucleotide search you want and enter the sequence. Results will be displayed with the GenBank ID included. To view information about a gene sequence with a given GenBank ID, go to http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi? db=NucleotideHow to use the BLAST?Example: NCBI BlastNCBI BLAST http:/www.ncbi.nlm.nih.gov/BLAST/Step 1: Run the BlastStep 2:Choose the program to useStep 3: Input the data, 可以直接输入登录号,或者是gi number Search SWISSPROT for Immunoglobulin:SWISS_PROT:C79A_HUMAN P11912可以通过查找原始数据库获得登录号。如果不知道登录号或者如果不知道登录号或者gi number,则可以直接粘贴已知序列则可以直接粘贴已知序列Step 4: Choose search set and program selection, and put the BLAST to start the search 123 Search BLAST (www.ncbi.nlm.nih.gov/BLAST/) for P11912Database: All non-redundant(非冗余) sequences6,507,231 sequences; 2,219,987,828 total letters比对结果会在10秒左右后出现, 注意结果很多,一直下拉右侧工具条,会看到很多不同意义的比对结果。 Distribution of Hits:直接往下拉,会出现下面的画面Score E Sequences producing significant alignments: ScoreE-Value gi|547896|sp|P11912|C79A_HUMAN B-cell antigen receptor comp. 473e-133 gi|728993|sp|P40293|C79A_BOVIN B-cell antigen receptor comp. 3123e-85 gi|126779|sp|P11911|C79A_MOUSE B-cell antigen receptor comp. 2785e-75 gi|728994|sp|P40259|C79B_HUMAN B-cell antigen receptor comp. 551e-07 gi|125781|sp|P01618|KV1_CANFA IG KAPPA CHAIN V REGION GOM 380.019 gi|125361|sp|P17948|VGR1_HUMAN Vascular endothelial growth . 370.042 gi|549319|sp|P35969|VGR1_MOUSE Vascular endothelial growth . 360.052 gi|114764|sp|P15530|C79B_MOUSE B-cell antigen receptor comp. 360.064 gi|1718161|sp|P53767|VGR1_RAT Vascular endothelial growth f. 350.080 gi|125735|sp|P01681|KV01_RAT Ig kappa chain V region S211 350.095 gi|1730075|sp|P01625|KV4A_HUMAN IG KAPPA CHAIN V-IV REGION LEN 340.26 gi|1718188|sp|P52583|VGR2_COTJA Vascular endothelial growth. 330.28 gi|125833|sp|P06313|KV4B_HUMAN IG KAPPA CHAIN V-IV REGION J. 330.30 gi|125806|sp|P01658|KV3F_MOUSE IG KAPPA CHAIN V-III REGION . 330.30 gi|125808|sp|P01659|KV3G_MOUSE IG KAPPA CHAIN V-III REGION . 330.30 gi|1172451|sp|Q05793|PGBM_MOUSE Basement membrane-specific . 330.33 gi|125850|sp|P01648|KV5O_MOUSE Ig kappa chain V-V region HP. 330.36 gi|125830|sp|P06312|KV40_HUMAN Ig kappa chain V-IV region p. 330.38 gi|2501738|sp|Q06639|YD03_YEAST Putative 101.7 kDa transcri. 330.41直接往下拉,会出现下面的画面>gi|126779|sp|P11911|C79A_MOUSE B-cell antigen receptor complex associated protein alpha-chain precursor (IG-alpha) (MB-1 membrane glycoprotein) (Surface-IGM-associated protein) (Membrane-bound immunoglobulin associated protein) (CD79A) Length = 220Score = 278 bits (711), Expect = 5e-75 Identities = 150/226 (66%), Positives = 165/226 (73%), Gaps = 6/226 (2%)Query: 1 MPGGPGVLQALPATIFLLFLLSAVYLGPGCQALWMHKVPASLMVSLGEDAHFQCPHNSSN 60 MPGG + LL LS LGPGCQAL + P SL V+LGE+A C N+ Sbjct: 1 MPGG-LEALRALPLLLFLSYACLGPGCQALRVEGGPPSLTVNLGEEARLTC-ENNGR 55Query: 61 NANVTWWRVLHGNYTWPPEFLGPGEDPNGTLIIQNVNKSHGGIYVCRVQEGNESYQQSCG 120 N N+TWW L N TWPP LGPG+ G L VNK+ G C+V E N +SCG Sbjct: 56 NPNITWWFSLQSNITWPPVPLGPGQGTTGQLFFPEVNKNTGACTGCQVIE-NNILKRSCG 114Query: 121 TYLRVRQPPPRPFLDMGEGTKNRIITAEGIILLFCAVVPGTLLLFRKRWQNEKLGLDAGD 180 TYLRVR P PRPFLDMGEGTKNRIITAEGIILLFCAVVPGTLLLFRKRWQNEK G+D D Sbjct: 115 TYLRVRNPVPRPFLDMGEGTKNRII