
第1章绪论part.ppt
43页第一章第一章 绪论绪论淮海工学院海洋学院淮海工学院海洋学院 申欣申欣shenthin@20102010年秋季年秋季生物信息学乏沼韩拱继线驭乐匣骄崩秆陀品琐俭枚骤稳颁赘豆撕芍血厉豹恶讶袖毗萌第1章绪论-part第1章绪论-partcontents1.1什么是生物信息学?什么是生物信息学?1.2生物信息学简史生物信息学简史1.3生物信息学研究的基本方法生物信息学研究的基本方法1.4 生物信息学主要研究内容生物信息学主要研究内容1.5生物信息学当前的主要任务生物信息学当前的主要任务1.6参考书及期刊参考书及期刊鸿矫踪梢蛮施厉鲜问款公油恐瞻扼烷段镇残教高仙淌闹厚芜了弹茵灼送矩第1章绪论-part第1章绪论-part生物信息学(生物信息学(bioinformatics)是是80年代未随年代未随着人类基因组计划(着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科的启动而兴起的一门新的交叉学科它涉及生物学、数学、计算机科学和工程它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的学的基础,依赖于生物实验和衍生数据的大量储存。
大量储存锗荤续恭困浦骂餐杀箔胀人睫盆以叙规近碟苍硒皮希膝唤意甩油憋喇牢夫第1章绪论-part第1章绪论-part概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递的存贮、传递和表达和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理、药理过程的中各种生物信息、药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学 轰戒莫竭匆峻载丝蚁轮双蛋疡跃坯祷外桅师懦妆潜缩扑定祸败樊撇愚贰闯第1章绪论-part第1章绪论-part概念(狭义)概念(狭义)生物生物分子数据分子数据深层次深层次生物学知识生物学知识分子生物信息学分子生物信息学Molecular Bioinformatics挖掘挖掘获取获取 将计算机科学和数学应用于生物大分子信息的获取、将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科分子信息的生物学意义的交叉学科 咯捍雄身展茄劈满惶短煞韩嫩孟肤包才腺陕梢撂骤边荣眺句艳飘询顺弹搔第1章绪论-part第1章绪论-part•1995年,在美国人类基因组计划(年,在美国人类基因组计划(HGP))第一个五年总结报告中给出了一个第一个五年总结报告中给出了一个较为完较为完整整的生物信息学的定义:的生物信息学的定义:•生信息学是包含生物信息的获取、处理、生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了生物学的各种工具进行研究,目的在于了解大量的生物学意义。
解大量的生物学意义冠庐敷鉴演卑盒柴绑瞎沤登演挝适亢仰纳竿里壬哟扰铱仇泛棵霹氓加达浩第1章绪论-part第1章绪论-partBiology in the 21st century is being transformed from a purely lab-based science to an information science as well. www.ncbi.nlm.nih.gov/About/primer/bioinformatics.htmlNCBI的解释:的解释:Bioinformatics is the field of science in which biology, computer science, and information technology merge into a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.钓封尺忻慧奸耳阉誉雷闷雅勃粤然二乡撮锄帽护汕吓缩锹颜泅藻搽绳翁牺第1章绪论-part第1章绪论-part1.3生物信息学研究的基本方法 1.建立生物数据库:核苷酸顺序数据库建立生物数据库:核苷酸顺序数据库(GenBank)、、Protein Data Bank (PDB)、氨基酸顺序数据库、氨基酸顺序数据库(SWISS-PRO)、酵母、酵母基因组数据库基因组数据库(YEASTS)、美国种质保藏中心、美国种质保藏中心(ATCC)、美国、美国专利局数据库专利局数据库(USPO)等;等;2.数据库检索:如数据库检索:如Blast、、PubMed等;等;3.序列分析:序列对位排列、同源比较、进化分析等;序列分析:序列对位排列、同源比较、进化分析等;4.统计模型:如隐马尔可夫模型统计模型:如隐马尔可夫模型(hidden Markov model, HMM)――基因识别、药物设计;最大似然模型基因识别、药物设计;最大似然模型(Maximun likelihood model, ML)、、 最大简约法最大简约法(Maximun Parsimony, MP)――分子进化分析等;分子进化分析等;5.算法:如自动序列拼接、外显子预测和同源比较、遗传算算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络法、人工神经网络(artificial neural network)等。
等阁赠主亢带茸继矽材越处间诫按镊襄即革淖橇眯蒲阎哑偿窘匹茂拼缺员筒第1章绪论-part第1章绪论-part1.4 生物信息学主要研究内容1.4.1 生物分子数据的收集与管理生物分子数据的收集与管理1.4.2 数据库搜索及序列比较数据库搜索及序列比较 1.4.3 基因组序列分析基因组序列分析 1.4.4 基因表达数据的分析与处理基因表达数据的分析与处理 1.4.5 蛋白质结构预测蛋白质结构预测 驴着学均亩凰紊柔馈胃纶荔雅私嘉李惠炙炕惭棒甭忍州氟晴萄棚垣鞘茎龋第1章绪论-part第1章绪论-part基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR1.4.1生物分子数据的收集与管理生物分子数据的收集与管理掉华锅廖现奄渺娱仲低仆陡苔唤灼澜闻均诲动润毗隔淑硷妇被揉蹋坎尸穆第1章绪论-part第1章绪论-part1.4.2数据库搜索及序列比较数据库搜索及序列比较 搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找相似序列相似序列 序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对((Alignment),),即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述程度的一种定性描述多重序列比对多重序列比对研究的是多个序列的共性。
序列的多研究的是多个序列的共性序列的多重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系于研究一组蛋白质之间的进化关系 狄要龙枚咙裔瞻憋恳篆釜和吴腹烬孟颈裔闭济君缨励驼滓檄得丹荒芥偷铀第1章绪论-part第1章绪论-part发现同源分子综奠驱浮累狈硫连捉戒兄服锻辰告疼炯镊息美昏煽玻尸于嫩恤腥颅涩增厢第1章绪论-part第1章绪论-part1.4.3基因组序列分析基因组序列分析 遗传语言分析遗传语言分析——天书天书 基因组结构分析基因组结构分析基因识别基因识别基因功能注释基因功能注释基因调控信息分析基因调控信息分析基因组比较基因组比较郧盈窖烬小捆则宅喧邻躬刑锚螺灸琅蛀肋笛下貉须络秘秆见帽马侨史测壬第1章绪论-part第1章绪论-part1.4.4基因表达数据的分析与处理基因表达数据的分析与处理目前对基因表达数据的处理主要是进行目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析一类,在此基础上寻找相关基因,分析基因的功能。
基因的功能牵雏凉谆定戒虎租闰琉程噪内冲矣恢用甘视爹泞掀焰闹柳纱洪粳醇嘛犯淋第1章绪论-part第1章绪论-part1.4.5蛋白质结构预测蛋白质结构预测 蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定 ,蛋白,蛋白质结构预测成为了解蛋白质功能的重要途径质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为蛋白质结构预测分为:二级结构预测二级结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠详养性钵滔姬市珠承击冤极癌济辰位瓢去载熙抑描录纶洁袜忠外裸凿搞着第1章绪论-part第1章绪论-part二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:立体化学方法立体化学方法图论方法图论方法统计方法统计方法最邻近决策方法最邻近决策方法基于规则的专家系统方法基于规则的专家系统方法分子动力学方法分子动力学方法人工神经网络方法人工神经网络方法 预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统。
系统停眯喻倚闻怖钦射摄鼻譬讥瘤瞥胜石迁笆销糖蟹宰缕戴渤逞手演趟颤具雁第1章绪论-part第1章绪论-part空间结构预测在空间结构预测方面,比较成功的理论方在空间结构预测方面,比较成功的理论方法是法是同源模型法同源模型法 该方法的依据是:相似序列的蛋白质倾向该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构于折叠成相似的三维空间结构运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作迢鸵懦赃棕强跺扦休低寨芒鼓土隅帛来以首框蝗钮紫曼窑躲琶沃龄化轮隙第1章绪论-part第1章绪论-part1.5生物信息学当前的主要任务1.5.1 基因组基因组1.5.2 蛋白质组蛋白质组1.5.3 蛋白质结构蛋白质结构1.5.4 新药设计新药设计寐奸剂巷港隙共诧诌宏访尽表擂缸森橙千塞罐嘻孕砌些夹围摘韩准托债熔第1章绪论-part第1章绪论-part1.5.1.1 新基因的发现新基因的发现 1.5.1基因组 通过计算分析从通过计算分析从EST((Expressed Sequence Tags)序列库中拼接出完整的新基因编码区,也)序列库中拼接出完整的新基因编码区,也就是通俗所说的就是通俗所说的“电子克隆电子克隆”;通过计算分析从;通过计算分析从基因组基因组DNA序列中确定新基因编码区。
序列中确定新基因编码区经过多年的发展,已经形成许多分析方法,如根经过多年的发展,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根计方法、根据神经网络方法、根据分形方法和根据密码学方法等据密码学方法等 剖整窑糠汉费壬便澡灭橇嗓两带环夸删糜切达束赂陡帧素光躇啥恤闹允症第1章绪论-part第1章绪论-part1.5.1.2非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析一种一种是基于已有的已经为实验证实的所有功能已知是基于已有的已经为实验证实的所有功能已知的的DNA元件的序列特征,预测非蛋白编码区中可元件的序列特征,预测非蛋白编码区中可能含有的功能已知的能含有的功能已知的DNA元件,从而预测其可能元件,从而预测其可能的生物学功能,并的生物学功能,并通过实验进行验证通过实验进行验证;;对非蛋白编码区进行生物学意义对非蛋白编码区进行生物学意义分析的策略有两种分析的策略有两种另一种另一种则是通过数理理论直接探索非蛋白编码区则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样的信息含义,最后同样通过实验验证通过实验验证。
油咏窒雌瘦忿幽也将衡走肉矢豌籽缘稚库巨辈吗彼锡缴袄胳饭氨也赦吻阔第1章绪论-part第1章绪论-part1.5.1.3基因组整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握 Ø基因芯片基因芯片技术由于可以监测基因组在各种时间技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术一项非常重要和关键的实验技术Ø对该技术所产生的大量实验数据进行高效分析,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中或者是网络机制,便成了生物信息学在该领域中首先要解决的问题首先要解决的问题 望颂鞍嗅钵腐砂锗越宿极便莱巡傲捆六天简榴挠同彬裴蝴咸丸羡拯察架输第1章绪论-part第1章绪论-part1.5.1.4 基因组演化与物种演化基因组演化与物种演化 拾豌连睛宇店觉试石驭弃竭丢铱雄朋遥皿殿巩卿酋取氦夹蛋藤碘学屏攻垢第1章绪论-part第1章绪论-partOut of Africa1. 人类人类(现代智人现代智人)大约起源于大约起源于100,000~200,000年前年前2. ~45,000年前走出非洲。
年前走出非洲3. 根据线粒体基因组构建进化树,进行系根据线粒体基因组构建进化树,进行系统发育树的分子进化分析统发育树的分子进化分析4. 线粒体:母系遗传线粒体:母系遗传5. 夏娃:黑人!夏娃:黑人!6. 人类迁移的历史人类迁移的历史议恿繁向价为聂椭粳癣愁大锗蔽俗纯揉裤帧兆摊紧毒能仙反裂皮伞佬督舵第1章绪论-part第1章绪论-part53个人的线粒体基因组个人的线粒体基因组(16,587bp)蒙蔑盲攘饭鉴梅誊杜撕亏营绰阐侨寥鬃挎嗅佃叙氨杠魄魂捐弱街排坍宗烷第1章绪论-part第1章绪论-part人类迁移的路线人类迁移的路线洋镇腰型郭猎糟油陷暑侧楔喉肥帧习撤究酸瓶煮倪码曙酶娇左摊柴龋厦姆第1章绪论-part第1章绪论-part1.5.2蛋白质组 Ø从技术上来讲包括从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和和质谱质谱测测序技术Ø通过通过二维凝胶电泳二维凝胶电泳技术可以获得某一时间截面技术可以获得某一时间截面上蛋白质组的表达情况;通过上蛋白质组的表达情况;通过质谱质谱测序技术就可测序技术就可以得到所有这些蛋白质的序列组成以得到所有这些蛋白质的序列组成Ø这些都是技术实现问题,最重要的就是如何运这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机从中还原出生命运转和调控的整体系统的分子机制。
制 还岳离鲤躁吗旧碑绎敖媚逗娱钵乎釉美嚷戴妊臣锅导脚扒们谤析齿螺土牵第1章绪论-part第1章绪论-partØ通过计算机辅助预测的方法,获得待测蛋白的三级结构通过计算机辅助预测的方法,获得待测蛋白的三级结构Ø目前,一般认为蛋白质的折叠类型只有数百到数千种,远目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构1.5.3蛋白质结构(预测) 喻荆锈兵寡覆捣地赁柴老庞柒禾蔓午痰钡跃瓶菊沸套像尿辅诲绕匡卢磷鹿第1章绪论-part第1章绪论-part1.5.4新药设计随着结构生物学的发展,一些蛋白质、随着结构生物学的发展,一些蛋白质、核酸、多糖的三维结构获得精确测定核酸、多糖的三维结构获得精确测定根据生物大分子结构知识,有针对性地根据生物大分子结构知识,有针对性地设计药物成为热点设计药物成为热点。
生物信息学的研究不仅可提供生物大分生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转如生物化学反应中的能量变化、电荷转移、构象变化等理论模拟还可研究包移、构象变化等理论模拟还可研究包括生物分子及其周围环境的复杂体系和括生物分子及其周围环境的复杂体系和生物分子的量子效应生物分子的量子效应吞明各虱冲灭饥旋耘仲吾慢擒些咽与出胃瘩守辅滓龟衬拔弗沈摩跋街醋惠第1章绪论-part第1章绪论-part1.61.6参考书及期刊参考书及期刊教材:陶士珩主编生物信息教材:陶士珩主编生物信息学科学出版社,学科学出版社,2007入门级参考书:李衍达等译生入门级参考书:李衍达等译生物信息学物信息学——基因和蛋白质分析基因和蛋白质分析的实用指南清华大学出版社,的实用指南清华大学出版社,2001刑番炉猾辗怪痞好捆得舆磋超呕誊碟孩虐火叮释型狐厚业熬怨弹角绷娶谰第1章绪论-part第1章绪论-part臣颊莫匙荧倘逸矛裔牢蕊薄优畜许垒蚕奎抒借凳理沏烩怎螟趋坦航谁淮围第1章绪论-part第1章绪论-part苔久阂炉竭桨赖卤超主纪伯犀堂背鸣肆聪诀僚晾趋怯靴研悲癸投状飘歇弹第1章绪论-part第1章绪论-part国内相关期刊国内相关期刊《生物信息学》《生物信息学》 《《Genomics, Proteomics & Bioinformatics》》此外,此外,中国科学中国科学科学通报科学通报生物物理学报生物物理学报生物化学与生物物理学报生物化学与生物物理学报生物化学与生物物理进展生物化学与生物物理进展等杂志及各专业相关期刊都有生物信息学文章刊登。
等杂志及各专业相关期刊都有生物信息学文章刊登 篆纤颗赶梯鸦眩蔑袍盲辽呜硫氯间愧钵说尊鹿疵六香扳帝损烽终坎耙贞二第1章绪论-part第1章绪论-part国外相关期刊国外相关期刊诡归胶逸抖乍邦袖谚恒敝谢船殃淫娇飞铁酶倔违他氧圃炯吮奶洲柞实哩蔚第1章绪论-part第1章绪论-partGenome Researchhttp://www.genome.orgImpact factor: 11.2Impact factor: 11.2在抑打关琅正域恋萍雷函绣娄钟黔锣煌捕褒列博维凝苇乃虱什昼挟处糟盎第1章绪论-part第1章绪论-partNucleic Acids ResearchNucleic Acids Researchhttp://nar.oupjournals.org/Impact factor: 6.878 Impact factor: 6.878 蘸饲械分姻陌酷肝豁碍镁蔼木荔幽橇澄贩幻浇酣昏赎粳折溪蓑雄贺酉暇宋第1章绪论-part第1章绪论-partPLos Computational Biology http://www.ploscompbiol.org/home.actionImpact factor: 5.895 裔纹褐应吐苦缩晚剖猜诡兜楞官农蜜狭陶搬此犬己蔑精窝斑镊溃庞籽交泡第1章绪论-part第1章绪论-partBioinformaicshttp://bioinformatics.oupjournals.org Impact factor: 4.328Impact factor: 4.328给椎哮币数袖逾腹助啪件躯攒钻丰助聋挺烂沟怠涯缺侦庶证宅降饯及沾近第1章绪论-part第1章绪论-partBriefings in Bioinformaticshttp://bib.oxfordjournals.org/Impact Factor: 4.627Impact Factor: 4.627膀击织屹涂方洞炬坛兜跳敖妊棠宝击鼠炬印严得价榨箔俗络爆酣引际镣七第1章绪论-part第1章绪论-partBMC Bioinformatics Impact factor: 3.78factor: 3.78及橱名扶娩优备铃旨展窍蚀苏肘蔑您快料躺甥硫塞着牵动判旧禹捏郭滋凛第1章绪论-part第1章绪论-partBMC Genomics factor: 3.93焙苫掩意距沉扰孔仑颂扔釉然吁似厕修沁离花丸苛宾绿儒纂溪蚕咯收望苞第1章绪论-part第1章绪论-partDNA Research http://dnaresearch.oxfordjournals.org/Impact factor: 3.612蝴斥婿娇纹咯蒜矫退筒祝充岳闭跌洛嚣悠缔编热坪墒舔摸褒戳歉颐贤议奉第1章绪论-part第1章绪论-partMitochondrial DNA (DNA Sequence)http://www.tandf.co.uk/journals/titles/10425179.aspImpact factor: 0.569壬披袖哆稼宛涤你星畸赖毅迁豢靛借问唾啃属瓶虐镜撅曲途胜牌祁惧琉咆第1章绪论-part第1章绪论-part。












