资源预览内容
第1页 / 共140页
第2页 / 共140页
第3页 / 共140页
第4页 / 共140页
第5页 / 共140页
第6页 / 共140页
第7页 / 共140页
第8页 / 共140页
第9页 / 共140页
第10页 / 共140页
亲,该文档总共140页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
生物信息学的应用生物信息学的应用1 1高等课堂高等课堂生物信息学生物信息学(Bioinformatics)生物分子生物分子数数据据计算机计算机计计算算+2 2高等课堂高等课堂概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递和表达的存贮、传递和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理药理过程的中各种生物信息药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学 3 3高等课堂高等课堂概念(狭义)概念(狭义)生物生物分子数据分子数据深层次深层次生物学知识生物学知识分子生物信息学分子生物信息学Molecular Bioinformatics挖掘挖掘获取获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用4 4高等课堂高等课堂 生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体n nDNA分子分子n n蛋白质分子蛋白质分子5 5高等课堂高等课堂生物分子至少携带着三种信息生物分子至少携带着三种信息n n遗传信息遗传信息遗传信息遗传信息n n与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息n n进化信息进化信息进化信息进化信息6 6高等课堂高等课堂第一节第一节 生物信息学与基因组学生物信息学与基因组学一、生物信息学概述一、生物信息学概述一、生物信息学概述一、生物信息学概述( (一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史uu生物信息学发展的生物信息学发展的生物信息学发展的生物信息学发展的3 3个阶段:个阶段:个阶段:个阶段: 前基因组时代前基因组时代前基因组时代前基因组时代 基因组时代基因组时代基因组时代基因组时代 后基因组时代后基因组时代后基因组时代后基因组时代 uu生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络: 19561956年,年,年,年,在美国田纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡(GatlinburgGatlinburg)召开的首次)召开的首次)召开的首次)召开的首次“ “生物学中的信息生物学中的信息生物学中的信息生物学中的信息理论研讨会理论研讨会理论研讨会理论研讨会” ”上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念. .19871987年,年,年,年,佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学3232岁的林华安岁的林华安岁的林华安岁的林华安(Wa.A.LimWa.A.Lim)博士首创)博士首创)博士首创)博士首创“ “BioinformaticsBioinformatics” ” 一词,被誉为一词,被誉为一词,被誉为一词,被誉为“ “世界生物信息之父世界生物信息之父世界生物信息之父世界生物信息之父” ”。7 7高等课堂高等课堂 1990 1990年,林华安博士发起第一届国际年,林华安博士发起第一届国际年,林华安博士发起第一届国际年,林华安博士发起第一届国际 BioinformaticsBioinformatics学术会议。学术会议。学术会议。学术会议。 19901990年年年年1010月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学“ “阿波罗登月计划阿波罗登月计划阿波罗登月计划阿波罗登月计划” ”的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(HGPHGP)启动。)启动。)启动。)启动。 19951995年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。 20002000年年年年6 6月月月月2626日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。 20032003年年年年4 4月月月月1414日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经1313年共同努力,年共同努力,年共同努力,年共同努力,人类基因组序列图(人类基因组序列图(人类基因组序列图(人类基因组序列图(“ “完成图完成图完成图完成图” ”)提前绘制成功。人)提前绘制成功。人)提前绘制成功。人)提前绘制成功。人类迈入类迈入类迈入类迈入“ “后基因组时代后基因组时代后基因组时代后基因组时代” ”(Post-genomic Era)(Post-genomic Era)。8 8高等课堂高等课堂(二)生物信息学的主要研究内容(二)生物信息学的主要研究内容1 1生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供2 2基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析3 3功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析4 4基因表达数据的分析与处理基因表达数据的分析与处理基因表达数据的分析与处理基因表达数据的分析与处理5 5 蛋白质结构预测蛋白质结构预测蛋白质结构预测蛋白质结构预测 9 9高等课堂高等课堂基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR1、 生物分子数据的收集与管理生物分子数据的收集与管理1010高等课堂高等课堂2、 数据库搜索及序列比较数据库搜索及序列比较 n n搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找相似序列相似序列相似序列相似序列 n n序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对比对比对(AlignmentAlignment),),),),即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述程度的一种定性描述程度的一种定性描述程度的一种定性描述n n多重序列比对多重序列比对多重序列比对多重序列比对研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。 1111高等课堂高等课堂发现同源分子发现同源分子1212高等课堂高等课堂3、 基因组序列分析基因组序列分析 n n遗传语言分析遗传语言分析天书天书 n n基因组结构分析基因组结构分析n n基因识别基因识别n n基因功能注释基因功能注释n n基因调控信息分析基因调控信息分析n n基因组比较基因组比较1313高等课堂高等课堂4、基因表达数据的分析与处理、基因表达数据的分析与处理n n基因表达数据分析是目前生物信息学研究的基因表达数据分析是目前生物信息学研究的热点和重点热点和重点 n n目前对基因表达数据的处理主要是进行聚类目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能此基础上寻找相关基因,分析基因的功能 1414高等课堂高等课堂基因芯片基因芯片1515高等课堂高等课堂二二维维电电泳泳图图1616高等课堂高等课堂5、蛋白质结构预测、蛋白质结构预测 n n蛋白质的生物功能由蛋白质的结构所决蛋白质的生物功能由蛋白质的结构所决定定 ,蛋白质结构预测成为了解蛋白质功,蛋白质结构预测成为了解蛋白质功能的重要途径能的重要途径n n蛋白质结构预测分为蛋白质结构预测分为:n n二级结构预测二级结构预测二级结构预测二级结构预测n n空间结构预测空间结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠1717高等课堂高等课堂二级结构预测二级结构预测n n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:n n立体化学方法立体化学方法立体化学方法立体化学方法n n图论方法图论方法图论方法图论方法n n统计方法统计方法统计方法统计方法n n最邻近决策方法最邻近决策方法最邻近决策方法最邻近决策方法n n基于规则的专家系统方法基于规则的专家系统方法基于规则的专家系统方法基于规则的专家系统方法n n分子动力学方法分子动力学方法分子动力学方法分子动力学方法n n人工神经网络方法人工神经网络方法人工神经网络方法人工神经网络方法 n n预测准确率超过预测准确率超过预测准确率超过预测准确率超过70%70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHDPHD系统系统系统系统1818高等课堂高等课堂空间结构预测空间结构预测n n在空间结构预测方面,比较成功的理论在空间结构预测方面,比较成功的理论方法是方法是同源模型法同源模型法 n n该方法的依据是:相似序列的蛋白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构 n n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作 1919高等课堂高等课堂(三)生物信息学研究现状与展望(三)生物信息学研究现状与展望 1国外生物信息学研究现状国外生物信息学研究现状2我国生物信息学研究现状我国生物信息学研究现状3我国生物信息学研究目标我国生物信息学研究目标 实实实实现现现现基基基基因因因因组组组组数数数数据据据据、蛋蛋蛋蛋白白白白质质质质组组组组和和和和结结结结构构构构基基基基因因因因组组组组数数数数据据据据、天天天天然然然然及及及及合合合合成成成成化化化化合合合合物物物物数数数数据据据据的的的的计计计计算算算算机机机机处处处处理理理理、分分分分析析析析和和和和可可可可视视视视化化化化,以以以以及及及及生生生生物物物物实实实实验验验验和和和和生生生生物物物物分分分分子子子子的的的的模模模模拟拟拟拟设设设设计计计计,解解解解析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等2020高等课堂高等课堂n n蛋白质研究为生物信息学提供了极为蛋白质研究为生物信息学提供了极为丰富的研究数据,极大地推动了生物丰富的研究数据,极大地推动了生物信息学的发展。生物信息学在蛋白质信息学的发展。生物信息学在蛋白质的序列分析、结构预测、功能预测、的序列分析、结构预测、功能预测、分子设计等方面具有重要应用。分子设计等方面具有重要应用。二、生物信息学与蛋白质二、生物信息学与蛋白质2121高等课堂高等课堂n n序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过比较比较比较比较两个或两个或两个或两个或多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的相似区域和保守性位点相似区域和保守性位点相似区域和保守性位点相似区域和保守性位点,确定,确定,确定,确定相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,进一步分析其结构和功能。进一步分析其结构和功能。进一步分析其结构和功能。进一步分析其结构和功能。 n n把把把把未知结构未知结构未知结构未知结构的蛋白质序列与的蛋白质序列与的蛋白质序列与的蛋白质序列与已知具有三维结构已知具有三维结构已知具有三维结构已知具有三维结构的的的的蛋白质序列进行蛋白质序列进行蛋白质序列进行蛋白质序列进行序列比对序列比对序列比对序列比对,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息 (一)蛋白质序列分析(一)蛋白质序列分析2222高等课堂高等课堂(二)蛋白质结构预测(二)蛋白质结构预测n n蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容 二级结构预测二级结构预测二级结构预测二级结构预测 三维结构预测三维结构预测三维结构预测三维结构预测n n蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法 理论分析方法:理论分析方法:理论分析方法:理论分析方法:是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。 统计分析方法:统计分析方法:统计分析方法:统计分析方法:是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。2323高等课堂高等课堂是否未知蛋白序列与已知功能的蛋白质相似是否未知蛋白序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列确定跨膜螺旋、卷曲螺旋和前导序列未知序列是否包含保守序列模体未知序列是否包含保守序列模体查对查对PROSITE数据库库数据库库查对查对BLOCKS和和PRINTS数据库数据库整理所有肯定的结果并核对一致性整理所有肯定的结果并核对一致性预测蛋白质功能预测蛋白质功能蛋白质功能预测流程图蛋白质功能预测流程图(三)蛋白质功能预测(三)蛋白质功能预测(引自引自HPDB蛋白质数据库蛋白质数据库(http:/hpdb.hbu.edu.cn/prediction/subprediction/functionalflowchat.asp)2424高等课堂高等课堂(四)蛋白质分子设计(四)蛋白质分子设计n n蛋白质分子设计类型:按照被改造部位的蛋白质分子设计类型:按照被改造部位的多少可以分为多少可以分为 “小改小改”、“中改中改”和和“大大改改”三种。三种。 “ “小改小改小改小改” ”:即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行定位突变或定位突变或定位突变或定位突变或化学修饰化学修饰化学修饰化学修饰改变其结构和功能。改变其结构和功能。改变其结构和功能。改变其结构和功能。 “ “中改中改中改中改” ”:即通过对即通过对即通过对即通过对来源于不同来源于不同来源于不同来源于不同蛋白质的蛋白质的蛋白质的蛋白质的结构域结构域结构域结构域进行拼接和组装进行拼接和组装进行拼接和组装进行拼接和组装,从而较大程度的改变其结构和,从而较大程度的改变其结构和,从而较大程度的改变其结构和,从而较大程度的改变其结构和功能。功能。功能。功能。“ “大改大改大改大改” ”:即即即即完全从头设计完全从头设计完全从头设计完全从头设计出一种具有特异结构出一种具有特异结构出一种具有特异结构出一种具有特异结构与功能的全新蛋白质。与功能的全新蛋白质。与功能的全新蛋白质。与功能的全新蛋白质。2525高等课堂高等课堂n n常用的数据库有常用的数据库有常用的数据库有常用的数据库有: 核酸序列数据库(核酸序列数据库(核酸序列数据库(核酸序列数据库(Nucleotide Sequence DatabasesNucleotide Sequence Databases) RNA RNA 序列数据库(序列数据库(序列数据库(序列数据库(RNA sequence databasesRNA sequence databases) 蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(Protein sequence databasesProtein sequence databases) 结构数据库(结构数据库(结构数据库(结构数据库(Structure DatabasesStructure Databases) 基因组数据库(基因组数据库(基因组数据库(基因组数据库(Genomics Databases (non-vertebrateGenomics Databases (non-vertebrate) )) 代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(Metabolic and Signaling PathwaysMetabolic and Signaling Pathways) 人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(Human and other Vertebrate GenomesHuman and other Vertebrate Genomes) 人类基因和疾病(人类基因和疾病(人类基因和疾病(人类基因和疾病(Human Genes and DiseasesHuman Genes and Diseases) 芯片和其他基因表达数据库芯片和其他基因表达数据库芯片和其他基因表达数据库芯片和其他基因表达数据库(Microarray Data and other Gene Expression Databases)(Microarray Data and other Gene Expression Databases); 蛋白蛋白蛋白蛋白组资源组资源组资源组资源( (Proteomics Resources Proteomics Resources ) ); 其他分子生物学数据库其他分子生物学数据库其他分子生物学数据库其他分子生物学数据库(Other Molecular Biology Databases)(Other Molecular Biology Databases) 细胞器官数据库细胞器官数据库细胞器官数据库细胞器官数据库(Organelle databases)(Organelle databases); 植物数据库植物数据库植物数据库植物数据库(Plant databases(Plant databases) ); 免疫学数据库免疫学数据库免疫学数据库免疫学数据库(Immunological databases)(Immunological databases)第二节第二节 常用数据库常用数据库2626高等课堂高等课堂n n生物信息学数据库类型生物信息学数据库类型一次数据库一次数据库一次数据库一次数据库:数据:数据:数据:数据直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。 如如如如GenbankGenbank、EMBLEMBL和和和和DDBJDDBJ等核酸序列数据库;等核酸序列数据库;等核酸序列数据库;等核酸序列数据库;SWISS-PROTSWISS-PROT、PIRPIR等蛋白质序列数据库;等蛋白质序列数据库;等蛋白质序列数据库;等蛋白质序列数据库;PDBPDB等蛋等蛋等蛋等蛋白质结构数据库。白质结构数据库。白质结构数据库。白质结构数据库。二次数据库二次数据库二次数据库二次数据库:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识和信息进行进一步分析和整理。和信息进行进一步分析和整理。和信息进行进一步分析和整理。和信息进行进一步分析和整理。 如人类基因组图谱库如人类基因组图谱库如人类基因组图谱库如人类基因组图谱库GDBGDB、转录因子和结合位点、转录因子和结合位点、转录因子和结合位点、转录因子和结合位点库库库库TRANSFACTRANSFAC、蛋白质结构家族分类库、蛋白质结构家族分类库、蛋白质结构家族分类库、蛋白质结构家族分类库SCOPSCOP等。等。等。等。2727高等课堂高等课堂图图6-2 生物信息学数据库相互关系生物信息学数据库相互关系 n 生物信息学数据库相互关系生物信息学数据库相互关系2828高等课堂高等课堂n常用数据库常用数据库类类 型型名名 称称网网 址址 核核酸酸序序 列列一次数据库一次数据库Genebankhttp:/www.ncbi.nlm.nih.gov/Genbank/EMBLhttp:/www.ebi.ac.uk/embl/DDBJhttp:/www.ddbj.nig.ac.jp/Welcome.html.ja/基因组基因组一次数据库一次数据库GDBhttp:/www.gdb.org/蛋蛋白白质质序序 列列一次数据库一次数据库SWISS-PROThttp:/www.expasy.org/sprot/PIRhttp:/pir.georgetown.edu/TrEMBLhttp:/www.ebi.ac.uk/trembl/UniProthttp:/www.ebi.uniprot.org/index.shtml/MIPShttp:/mips.gsf.de/GenPeptftp:/ftp.ncifcrf.gov/pub/genpept/NRL-3Dhttp:/www.psc.edu/general/software/packages/nrl_3d/nrl_3d.html/复合数据库复合数据库NRDBhttp:/www.nrdb.co.uk/OWLhttp:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROTTrEMBLhttp:/www.ebi.ac.uk/clustr/二次数据库二次数据库PROSITEhttp:/www.expasy.org/prosite/PRINTShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKShttp:/blocks.fhcrc.org/Pfamhttp:/pfam.sanger.ac.uk/IDENTIFYhttp:/dna.stanford.edu/identify/COGshttp:/www.ncbi.nlm.nih.gov/COG/ProDomhttp:/www.toulouse.inra.fr/prodom.html/2929高等课堂高等课堂结结 构构一次数据库一次数据库PDBhttp:/www.rcsb.org/pdb/home/home.doMMDBhttp:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml/二次数据库二次数据库DSSPhttp:/www.sander.embl-heidelberg.de/dssp/HSSPhttp:/www.sander.embl-heidelberg.de/hssp/FSSPhttp:/www.ebi.ac.uk/dali/fssp/PSdbhttp:/www.psc.edu/geigel/PSdb/PSdb.html/结构分类结构分类SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/CATHhttp:/www.cathdb.info/latest/index.html/PDBsumhttp:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/ 分类分类二次数据库二次数据库ProtoMaphttp:/protomap.cornell.edu蛋白质组蛋白质组蛋白质组蛋白质组氨基酸索引氨基酸索引AAindexhttp:/www.genome.ad.jp/dbget/蛋白质间功能关蛋白质间功能关系系Predictomehttp:/visant.bu.edu/蛋白质组分析蛋白质组分析ProteomeAnalysishttp:/www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二维凝胶电泳二维凝胶电泳GELBANKhttp:/gelbank.anl.gov/SWISS-2DPAGEhttp:/www.expasy.org/ch2d/酵母蛋白质定位酵母蛋白质定位YPL.dbhttp:/ypl.tugraz.at/模式生物蛋白质模式生物蛋白质组组BioknowledgeLibrnaryhttp:/www.biobase-international.com/pages/index.php?id=home/3030高等课堂高等课堂一、核酸数据库一、核酸数据库n n(一)核酸序列数据库(一)核酸序列数据库 目前,国际上主要有目前,国际上主要有目前,国际上主要有目前,国际上主要有GenbankGenbank、EMBLEMBL、DDBJDDBJ三大核酸序列数据库,三大核酸数据库之间三大核酸序列数据库,三大核酸数据库之间三大核酸序列数据库,三大核酸数据库之间三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。每天相互交换数据,保持数据同步更新。每天相互交换数据,保持数据同步更新。每天相互交换数据,保持数据同步更新。3131高等课堂高等课堂1. Genbank1. GenbankGenbankGenbank由美国国立生物技术信息中心由美国国立生物技术信息中心由美国国立生物技术信息中心由美国国立生物技术信息中心(NCBI)(NCBI)建立维护,其主页如图建立维护,其主页如图建立维护,其主页如图建立维护,其主页如图6-36-3所示。所示。所示。所示。3232高等课堂高等课堂uGenbank数据直接来源数据直接来源 测序工作者提交的序列、测序中心提交的大测序工作者提交的序列、测序中心提交的大量量EST序列、其它测序数据以及与其它数据机构序列、其它测序数据以及与其它数据机构协作交换的数据。协作交换的数据。uGenbank内容内容 所有已知的核酸序列和蛋白质序列,还包所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。参考文献、序列特征表等辅助信息。uGenbank对数据记录的处理对数据记录的处理 划分为划分为 细菌类、病毒类、灵长类、啮齿类,细菌类、病毒类、灵长类、啮齿类, EST数据、基因组测序数据、大规模基因组序列数据、基因组测序数据、大规模基因组序列数据等数据等16类。类。3333高等课堂高等课堂()()Genbank数据检索数据检索通过通过通过通过NCBI NCBI 首页首页首页首页“ “SearchSearch” ”选项中的选项中的选项中的选项中的“ “genegene” ”或或或或“ “NucleotideNucleotide” ”等选项,在检索窗口输等选项,在检索窗口输等选项,在检索窗口输等选项,在检索窗口输入检索词进行直接检索;利用入检索词进行直接检索;利用入检索词进行直接检索;利用入检索词进行直接检索;利用NCBINCBI网站的综合生物信息数据库检索系统网站的综合生物信息数据库检索系统网站的综合生物信息数据库检索系统网站的综合生物信息数据库检索系统EntrezEntrez提供的提供的提供的提供的限制条件限制条件限制条件限制条件(Limits)(Limits)、索引、索引、索引、索引(Index)(Index)、检索历史、检索历史、检索历史、检索历史(History)(History)和剪贴板和剪贴板和剪贴板和剪贴板(Clipboard)(Clipboard)等功能进行精等功能进行精等功能进行精等功能进行精细检索细检索细检索细检索图图6-4 NCBI-Entrz gene检索界面检索界面3434高等课堂高等课堂3535高等课堂高等课堂 Entrez Entrez 综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库(MEDLINEMEDLINE),获取序列相关的文献信息。可以利用),获取序列相关的文献信息。可以利用),获取序列相关的文献信息。可以利用),获取序列相关的文献信息。可以利用Entrez cross-database Entrez cross-database 数数数数据库进行综合信息检索(图据库进行综合信息检索(图据库进行综合信息检索(图据库进行综合信息检索(图6-56-5)。)。)。)。图图6-5 NCBI-Entrez cross-database检索界面检索界面3636高等课堂高等课堂美国国家生物技术信息中心美国国家生物技术信息中心 (NCBI)EntrezEntrez,TheLifeSciencesSearchEngine3737高等课堂高等课堂PubMed:PubMed: biomedical literature citations and abstractsbiomedical literature citations and abstracts 是一个医学文献网络搜索界面是一个医学文献网络搜索界面 BLAST(Basic Local Alignment search Tool)是是 DNA DNA 或氨基酸序列比对分析的重要软件或氨基酸序列比对分析的重要软件 3838高等课堂高等课堂 OMIM: online Mendelian Inheritance in Man 人类孟德尔遗传数据库在线人类孟德尔遗传数据库在线 Books: online books3939高等课堂高等课堂TaxBrowser:Taxonomy browser分类浏览器Structure:该目录下最重要的资源是分子模型数据库 MMDB 及 Cn3D 生物大分子三维模型查看软件4040高等课堂高等课堂uEMBL和和GenBank数据库识别标志数据库识别标志EMBL识别标志志GenBank识别标志志含含义IDLOCUS标识字符串及短描述字字符串及短描述字XX为阅读清晰而加的空行清晰而加的空行ACACCESSION唯一的提取号唯一的提取号SVVERSION序列版本号序列版本号DTDATE建立日期建立日期DEDEFINITION简单的描述的描述KWKEYWORDS关关键字字OSSOURCE来源生物体来源生物体OCORGANISM生物体分生物体分类谱系系RNREFERENCE引文引文编号号RCREMARK引文注引文注释RP其他注其他注释RX MEDLINEMEDLINE引文代引文代码4141高等课堂高等课堂RAAUTHORS引文作者引文作者RTTITLE引文引文题目目RLJOURNAL引文出引文出处CCCOMMENT评注注DR相关数据相关数据库交叉引用交叉引用号号FHFEATURES特性表特性表头FT特征表特征表SQEMBL序列开始,后序列开始,后跟跟长度、字母数度、字母数BASE COUNTGeneBank碱基数碱基数ORIGINGeneBank序列开始序列开始标志,志,为空行空行/序列序列结束束标志志4242高等课堂高等课堂uGenBank核酸数据库实例核酸数据库实例 以人畜共患的病源菌鼠伤寒沙门氏菌(以人畜共患的病源菌鼠伤寒沙门氏菌(Salmonella typhimurium )H1相抗原基因相抗原基因H-1-i为例,简要说明为例,简要说明GenBank核核酸数据库的数据格式。酸数据库的数据格式。LOCUS STYFLGH1I 1485 bp DNA linear BCT 26-APR-1993DEFINITION Salmonella typhimurium H-1-i gene encoding phase 1 flagellar filament protein (flagellin), complete cds. ACCESSION M11332VERSION M11332.1 GI:153978KEYWORDS flagellin.SOURCE Salmonella typhimurium ORGANISM Salmonella typhimurium Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella.REFERENCE 1 (bases 1 to 1485) AUTHORS Joys,T.M. TITLE The covalent structure of the phase-1 flagellar filament protein of Salmonella typhimurium and its comparison with other flagellins JOURNAL J. Biol. Chem. 260 (29), 15758-15761 (1985) PUBMED 2999134序列标识序列标识简单描述简单描述序列编号序列编号版本号版本号关键词关键词物种来源物种来源物种分类物种分类引文编号引文编号引文作者引文作者引文标题引文标题引文出处引文出处4343高等课堂高等课堂COMMENT Original source text: S.typhimurium SL877 DNA. Draft entry and clean copy sequence for 1 kindly provided by T.M.Joyce, 18-FEB-1986. Individual Salmonella serotypes usually alternate between the production of two antigenic forms of flagella, termed phase-1 and phase-2, each specified by separate structural genes. Both ends of the flagellin gene act in the regulation of flagellin synthesis.FEATURES Location/Qualifiers source 1.1485 /organism=Salmonella typhimurium /mol_type=genomic DNA /db_xref=taxon:602 CDS 13.1485 /note=phase-1 flagellar filament protein /codon_start=1 /transl_table=11 /protein_id=AAA27072.1 /db_xref=GI:153979评注评注特征表特征表编码区编码区4444高等课堂高等课堂 /translation=MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLRORIGIN 98 bp upstream of TaqI site. 1 aaggaaaaga tcatggcaca agtcattaat acaaacagcc tgtcgctgtt gacccagaat 61 aacctgaaca aatcccagtc cgctctgggc accgctatcg agcgtctgtc ttccggtctg 121 cgtatcaaca gcgcgaaaga cgatgcggca ggtcaggcga ttgctaaccg ttttaccgcg 181 aacatcaaag gtctgactca ggcttcccgt aacgctaacg acggtatctc cattgcgcag 241 accactgaag gcgcgctgaa cgaaatcaac aacaacctgc agcgtgtgcg tgaactggcg 301 gttcagtctg ctaacagcac caactcccag tctgacctcg actccatcca ggctgaaatc蛋白序列蛋白序列基因序列基因序列4545高等课堂高等课堂361 acccagcgtc tgaacgaaat cgaccgtgta aatggccaga ctcagttcag cggcgtgaaa421 gtcctggcgc aggacaacac cctgaccatc caggttggtg ccaacgacgg tgaaactatc481 gatatcgatc tgaagcagat caactctcag accctgggtc tggatacgct gaatgtgcaa541 caaaaatata aggtcagcga tacggctgca actgttacag gatatgccga tactacgatt601 gctttagaca atagtacttt taaagcctcg gctactggtc ttggtggtac tgacgagaaa661 attgatggcg atttaaaatt tgatgatacg actggaaaat attacgccaa agttaccgtt721 acggggggaa ctggtaaaga tggctattat gaagtttccg ttgataagac gaacggtgag781 gtgactcttg ctgcggtcac tcccgctaca gtgactactg cgacagcact gagtggaaaa841 atgtacagtg caaatcctga ttctgacata gctaaagccg cattgacagc agcaggtgtt901 accggcacag catctgttgt taagatgtct tatactgata ataacggtaa aactattgat961 ggtggtttag cagttaaggt aggcgatgat tactattctg caactcaaga taaagatggt1021 tccataagta ttgatactac gaaatacact gcagataacg gtacatccaa aactgcacta1081 aacaaactgg gtggcgcaga cggcaaaacc gaagtcgtta ctatcgacgg taaaacctac1141 aatgccagca aagccgctgg tcatgatttc aaagcagaac cagagctggc ggaacaagcc1201 gctaaaacca ccgaaaaccc gctgcagaaa attgatgctg ctttggcaca ggttgacacg1261 ttacgttctg acctgggtgc ggtacagaac cgtttcaact ccgctattac caacctgggc1321 aacaccgtaa acaacctgtc ttctgcccgt agccgtatcg aagattccga ctacgcgacc1381 gaagtctcca acatgtctcg cgcgcagatt ctgcagcagg ccggtacctc cgttctggcg1441 caggcgaacc aggttccgca aaacgtcctc tctttactgc gttaa/ 记录结束记录结束4646高等课堂高等课堂n n少量序列利用少量序列利用少量序列利用少量序列利用BankItBankIt提交,大量序列利用提交,大量序列利用提交,大量序列利用提交,大量序列利用SequinSequin程序进行程序进行程序进行程序进行提交。提交。提交。提交。n nNCBINCBI网站提供数据查询、序列相似性搜索等服务,从其网站提供数据查询、序列相似性搜索等服务,从其网站提供数据查询、序列相似性搜索等服务,从其网站提供数据查询、序列相似性搜索等服务,从其FTPFTP服务器上可免费下载服务器上可免费下载服务器上可免费下载服务器上可免费下载GenbankGenbank数据。数据。数据。数据。NCBINCBI网址:网址:网址:网址: http:/www.ncbi.nlm.nih.gov/http:/www.ncbi.nlm.nih.gov/BankItBankIt网址:网址:网址:网址: http:/www.ncbi.nlm.nih.gov/BankIt/http:/www.ncbi.nlm.nih.gov/BankIt/ Sequin Sequin网址:网址:网址:网址: http:/www.ncbi.nlm.nih.gov/Sequin/http:/www.ncbi.nlm.nih.gov/Sequin/ Genebank Genebank网址:网址:网址:网址: http:/www.ncbi.nlm.nih.gov/Genbank/http:/www.ncbi.nlm.nih.gov/Genbank/ Entrez gene Entrez gene网址:网址:网址:网址: http:/www.ncbi.nlm.nih.gov/sites/entrez?db=genehttp:/www.ncbi.nlm.nih.gov/sites/entrez?db=gene Entrez cross-database Entrez cross-database网址:网址:网址:网址:http:/www.ncbi.nlm.nih.gov/sites/gquery/http:/www.ncbi.nlm.nih.gov/sites/gquery/(2)向)向Genbank提交序列数据提交序列数据4747高等课堂高等课堂n nEMBLEMBL核酸序列数据库核酸序列数据库核酸序列数据库核酸序列数据库创建于创建于创建于创建于19821982年,由欧年,由欧年,由欧年,由欧洲生洲生洲生洲生物信息学研究所物信息学研究所物信息学研究所物信息学研究所(EBI)(EBI)管理维护。使用序列提取系管理维护。使用序列提取系管理维护。使用序列提取系管理维护。使用序列提取系统统统统(SRS)(SRS)进行查询检索,利用基于网络的进行查询检索,利用基于网络的进行查询检索,利用基于网络的进行查询检索,利用基于网络的WEBINWEBIN工具,或利用工具,或利用工具,或利用工具,或利用SequinSequin软件向软件向软件向软件向EMBLEMBL核酸序列数据核酸序列数据核酸序列数据核酸序列数据库提交序列。库提交序列。库提交序列。库提交序列。 EMBLEMBL网址:网址:网址:网址: http:/www.ebi.ac.uk/embl/http:/www.ebi.ac.uk/embl/ SRS SRS的网址:的网址:的网址:的网址: http:/srs.ebi.ac.uk/http:/srs.ebi.ac.uk/ WEBIN WEBIN网址:网址:网址:网址: http:/www.ebi.ac.uk/webin-http:/www.ebi.ac.uk/webin-align/webinalign_help.html/align/webinalign_help.html/ Sequin Sequin网址:网址:网址:网址: http:/www.ebi.ac.uk/Sequin/http:/www.ebi.ac.uk/Sequin/2. EMBL核酸序列数据库核酸序列数据库4848高等课堂高等课堂n nDDBJDDBJ核酸序列数据库创建于核酸序列数据库创建于核酸序列数据库创建于核酸序列数据库创建于19861986年,由年,由年,由年,由日本国家日本国家日本国家日本国家遗传学研究所遗传学研究所遗传学研究所遗传学研究所负责维护和管理。使用负责维护和管理。使用负责维护和管理。使用负责维护和管理。使用SRSSRS工具进工具进工具进工具进行数据检索和序列分析,利用行数据检索和序列分析,利用行数据检索和序列分析,利用行数据检索和序列分析,利用SequinSequin软件向该数软件向该数软件向该数软件向该数据库提交序列。为方便检索据库提交序列。为方便检索据库提交序列。为方便检索据库提交序列。为方便检索DDBJDDBJ主页可进行日文主页可进行日文主页可进行日文主页可进行日文和英文互换。和英文互换。和英文互换。和英文互换。DDBJDDBJ的日文版网址:的日文版网址:的日文版网址:的日文版网址: http:/www.ddbj.nig.ac.jp/index-j.html/ http:/www.ddbj.nig.ac.jp/index-j.html/ DDBJDDBJ的英文版网址:的英文版网址:的英文版网址:的英文版网址: http:/www.ddbj.nig.ac.jp/index-e.html/http:/www.ddbj.nig.ac.jp/index-e.html/3. DDBJ数据库数据库4949高等课堂高等课堂(二)基因组数据库(二)基因组数据库GDBn n基因组数据库基因组数据库基因组数据库基因组数据库(GDB)(GDB)创建于创建于创建于创建于19901990年,是一个专门年,是一个专门年,是一个专门年,是一个专门汇集汇集汇集汇集人类基因组数据人类基因组数据人类基因组数据人类基因组数据的数据库,以对象模型来保的数据库,以对象模型来保的数据库,以对象模型来保的数据库,以对象模型来保存数据,提供基于网络的数据对象检索服务,可存数据,提供基于网络的数据对象检索服务,可存数据,提供基于网络的数据对象检索服务,可存数据,提供基于网络的数据对象检索服务,可搜索各种类型的对象,并以图形方式观看基因组搜索各种类型的对象,并以图形方式观看基因组搜索各种类型的对象,并以图形方式观看基因组搜索各种类型的对象,并以图形方式观看基因组图谱。图谱。图谱。图谱。n nGDB的网址是:的网址是: http:/www.gdb.org/5050高等课堂高等课堂n n(一)蛋白质序列数据库(一)蛋白质序列数据库 常常用用的的蛋蛋白白质质序序列列数数据据库库有有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等等,分分述述如下。如下。 1SWISS-PROT SWISS-PROT数据库提供蛋白质序列查询数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。及相似蛋白质序列搜索等服务。 二、蛋白质数据库二、蛋白质数据库5151高等课堂高等课堂图图6-6 Swiss-Prot数据库网站主页数据库网站主页5252高等课堂高等课堂SWISS-PROTSWISS-PROT数据库内容数据库内容数据库内容数据库内容 核心数据核心数据核心数据核心数据:包括蛋白质序列、引用文献、分类信:包括蛋白质序列、引用文献、分类信:包括蛋白质序列、引用文献、分类信:包括蛋白质序列、引用文献、分类信息等。息等。息等。息等。 注注注注 释:释:释:释:包括包括包括包括结构域结构域结构域结构域、功能位点功能位点功能位点功能位点、跨膜区域跨膜区域跨膜区域跨膜区域、二硫键位置二硫键位置二硫键位置二硫键位置、翻译后修饰翻译后修饰翻译后修饰翻译后修饰、与其它蛋白质的、与其它蛋白质的、与其它蛋白质的、与其它蛋白质的相似相似相似相似性性性性等。等。等。等。SWISS-PROTSWISS-PROT将广泛收集的相关数据进行合并,将广泛收集的相关数据进行合并,将广泛收集的相关数据进行合并,将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(且与蛋白质三维结构数据库(且与蛋白质三维结构数据库(且与蛋白质三维结构数据库(PDBPDB)等其他数据)等其他数据)等其他数据)等其他数据库交互索引。库交互索引。库交互索引。库交互索引。通过通过通过通过SWISS-PROTSWISS-PROT数据库可以得到某蛋白质的序数据库可以得到某蛋白质的序数据库可以得到某蛋白质的序数据库可以得到某蛋白质的序列,再通过交互引用从列,再通过交互引用从列,再通过交互引用从列,再通过交互引用从PDBPDB数据库得到其结构。数据库得到其结构。数据库得到其结构。数据库得到其结构。SWISS-PROTSWISS-PROT数据由数据行排列组成,数据格式数据由数据行排列组成,数据格式数据由数据行排列组成,数据格式数据由数据行排列组成,数据格式与与与与EMBLEMBL数据库数据格式基本相同(见表数据库数据格式基本相同(见表数据库数据格式基本相同(见表数据库数据格式基本相同(见表6-36-3)。)。)。)。5353高等课堂高等课堂表表6-3SWISS-PORT数据库的行识别标志及含义数据库的行识别标志及含义中止符号中止符号Termination line/序列序列标头Sequence headerSQ特征表特征表Feature table dataFT关关键词KeywordsKW交叉引用数据交叉引用数据库Database cross-referenceDR评注或注注或注释Comments or notesCC引文出引文出处Reference locationRL引文引文标题Reference tileRT引文作者引文作者Reference authorsRA交叉引用交叉引用Cross-referenceRX相关内容相关内容Reference commentsRC引文位置引文位置Reference positionRP引文序号引文序号Reference numberRN物种分物种分类Organism classificationOC来源来源细胞器胞器OrganelleOG来源物种来源物种Organism speciesOS基因名称基因名称Gene name(s)GN描述描述DescriptionDE登登录日期或最后更新日期日期或最后更新日期DateDT序列序列编号号Accession NumberAC标识号号IdentificationID含含 义全全 称称缩写写5454高等课堂高等课堂 以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌Salmonella typhimurium H1-i基因编码的鞭毛蛋白基因编码的鞭毛蛋白FLIC_SALTY为例介绍为例介绍SWISS-PORT数数据库的数据格式。据库的数据格式。5555高等课堂高等课堂ID FLIC_SALTY Reviewed; 495 AA.AC P06179; P97160; Q02871; Q56088; DT 01-JAN-1988, integrated into UniProtKB/Swiss-Prot.DT 23-JAN-2007, sequence version 4.DT 24-JUL-2007, entry version 69.DE Flagellin (Phase 1-I flagellin).GN Name=fliC; Synonyms=flaF, hag; OrderedLocusNames=STM1959;OS Salmonella typhimurium.OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella.OX NCBI_TaxID=602;RN 1RP NUCLEOTIDE SEQUENCE GENOMIC DNA.RX MEDLINE=86059460; PubMed=2999134;RA Joys T.M.;RT The covalent structure of the phase-1 flagellar filament protein of Salmonella typhimurium and its comparison with other flagellins.;RL J. Biol. Chem. 260:15758-15761(1985). 序列标识序列标识 序列序列编号编号登录日期登录日期描述描述基因名称基因名称来源物种来源物种物种分类物种分类物种分类号物种分类号引文序号引文序号引文位置引文位置交叉引用交叉引用引文作者引文作者引文标题引文标题引文出处引文出处 SWISS-PROT 数据库条目实例数据库条目实例5656高等课堂高等课堂RN 9RP NUCLEOTIDE SEQUENCE GENOMIC DNA OF 476-495.RC STRAIN=LT2 / ATCC 23564;CC -!- FUNCTION: Flagellin is the subunit protein which polymerizes to form the filaments of bacterial flagella.CC -!- MISCELLANEOUS: Individual Salmonella serotypes usually alternate between the production of 2 antigenic forms of flagella, termed phase 1 and phase 2, each specified by separate structural genes, fliC and fljB.CC -!- SIMILARITY: Belongs to the bacterial flagellin family.CC -DR EMBL; M11332; AAA27072.1; -; Genomic_DNA.DR EMBL; D13689; BAA02846.1; -; Genomic_DNA.DR EMBL; AE008787; AAL20871.1; -; Genomic_DNA.DR EMBL; X51740; CAA36029.1; -; Genomic_DNA.DR EMBL; J01801; AAA27074.1; -; Genomic_DNA.DR PIR; A24262; A24262.DR PIR; S16121; S16121.DR PDB; 1IO1; X-ray; A=54-451.DR PDB; 1P95; Model; A=57-451.DR PDB; 1UCU; EM; A=1-495.相关内容相关内容评注功能评注功能 其他特性其他特性 相似性相似性交叉引用数据库交叉引用数据库 EMBL核酸序列核酸序列数据库数据库 PIR蛋白序列蛋白序列数据库数据库 PDB蛋白结构蛋白结构数据库数据库5757高等课堂高等课堂PE 1: Evidence at protein level;KW 3D-structure; Complete proteome; Flagellum.FT INIT_MET 1 1 Removed (By similarity).FT CHAIN 2 495 Flagellin.FT /FTId=PRO_0000182578.FT CONFLICT 127 127 S - N (in Ref. 1).FT CONFLICT 133 133 N - S (in Ref. 1).FT HELIX 3 32FT TURN 37 39FT HELIX 44 98关键词关键词特征表特征表不同来源不同来源数据库的数据库的冲突位点冲突位点二级结构二级结构信息信息5858高等课堂高等课堂SQ SEQUENCE 495 AA; 51612 MW; 4BD7849FA3B936BA CRC64; MAQVINTNSL SLLTQNNLNK SQSALGTAIE RLSSGLRINS AKDDAAGQAIANRFTANIKG LTQASRNAND GISIAQTTEG ALNEINNNLQ RVRELAVQSA NSTNSQSDLD SIQAEITQRL NEIDRVSGQT QFNGVKVLAQ DNTLTIQVGA NDGETIDIDL KQINSQTLGLDTLNVQQKYK VSDTAATVTG YADTTIALDN STFKASATGL GGTDQKIDGDLKFDDTTGKYYAKVTVTGGT GKDGYYEVSV DKTNGEVTLA GGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAG VTGTASVVKM SYTDNNGKTI DGGLAVKVGD DYYSATQNKD GSISINTTKYTADDGTSKTA LNKLGGADGK TEVVSIGGKT YAASKAEGHN FKAQPDLAEA AATTTENPLQKIDAALAQVD TLRSDLGAVQ NRFNSAITNL GNTVNNLTSA RSRIEDSDYA TEVSNMSRAQ ILQQAGTSVL AQANQVPQNV LSLLR/ 序列标头序列标头蛋白质序列蛋白质序列记录结束记录结束 5959高等课堂高等课堂2. PIR PIR的子数据库:的子数据库: 蛋白质序列数据库(蛋白质序列数据库(PIR-PSD) 蛋白质分类数据库(蛋白质分类数据库(iProClass) 非冗余的蛋白质参考资料数据库(非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:数据库按照数据性质和注释层次分四个部分: PIR1序列已经验证,注释最为详尽序列已经验证,注释最为详尽; PIR2为尚未确定的冗余序列;为尚未确定的冗余序列; PIR3序列既未检验,也未注释;序列既未检验,也未注释; PIR4序列来自其它渠道,既未验证,也无注释。序列来自其它渠道,既未验证,也无注释。美国国家生物医学研究基金会与国际蛋白质信息中心美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-InternationalPIR-International)共同维护。)共同维护。PIRPIR是第一个蛋白质分类和功能注释数据库是第一个蛋白质分类和功能注释数据库 6060高等课堂高等课堂n n PIR作用:作用:n 提供基于文本的交互式检索、序列相提供基于文本的交互式检索、序列相似性似性 搜索以及结合序列相似性、注释信息搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。和蛋白质家族信息的高级检索。nPIR网址:网址:http:/pir.georgetown.edu/ 6161高等课堂高等课堂3.TrEMBL是一个经计算机注释的蛋白质数据库,采用是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。数据库格式。主要包含从主要包含从EMBL/ Genbank/DDBJ三大核酸三大核酸数据库中根据编码序列翻译的、尚未集成到数据库中根据编码序列翻译的、尚未集成到SWISS-PROT数据库中的蛋白质序列。数据库中的蛋白质序列。TrEMBL为为SWISS-PROT数据库及时提供补数据库及时提供补充。充。 TrEMBL网址:网址:http:/www.ebi.ac.uk/trembl/6262高等课堂高等课堂4. UniProt UniProt将将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本三个数据库合并。通过文本检索、序列相似检索以及检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。网站可获得蛋白质序列。如图如图6-7所示所示 图图6-7 UniProt网站主页网站主页6363高等课堂高等课堂UniProt包含包含UniProtKB、UniRef 和和UniParc 3个部分:个部分:(1)UniProtKB数据库数据库(UniProt Knowledgebase):):蛋白质序列、功能、分类、交叉引用等信息存取中心;蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniRef数据库数据库(UniProt Reference Clusters):):为提高检索的速度,将紧密相关的蛋白质序列合并到为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程度可将同一条记录中。目前,根据序列相似程度可将UniRef数据库分为数据库分为UniRef100、UniRef90和和UniRef50 3个子库个子库(3)UniParc(UniProt Archive):储存大量蛋白质):储存大量蛋白质研究的历史信息。研究的历史信息。6464高等课堂高等课堂 利用利用UniProt 可方便的进行蛋白质序列可方便的进行蛋白质序列的交互检索,的交互检索,Salmonella typhimurium H-1项鞭毛蛋白项鞭毛蛋白P06176的的UniProt检索截图如下。检索截图如下。 UniProt网址:网址:http:/www.ebi.uniprot.org/index.shtml6565高等课堂高等课堂图图 6-8 核心数据核心数据6666高等课堂高等课堂图图 6-9 核心数据(续)、引用文献与评注核心数据(续)、引用文献与评注6767高等课堂高等课堂图图 6-10 交互检索与关键词交互检索与关键词6868高等课堂高等课堂图图 6-11 特征表与序列信息特征表与序列信息6969高等课堂高等课堂5. GenPept数据库数据库GenPept数据库特点数据库特点 由由Genebank数据库的核酸序列经翻译后产生。数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新,数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。但未经实验证实,也未有详细注释。 GenPept蛋白质数据库实例蛋白质数据库实例 以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌S. typhimurium H-1-i基因编基因编码的鞭毛蛋白为例进行码的鞭毛蛋白为例进行GenPept数据库检索数据库检索 。7070高等课堂高等课堂GenPept蛋白质数据库实例蛋白质数据库实例LOCUS AAA27072 490 aa linear BCT 26-APR-1993DEFINITION phase-1 flagellar filament protein.ACCESSION AAA27072VERSION AAA27072.1 GI:153979DBSOURCE locus STYFLGH1I accession M11332.1KEYWORDS .SOURCE Salmonella typhimurium ORGANISM Salmonella typhimurium Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella.REFERENCE 1 (residues 1 to 490) AUTHORS Joys,T.M. TITLE The covalent structure of the phase-1 flagellar filament protein of Salmonella typhimurium and its comparison with other flagellins JOURNAL J. Biol. Chem. 260 (29), 15758-15761 (1985) PUBMED 2999134COMMENT Draft entry and clean copy sequence for 1 kindly provided by T.M.Joyce, 18-FEB-1986. Individual Salmonella serotypes usually alternate between the production of two antigenic forms of flagella, termed phase-1 and phase-2, each specified by separate structural genes. 序列标识序列标识简单描述简单描述序列编号序列编号版本号版本号关键词关键词物种来源物种来源物种分类物种分类引文编号引文编号引文作者引文作者引文标题引文标题引文出处引文出处评注评注7171高等课堂高等课堂FEATURES Location/Qualifiers source 1.490 /organism=Salmonella typhimurium /db_xref=taxon:602 Protein 1.490 /name=phase-1 flagellar filament protein Region 1.490 /region_name=PRK08026 /note=flagellin; PRK08026 /db_xref=CDD:76379 Region 29.163 /region_name=Flagellin_N /note=Bacterial flagellin N-terminus. Flagellins polymerise to form bacterial flagella. This family includes flagellins and hook associated protein 3; pfam00669 /db_xref=CDD:64529 Region 191.256 /region_name=Flagellin_D3 /note=Flagellin D3 domain. This domain is found in the central portion bacterial flagellin FliC. The domain contains a structural motif called a beta-folium fold; pfam08884 /db_xref=CDD:72304特征表特征表7272高等课堂高等课堂 Region 397.468 /region_name=Flagellin_C /db_xref=CDD:64558 CDS 1.490 /coded_by=M11332.1:13.1485 /transl_table=11ORIGIN 1 maqvintnsl slltqnnlnk sqsalgtaie rlssglrins akddaagqai anrftanikg 61 ltqasrnand gisiaqtteg alneinnnlq rvrelavqsa nstnsqsdld siqaeitqrl 121 neidrvngqt qfsgvkvlaq dntltiqvga ndgetididl kqinsqtlgl dtlnvqqkyk 181 vsdtaatvtg yadttialdn stfkasatgl ggtdekidgd lkfddttgky yakvtvtggt 241 gkdgyyevsv dktngevtla avtpatvtta talsgkmysa npdsdiakaa ltaagvtgta 301svvkmsytdn ngktidggla vkvgddyysa tqdkdgsisi dttkytadng tsktalnklg 361 gadgktevvt idgktynask aaghdfkaep elaeqaaktt enplqkidaa laqvdtlrsd 421 lgavqnrfns aitnlgntvn nlssarsrie dsdyatevsn msraqilqqa gtsvlaqanq 481 vpqnvlsllr/ 蛋白质序列蛋白质序列记录结束记录结束 GenPept的网址是:的网址是:ftp:/ftp.ncifcrf.gov/pub/genpept/7373高等课堂高等课堂国际上主要的蛋白质序列数据库的种类和特点国际上主要的蛋白质序列数据库的种类和特点 名称名称维护单位位注注释冗余度冗余度数据量数据量更新更新PIRNCBI、JIPID、MIPS部分完善部分完善较大大较大大较慢慢SWISSPROTEBI、SIB完善完善小小不大不大较慢慢NRL-3DNCBI完善完善小小小小较慢慢TrEMBLEBI、SIB不完善不完善大大大大快快GenPeptNCBI不完善不完善大大大大快快NRDBEBI一般一般小小大大较快快OWLHGMP一般一般小小大大较慢慢(引自引自生物信息学生物信息学,赵国屏等,赵国屏等 编著,科学出版社,编著,科学出版社,2002)7474高等课堂高等课堂(二)蛋白质序列二次数据库(二)蛋白质序列二次数据库 1.PROSITEn PROSITE是蛋白质家族保守区域和功能位点数是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,据库,也是第一个蛋白质序列二次数据库,收录蛋白收录蛋白质家族中同源序列多重比对所确定的保守性区域质家族中同源序列多重比对所确定的保守性区域:如:如酶活性位点、配体结合位点、金属离子结合位点、其酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。位点和序列模式。n PROSITE数据库组成数据库组成 包含包含Prosite(数据文件)和(数据文件)和PrositeDoc(说明文(说明文件)两个文件数据库。件)两个文件数据库。PROSITE数据库主页如图数据库主页如图6-12所示。所示。7575高等课堂高等课堂图图6-12 PROSITE数据库主页数据库主页7676高等课堂高等课堂nPROSITE数据库作用数据库作用:可确定一段新蛋白质序列中:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族。包含的功能位点以及其归属的蛋白质家族。nPROSITE的网址:的网址:http:/www.expasy.ch/prosite/ 或或 http:/www.expasy.org/prosite/nPROSITE的中国镜像网址是:的中国镜像网址是:http:/cn.expasy.org/prosite/7777高等课堂高等课堂2.PRINTS PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库将多个保守的将多个保守的序列模式作为识别蛋白质家族的特征序列模式作为识别蛋白质家族的特征,与,与PROSITE数据库的单个序列模式相比,数据库的单个序列模式相比,PRINTS具有更好的识具有更好的识别率。别率。PRINTS 网址:网址:http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/7878高等课堂高等课堂3.BLOCKSu 序列模块(序列模块(block):):是通过序列比对得到的是通过序列比对得到的若干蛋白质序列中若干蛋白质序列中具有较高相似性的序列片段具有较高相似性的序列片段。u BLOCKS由通过自动检测由通过自动检测PROSITE数据库数据库和和PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库中蛋白质家族高度保中蛋白质家族高度保守区域产生的序列模块组成。守区域产生的序列模块组成。 u BLOCKS的网址:的网址:http:/blocks.fhcrc.org/7979高等课堂高等课堂(三)蛋白结构数据库(三)蛋白结构数据库1.PDBn nPDB(Protein Data Bank)蛋白质结构数据)蛋白质结构数据库是国际上库是国际上最完整的最完整的蛋白质、核酸、糖类、蛋白质、核酸、糖类、蛋白质蛋白质-核酸复合物及病毒等核酸复合物及病毒等生物大分子三生物大分子三维结构数据库。维结构数据库。 n nPDB主页,主页,如图如图6-13所示。所示。n n其数据库增长曲线,其数据库增长曲线,如图如图6-14所示。所示。 8080高等课堂高等课堂图图6-13 PDB数据库主页数据库主页8181高等课堂高等课堂图图6-14 结构数据库增长曲线截图结构数据库增长曲线截图红色图:总结构数红色图:总结构数 蓝色图:新增结构数蓝色图:新增结构数(引自引自http:/www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=molType-protein&seqid=100)8282高等课堂高等课堂n PDB数据库作用数据库作用 提供序列详细信息、原子坐标、三维结构、提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。交叉检索等与结构相关的信息。n PDB数据库实例数据库实例 以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌Salmonella typhimurium H1-i鞭毛蛋白(鞭毛蛋白(P06176)F41片段晶体结构为例,图片段晶体结构为例,图示示PDB数据库格式数据库格式(框(框6-4)和网页格式和网页格式(图(图6-15)。)。n 三维结构的动态展示三维结构的动态展示(如图(如图6-16 所示)。所示)。n PDB 的地址:的地址: http:/www.rcsb.org/pdb/home/home.do8383高等课堂高等课堂框6-4PDB格式实例HEADER STRUCTURAL PROTEIN 28-DEC-00 1IO1 TITLE CRYSTAL STRUCTURE OF F41 FRAGMENT OF FLAGELLIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: PHASE 1 FLAGELLIN; SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: SALMONELLA TYPHIMURIUM; KEYWDS BETA-FOLIUM, FLAGELLIN EXPDTA X-RAY DIFFRACTION AUTHOR F.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA, AUTHOR 2 M.YAMAMOTO,K.NAMBA REVDAT 2 15-APR-03 1IO1 1 SOURCE DBREF SEQADV REVDAT 1 04-APR-01 1IO1 0 JRNL AUTH F.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ, JRNL AUTH 2 T.KUMASAKA,M.YAMAMOTO,K.NAMBA REMARK 1 REMARK 2 REMARK 2 RESOLUTION. 2.00 ANGSTROMS. 标头题目目化合物名称化合物名称来源来源关关键词作者作者发布日期布日期相关文献相关文献注注释8484高等课堂高等课堂SEQADV 1IO1 ALA A 426 UNP P06179 GLY 426 CONFLICT SEQRES 1 A 398 PHE THR ALA ASN ILE LYS GLY LEU THR GLN ALA SER ARG SEQRES 2 A 398 ASN ALA ASN ASP GLY ILE SER ILE ALA GLN THR THR GLU FORMUL 2 HOH *354(H2 O) HELIX 1 1 ILE A 57 ALA A 99 1 43 HELIX 2 2 SER A 104 THR A 129 1 26 SHEET 1 A 2 ASN A 141 GLN A 146 0 SHEET 2 A 2 THR A 154 LEU A 159 -1 O ILE A 155 N ILE A 145 CRYST1 51.750 36.440 118.350 90.00 91.15 90.00 P 1 21 1 2 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 0.019324 0.000000 0.000388 0.00000 SCALE2 0.000000 0.027442 0.000000 0.00000 SCALE3 0.000000 0.000000 0.008451 0.00000 ATOM 1 N ASN A 56 -49.795 -3.667 -4.351 1.00 30.60 N ATOM 2 CA ASN A 56 -48.833 -2.701 -3.726 1.00 29.93 C TER 2881 ARG A 450 HETATM 2882 O HOH 501 29.624 -1.335 16.688 1.00 11.99 O HETATM 2883 O HOH 502 -35.019 -3.209 -7.005 1.00 10.33 O END 氨基酸序列氨基酸序列分子式分子式-螺旋螺旋-折叠折叠原子坐标原子坐标配体原子坐标配体原子坐标记录结束记录结束 8585高等课堂高等课堂图6-15 PDB数据库网页格式实例8686高等课堂高等课堂a.主链结构主链结构 b.棒状结构棒状结构 c.光滑带结构光滑带结构 d.空间填充结构空间填充结构图图6-16 Salmonella typhimurium H1-i鞭毛蛋白(鞭毛蛋白(P06176)F41片段片段PDB三维结构图三维结构图(SWISS-PDB Viewer)8787高等课堂高等课堂2. MMDB(Molecular Modeling Database)n 是是Entrez的组成部分。的组成部分。n 只收录通过只收录通过X射线晶体衍射和核磁共振实验测定射线晶体衍射和核磁共振实验测定的生物大分子结构数据。的生物大分子结构数据。n 增加了附加信息如增加了附加信息如:大分子的生物学功能及产生大分子的生物学功能及产生机制、分子进化历史、生物大分子之间关系等。机制、分子进化历史、生物大分子之间关系等。n 具有生物大分子三维结构模型展示、结构分析和具有生物大分子三维结构模型展示、结构分析和结构比较等功能。结构比较等功能。n 实例如图实例如图6-17所示。所示。8888高等课堂高等课堂图图6-17 Salmonella typhimurium H1-i鞭毛蛋白(鞭毛蛋白(P06176)F41片段片段MMDB三三维结构图(维结构图(Cn3D 4.1)。)。MMDB 的地址为:的地址为:http:/www.ncbi.nlm.nih.gov/Structure/8989高等课堂高等课堂(四)蛋白质结构二次数据库(四)蛋白质结构二次数据库1.DSSP (Database of Secondary Structure of Protein)n是一个二级结构推导数据库,用于研究蛋白质序列与是一个二级结构推导数据库,用于研究蛋白质序列与蛋白质结构的关系。蛋白质结构的关系。n将蛋白质二级结构分为将蛋白质二级结构分为7种类型,种类型,如表如表6-5所示。针对所示。针对PDB数据库中蛋白质的原子坐标,计算其各个氨基酸数据库中蛋白质的原子坐标,计算其各个氨基酸残基中氢键、二面角、二级结构类型等二级结构构象残基中氢键、二面角、二级结构类型等二级结构构象参数,从而根据三维结构推导出其对应的二级结构。参数,从而根据三维结构推导出其对应的二级结构。9090高等课堂高等课堂表6-5 DSSP的7种二级结构类型类型型HEGIBTS含含义螺旋螺旋折叠折叠3(10)螺螺旋旋-螺旋螺旋孤立孤立桥氢键转折折弯曲弯曲DSSP 的网址:的网址:http:/www.sander.embl-heidelberg.de/dssp9191高等课堂高等课堂2.HSSP (Homology-Derived Secondary Structure of Protein) n是一个蛋白质同源序列比对数据库,将相似序列是一个蛋白质同源序列比对数据库,将相似序列的蛋白质聚集成结构同源的家族,并隐含二级结构的蛋白质聚集成结构同源的家族,并隐含二级结构和空间结构信息。和空间结构信息。nHSSP用于分析蛋白质保守区域、确定序列模式及用于分析蛋白质保守区域、确定序列模式及蛋白的折叠、进化关系、分子设计等研究。蛋白的折叠、进化关系、分子设计等研究。nHSSP的网址是:的网址是:http:/www.sander.embl-heidelberg.de/hssp/9292高等课堂高等课堂(五)蛋白质结构分类数据库(五)蛋白质结构分类数据库1.SCOP (Structural Classification of Proteins)n性质性质:是一个蛋白质:是一个蛋白质结构分类数据库。结构分类数据库。n功能功能:提供蛋白质之间的结构和进化关系的信息。:提供蛋白质之间的结构和进化关系的信息。 提供提供PDB链接、蛋白质序列、空间结构图像展链接、蛋白质序列、空间结构图像展 示、参考文献链接等服务。示、参考文献链接等服务。nSCOP结构分类图:结构分类图:如图如图6-18所示。所示。 9393高等课堂高等课堂 图图6-18 Scop结构分类图结构分类图SCOP的网址是:的网址是:http:/scop.mrc-lmb.cam.ac.uk/scop/9494高等课堂高等课堂2. CATH n CATH数据库层次数据库层次: 类型层次类型层次:分为:分为 主类、主类、 主类、主类、 - 类(类( / 型和型和 + 型)、低二级结构类型)、低二级结构类4类。类。 构架层次构架层次:依据由:依据由螺旋和螺旋和折叠形成的超二级结构排折叠形成的超二级结构排列方式进行分类,而不考虑它们之间的连接关系。列方式进行分类,而不考虑它们之间的连接关系。 拓扑层次拓扑层次:为二级结构的形状和二级结构间的联系。:为二级结构的形状和二级结构间的联系。 同源性层次同源性层次:通过序列比较和结构比较确定。:通过序列比较和结构比较确定。 序列层次序列层次:根据序列同源性不同分为:根据序列同源性不同分为S、O、L、I、D五种。五种。n CATH的网址的网址:http:/www.cathdb.info/latest/index.html/9595高等课堂高等课堂3. PDBsum n 通过对通过对PDB数据库中所有蛋白质结构信息进行总结数据库中所有蛋白质结构信息进行总结和分析,给出蛋白质的主链数目、配体、金属离子、和分析,给出蛋白质的主链数目、配体、金属离子、二级结构、折叠图等相关信息。二级结构、折叠图等相关信息。n 提供检索蛋白质各级结构信息的统一界面。提供检索蛋白质各级结构信息的统一界面。 n PDBsum的网址:的网址:http:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/9696高等课堂高等课堂(六)蛋白质分类数据库(六)蛋白质分类数据库nProtoMap蛋白质分类数据库蛋白质分类数据库是利用计算机对是利用计算机对SWISS-PROT、TrEMBL 和和TrEMBL-new数据库数据库中全部蛋白质进行层次分类,将相关的蛋白质聚中全部蛋白质进行层次分类,将相关的蛋白质聚类分组而成。类分组而成。nProtoMap数据库有助于对已知蛋白质家族进行精数据库有助于对已知蛋白质家族进行精细划分,阐释家族间的相互关系。细划分,阐释家族间的相互关系。nProtoMap网址:网址:http:/protomap.cornell.edu/9797高等课堂高等课堂第三节第三节 蛋白质结构预测蛋白质结构预测 n n蛋白质结构预测方法:主要有蛋白质结构预测方法:主要有蛋白质结构预测方法:主要有蛋白质结构预测方法:主要有理论分析方法和统计方法理论分析方法和统计方法理论分析方法和统计方法理论分析方法和统计方法两两两两种。种。种。种。n n蛋白质结构预测流程:如下图所示蛋白质结构预测流程:如下图所示蛋白质结构预测流程:如下图所示蛋白质结构预测流程:如下图所示蛋白质序列蛋白质序列实验数据实验数据数据库搜索数据库搜索结构域匹配结构域匹配序列多重比对序列多重比对折叠方式识别折叠方式识别折叠家族分析折叠家族分析二级结构比对二级结构比对序列结构比对序列结构比对比较建模比较建模三维结构模型三维结构模型PDB同源结构同源结构二级结构预测二级结构预测从从头头计计算算三级结构预测三级结构预测可预测的折叠可预测的折叠折折叠叠识识别别同同源源建建模模有有图图6-19 蛋白质结构预测流程图蛋白质结构预测流程图 (参考:参考:ib.sytu.edu.cn/xkqbzs/2006-2/06-2%20dbzjg.doc)9898高等课堂高等课堂一、蛋白质序列比对一、蛋白质序列比对n n序列比对的功能序列比对的功能序列比对的功能序列比对的功能:探寻分子进化关系及产生共同功能的序列:探寻分子进化关系及产生共同功能的序列:探寻分子进化关系及产生共同功能的序列:探寻分子进化关系及产生共同功能的序列模式;分析和预测一些新基因的功能模式;分析和预测一些新基因的功能模式;分析和预测一些新基因的功能模式;分析和预测一些新基因的功能 ;预测蛋白质的空间结;预测蛋白质的空间结;预测蛋白质的空间结;预测蛋白质的空间结构及生物学功能构及生物学功能构及生物学功能构及生物学功能 ;获得有价值的参考信息;获得有价值的参考信息;获得有价值的参考信息;获得有价值的参考信息 。n n序列比对常用软件序列比对常用软件序列比对常用软件序列比对常用软件:BlastBlast、ClustalWClustalW等,可从等,可从等,可从等,可从NCBINCBI和和和和EBIEBI网站免费下载到本地比对,也可进行网上远程比对。网站免费下载到本地比对,也可进行网上远程比对。网站免费下载到本地比对,也可进行网上远程比对。网站免费下载到本地比对,也可进行网上远程比对。 n nNCBI NCBI 网站网站网站网站BlastBlast的基本类型的基本类型的基本类型的基本类型:见下表:见下表:见下表:见下表:程程程程 序序序序数数数数 据据据据 库库查询查询序列序列序列序列应应 用用用用nucleotide blast nucleotide blast (blastn)(blastn)核核核核 酸酸酸酸核苷酸核苷酸核苷酸核苷酸同源比同源比同源比同源比对对protein blast (blastp)protein blast (blastp)蛋白蛋白蛋白蛋白质质蛋白蛋白蛋白蛋白质质同源比同源比同源比同源比对对blastxblastx蛋白蛋白蛋白蛋白质质已翻已翻已翻已翻译译核苷酸核苷酸核苷酸核苷酸DNADNA序列、序列、序列、序列、ESTEST序列序列序列序列分析分析分析分析tblastntblastn已翻已翻已翻已翻译译核苷酸核苷酸核苷酸核苷酸蛋白蛋白蛋白蛋白质质编码编码区分析区分析区分析区分析tblastxtblastx已翻已翻已翻已翻译译核苷酸核苷酸核苷酸核苷酸已翻已翻已翻已翻译译核苷酸核苷酸核苷酸核苷酸ESTEST序列分析序列分析序列分析序列分析表表6-6 BLAST 基本类型基本类型9999高等课堂高等课堂表表表表6-7 6-7 基本氨基酸简写字符表基本氨基酸简写字符表基本氨基酸简写字符表基本氨基酸简写字符表英文名称英文名称英文名称英文名称三字符三字符三字符三字符单单字符字符字符字符中文名称中文名称中文名称中文名称英文名称英文名称英文名称英文名称三字符三字符三字符三字符单单字符字符字符字符中文名称中文名称中文名称中文名称alaninealanineAlaAlaA A丙氨酸丙氨酸丙氨酸丙氨酸prolineprolineProProP P脯氨酸脯氨酸脯氨酸脯氨酸argininearginineArgArgR R精氨酸精氨酸精氨酸精氨酸pyrrolysinepyrrolysinePylPylOO吡咯吡咯吡咯吡咯赖赖氨酸氨酸氨酸氨酸asparagineasparagineAsnAsnN N天冬天冬天冬天冬酰酰胺胺胺胺serineserineSerSerS S丝丝氨酸氨酸氨酸氨酸aspartic acidaspartic acidAspAspD D天冬氨酸天冬氨酸天冬氨酸天冬氨酸selenocysteineselenocysteineSecSecU U硒代半胱氨硒代半胱氨硒代半胱氨硒代半胱氨酸酸酸酸cysteinecysteineCysCysC C半胱氨酸半胱氨酸半胱氨酸半胱氨酸threoninethreonineThrThrT T苏苏氨酸氨酸氨酸氨酸glutamineglutamineGlnGlnQQ谷氨谷氨谷氨谷氨酰酰胺胺胺胺tryptophantryptophanTrpTrpWW色氨酸色氨酸色氨酸色氨酸glutamic acidglutamic acidGluGluE E谷氨酸谷氨酸谷氨酸谷氨酸tyrosinetyrosineTyrTyrY Y酪氨酸酪氨酸酪氨酸酪氨酸glycineglycineGlyGlyGG甘氨酸甘氨酸甘氨酸甘氨酸valinevalineValValV V缬缬氨酸氨酸氨酸氨酸histidinehistidineHisHisHH组组氨酸氨酸氨酸氨酸asparagineasparagineAsnAsnB*B*天冬天冬天冬天冬酰酰胺胺胺胺isoleucineisoleucineIleIleI I异亮氨酸异亮氨酸异亮氨酸异亮氨酸aspartic acidaspartic acidAspAsp天冬氨酸天冬氨酸天冬氨酸天冬氨酸leucineleucineLeuLeuL L亮氨酸亮氨酸亮氨酸亮氨酸glutamineglutamineGlnGlnZ*Z*谷氨谷氨谷氨谷氨酰酰胺胺胺胺lysinelysineLysLysKK赖赖氨酸氨酸氨酸氨酸glutamic acidglutamic acidGluGlu谷氨酸谷氨酸谷氨酸谷氨酸methioninemethionineMetMetMM甲硫氨酸甲硫氨酸甲硫氨酸甲硫氨酸X*X*不明氨基酸不明氨基酸不明氨基酸不明氨基酸phenylalaninephenylalaninePhePheF F苯丙氨酸苯丙氨酸苯丙氨酸苯丙氨酸-*-*空位空位空位空位n 22种基本氨基酸对应的单字符种基本氨基酸对应的单字符 100100高等课堂高等课堂鼠伤寒沙门氏菌鼠伤寒沙门氏菌Salmonella typhimuriumH-1-i基因基因ClustalW多重比对截图:多重比对截图:n ClustalW多重比对图多重比对图 H-1-i基因在鼠伤寒沙门氏菌不同菌株间(基因在鼠伤寒沙门氏菌不同菌株间(H1-i-1500、H1-i-1826、H1-i-1485)具有极高的同源性,而与其他沙门氏菌具有较高的同源性。)具有极高的同源性,而与其他沙门氏菌具有较高的同源性。 101101高等课堂高等课堂鼠伤寒沙门氏菌鼠伤寒沙门氏菌Salmonella typhimuriumH-1-i蛋白蛋白blastp比对,运行界面图比对,运行界面图n blastp比对比对102102高等课堂高等课堂鼠伤寒沙门氏菌鼠伤寒沙门氏菌Salmonella typhimuriumH-1-i鞭毛蛋白鞭毛蛋白blastp比对同源性图比对同源性图n blastp比对序列同源性比对序列同源性103103高等课堂高等课堂鼠伤寒沙门氏菌鼠伤寒沙门氏菌Salmonella typhimuriumH-1-i编码蛋白质编码蛋白质blastp双重比对截图双重比对截图n blastp双重比对双重比对 鼠伤寒沙门氏菌鼠伤寒沙门氏菌H1相鞭毛蛋白与其他沙门氏菌相鞭毛蛋白与其他沙门氏菌H1相鞭毛蛋白质之间具有极高的同源性。相鞭毛蛋白质之间具有极高的同源性。104104高等课堂高等课堂二、蛋白质基本性质分析二、蛋白质基本性质分析n n利用生物信息学软件可利用生物信息学软件可直接预测直接预测蛋白质的蛋白质的许多基本许多基本性质性质,如氨基酸组成、相对分子,如氨基酸组成、相对分子质量(质量(MW)、等电点()、等电点(pI)、疏水性、电)、疏水性、电荷分布、信号肽、跨膜区域及结构功能域荷分布、信号肽、跨膜区域及结构功能域分析等。分析等。n n 用于蛋白质基本性质预测的生物信息学软用于蛋白质基本性质预测的生物信息学软件:件:SWISS-PROT数据库数据库相关的蛋白质基相关的蛋白质基本性质预测软件本性质预测软件 。105105高等课堂高等课堂(一)等电点和相对分子质量预测(一)等电点和相对分子质量预测n n利用利用利用利用Compute pI/MWCompute pI/MW程序程序程序程序可以计算出蛋白质序列可以计算出蛋白质序列可以计算出蛋白质序列可以计算出蛋白质序列的等电点和相对分子质量。的等电点和相对分子质量。的等电点和相对分子质量。的等电点和相对分子质量。n n输入输入输入输入FASTAFASTA格式格式格式格式的蛋白质序列,的蛋白质序列,的蛋白质序列,的蛋白质序列,Compute pI/MWCompute pI/MW程序会自动计算出输入序列的程序会自动计算出输入序列的程序会自动计算出输入序列的程序会自动计算出输入序列的等电点和相对分子等电点和相对分子等电点和相对分子等电点和相对分子质量质量质量质量。n n或直接提供蛋白质序列的或直接提供蛋白质序列的或直接提供蛋白质序列的或直接提供蛋白质序列的SWISS-PROTSWISS-PROT数据库序数据库序数据库序数据库序列编号(列编号(列编号(列编号(ACAC)或)或)或)或SWISS-PROTSWISS-PROT标识(标识(标识(标识(IDID)n nCompute pI/MWCompute pI/MW程序对于碱性蛋白质预测的等电程序对于碱性蛋白质预测的等电程序对于碱性蛋白质预测的等电程序对于碱性蛋白质预测的等电点可能不准确。点可能不准确。点可能不准确。点可能不准确。106106高等课堂高等课堂(二)蛋白质理化参数预测(二)蛋白质理化参数预测n n利用利用利用利用ProtParamProtParam程序程序程序程序可以预测蛋白质序列的理化参数。可以预测蛋白质序列的理化参数。可以预测蛋白质序列的理化参数。可以预测蛋白质序列的理化参数。n n将蛋白质序列整理成将蛋白质序列整理成将蛋白质序列整理成将蛋白质序列整理成FASTAFASTA格式格式格式格式后输入后输入后输入后输入ProtParamProtParam程序,程序,程序,程序,会自动给出输入序列的氨基酸组成、分子式、等电点、相会自动给出输入序列的氨基酸组成、分子式、等电点、相会自动给出输入序列的氨基酸组成、分子式、等电点、相会自动给出输入序列的氨基酸组成、分子式、等电点、相对分子质量等理化参数。对分子质量等理化参数。对分子质量等理化参数。对分子质量等理化参数。n n直接提供蛋白质序列的直接提供蛋白质序列的直接提供蛋白质序列的直接提供蛋白质序列的SWISS-PROTSWISS-PROT数据库序列编号或数据库序列编号或数据库序列编号或数据库序列编号或SWISS-PROTSWISS-PROT标识,利用标识,利用标识,利用标识,利用ProtScaleProtScale程序预测该条目的理化程序预测该条目的理化程序预测该条目的理化程序预测该条目的理化参数。参数。参数。参数。107107高等课堂高等课堂(三)疏水性分析(三)疏水性分析n n利用利用利用利用ProtScaleProtScale程序程序程序程序可以计算蛋白质的疏水性区域可以计算蛋白质的疏水性区域可以计算蛋白质的疏水性区域可以计算蛋白质的疏水性区域n n将将将将FASTAFASTA格式格式格式格式的蛋白质序列输入的蛋白质序列输入的蛋白质序列输入的蛋白质序列输入ProtScaleProtScale程序,预测蛋白程序,预测蛋白程序,预测蛋白程序,预测蛋白质的疏水性区域。质的疏水性区域。质的疏水性区域。质的疏水性区域。n n或或或或直接提供蛋白质序列的直接提供蛋白质序列的直接提供蛋白质序列的直接提供蛋白质序列的SWISS-PROTSWISS-PROT数据库序列编号或数据库序列编号或数据库序列编号或数据库序列编号或SWISS-PROTSWISS-PROT标识,利用标识,利用标识,利用标识,利用ProtScaleProtScale程序预测该条目的疏水程序预测该条目的疏水程序预测该条目的疏水程序预测该条目的疏水性区域。性区域。性区域。性区域。n nSAPSSAPS(蛋白质序列统计分析程序)(蛋白质序列统计分析程序)(蛋白质序列统计分析程序)(蛋白质序列统计分析程序)也可预测蛋白质序列也可预测蛋白质序列也可预测蛋白质序列也可预测蛋白质序列的氨基酸组成、电荷分布、疏水性区域、跨膜区域、重复的氨基酸组成、电荷分布、疏水性区域、跨膜区域、重复的氨基酸组成、电荷分布、疏水性区域、跨膜区域、重复的氨基酸组成、电荷分布、疏水性区域、跨膜区域、重复结构等信息。结构等信息。结构等信息。结构等信息。108108高等课堂高等课堂(四)酶切肽段预测(四)酶切肽段预测n n利用利用利用利用PeptideMassPeptideMass程序程序程序程序可以预测蛋白质在特定蛋白酶作用可以预测蛋白质在特定蛋白酶作用可以预测蛋白质在特定蛋白酶作用可以预测蛋白质在特定蛋白酶作用下的酶切产物或化学试剂作用下的内切产物。下的酶切产物或化学试剂作用下的内切产物。下的酶切产物或化学试剂作用下的内切产物。下的酶切产物或化学试剂作用下的内切产物。n n将将将将FASTAFASTA格式的蛋白质序列输入格式的蛋白质序列输入格式的蛋白质序列输入格式的蛋白质序列输入PeptideMassPeptideMass程序,可以程序,可以程序,可以程序,可以预测预测预测预测胰蛋白酶胰蛋白酶胰蛋白酶胰蛋白酶(trypsintrypsin)、)、)、)、糜蛋白酶糜蛋白酶糜蛋白酶糜蛋白酶(chymotrypsinchymotrypsin)等)等)等)等蛋白酶酶切产物,蛋白酶酶切产物,蛋白酶酶切产物,蛋白酶酶切产物,CNBrCNBr等化学试剂的内切产物。等化学试剂的内切产物。等化学试剂的内切产物。等化学试剂的内切产物。n n或或或或直接提供蛋白质序列的直接提供蛋白质序列的直接提供蛋白质序列的直接提供蛋白质序列的SWISS-PROTSWISS-PROT数据库序列编号或数据库序列编号或数据库序列编号或数据库序列编号或SWISS-PROTSWISS-PROT标识,利用标识,利用标识,利用标识,利用PeptideMassPeptideMass程序预测该条目的程序预测该条目的程序预测该条目的程序预测该条目的酶切结果。酶切结果。酶切结果。酶切结果。109109高等课堂高等课堂三、蛋白质二级结构预测三、蛋白质二级结构预测(一)二级结构预测一)二级结构预测u二级结构预测方法二级结构预测方法: 1.统统计计方方法法:如如Chou-Fasman方方法法、GOR(Garnier-Gibrat-Robson) 方方 法法 、 神神 经经 网网 络络 方方 法法 ( neural network method) 、 最最 近近 邻邻 居居 方方 法法 ( nearest neighnor method)等)等 。 2.基于已有知识的预测方法:基于已有知识的预测方法:Lim方法和方法和Cohen方法。方法。 3.混合方法:混合方法:uu常用的蛋白质二级结构预测程序常用的蛋白质二级结构预测程序常用的蛋白质二级结构预测程序常用的蛋白质二级结构预测程序 : 1. nnPredict1. nnPredict程序:准确率可达到程序:准确率可达到程序:准确率可达到程序:准确率可达到7979。 2. PredictProtein2. PredictProtein程序:准确率可达到程序:准确率可达到程序:准确率可达到程序:准确率可达到7272以上。以上。以上。以上。 3. SSPRED3. SSPRED程序:与程序:与程序:与程序:与PredictProteinPredictProtein程序相似。程序相似。程序相似。程序相似。 4 4SOPMA SOPMA 程序:程序:程序:程序:110110高等课堂高等课堂(二)特殊局部结构预测(二)特殊局部结构预测常见预测程序:常见预测程序:常见预测程序:常见预测程序:1 1TMpredTMpred 依据跨膜蛋白数据库依据跨膜蛋白数据库依据跨膜蛋白数据库依据跨膜蛋白数据库TmbaseTmbase,结合蛋白质序列中跨,结合蛋白质序列中跨,结合蛋白质序列中跨,结合蛋白质序列中跨膜结构区段的数量、位置以及侧翼信息,通过加权膜结构区段的数量、位置以及侧翼信息,通过加权膜结构区段的数量、位置以及侧翼信息,通过加权膜结构区段的数量、位置以及侧翼信息,通过加权评分来预测蛋白质的跨膜区段及其在膜上的定位。评分来预测蛋白质的跨膜区段及其在膜上的定位。评分来预测蛋白质的跨膜区段及其在膜上的定位。评分来预测蛋白质的跨膜区段及其在膜上的定位。2 2SignalPSignalP 依据已知的信号肽序列,利用神经网络方法预测分依据已知的信号肽序列,利用神经网络方法预测分依据已知的信号肽序列,利用神经网络方法预测分依据已知的信号肽序列,利用神经网络方法预测分泌型蛋白质序列中信号肽的剪切位点。泌型蛋白质序列中信号肽的剪切位点。泌型蛋白质序列中信号肽的剪切位点。泌型蛋白质序列中信号肽的剪切位点。3 3COILSCOILS 主要用来预测蛋白质在溶液中呈现出的左手卷曲螺主要用来预测蛋白质在溶液中呈现出的左手卷曲螺主要用来预测蛋白质在溶液中呈现出的左手卷曲螺主要用来预测蛋白质在溶液中呈现出的左手卷曲螺旋。将目标蛋白质序列在已知的平行双链卷曲螺旋旋。将目标蛋白质序列在已知的平行双链卷曲螺旋旋。将目标蛋白质序列在已知的平行双链卷曲螺旋旋。将目标蛋白质序列在已知的平行双链卷曲螺旋数据库中进行比对,得出相似性得分,并依此计算数据库中进行比对,得出相似性得分,并依此计算数据库中进行比对,得出相似性得分,并依此计算数据库中进行比对,得出相似性得分,并依此计算出形成卷曲螺旋的概率。出形成卷曲螺旋的概率。出形成卷曲螺旋的概率。出形成卷曲螺旋的概率。111111高等课堂高等课堂(三)三维结构预测(三)三维结构预测n n蛋白质三维结构测定方法:蛋白质三维结构测定方法: 实验测定实验测定:利用仪器来测定蛋白质三维结构,:利用仪器来测定蛋白质三维结构,主要包括主要包括X射线衍射和核磁共振(射线衍射和核磁共振(NMR)。)。 理论预测理论预测:利用计算机根据已有理论和已知氨:利用计算机根据已有理论和已知氨基酸序列等信息来预测,主要包括基酸序列等信息来预测,主要包括同源模建同源模建(Homology Modeling)、)、折叠识别折叠识别(Fold Recognition)和)和从头计算从头计算(Ab Initio)。)。112112高等课堂高等课堂. .同源模建同源模建同源模建同源模建:又称比较性模拟,将同源蛋白质家族:又称比较性模拟,将同源蛋白质家族:又称比较性模拟,将同源蛋白质家族:又称比较性模拟,将同源蛋白质家族中中中中已知结构的蛋白质已知结构的蛋白质已知结构的蛋白质已知结构的蛋白质作为模板来作为模板来作为模板来作为模板来模拟目标蛋白模拟目标蛋白模拟目标蛋白模拟目标蛋白质的结构。质的结构。质的结构。质的结构。 2 2折叠识别折叠识别折叠识别折叠识别:又称穿针引线(:又称穿针引线(:又称穿针引线(:又称穿针引线(threadingthreading),在无),在无),在无),在无法进行同源序列比对的情况下,法进行同源序列比对的情况下,法进行同源序列比对的情况下,法进行同源序列比对的情况下,将目标蛋白质将目标蛋白质将目标蛋白质将目标蛋白质序列序列序列序列“ “穿穿穿穿” ”入入入入蛋白质数据库中已知的各种蛋白蛋白质数据库中已知的各种蛋白蛋白质数据库中已知的各种蛋白蛋白质数据库中已知的各种蛋白质折叠质折叠质折叠质折叠模板的骨架模板的骨架模板的骨架模板的骨架内,由计算机来识别目标蛋内,由计算机来识别目标蛋内,由计算机来识别目标蛋内,由计算机来识别目标蛋白质序列与数据库中的蛋白质折叠模板是否白质序列与数据库中的蛋白质折叠模板是否白质序列与数据库中的蛋白质折叠模板是否白质序列与数据库中的蛋白质折叠模板是否“ “匹配匹配匹配匹配” ”。3 3从头计算从头计算从头计算从头计算:不需要模板,以自由能作为基础不需要模板,以自由能作为基础不需要模板,以自由能作为基础不需要模板,以自由能作为基础预测预测预测预测蛋白质的折叠类型。能量函数设计和最低自由蛋白质的折叠类型。能量函数设计和最低自由蛋白质的折叠类型。能量函数设计和最低自由蛋白质的折叠类型。能量函数设计和最低自由能的确定是决定从头计算方法预测准确度高低能的确定是决定从头计算方法预测准确度高低能的确定是决定从头计算方法预测准确度高低能的确定是决定从头计算方法预测准确度高低的关键。的关键。的关键。的关键。113113高等课堂高等课堂(四)蛋白质结构预测方法准确性评估(四)蛋白质结构预测方法准确性评估n n“ “蛋白质结构预测领域的奥林匹克竞赛蛋白质结构预测领域的奥林匹克竞赛蛋白质结构预测领域的奥林匹克竞赛蛋白质结构预测领域的奥林匹克竞赛” ”n n20062006年第年第年第年第7 7届届届届CASPCASP共有共有共有共有100100个目标蛋白质、个目标蛋白质、个目标蛋白质、个目标蛋白质、207207个参加小组个参加小组个参加小组个参加小组和和和和9898个服务器,在大会公布的测评排列名单上个服务器,在大会公布的测评排列名单上个服务器,在大会公布的测评排列名单上个服务器,在大会公布的测评排列名单上中国学者张中国学者张中国学者张中国学者张阳获得第一名。阳获得第一名。阳获得第一名。阳获得第一名。n n20102010年年年年1212月月月月8 8日,第日,第日,第日,第9 9届届届届CASP CASP ,129129个目标蛋白质,参赛个目标蛋白质,参赛个目标蛋白质,参赛个目标蛋白质,参赛176176个研究小组和近个研究小组和近个研究小组和近个研究小组和近8080个蛋白质预测服务器。中国科学院个蛋白质预测服务器。中国科学院个蛋白质预测服务器。中国科学院个蛋白质预测服务器。中国科学院生物物理研究所生物物理研究所生物物理研究所生物物理研究所蒋太交蒋太交蒋太交蒋太交研究组发展的研究组发展的研究组发展的研究组发展的Jiang_AssemblyJiang_Assembly蛋白蛋白蛋白蛋白质结构预测服务器进入了前二十名。这标志着我国在蛋白质结构预测服务器进入了前二十名。这标志着我国在蛋白质结构预测服务器进入了前二十名。这标志着我国在蛋白质结构预测服务器进入了前二十名。这标志着我国在蛋白质三维结构预测领域中进入了世界上游水平。质三维结构预测领域中进入了世界上游水平。质三维结构预测领域中进入了世界上游水平。质三维结构预测领域中进入了世界上游水平。 114114高等课堂高等课堂四、蛋白质结构预测实例四、蛋白质结构预测实例n n以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌以鼠伤寒沙门氏菌Salmonella typhimurium H-1Salmonella typhimurium H-1鞭毛蛋鞭毛蛋鞭毛蛋鞭毛蛋白白白白(FLIC SALTY)(FLIC SALTY)的结构预测为例进行说明的结构预测为例进行说明的结构预测为例进行说明的结构预测为例进行说明n n预测程序:预测程序:预测程序:预测程序: (一)从(一)从(一)从(一)从SwissprotSwissprot数据库获取数据库获取数据库获取数据库获取FastaFasta格式的格式的格式的格式的S.typhimurium H-1S.typhimurium H-1鞭毛蛋白质序列鞭毛蛋白质序列鞭毛蛋白质序列鞭毛蛋白质序列1 1进入进入进入进入SwissprotSwissprot主页:主页:主页:主页:http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/。2 2选择选择选择选择“ “search Swiss-prot/TrEMBLsearch Swiss-prot/TrEMBL” ”,搜索,搜索,搜索,搜索“ “FlagellinFlagellin” ”,在结果中选择,在结果中选择,在结果中选择,在结果中选择“ “FLIC_SALTYFLIC_SALTY” ”,检索,检索,检索,检索得到得到得到得到S. typhimuriumS. typhimurium Flagellin Flagellin鞭毛蛋白鞭毛蛋白鞭毛蛋白鞭毛蛋白(AC(AC:P06179)P06179)。 3 3点击点击点击点击FLIC SALTYFLIC SALTY序列右下方的序列右下方的序列右下方的序列右下方的“ “P06179 in P06179 in FASTA format FASTA format ” ”, , 将将将将FLIC SALTYFLIC SALTY的序列的序列的序列的序列 “ “P06179.fasP06179.fas” ”,格式另存为,格式另存为,格式另存为,格式另存为 “ “P06179.txtP06179.txt” ”格式。格式。格式。格式。如下图所示。如下图所示。如下图所示。如下图所示。 115115高等课堂高等课堂P06179|FLIC_SALTY Flagellin - Salmonella typhimurium.MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVSGQTQFNGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDQKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAGGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQNKDGSISINTTKYTADDGTSKTALNKLGGADGKTEVVSIGGKTYAASKAEGHNFKAQPDLAEAAATTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLTSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR 框框6-5 Salmonella typhimurium FLIC SALTY蛋白蛋白P06179序列的文本格式序列的文本格式 (二)理化性质预测(二)理化性质预测(二)理化性质预测(二)理化性质预测1 1等电点(等电点(等电点(等电点(pIpI)、相对分子质量()、相对分子质量()、相对分子质量()、相对分子质量(MWMW)计算)计算)计算)计算:利用:利用:利用:利用Compute Compute pI/MW pI/MW 计算蛋白质序列计算蛋白质序列计算蛋白质序列计算蛋白质序列“ “P06179.txtP06179.txt” ”相对分子质量、等电点。相对分子质量、等电点。相对分子质量、等电点。相对分子质量、等电点。(1 1)进入)进入)进入)进入SwissprotSwissprot主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics toolsProteomics tools。(2 2)点击)点击)点击)点击“ “PrimaryPrimary structurestructure analysis analysis ” ”,选择,选择,选择,选择 “ “Compute Compute pI/MwpI/Mw,输入序列,输入序列,输入序列,输入序列“ “P06179.texP06179.tex” ”, 中的氨基酸序列进行计算。中的氨基酸序列进行计算。中的氨基酸序列进行计算。中的氨基酸序列进行计算。结果如下图所示:结果如下图所示:结果如下图所示:结果如下图所示:116116高等课堂高等课堂图图6-24 FLIC SALTY蛋白(蛋白(P06179)等电点、相对分子质量预测结果图)等电点、相对分子质量预测结果图117117高等课堂高等课堂2蛋白质参数预测蛋白质参数预测n n利用利用利用利用expasyexpasy工具中的工具中的工具中的工具中的ProtParamProtParam软件,可以更加全面的预软件,可以更加全面的预软件,可以更加全面的预软件,可以更加全面的预测蛋白质各相参数。测蛋白质各相参数。测蛋白质各相参数。测蛋白质各相参数。(1 1)进入)进入)进入)进入SwissprotSwissprot主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics toolsProteomics tools。(2 2)点击)点击)点击)点击“ “PrimaryPrimary structurestructure analysisanalysis” ”,选择,选择,选择,选择“ “ProtParamProtParam” ”,输入序列,输入序列,输入序列,输入序列“ “P06179.texP06179.tex” ”中的氨基酸序中的氨基酸序中的氨基酸序中的氨基酸序列。预测结果如图列。预测结果如图列。预测结果如图列。预测结果如图6-256-25所示。所示。所示。所示。118118高等课堂高等课堂图图6-25 FLIC SALTY蛋白参数预测结果图蛋白参数预测结果图119119高等课堂高等课堂3. 3. 氨基酸组成、电荷分布、疏水区域、跨膜区域等预测氨基酸组成、电荷分布、疏水区域、跨膜区域等预测氨基酸组成、电荷分布、疏水区域、跨膜区域等预测氨基酸组成、电荷分布、疏水区域、跨膜区域等预测n n利用利用利用利用SAPSSAPS软件软件软件软件预测蛋白质预测蛋白质预测蛋白质预测蛋白质P06179P06179中氨基酸组成、中氨基酸组成、中氨基酸组成、中氨基酸组成、电荷分布、疏水区域、跨膜区域等。电荷分布、疏水区域、跨膜区域等。电荷分布、疏水区域、跨膜区域等。电荷分布、疏水区域、跨膜区域等。(1 1)进入)进入)进入)进入SwissproSwissprot t主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics Proteomics toolstools。(2 2)点击)点击)点击)点击“ “PrimaryPrimary structurestructure analysisanalysis” ”,选,选,选,选择择择择“ “SAPSSAPS” ”,输入序列,输入序列,输入序列,输入序列“ “P06179.texP06179.tex” ”中的氨基中的氨基中的氨基中的氨基酸序列。部分预测结果如图酸序列。部分预测结果如图酸序列。部分预测结果如图酸序列。部分预测结果如图6-266-26所示。所示。所示。所示。 120120高等课堂高等课堂图图6-26 FLIC SALTY蛋白蛋白SAPS软件部分预测结果图软件部分预测结果图121121高等课堂高等课堂4酶切结果预测酶切结果预测n n利用利用利用利用PeptideMassPeptideMass分析蛋白质分析蛋白质分析蛋白质分析蛋白质P06179P06179酶处理后的酶处理后的酶处理后的酶处理后的内切产物,以内切产物,以内切产物,以内切产物,以ThemolysinThemolysin蛋白酶切为例。蛋白酶切为例。蛋白酶切为例。蛋白酶切为例。(1 1)进入)进入)进入)进入SwissprotSwissprot主页主页主页主页 http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics Proteomics toolstools。(2 2)点击)点击)点击)点击“ “ProteinProtein identificationidentification andand charactericharacterizationzation” ”,选择,选择,选择,选择“ “PeptideMassPeptideMass” ”,输入序列,输入序列,输入序列,输入序列“ “P06179.texP06179.tex” ”中的氨基酸序列,选择中的氨基酸序列,选择中的氨基酸序列,选择中的氨基酸序列,选择“ “ThemolysinThemolysin” ”,设定相关选项进行预测。酶切,设定相关选项进行预测。酶切,设定相关选项进行预测。酶切,设定相关选项进行预测。酶切结果如图结果如图结果如图结果如图6-27 6-27 所示:所示:所示:所示:122122高等课堂高等课堂图图6-27 FLIC SALTY蛋白蛋白Themolysin酶切结果预测图酶切结果预测图123123高等课堂高等课堂(三)二级结构预测(三)二级结构预测n n利用利用利用利用PredictProteinPredictProtein软件软件软件软件进行进行进行进行FLIC SALTYFLIC SALTY蛋白蛋白蛋白蛋白(P06179P06179)二级结构预测。预测前,需先在主页)二级结构预测。预测前,需先在主页)二级结构预测。预测前,需先在主页)二级结构预测。预测前,需先在主页http:/www.predictprotein.org/http:/www.predictprotein.org/进行进行进行进行免费注册免费注册免费注册免费注册,提,提,提,提供接受预测结果的供接受预测结果的供接受预测结果的供接受预测结果的E-mailE-mail地址。地址。地址。地址。1 1进入进入进入进入SwissprotSwissprot主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics toolsProteomics tools。2 2点击点击点击点击“ “SecondarySecondary structurestructure predictionprediction” ”,选择选择选择选择“ “PredictProteinPredictProtein” ”, 或直接进入或直接进入或直接进入或直接进入PredictProteinPredictProtein网站:网站:网站:网站:http:/www.predictprotein.org/http:/www.predictprotein.org/。3 3输入输入输入输入 “ “P06179.texP06179.tex” ”序列。如图序列。如图序列。如图序列。如图6-286-28所示。所示。所示。所示。P06179P06179二级结构部分预测结果如图二级结构部分预测结果如图二级结构部分预测结果如图二级结构部分预测结果如图6-296-29所示。所示。所示。所示。124124高等课堂高等课堂125125高等课堂高等课堂图图6-29二级结构预测部分结果图二级结构预测部分结果图(图(图6-29预测结果中预测结果中“H”代表代表 -螺旋、螺旋、“E”代表代表 -折叠、折叠、“L”代表代表其他)其他)126126高等课堂高等课堂(四)局部结构预测(四)局部结构预测1 1跨膜区段预测跨膜区段预测跨膜区段预测跨膜区段预测n n 利用利用利用利用TmpredTmpred软件预测软件预测软件预测软件预测FLIC SALTYFLIC SALTY蛋白(蛋白(蛋白(蛋白(P06179P06179)跨)跨)跨)跨膜区域。膜区域。膜区域。膜区域。(1 1)进入)进入)进入)进入SwissprotSwissprot主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics toolsProteomics tools。(2 2)点击)点击)点击)点击“ “TopologyTopology predictionprediction” ”,选择,选择,选择,选择“ “TMpredTMpred” ”, 或者直接进入或者直接进入或者直接进入或者直接进入Tmpred Tmpred 网站网站网站网站http:/www.ch.embnet.org/software/TMPRED_form.htmlhttp:/www.ch.embnet.org/software/TMPRED_form.html。 (3 3)在)在)在)在Query titleQuery title中输入序列名称,提交中输入序列名称,提交中输入序列名称,提交中输入序列名称,提交“ “P06179.texP06179.tex” ”中中中中的氨基酸序列。的氨基酸序列。的氨基酸序列。的氨基酸序列。(4 4)任选一种格式显示结果格式:)任选一种格式显示结果格式:)任选一种格式显示结果格式:)任选一种格式显示结果格式:GIF-format ; Postscript-GIF-format ; Postscript-format ; numerical format .format ; numerical format .n nP06179P06179跨膜区域预测跨膜区域预测跨膜区域预测跨膜区域预测GIF-format GIF-format 结果如图结果如图结果如图结果如图6-306-30所示。所示。所示。所示。127127高等课堂高等课堂图图6-30 P06179跨膜区域跨膜区域GIF-format 预测结果预测结果由图由图可以看出可以看出FLIC SALTY蛋白中存在蛋白中存在2个跨膜螺旋,分别位于个跨膜螺旋,分别位于257- 276位氨位氨基酸之间和基酸之间和294- 310位氨基酸之间。位氨基酸之间。128128高等课堂高等课堂2信号肽及其剪切位点预测信号肽及其剪切位点预测n n利用利用利用利用SingalPSingalP软件预测软件预测软件预测软件预测FLIC SALTYFLIC SALTY蛋白(蛋白(蛋白(蛋白(P06179P06179)信号肽)信号肽)信号肽)信号肽及其剪切位点。及其剪切位点。及其剪切位点。及其剪切位点。(1 1)进入)进入)进入)进入SwissprotSwissprot主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics toolsProteomics tools。(2 2)点击)点击)点击)点击“ “Post-translationalPost-translational modificationmodification predictionprediction” ”,选选选选择择择择“ “SignalPSignalP” ”, 或者直接进入或者直接进入或者直接进入或者直接进入SignalPSignalP网站:网站:网站:网站:http:/www.cbs.dtu.dk/services/SignalP/http:/www.cbs.dtu.dk/services/SignalP/。 (3 3)提交)提交)提交)提交“ “P06179.texP06179.tex” ”中的氨基酸序列,设定相关选项,中的氨基酸序列,设定相关选项,中的氨基酸序列,设定相关选项,中的氨基酸序列,设定相关选项,如图如图如图如图6-316-31所示。预测结果如图所示。预测结果如图所示。预测结果如图所示。预测结果如图6-326-32和和和和6-336-33所示。所示。所示。所示。129129高等课堂高等课堂图图6-31 PredictProtein信号肽预测界面图信号肽预测界面图 130130高等课堂高等课堂in EPS format Sequence length = 495# Measure Position Value Cutoff signal peptide? max. C 484 0.055 0.52 NO max. Y 15 0.094 0.33 NO max. S 4 0.919 0.92 NO mean S 1-14 0.540 0.49 YES D 1-14 0.317 0.44 NO# Most likely cleavage site between pos. 14 and 15: LLT-QN图图6-32 神经网络模型(神经网络模型(Neural networks)预测结果图)预测结果图131131高等课堂高等课堂in EPS format Sequence Prediction: Non-secretory proteinPrediction: Non-secretory proteinSignal peptide probability: 0.000Max cleavage site probability: 0.000 between pos. -1 and 0 # gnuplot scriptfor making the plot(s) 图图6-33 隐马尔可夫模型(隐马尔可夫模型(Hidden Markov models)预测结果图)预测结果图. SingalP软件预测结果显示:神经网络模型(软件预测结果显示:神经网络模型(Neural networks)预测结果表明)预测结果表明FLIC SALTY蛋白分子当中可能存在信号肽,其剪切位点在蛋白分子当中可能存在信号肽,其剪切位点在14-15位氨基酸之间,而隐马尔可位氨基酸之间,而隐马尔可夫模型则预测夫模型则预测FLIC SALTY蛋白分子中没有信号肽。蛋白分子中没有信号肽。132132高等课堂高等课堂3卷曲螺旋预测卷曲螺旋预测n n利用利用利用利用CoilsCoils软件软件软件软件预测预测预测预测FLIC SALTYFLIC SALTY蛋白(蛋白(蛋白(蛋白(P06179P06179)中的卷曲)中的卷曲)中的卷曲)中的卷曲螺旋。螺旋。螺旋。螺旋。(1 1)进入)进入)进入)进入SwissprotSwissprot主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics toolsProteomics tools。(2 2)点击)点击)点击)点击“ “PrimaryPrimary structurestructure analysisanalysis” ”,选择选择选择选择“ “CoilsCoils” ”,或直接进入,或直接进入,或直接进入,或直接进入CoilsCoils网站:网站:网站:网站:http:/www.ch.embnet.org/software/COILS_form.htmlhttp:/www.ch.embnet.org/software/COILS_form.html。(3 3)在)在)在)在Query titleQuery title中输入序列名称,提交序列。中输入序列名称,提交序列。中输入序列名称,提交序列。中输入序列名称,提交序列。n nP06179P06179卷曲螺旋预测卷曲螺旋预测卷曲螺旋预测卷曲螺旋预测GIF-format GIF-format 结果如图结果如图结果如图结果如图6-346-34所示。所示。所示。所示。133133高等课堂高等课堂图图6-34 P06179卷曲螺旋预测卷曲螺旋预测GIF-format 结果图结果图134134高等课堂高等课堂(五)三维结构预测(五)三维结构预测n n利用利用利用利用SWISS-MODELSWISS-MODEL软件进行软件进行软件进行软件进行三维结构预测,三维结构预测,三维结构预测,三维结构预测,预测前,可预测前,可预测前,可预测前,可事先在事先在事先在事先在SWISS-MODELSWISS-MODEL网站主页:网站主页:网站主页:网站主页:http:/swissmodel.expasy.org/http:/swissmodel.expasy.org/进行进行进行进行免费注册免费注册免费注册免费注册,提供接受预,提供接受预,提供接受预,提供接受预测结果测结果测结果测结果E-mailE-mail地址。地址。地址。地址。1 1进入进入进入进入SwissprotSwissprot主页主页主页主页http:/www.expasy.org/sprot/http:/www.expasy.org/sprot/,选择,选择,选择,选择Proteomics toolsProteomics tools。2 2点击点击点击点击“ “TertiaryTertiary structurestructure” ”,选择,选择,选择,选择“ “SWISS-MODELSWISS-MODEL” ”, 或直接进入或直接进入或直接进入或直接进入SWISS-MODELSWISS-MODEL网站:网站:网站:网站:http:/swissmodel.expasy.org/http:/swissmodel.expasy.org/。3 3在在在在Modeling requestsModeling requests下,点击下,点击下,点击下,点击First Approach modeFirst Approach mode。4 4输入序列输入序列输入序列输入序列“ “P06179.texP06179.tex” ”中的氨基酸序列。如图中的氨基酸序列。如图中的氨基酸序列。如图中的氨基酸序列。如图6-356-35所示。所示。所示。所示。135135高等课堂高等课堂图图6-35 SWISS-MODEL蛋白质三维结构预测界面图蛋白质三维结构预测界面图136136高等课堂高等课堂5 5、直接从、直接从、直接从、直接从SWISS-MODELSWISS-MODEL网站获得预测结果,也网站获得预测结果,也网站获得预测结果,也网站获得预测结果,也可以从可以从可以从可以从E-mailE-mail得到结果。得到结果。得到结果。得到结果。6 6、将预测结果以、将预测结果以、将预测结果以、将预测结果以PdbViewerPdbViewer软件软件软件软件打开,保存为图片打开,保存为图片打开,保存为图片打开,保存为图片形式。形式。形式。形式。n nP06179P06179三维结构预测结果截图如图三维结构预测结果截图如图三维结构预测结果截图如图三维结构预测结果截图如图6-366-36所示。三所示。三所示。三所示。三维结构如图维结构如图维结构如图维结构如图6-376-37所示。所示。所示。所示。137137高等课堂高等课堂图图6-36 P06179三三维维结结构构预预测测结结果果系系列列截截图图 138138高等课堂高等课堂图图6-37 P06179三维结构预测图三维结构预测图139139高等课堂高等课堂上网操作上网操作n nKeywords: hemolysin A& Halomonas 利用网上的生物信息学数据查找其利用网上的生物信息学数据查找其基因序列、蛋白序列、蛋白理化性基因序列、蛋白序列、蛋白理化性质、蛋白的二级结构组成、高级结质、蛋白的二级结构组成、高级结构等相关信息及相关文献构等相关信息及相关文献140140高等课堂高等课堂
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号