资源预览内容
第1页 / 共63页
第2页 / 共63页
第3页 / 共63页
第4页 / 共63页
第5页 / 共63页
第6页 / 共63页
第7页 / 共63页
第8页 / 共63页
第9页 / 共63页
第10页 / 共63页
亲,该文档总共63页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
生物信息学生物信息学 bioinformatics生物科学学院生物工程教研室生物科学学院生物工程教研室蛋白质序列分析蛋白质序列分析Analysis of protein sequence生物工程教研室生物工程教研室 孙继政孙继政1高等课件通过预测蛋白质的结构、功能特征分析,可为我们的研究提供指导信息通过预测蛋白质的结构、功能特征分析,可为我们的研究提供指导信息2高等课件8.1 8.1 温故而知新温故而知新Single- & three-letter amino acid codesG GlycineGlyP ProlineProA AlanineAlaV ValineValL LeucineLeuI IsoleucineIleM MethionineMetC CysteineCysF Phenylalanine PheY Tyrosine TyrW TryptophanTrpH HistidineHisK LysineLysR ArginineArgQ GlutamineGlnN AsparagineAsnE Glutamic Acid GluD Aspartic AcidAspS SerineSerT ThreonineThrAdditional codesB Asn/AspZ Gln/GluX Any amino acid蛋白质的组成蛋白质的组成3高等课件4高等课件Primary structurethe linear sequence of amino acids in a proteinSecondary structureregions of local regularityi.e., a-helices, b-strands, -sheets & -turns蛋白质的结构层次蛋白质的结构层次5高等课件Tertiary structurethe overall chain fold that results from packing of secondary structure elementsSuper-secondary structurethe packing of secondary structure elements into stable unitse.g., b-barrels, bab units, Greek keys, etc.6高等课件Quaternary structurethe arrangement of separate chains within a protein that has more than one subunit e.g., haemoglobin7高等课件多肽链在二级结构或超二级结构的基础上形成的三级结构局部折叠区是多肽链在二级结构或超二级结构的基础上形成的三级结构局部折叠区是相对独立的紧密球状实体,被称作结构域(相对独立的紧密球状实体,被称作结构域(domaindomain)。)。 结构域(结构域(domaindomain)8高等课件在蛋白质中有些区域对于维持蛋白质的结构和功能具有至关重要的作用,在蛋白质中有些区域对于维持蛋白质的结构和功能具有至关重要的作用,进化过程中变化的非常缓慢,这样的区域称作蛋白质核心区域(进化过程中变化的非常缓慢,这样的区域称作蛋白质核心区域(core core regionregion)。)。核心区域(核心区域(core region)结构与功能结构与功能9高等课件蛋白质结构重要位点蛋白质结构重要位点一些氨基酸残基对于某些结构的稳定具有关键的作用,这样的关键角一些氨基酸残基对于某些结构的稳定具有关键的作用,这样的关键角色在蛋白质中显得尤为重要,色在蛋白质中显得尤为重要,10高等课件8.28.2蛋白质序列的同源分析蛋白质序列的同源分析同源蛋白:同源蛋白:生物大分子序列是分子进化的产物,从共同祖先序列进化而来生物大分子序列是分子进化的产物,从共同祖先序列进化而来 的蛋白质通常称为同源蛋白的蛋白质通常称为同源蛋白蛋白质同源分析:蛋白质同源分析:基于检测的同源蛋白从而外推得到某特定蛋白的某些特基于检测的同源蛋白从而外推得到某特定蛋白的某些特 性的方法称为蛋白质的同源分析性的方法称为蛋白质的同源分析常有的软件有:常有的软件有:BLAST等等 PSI-BLAST和隐马尔可夫模型和隐马尔可夫模型(HMMs) PSI-BLAST(迭代搜索(迭代搜索)把查找到的每一击中项作为第二次迭代的查)把查找到的每一击中项作为第二次迭代的查询序列得到更多的进化关系,第二次及以后的迭代不是对第一次输出的询序列得到更多的进化关系,第二次及以后的迭代不是对第一次输出的每一序列执行每一序列执行BLAST,而是所有击中项形成的序列轮廓(家族保守序,而是所有击中项形成的序列轮廓(家族保守序列)进行列)进行BLAST搜索,查到收敛为止。搜索,查到收敛为止。11高等课件蛋白质同源分析进行蛋白质功能或结构的预测仍然存在困难蛋白质同源分析进行蛋白质功能或结构的预测仍然存在困难相似与同源的问题相似与同源的问题直系与旁系同源直系与旁系同源计算机程序自动生成的功能注释不少是错误的计算机程序自动生成的功能注释不少是错误的有的序列会彼此相似,却不是进化关系或生物功能相近的缘故有的序列会彼此相似,却不是进化关系或生物功能相近的缘故12高等课件8.38.3蛋白质序列的结构域及结合位点分析蛋白质序列的结构域及结合位点分析蛋白质的进化过程并不都是从头开始,而是利用现有材料,通过改造,使蛋白质的进化过程并不都是从头开始,而是利用现有材料,通过改造,使其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系统。而这些现有材料,就是蛋白质序列中的统。而这些现有材料,就是蛋白质序列中的“模块模块” ,他们对应蛋白质分,他们对应蛋白质分子中重要的结构或功能区域。这些区域在蛋白质家族中通常是保守的。子中重要的结构或功能区域。这些区域在蛋白质家族中通常是保守的。13高等课件蛋白质序列的二级数据库蛋白质序列的二级数据库同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。因此,将蛋白质的多序列联配结果储存在数据库存储就显得尤的重要信息。因此,将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了,存储这些信息的数据库为重要了,存储这些信息的数据库称为蛋白质二级数据库称为蛋白质二级数据库。通过对二级数据。通过对二级数据库中序列的比对搜索,可以把一条新的蛋白质序列分配到蛋白质家族中,从库中序列的比对搜索,可以把一条新的蛋白质序列分配到蛋白质家族中,从而预测蛋白质功能。而预测蛋白质功能。保守残基出现的原因是:维持某种功能或特定结构保守残基出现的原因是:维持某种功能或特定结构14高等课件多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守残基和残基模式、序列轮廓和其它的序列家族的概率模型。残基和残基模式、序列轮廓和其它的序列家族的概率模型。PrositeProsite数据库:基于多序列比较得到的数据库:基于多序列比较得到的单一保守序列片段单一保守序列片段,或称,或称序列模体序列模体PrintsPrints(蛋白质序列指纹图谱数据库)(蛋白质序列指纹图谱数据库)BlocksBlocks(蛋白质序列模块数据库)(蛋白质序列模块数据库)ProfilesProfiles(序列概貌数据库)(序列概貌数据库)PfamPfam(蛋白质序列家族数据库)采用了隐马尔可夫模型(蛋白质序列家族数据库)采用了隐马尔可夫模型IdentifyIdentify(蛋白质序列识别数据库)(蛋白质序列识别数据库)序列中的序列中的多重保守片段多重保守片段15高等课件它们的共同特点是都基于多序列比对,不同之处是处理比对结果的原则和方法各有特色它们的共同特点是都基于多序列比对,不同之处是处理比对结果的原则和方法各有特色16高等课件蛋白质模式蛋白质模式(protein patterin)(protein patterin)数据库数据库PrositeProsite数据库:是第一个蛋白质序列二次数据库基于对蛋白质家族中同源序列的数据库:是第一个蛋白质序列二次数据库基于对蛋白质家族中同源序列的多序列比对得到的保守性区域,与生物学功能有关,酶的活性位点、配体或金属结多序列比对得到的保守性区域,与生物学功能有关,酶的活性位点、配体或金属结合位点等。它合位点等。它实际上是蛋白质序列功能位点数据库实际上是蛋白质序列功能位点数据库。可用来判断该序列包含什么样。可用来判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。的功能位点,从而推测其可能属于哪一个蛋白质家族。PrositeProsite的序列描述模式可以由正则文法描述。例如与丝氨酸蛋白酶的序列描述模式可以由正则文法描述。例如与丝氨酸蛋白酶 家族有关的两个序列模式如下:家族有关的两个序列模式如下: 一类是提交一条未知蛋白质序列,通过搜索给出相应的序列模式,一类是提交一条未知蛋白质序列,通过搜索给出相应的序列模式,一类是输入一个序列模式,针对特定数据库,如一类是输入一个序列模式,针对特定数据库,如SwissProtSwissProt、TrEMBLTrEMBL、PDBPDB等,给出符合该序列模式的蛋白质序列条目等,给出符合该序列模式的蛋白质序列条目17高等课件18高等课件19高等课件20高等课件21高等课件给出关键功能机制相关的少数几个重要残基,对于发现远距离同源较有优势,给出关键功能机制相关的少数几个重要残基,对于发现远距离同源较有优势,但是有假阳性,指出了序列上特定位置处可能出现的残基,但并没有对出现但是有假阳性,指出了序列上特定位置处可能出现的残基,但并没有对出现的概率给予描述。的概率给予描述。22高等课件PRINTS和和BLOCKS非常类似,非常类似,都以一组无空位肽段来表示蛋都以一组无空位肽段来表示蛋白质家族,这些无空位肽段是白质家族,这些无空位肽段是通过对一组蛋白或蛋白质家族通过对一组蛋白或蛋白质家族的高保守区进行多序列联配而的高保守区进行多序列联配而得的。无空位片段在得的。无空位片段在BLOCKS中称为中称为blocks,在,在PRINTS中中称为称为motifs(模体模体),在,在PRINTS中,代表一个蛋白质家族的一中,代表一个蛋白质家族的一组组motifs被称为被称为fingerprint(指纹指纹),PRINTSPRINTS和和BLOCKSBLOCKShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/23高等课件24高等课件25高等课件http:/blocks.fhcrc.org/blocks/26高等课件27高等课件PRINTS/BLOCKSPRINTS/BLOCKS库中的库中的motifsmotifs或或blocksblocks可以比可以比PrositeProsite的序列模式覆盖更大的的序列模式覆盖更大的序列区域,并且序列区域,并且motifs/blocksmotifs/blocks在序列匹配中通常会考虑氨基酸替换矩阵的在序列匹配中通常会考虑氨基酸替换矩阵的问题。因而更为敏感问题。因而更为敏感( (找出更多远距离的关系找出更多远距离的关系) )和更加特异和更加特异( (出现更少的假阳性出现更少的假阳性) )。28高等课件蛋白质结构域与家族蛋白质结构域与家族(protein domain families)(protein domain families) 蛋白质结构域蛋白质结构域(protein domain)(protein domain):必须是一个独立单元。:必须是一个独立单元。是是蛋白质中结蛋白质中结构紧密构紧密(compact)(compact)的、半独立的单元的、半独立的单元(semi-independent) (semi-independent) 在三维结构上在三维结构上呈现几何独立的部分呈现几何独立的部分 ;是是蛋白质三维结构中可自折叠的稳定单元蛋白质三维结构中可自折叠的稳定单元(stable(stable unit) unit),是可独立于序列的剩余部分而折叠为特定三维结构的那部分序,是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列;列;是是可重现的功能和进化模块,是可定义单一明确功能的部分蛋白质可重现的功能和进化模块,是可定义单一明确功能的部分蛋白质序列序列29高等课件这些模块化结构很可能反映了这些模块化结构很可能反映了蛋白质的进化方式。遗传事件蛋白质的进化方式。遗传事件可以导致结构域互换、结构域可以导致结构域互换、结构域复制、结构域丢失和获得等。复制、结构域丢失和获得等。得到有特定功能的新结构域可得到有特定功能的新结构域可以使蛋白质非常迅速地获得更以使蛋白质非常迅速地获得更加复杂的新功能。加复杂的新功能。30高等课件ProDom是一个蛋白质结构域家族数据库,它采用基于递归的是一个蛋白质结构域家族数据库,它采用基于递归的PSI-BLAST比对搜索算法基于比对搜索算法基于SwissProt和和TrEMBL蛋白质序列数据库自动构建产生蛋白质序列数据库自动构建产生31高等课件32高等课件33高等课件34高等课件sequence profiles sequence profiles 和和 Prosite profileProsite profile 序列谱序列谱(sequence profiles)提供了一种方法,用来描述来自同一蛋白质提供了一种方法,用来描述来自同一蛋白质结构域家族的相关序列。它描述了观察到每个氨基酸的可能性,以及在结构域家族的相关序列。它描述了观察到每个氨基酸的可能性,以及在序列中每个位点处插入和缺失的可能性序列中每个位点处插入和缺失的可能性35高等课件36高等课件37高等课件38高等课件39高等课件40高等课件Hidden Markov models Hidden Markov models 和和 PfamPfam 隐马尔可夫模型隐马尔可夫模型(Hidden Markov models, HMMs)(Hidden Markov models, HMMs)是描述蛋白质结构域家是描述蛋白质结构域家族序列最精细的统计学方法族序列最精细的统计学方法41高等课件42高等课件43高等课件44高等课件InterProScanInterProScan综合分析综合分析目前已经出现了整合蛋白质结构功能域二级数据库的综合性数据库及其目前已经出现了整合蛋白质结构功能域二级数据库的综合性数据库及其搜索系统,如搜索系统,如SMARTSMART、HITS(HITS(集成集成Prosite patternProsite pattern、Prosite Prosite profileprofile和和pfam)pfam)和和InterProInterPro等。这里主要对等。这里主要对InterProInterPro做一个简单介绍。做一个简单介绍。 45高等课件46高等课件47高等课件8.4 8.4 蛋白质序列理化性质分析蛋白质序列理化性质分析蛋白质理化性质的分析通常包括:蛋白质的分子量、等电点蛋白质理化性质的分析通常包括:蛋白质的分子量、等电点(pI)(pI)、氨、氨基酸组成、疏水性和亲水性分析等基酸组成、疏水性和亲水性分析等48高等课件 Compute pI/Mw Compute pI/Mw 49高等课件ANTHEPROTANTHEPROT ANTHEPROTANTHEPROT可以计算给出蛋白质序列的氨基酸组成、疏水区、亲水区、可以计算给出蛋白质序列的氨基酸组成、疏水区、亲水区、跨膜区、等电点分析、跨膜区、等电点分析、AmphiphilicityAmphiphilicity分析、信号肽分析等等分析、信号肽分析等等50高等课件8.5 8.5 蛋白质序列的基本性质分析蛋白质序列的基本性质分析蛋白质序列的基本性质分析,一般包括蛋白质的跨膜螺旋、卷曲螺旋、蛋白质序列的基本性质分析,一般包括蛋白质的跨膜螺旋、卷曲螺旋、二硫键位置、翻译后修饰、信号肽与亚细胞定位、磷酸化位点分析等二硫键位置、翻译后修饰、信号肽与亚细胞定位、磷酸化位点分析等51高等课件COILSCOILS将输入序列与数据库中将输入序列与数据库中coiled-coilscoiled-coils比较产生相似性分值。通过比较这个分值比较产生相似性分值。通过比较这个分值与球蛋白,卷曲螺旋蛋白的分值的分布,可以计算提交序列将会采取的卷曲螺旋构与球蛋白,卷曲螺旋蛋白的分值的分布,可以计算提交序列将会采取的卷曲螺旋构象的概率分值。象的概率分值。52高等课件SignalPSignalP( (http:/www.cbs.dtu.dk/services/SignalP/http:/www.cbs.dtu.dk/services/SignalP/) ) 可以对革兰氏阳可以对革兰氏阳性菌,革兰氏阴性菌和真核生物的蛋白质序列进行信号肽分析性菌,革兰氏阴性菌和真核生物的蛋白质序列进行信号肽分析53高等课件TMHMM和TMpred ( (http:/www.cbs.dtu.dk/services/TMHMM/http:/www.cbs.dtu.dk/services/TMHMM/) )用来预测用来预测跨膜螺旋。跨膜螺旋。insulin54高等课件亚细胞定位与亚细胞定位与PSORTBPSORTB 蛋白质必须在一定的亚细胞器上才能正确行使其功能。同时也只有在蛋白质必须在一定的亚细胞器上才能正确行使其功能。同时也只有在相同或相近的亚细胞位置上蛋白质间才会有相互作用。亚细胞位置异相同或相近的亚细胞位置上蛋白质间才会有相互作用。亚细胞位置异常的蛋白质通常还会引起如癌症、老年痴呆症等疾病。常的蛋白质通常还会引起如癌症、老年痴呆症等疾病。55高等课件蛋白质磷酸化位点与蛋白质磷酸化位点与DISPHOSDISPHOS 蛋白质的翻译后修饰包括糖基化、磷酸化、蛋白质降解、蛋白质的翻译后修饰包括糖基化、磷酸化、蛋白质降解、S S硝酸化、精氨酸硝酸化、精氨酸甲基化和甲基化和ADPADP核糖基化等等,是蛋白质行使正常生理功能所必需的。众多蛋核糖基化等等,是蛋白质行使正常生理功能所必需的。众多蛋白质翻译后修饰方式中磷酸化是最常见、最重要的一种共价修饰方式白质翻译后修饰方式中磷酸化是最常见、最重要的一种共价修饰方式56高等课件8.6 8.6 蛋白质序列的功能注释蛋白质序列的功能注释随着二维凝胶电泳等实验技术的发展等蛋白质芯片上的蛋白质组数据随着二维凝胶电泳等实验技术的发展等蛋白质芯片上的蛋白质组数据也在大量被获取。然而目前对这些新基因的基因产物和蛋白质功能的也在大量被获取。然而目前对这些新基因的基因产物和蛋白质功能的了解却相对落后。了解却相对落后。功能注释的根本目标是建立基因型功能注释的根本目标是建立基因型(genotype)与表型与表型(phenotype)以以及与环境间的相互作用与联系为致病基因筛选、药物靶标筛选、基因及与环境间的相互作用与联系为致病基因筛选、药物靶标筛选、基因表达谱数据分析、建立调控网络等提供关键信息。表达谱数据分析、建立调控网络等提供关键信息。57高等课件 蛋白质功能的描述蛋白质功能的描述蛋白质功能是一个多层次且具有复杂体系的概念蛋白质功能是一个多层次且具有复杂体系的概念(multilevel and (multilevel and hierarchical)hierarchical),完整的蛋白质功能注释需从生化、细胞、组织、发育,完整的蛋白质功能注释需从生化、细胞、组织、发育进化、生理上分别进行描述进化、生理上分别进行描述58高等课件分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能molecular functionmolecular function:蛋白质的特殊绑定位点、催化活性和构象变化等:蛋白质的特殊绑定位点、催化活性和构象变化等cellular functioncellular function:一定细胞环境下代谢途径、信号级联的参与情况的:一定细胞环境下代谢途径、信号级联的参与情况的phonotypic functionphonotypic function:生物体内的表型,如是否患有疾病及其疾病病理等:生物体内的表型,如是否患有疾病及其疾病病理等由于由于Gene Ontology ConsortiumGene Ontology Consortium的工作,的工作,GOGO注释已成为目前功能功能注释已成为目前功能功能注释的事实标准,通常的功能注释都会提供注释的事实标准,通常的功能注释都会提供GOGO分类号分类号59高等课件 蛋白质注释方法蛋白质注释方法前蛋白质序列的功能注释方法基本上是经过同源比对进行已知的蛋白质功前蛋白质序列的功能注释方法基本上是经过同源比对进行已知的蛋白质功能注释信息的传递,目前大规模蛋白质功能注释工作主要集中为将单个基能注释信息的传递,目前大规模蛋白质功能注释工作主要集中为将单个基因产物划分到一个已知的蛋白质类别中。因产物划分到一个已知的蛋白质类别中。基于序列的功能预测(略)基于序列的功能预测(略)基于基因组上下文基于基因组上下文(genomic-context)(genomic-context)的功能预测(略)的功能预测(略)Library of known foldsNew sequenceBuild detailedAtomic modelAssign knownfold from libraryFunctionFunction60高等课件思考题:思考题:1、名词解释:同源蛋白、蛋白质同源分析、名词解释:同源蛋白、蛋白质同源分析2、名词解释:蛋白质二级数据库并说出几个蛋白质二级数据库(至少、名词解释:蛋白质二级数据库并说出几个蛋白质二级数据库(至少3个)个)3、蛋白质结构域的概念及结构域的特点、蛋白质结构域的概念及结构域的特点4、蛋白质序列的理化性质分析包括哪一些?并举出一种软件。、蛋白质序列的理化性质分析包括哪一些?并举出一种软件。5、蛋白质序列的基本性质包括哪一些、蛋白质序列的基本性质包括哪一些 ?并举出两种软件。?并举出两种软件。6、说明蛋白质功能的三个层次(可能简答)、说明蛋白质功能的三个层次(可能简答)7、蛋白质功能注释的根本目标是什么?、蛋白质功能注释的根本目标是什么?61高等课件本次课推荐单词:本次课推荐单词:PrimarySecondaryTertiaryQuaternaryDomainHydrogen bondSalt bridgeHydrophobicPatterinMotifCompactSemi-independentHydrophilicityCellularPhonotypicGenotypeAmino acid compositionsCategoryProfilesa a-helices, b b-strands、 -sheets ,b b -turns62高等课件欢迎批评指正欢迎批评指正63高等课件
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号