资源预览内容
第1页 / 共51页
第2页 / 共51页
第3页 / 共51页
第4页 / 共51页
第5页 / 共51页
第6页 / 共51页
第7页 / 共51页
第8页 / 共51页
第9页 / 共51页
第10页 / 共51页
亲,该文档总共51页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第三章第三章 序列两两比对序列两两比对1 1序列两两比对序列两两比对主要内容序言序列比对的方法比对用到的得分矩阵序列比对的统计学显著性总结2 2序列两两比对序列两两比对序 言 序列比较是生物信息分析的基础。它是分析新测定序列结构与功序列比较是生物信息分析的基础。它是分析新测定序列结构与功能的第一阶段。随着生物序列以指数级速度被测定出来,通过对新测能的第一阶段。随着生物序列以指数级速度被测定出来,通过对新测定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系变的方法变得越来越重要,这种比较最基本的方法是序列比对,也就变的方法变得越来越重要,这种比较最基本的方法是序列比对,也就是比较序列来找出一种共同的字符模式以建立相关序列的残基残基是比较序列来找出一种共同的字符模式以建立相关序列的残基残基之间的一致性。序列两两比对就是对两条序列的比对,它是数据库相之间的一致性。序列两两比对就是对两条序列的比对,它是数据库相似性搜索的基础。似性搜索的基础。3 3序列两两比对序列两两比对序 言进化基础 DNADNA和蛋白质是进化的产物。它们可以被认为是编码数百万年和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史上,这些分子经历了随机变化过程,期进化史的分子化石。在进化史上,这些分子经历了随机变化过程,期中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。中序列以替换、插入和删除残基的形式发生了变化。4 4序列两两比对序列两两比对序 言 识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其它的方法识别了。它的方法识别了。5 5序列两两比对序列两两比对序 言序列同源(序列同源(homologyhomology)与序列相似()与序列相似(similaritysimilarity) 序列同源是序列分析的一个重要概念。当两条序列来源于共同的进序列同源是序列分析的一个重要概念。当两条序列来源于共同的进化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似,化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似,它是指比对的残基在理化性质,如大小,带电,疏水性等方面相似的程它是指比对的残基在理化性质,如大小,带电,疏水性等方面相似的程度。度。 序列同源是根据序列比对时两条序列相似性高到一定程度推导出来序列同源是根据序列比对时两条序列相似性高到一定程度推导出来的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结果直接得出的一种结论。序列相似可以用百分比来量化,而序列同源只果直接得出的一种结论。序列相似可以用百分比来量化,而序列同源只能取能取“ “是是“ “或或“ “不是不是“ “。 大体说来,如果两条序列的相似性足够高,我们就可以认为它们是大体说来,如果两条序列的相似性足够高,我们就可以认为它们是同源的。但是在实际问题中,到底多高的相似性才能认为是同源的是不同源的。但是在实际问题中,到底多高的相似性才能认为是同源的是不清除的。答案依赖于被处理的序列类型和序列的长度。清除的。答案依赖于被处理的序列类型和序列的长度。6 6序列两两比对序列两两比对序 言序列同源(序列同源(homologyhomology)与序列相似()与序列相似(similaritysimilarity) 对于对于DNADNA序列,由于只存在四种碱基,两条不相关的序列同一位置序列,由于只存在四种碱基,两条不相关的序列同一位置至少有至少有25%25%的机会相同,而对于蛋白质序列,一共有的机会相同,而对于蛋白质序列,一共有2020中氨基酸,所以中氨基酸,所以不相关的序列中出现同一氨基酸的概率为不相关的序列中出现同一氨基酸的概率为5%5%。序列长度也是一个关键因。序列长度也是一个关键因素。序列越短随机出现相同的残基的概率就高,序列越长随机相同的概素。序列越短随机出现相同的残基的概率就高,序列越长随机相同的概率就越小。率就越小。 这就要求对短的序列给予高的阈值来判断它们同源。例如,对于有这就要求对短的序列给予高的阈值来判断它们同源。例如,对于有100100个氨基酸的蛋白质序列,如果全局比对有个氨基酸的蛋白质序列,如果全局比对有30%30%或更高的残基相同,就或更高的残基相同,就认为它们很有可能同源,这个范围被称为认为它们很有可能同源,这个范围被称为“ “安全范围安全范围” ”;如果有;如果有20%20%30%30%的氨基酸相同,它们的同源关系就不那么肯定了,这个范围被称为的氨基酸相同,它们的同源关系就不那么肯定了,这个范围被称为“ “模糊范围模糊范围” ”;如果有低于;如果有低于20%20%的氨基酸相同,那么就很难认为它们具的氨基酸相同,那么就很难认为它们具有同源关系,这个范围被称为有同源关系,这个范围被称为“ “黑暗范围黑暗范围” ”(P33P33图图3.1)3.1)。这是一种不精。这是一种不精确的方法,尤其是对模糊范围很难判定是否同源,后面介绍的序列比对确的方法,尤其是对模糊范围很难判定是否同源,后面介绍的序列比对的统计学上的显著性将会给出精确的方法判断序列是否同源。的统计学上的显著性将会给出精确的方法判断序列是否同源。7 7序列两两比对序列两两比对序 言序列相似(序列相似(similaritysimilarity)与序列一致()与序列一致(identityidentity) 序列比对中用到的另一对相关术语是序列相似与序列一致。这两个序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似有相似理化性质残基匹配的比例。有两种方法计算序列相似/ /一致度。一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进一种方法是用两条序列的全部长度,而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度:行标准化。第一种方法用如下公式计算序列相似度: S=(L S=(Ls s*2)/(L*2)/(La a+L+Lb b)*100)*100其中其中S S是序列相似的百分比,是序列相似的百分比,L Ls s是相似的残基数目,是相似的残基数目,L La a和和L Lb b分别是两条分别是两条序列的长度。序列的长度。8 8序列两两比对序列两两比对序 言序列相似(序列相似(similaritysimilarity)与序列一致()与序列一致(identityidentity) 第一种方法用如下公式计算序列一致度:第一种方法用如下公式计算序列一致度: I=(L I=(Li i*2)/(L*2)/(La a+L+Lb b)*100)*100其中其中I I是序列一致的百分比,是序列一致的百分比,L Li i是一致的残基数目,是一致的残基数目,L La a和和L Lb b分别是两条序分别是两条序列的长度。列的长度。 第二种方法利用如下公式计算序列的一致第二种方法利用如下公式计算序列的一致/ /相似度:相似度: I(S)%=L I(S)%=Li i( (S S)/L)/La a% 其中其中L La a是较短序列的长度。是较短序列的长度。9 9序列两两比对序列两两比对序列比对的方法 序列两两比对的最终目的是找到两条序列的最佳匹配,也就是找到序列两两比对的最终目的是找到两条序列的最佳匹配,也就是找到残基之间的最大相似。为了达到这个目标,一条序列需要相对于另一条残基之间的最大相似。为了达到这个目标,一条序列需要相对于另一条序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比对策略:全局比对和局部比对。对策略:全局比对和局部比对。 全局比对和局部比对全局比对和局部比对 在全局比对中,我们假定两条序列在整个长度上是相似的。全局比在全局比对中,我们假定两条序列在整个长度上是相似的。全局比对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序列,这种方法不能产生最理想的结果因为它不能识别出两条序列中高度列,这种方法不能产生最理想的结果因为它不能识别出两条序列中高度相似的局部序列。相似的局部序列。 在局部比对中,我们不假设两条序列全局相似,只是找两条序列中在局部比对中,我们不假设两条序列全局相似,只是找两条序列中高度相似的局部区域而不考虑其它区域。这种方法能比对比较分散的序高度相似的局部区域而不考虑其它区域。这种方法能比对比较分散的序列来找出列来找出DNADNA或蛋白质序列中的保守模式。被比对的两条序列可以不等或蛋白质序列中的保守模式。被比对的两条序列可以不等长。长。 这种方法很适合于比对包含相似模块的分散的生物序列,这种方法很适合于比对包含相似模块的分散的生物序列, 以找出以找出domaindomain或或motifmotif。1010序列两两比对序列两两比对序列比对的方法比对算法 比对算法,不管是全局比对还是局部比对,基本上是相似的,只是比对算法,不管是全局比对还是局部比对,基本上是相似的,只是比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法的:点阵方法,动态规划方法和基于单词的方法。点阵法和动态规划算的:点阵方法,动态规划方法和基于单词的方法。点阵法和动态规划算法在这章讲,而基于单词的方法将在下一章讲。法在这章讲,而基于单词的方法将在下一章讲。1111序列两两比对序列两两比对序列比对的方法点阵方法 最基本的序列比对方法是点阵法,也叫点平面图法。这是一种在二最基本的序列比对方法是点阵法,也叫点平面图法。这是一种在二维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中的重复区域。的重复区域。1212序列两两比对序列两两比对序列比对的方法1313序列两两比对序列两两比对序列比对的方法1414序列两两比对序列两两比对序列比对的方法点阵方法 用点阵法比较大序列时存在一个问题,那就是高噪音水平。在大多用点阵法比较大序列时存在一个问题,那就是高噪音水平。在大多数点平面上,点被画的到处都是,使真正的比对难以被识别。对于数点平面上,点被画的到处都是,使真正的比对难以被识别。对于DNADNA序列,问题尤其严重,因为序列,问题尤其严重,因为DNADNA序列中只有四种字符,所以每一个碱基序列中只有四种字符,所以每一个碱基都有都有1/41/4的机会与另一条序列的碱基匹配。为了降低噪音,我们不再直接的机会与另一条序列的碱基匹配。为了降低噪音,我们不再直接扫描单个碱基的匹配,而是引进过滤技术。用一个适当长度的扫描单个碱基的匹配,而是引进过滤技术。用一个适当长度的“ “窗口窗口” ”来覆盖一段连续的残基。当使用过滤器时,窗口沿着两条序列滑动来比来覆盖一段连续的残基。当使用过滤器时,窗口沿着两条序列滑动来比较所有可能的连续残基。只有当等于窗口长度的一段连续残基和另一条较所有可能的连续残基。只有当等于窗口长度的一段连续残基和另一条序列相同长度的残基匹配时才在矩阵中相应位置画点。这种方法在降低序列相同长度的残基匹配时才在矩阵中相应位置画点。这种方法在降低噪音水平上是有效的。窗口也被称作噪音水平上是有效的。窗口也被称作“tuple”“tuple”,其大小是可以被操纵的,其大小是可以被操纵的以使它能识别特定模式的序列。然而,如果窗口被选的很长,比对的敏以使它能识别特定模式的序列。然而,如果窗口被选的很长,比对的敏感性就降低了。感性就降低了。1515序列两两比对序列两两比对序列比对的方法1616序列两两比对序列两两比对序列比对的方法1717序列两两比对序列两两比对序列比对的方法点阵方法 点阵法有许多变形。例如,一条序列可以和它自身比对以识别内部点阵法有许多变形。例如,一条序列可以和它自身比对以识别内部重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果内部重复元素存在,会观察到在主对角线的上方或下方有短的对角线。内部重复元素存在,会观察到在主对角线的上方或下方有短的对角线。DNADNA序列的自补(也叫反向重复),例如那些存在发夹结构的家族,也序列的自补(也叫反向重复),例如那些存在发夹结构的家族,也能用点距阵法识别。在这种情况下,一条能用点距阵法识别。在这种情况下,一条DNADNA序列与它的反向补序列进序列与它的反向补序列进行比较。平行的对角线代表反向重复。为了比较蛋白质序列,必须使用行比较。平行的对角线代表反向重复。为了比较蛋白质序列,必须使用一个权重系统来描述氨基酸残基的相似度。一个权重系统来描述氨基酸残基的相似度。1818序列两两比对序列两两比对序列比对的方法自我比较自我比较1919序列两两比对序列两两比对序列比对的方法点阵方法 点阵法给出了两条序列关系的一种直观描述,它很容易识别出序点阵法给出了两条序列关系的一种直观描述,它很容易识别出序列中高度相似的区域。这种方法的一个显著的优点是可以基于矩阵中列中高度相似的区域。这种方法的一个显著的优点是可以基于矩阵中存在的水平方向上或垂直方向上长度相同的对角线来识别序列中的重存在的水平方向上或垂直方向上长度相同的对角线来识别序列中的重复区域。因此这种方法在基因组学中有一定应用。它在识别染色体重复区域。因此这种方法在基因组学中有一定应用。它在识别染色体重复和比较两个高度相关的基因组中基因顺序的保守性非常有用。它在复和比较两个高度相关的基因组中基因顺序的保守性非常有用。它在通过检测序列的自补性来识别核苷酸序列的二级结构也非常有用。通过检测序列的自补性来识别核苷酸序列的二级结构也非常有用。 点阵法能显示所有可能的序列匹配。然而,它要求用户将邻近的点阵法能显示所有可能的序列匹配。然而,它要求用户将邻近的对角线连接起来来构造带有残基插入和删除的全序列比对。这种方法对角线连接起来来构造带有残基插入和删除的全序列比对。这种方法的另一个缺点是它缺少评价比对质量的统计上的精确性。这种方法在的另一个缺点是它缺少评价比对质量的统计上的精确性。这种方法在两两比对中也存在局限性。它很难构造多序列比对。下面是几个利用两两比对中也存在局限性。它很难构造多序列比对。下面是几个利用点阵法设计的序列两两比对的工具。点阵法设计的序列两两比对的工具。 Dotmatcher Dotmatcher(bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.htmlbioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) ) Dottup( Dottup(bioweb.pasteur.fr/seqanal/interfaces/dottup.htmlbioweb.pasteur.fr/seqanal/interfaces/dottup.html) ) Dothelix( Dothelix(l l) ) MatrixPlot( MatrixPlot(/ / ) )2020序列两两比对序列两两比对序列比对的方法动态规划方法 动态规划是一种通过匹配两条序列中所有可能的字符对来确定最动态规划是一种通过匹配两条序列中所有可能的字符对来确定最优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的找到最佳联配找到最佳联配2121序列两两比对序列两两比对序列比对的方法动态规划方法 动态规划的第一步是构造两个轴分别是两条待比对的序列的二维动态规划的第一步是构造两个轴分别是两条待比对的序列的二维矩阵。残基的匹配是根据一个特殊的得分矩阵。每次计算一行分数。矩阵。残基的匹配是根据一个特殊的得分矩阵。每次计算一行分数。这个过程开始于一条序列的第一行,用这行扫描另一条序列的全部残这个过程开始于一条序列的第一行,用这行扫描另一条序列的全部残基,紧接着处理第二行。这样匹配分数就被计算出来了。在扫描第二基,紧接着处理第二行。这样匹配分数就被计算出来了。在扫描第二行的时候计算分数依赖于第一轮计算出来的分数。最优分数被放在矩行的时候计算分数依赖于第一轮计算出来的分数。最优分数被放在矩阵的右下角。叠代这一过程直到矩阵的所有元素都被填上。因此,分阵的右下角。叠代这一过程直到矩阵的所有元素都被填上。因此,分数是沿着从左上角到右下角的对角线累加的。一但矩阵中的所有分数数是沿着从左上角到右下角的对角线累加的。一但矩阵中的所有分数都被计算出来,下一步就是寻找代表最佳比对的路径。这一过程是沿都被计算出来,下一步就是寻找代表最佳比对的路径。这一过程是沿着矩阵的右下角到左上角的相反的顺序来回溯完成的。最优匹配路径着矩阵的右下角到左上角的相反的顺序来回溯完成的。最优匹配路径就是总分最高的路径。如果两条或更多的路径得到最高分,就任选一就是总分最高的路径。如果两条或更多的路径得到最高分,就任选一条代表最佳比对。路径也可以在某一点水平或垂直移动,它代表引入条代表最佳比对。路径也可以在某一点水平或垂直移动,它代表引入空位,也就是在其中一条序列中有残基的插入或删除。空位,也就是在其中一条序列中有残基的插入或删除。2222序列两两比对序列两两比对序列比对的方法A AC CT TGGC CC CT TA AT TGGC CT T11000000002222312333302234550233456最佳比对是:A C T G C C T A - T G - C T 2323序列两两比对序列两两比对序列比对的方法空位罚分 在寻找最优比对时要用到代表插入和删除的空位。因为在自然进化在寻找最优比对时要用到代表插入和删除的空位。因为在自然进化过程中插入和删除发生的频率要比替换相对少,所以引进空位在计算上过程中插入和删除发生的频率要比替换相对少,所以引进空位在计算上应该是比较谨慎的以反映在进化中插入和删除发生的少。然而实际中分应该是比较谨慎的以反映在进化中插入和删除发生的少。然而实际中分配罚分值是比较任意的,因为没有革命性的理论来确定引进插入和删除配罚分值是比较任意的,因为没有革命性的理论来确定引进插入和删除所付出的精确的代价。如果罚分值设置的过低,空位就会过多以至于无所付出的精确的代价。如果罚分值设置的过低,空位就会过多以至于无关序列也会得到很高的相似性得分;如果罚分值设置的过高,空位就很关序列也会得到很高的相似性得分;如果罚分值设置的过高,空位就很难被引进以至于很难找到合理的比对,这也是不切实际的。通过对球状难被引进以至于很难找到合理的比对,这也是不切实际的。通过对球状蛋白的经验学习,我们已经得到了一组适合于大部分比对的罚分值。在蛋白的经验学习,我们已经得到了一组适合于大部分比对的罚分值。在大多数比对程序中它们可以被用作默认的罚分值。大多数比对程序中它们可以被用作默认的罚分值。2424序列两两比对序列两两比对序列比对的方法空位罚分 另一个要考虑的因素是新开始一个空位和扩展一个已经存在的空位另一个要考虑的因素是新开始一个空位和扩展一个已经存在的空位所付出的代价是不同的。众所周知,扩展一个已经开始的空位是相对容所付出的代价是不同的。众所周知,扩展一个已经开始的空位是相对容易的。因此新开一个空位要比扩展一个空位设置更高的罚分值。这是根易的。因此新开一个空位要比扩展一个空位设置更高的罚分值。这是根据这样一个基本原理,那就是一但插入和删除发生,那么一些临近的残据这样一个基本原理,那就是一但插入和删除发生,那么一些临近的残基很可能一起被插入和删除。这种不同的罚分策略已经在纺射型空位罚基很可能一起被插入和删除。这种不同的罚分策略已经在纺射型空位罚分中被提到。基本的策略就是根据预先调整好的空位罚分值来引进或扩分中被提到。基本的策略就是根据预先调整好的空位罚分值来引进或扩展空位。例如,可以用展空位。例如,可以用-12/-1-12/-1方案来进行空位罚分,也就是新开一个空方案来进行空位罚分,也就是新开一个空位罚位罚1212分,扩展一个空位罚分,扩展一个空位罚1 1分。总得罚分(分。总得罚分(WW)用下面的公式计算:)用下面的公式计算: W= W=+ +*(k-1)*(k-1) 其中其中代表开始一个空位的代表开始一个空位的罚罚分分值值, 代表代表扩扩展一个空位的展一个空位的罚罚分分值值,k k代代表空位的表空位的长长度。除了度。除了纺纺射型空位射型空位罚罚分,固定分,固定值值空位空位罚罚分有分有时时也是很有用也是很有用的,的,这这种种罚罚分模型分模型为为每一个空位分配相同的每一个空位分配相同的罚罚分而不管它是新开空位分而不管它是新开空位还还是是扩扩展空位。然而,展空位。然而,这这种种罚罚分模型比分模型比纺纺射型射型罚罚分模型不符合分模型不符合实际实际。2525序列两两比对序列两两比对序列比对的方法空位罚分 在序列末尾的空位我们经常不进行罚分,因为在实际中很多同源的在序列末尾的空位我们经常不进行罚分,因为在实际中很多同源的序列是不等长的。因此末端的空位是允许自由出现的以避免得到不切实序列是不等长的。因此末端的空位是允许自由出现的以避免得到不切实际的比对结果。际的比对结果。2626序列两两比对序列两两比对t t t ts s s s A AC CA AC CA AC CT TA AA AGGC CA AC CA AC CA A例:例:s = AGCACACAt = ACACACTA 得分矩阵得分矩阵D (999)p (a, a) = 1p (a, a) = 1p (a, b) = 0 a p (a, b) = 0 a b bp (a, -) = p ( -, b) = -1p (a, -) = p ( -, b) = -12727序列两两比对序列两两比对t t t ts s s s A AC CA AC CA AC CT TA A0 0-1-1-2-2-3-3-4-4-5-5-6-6-7-7-8-8A A-1-1GG-2-2C C-3-3A A-4-4C C-5-5A A-6-6C C-7-7A A-8-8初始化初始化2828序列两两比对序列两两比对计算计算d(2,2)t t t ts s s s A AC CA AC CA AC CT TA A0 0-1-1-2-2-3-3-4-4-5-5-6-6-7-7-8-8A A-1-11 10 0-1-1-2-2-3-3-4-4-5-5-6-6GG-2-20 01 1C C-3-3A A-4-4C C-5-5A A-6-6C C-7-7A A-8-82929序列两两比对序列两两比对计算计算d(2,2)t t t ts s s s A AC CA AC CA AC CT TA A0 0-1-1-2-2-3-3-4-4-5-5-6-6-7-7-8-8A A-1-11 10 0-1-1-2-2-3-3-4-4-5-5-6-6GG-2-20 01 10 0-1-1-2-2-3-3-4-4-5-5C C-3-3-1-11 11 11 10 0-1-1-2-2-3-3A A-4-4-2-20 02 21 12 21 10 0-1-1C C-5-5-3-3-1-11 13 32 23 32 21 1A A-6-6-4-4-2-20 02 24 43 33 33 3C C-7-7-5-5-3-3-1-11 13 35 54 43 3A A-8-8-6-6-4-4-2-20 02 24 45 55 53030序列两两比对序列两两比对最终的得分矩阵最终的得分矩阵及最佳序列比对及最佳序列比对t t t ts s s s A AC CA AC CA AC CT TA A0 0-1-1-2-2-3-3-4-4-5-5-6-6-7-7-8-8A A-1-11 10 0-1-1-2-2-3-3-4-4-5-5-6-6GG-2-20 01 10 0-1-1-2-2-3-3-4-4-5-5C C-3-3-1-11 11 11 10 0-1-1-2-2-3-3A A-4-4-2-20 02 21 12 21 10 0-1-1C C-5-5-3-3-1-11 13 32 23 32 21 1A A-6-6-4-4-2-20 02 24 43 33 33 3C C-7-7-5-5-3-3-1-11 13 35 54 43 3A A-8-8-6-6-4-4-2-20 02 24 45 55 5AGCACAC A| | |A CACACTA3131序列两两比对序列两两比对序列比对的方法全局比对的动态规划算法 经典的运用动态规划进行全局两两比对的算法是经典的运用动态规划进行全局两两比对的算法是Needleman-WunschNeedleman-Wunsch算法。在这个算法中,我们会得到一个基于两条序列全长的最佳的比对结算法。在这个算法中,我们会得到一个基于两条序列全长的最佳的比对结果。它必须对序列从头到尾的进行计算以得到最高比对得分。换句话说,果。它必须对序列从头到尾的进行计算以得到最高比对得分。换句话说,比对路径必须是从矩阵的最右下角一直到最左上角的原点。关注序列全长比对路径必须是从矩阵的最右下角一直到最左上角的原点。关注序列全长的最大比对得分的缺点是找不到局部的序列相似。这种策略适合于比对高的最大比对得分的缺点是找不到局部的序列相似。这种策略适合于比对高度相关的等长序列。对于发散的序列或具有不同域结构的序列,用这种方度相关的等长序列。对于发散的序列或具有不同域结构的序列,用这种方法不能得到最理想的比对。一个用于全局两两比对的法不能得到最理想的比对。一个用于全局两两比对的webweb程序是程序是GAPGAP。 GAP() GAP()是一个基于是一个基于webweb的序列两两全局比对程序。它比对序列时不进行的序列两两全局比对程序。它比对序列时不进行末尾罚分,所以不同长度的相似序列可以被比对。为了能在比对中引入长末尾罚分,所以不同长度的相似序列可以被比对。为了能在比对中引入长的空位,这个程序运用固定罚分模型。这个程序适用于比对包含相同基因的空位,这个程序运用固定罚分模型。这个程序适用于比对包含相同基因的染色体杂交品种中的的染色体杂交品种中的cDNAcDNA。3232序列两两比对序列两两比对序列比对的方法局部比对的动态规划算法 在正常的序列比对中,两条被比对序列的分离水平是不容易知道的。两在正常的序列比对中,两条被比对序列的分离水平是不容易知道的。两条序列的长度可能也不相同。在这种情况下,识别序列的局部相似性比比对条序列的长度可能也不相同。在这种情况下,识别序列的局部相似性比比对包含所有残基的整个序列更有意义。第一个运用动态规划进行局部序列比对包含所有残基的整个序列更有意义。第一个运用动态规划进行局部序列比对的算法是的算法是Smith-WatermanSmith-Waterman算法。在这个算法中匹配的残基被赋予正的分数算法。在这个算法中匹配的残基被赋予正的分数而失配的残基被赋予零分,不用负分。在这个算法中也用回溯的方法,然而,而失配的残基被赋予零分,不用负分。在这个算法中也用回溯的方法,然而,比对路径可能开始和结束于沿对角线的矩阵内部。它开始于矩阵中的最高分比对路径可能开始和结束于沿对角线的矩阵内部。它开始于矩阵中的最高分处向左上角回溯一直到第一个为零的位置结束。如果必要的话可以引入空位。处向左上角回溯一直到第一个为零的位置结束。如果必要的话可以引入空位。如果有空位经常使用纺射型空位罚分。偶尔会找到几个具有最高得分的局部如果有空位经常使用纺射型空位罚分。偶尔会找到几个具有最高得分的局部区域。在全局比对中,最终结果受到使用的得分矩阵的影响。而局部比对的区域。在全局比对中,最终结果受到使用的得分矩阵的影响。而局部比对的目标是找到局部最高分,在扩展最高分的时候可能扩展到全序列。这种方法目标是找到局部最高分,在扩展最高分的时候可能扩展到全序列。这种方法适用于比对分散的序列和具有多个来自于不同源的区域的序列。大多数两两适用于比对分散的序列和具有多个来自于不同源的区域的序列。大多数两两比对程序都用局部比对策略,它们包括比对程序都用局部比对策略,它们包括SIMSIM,SSEARCHSSEARCH和和LALIGNLALIGN。3333序列两两比对序列两两比对序列比对的方法局部比对的动态规划算法 SIM()SIM()是一个基于是一个基于webweb的运用的运用Smith-WatermanSmith-Waterman算法寻找两条序列间无重算法寻找两条序列间无重叠的最佳局部比对的程序。它可以处理几十叠的最佳局部比对的程序。它可以处理几十kbpkbp的基因组序列。用户可以设的基因组序列。用户可以设置使用的得分矩阵和罚分模型。用它已经得到了很多高得分的比对。置使用的得分矩阵和罚分模型。用它已经得到了很多高得分的比对。 SSEARCH() SSEARCH()是一个简单的基于是一个简单的基于webweb的运用的运用Smith-WatermanSmith-Waterman算法进行序算法进行序列两两比对的程序。它只能得到一个最佳比对得分。用户不能设定使用的得列两两比对的程序。它只能得到一个最佳比对得分。用户不能设定使用的得分矩阵和罚分模型。分矩阵和罚分模型。 LALIGN() LALIGN()是一个基于是一个基于webweb的运用改进的的运用改进的Smith-WatermanSmith-Waterman算法进行序列算法进行序列比对的算法。不像比对的算法。不像SSEARCHSSEARCH只得到一个最佳比对得分,只得到一个最佳比对得分,LALIGNLALIGN给出一系给出一系列最佳比对得分。用户可以设置使用的得分矩阵和罚分模型。这个网页也给列最佳比对得分。用户可以设置使用的得分矩阵和罚分模型。这个网页也给出了一个进行全局比对的程序出了一个进行全局比对的程序ALIGNALIGN。3434序列两两比对序列两两比对比对用到的得分矩阵 在目前的动态规划算法中,比对程序必须使用打分系统,也就是用在目前的动态规划算法中,比对程序必须使用打分系统,也就是用来量化一个残基被另一个残基替换的可能性的一组数值。打分系统也叫来量化一个残基被另一个残基替换的可能性的一组数值。打分系统也叫替换矩阵,他是通过统计分析对高度相似的序列进行可靠比对得到的残替换矩阵,他是通过统计分析对高度相似的序列进行可靠比对得到的残基替换数据集得到的。基替换数据集得到的。 核苷酸序列的得分矩阵是相对简单的。对匹配的位置赋予一个正值核苷酸序列的得分矩阵是相对简单的。对匹配的位置赋予一个正值或高分,对失配的位置赋予一个负值或低分。这种负值方法是基于所有或高分,对失配的位置赋予一个负值或低分。这种负值方法是基于所有碱基的变化频率相同的假设。然而,这种方法是不符合实际的;观察显碱基的变化频率相同的假设。然而,这种方法是不符合实际的;观察显示转换(示转换(transitiontransition)(嘌呤与嘌呤之间的或嘧啶与嘧啶之间的替换)发)(嘌呤与嘌呤之间的或嘧啶与嘧啶之间的替换)发生的频率比颠换(生的频率比颠换(transversiontransversion)(嘌呤与嘧啶之间的替换)发生的频率)(嘌呤与嘧啶之间的替换)发生的频率高。因此,需要一个反应不同的残基替换其发生的频率不同的更加复杂高。因此,需要一个反应不同的残基替换其发生的频率不同的更加复杂的统计模型。的统计模型。 氨基酸序列的得分矩阵比较复杂,因为分数必须反应氨基酸残基的氨基酸序列的得分矩阵比较复杂,因为分数必须反应氨基酸残基的理化性质和某种氨基酸被同源序列的残基替换的可能性。某一种氨基酸理化性质和某种氨基酸被同源序列的残基替换的可能性。某一种氨基酸可以很容易的被具有相似理化性质的其它氨基酸替换而很难被具有不同可以很容易的被具有相似理化性质的其它氨基酸替换而很难被具有不同理化性质的氨基酸替换。相似残基之间的替换很容易保存结构和功能特理化性质的氨基酸替换。相似残基之间的替换很容易保存结构和功能特 3535序列两两比对序列两两比对比对用到的得分矩阵 征。而不同理化性质的残基之间的替换很可能导致结构和功能分离。这种征。而不同理化性质的残基之间的替换很可能导致结构和功能分离。这种会产生分裂的替换是很少有可能被进化所选择的,因为这会导致蛋白质失会产生分裂的替换是很少有可能被进化所选择的,因为这会导致蛋白质失去功能。去功能。 例如,苯丙氨酸,酪氨酸和色氨酸都具有芳香环结构。由于它们化学例如,苯丙氨酸,酪氨酸和色氨酸都具有芳香环结构。由于它们化学性质相似,所以很容易彼此替换而不会破坏蛋白质的正常结构和功能。类性质相似,所以很容易彼此替换而不会破坏蛋白质的正常结构和功能。类似的,精氨酸,赖氨酸和组氨酸都是大的碱性残基,所以它们很容易彼此似的,精氨酸,赖氨酸和组氨酸都是大的碱性残基,所以它们很容易彼此替换。天冬氨酸和谷氨酸属于酸和酸的氨基化合物,因此可以以相对高的替换。天冬氨酸和谷氨酸属于酸和酸的氨基化合物,因此可以以相对高的替换频率被联合在一起。疏水残基组包括甲硫氨酸,异亮氨酸,亮氨酸和替换频率被联合在一起。疏水残基组包括甲硫氨酸,异亮氨酸,亮氨酸和缬氨酸。小的极性残基包括丝氨酸,苏氨酸和半胱氨酸。这些组内的残基缬氨酸。小的极性残基包括丝氨酸,苏氨酸和半胱氨酸。这些组内的残基有很高的可能性彼此替换。而半胱氨酸包含一个硫基,所以它在金属的结有很高的可能性彼此替换。而半胱氨酸包含一个硫基,所以它在金属的结合,活性位点以及二硫化物结合等方面扮演重要角色。因此别的氨基酸替合,活性位点以及二硫化物结合等方面扮演重要角色。因此别的氨基酸替换了半胱氨酸经常会彻底破坏酶的活性以及使蛋白质的结构不稳定。它是换了半胱氨酸经常会彻底破坏酶的活性以及使蛋白质的结构不稳定。它是一个很少被替换的残基。小的非极性的残基像甘氨酸和脯氨酸也是独一无一个很少被替换的残基。小的非极性的残基像甘氨酸和脯氨酸也是独一无二的,它们的存在经常会破坏蛋白质正常的二级结构。因此和它们的替换二的,它们的存在经常会破坏蛋白质正常的二级结构。因此和它们的替换也是很少发生的。有关氨基酸群组的理化性质的更多信息请看表也是很少发生的。有关氨基酸群组的理化性质的更多信息请看表12.112.1。3636序列两两比对序列两两比对比对用到的得分矩阵氨基酸得分矩阵 氨基酸替换矩阵是一个氨基酸替换矩阵是一个20*2020*20的矩阵,它用来反映氨基酸残基替换的的矩阵,它用来反映氨基酸残基替换的可能性。存在两种类型的氨基酸替换矩阵。一种是基于基因编码或氨基可能性。存在两种类型的氨基酸替换矩阵。一种是基于基因编码或氨基酸性质的可交换性;另一种是通过对氨基酸替换的经验学习得到的。尽酸性质的可交换性;另一种是通过对氨基酸替换的经验学习得到的。尽管两种不同的方法都符合一定的范围,而第一种,也就是基于基因编码管两种不同的方法都符合一定的范围,而第一种,也就是基于基因编码或氨基酸的理化性质的方法没有第二种方法,也就是基于对实际相关的或氨基酸的理化性质的方法没有第二种方法,也就是基于对实际相关的蛋白质中氨基酸的替换的考察的方法准确。因此,经验上的方法在实际蛋白质中氨基酸的替换的考察的方法准确。因此,经验上的方法在实际序列比对程序中得到普及,它也是我们下面将要讨论的。序列比对程序中得到普及,它也是我们下面将要讨论的。 经验上的矩阵,包括经验上的矩阵,包括PAMPAM矩阵和矩阵和BLOSUMBLOSUM矩阵,是通过对高度相似矩阵,是通过对高度相似序列的实际比对得到的。通过分析在这些比对中氨基酸替换的可能性,序列的实际比对得到的。通过分析在这些比对中氨基酸替换的可能性,我们就能得到一个得分系统,这个系统对很可能发生的替换打高分,对我们就能得到一个得分系统,这个系统对很可能发生的替换打高分,对很少发生的替换打低分。很少发生的替换打低分。3737序列两两比对序列两两比对比对用到的得分矩阵氨基酸得分矩阵 对于一个给定的矩阵,一个正的分数说明在一个同源序列的数据集对于一个给定的矩阵,一个正的分数说明在一个同源序列的数据集中观察到的氨基酸替换频率比随机替换频率高。它们代表非常相似的或中观察到的氨基酸替换频率比随机替换频率高。它们代表非常相似的或是同源的氨基酸之间的替换。零分说明在一个同源序列的数据集中观察是同源的氨基酸之间的替换。零分说明在一个同源序列的数据集中观察到的氨基酸替换频率和随机替换频率相同。这种情况表明氨基酸至多在到的氨基酸替换频率和随机替换频率相同。这种情况表明氨基酸至多在理化性质方面是弱相似。一个负的分数说明在一个同源序列的数据集中理化性质方面是弱相似。一个负的分数说明在一个同源序列的数据集中观察到的氨基酸替换频率比随机替换频率低。这通常发生在不相似的残观察到的氨基酸替换频率比随机替换频率低。这通常发生在不相似的残基之间。基之间。3838序列两两比对序列两两比对比对用到的得分矩阵氨基酸得分矩阵 替换矩阵通过实施对数转换来描述氨基酸之间替换的可能性。转换替换矩阵通过实施对数转换来描述氨基酸之间替换的可能性。转换值被称为所谓的对数几率分数,这个分数是观察到的突变频率比上随机值被称为所谓的对数几率分数,这个分数是观察到的突变频率比上随机替换频率的对数。这种转换的底数可以是替换频率的对数。这种转换的底数可以是1010也可以是也可以是2 2。例如,在一个。例如,在一个包括十条序列的比对中,每条序列只比对一个位点,其中九条序列都是包括十条序列的比对中,每条序列只比对一个位点,其中九条序列都是F F剩下的一条是剩下的一条是I I。那么观察到的那么观察到的I I被被F F替换的频率就是替换的频率就是0.10.1,而,而I I被被F F随机替随机替换的可能性是换的可能性是0.050.05,因此两种可能性的比就是,因此两种可能性的比就是2 2(0.1/0.050.1/0.05)。然后把这)。然后把这个值转化成以个值转化成以2 2为底的对数,对数几率就是为底的对数,对数几率就是1 1。这个值就可以用来解释两。这个值就可以用来解释两种残基的替换可能性是种残基的替换可能性是2 21 1,即替换的可能性是随机替换的两倍。,即替换的可能性是随机替换的两倍。3939序列两两比对序列两两比对比对用到的得分矩阵PAM 矩阵 PAM PAM矩阵(也叫矩阵(也叫Dayhoff PAMDayhoff PAM矩阵)是由矩阵)是由Margaret DayhoffMargaret Dayhoff首先构建首先构建的,她通过对的,她通过对2121组非常接近的相关蛋白质序列进行比对构造出了组非常接近的相关蛋白质序列进行比对构造出了PAMPAM矩矩阵。阵。PAMPAM的意思是的意思是“ “点接受突变点接受突变” ”(尽管(尽管“ “可接受的点突变可接受的点突变” ”或者或者APMAPM更加合适,但是更加合适,但是PAMPAM好发音)。因为使用的是非常接近的同源序列,观好发音)。因为使用的是非常接近的同源序列,观察到的突变不会显著的改变蛋白质的一般功能。因此,观察到的氨基酸察到的突变不会显著的改变蛋白质的一般功能。因此,观察到的氨基酸突变被认为是被自然选择接受了的。突变被认为是被自然选择接受了的。 这些蛋白质序列被基于用最大简约法构建的系统发育谱聚类。然后这些蛋白质序列被基于用最大简约法构建的系统发育谱聚类。然后我们就可以得到基于同一类中序列的进化距离的我们就可以得到基于同一类中序列的进化距离的PAMPAM矩阵。一个矩阵。一个PAMPAM单单位被定义为有位被定义为有1 1的氨基酸位点发生了变化。我们选择一组突变频率符合的氨基酸位点发生了变化。我们选择一组突变频率符合一个一个PAMPAM单位的非常相关的序列来构建一个单位的非常相关的序列来构建一个PAM1PAM1替换表。在收集这组替换表。在收集这组序列的突变数据的基础上,我们就能得到一个突变矩阵。序列的突变数据的基础上,我们就能得到一个突变矩阵。 4040序列两两比对序列两两比对比对用到的得分矩阵PAM 矩阵 构建一个构建一个PAM1PAM1矩阵包括对一组序列进行全局比对和随后的运用简矩阵包括对一组序列进行全局比对和随后的运用简约原则构建系统发育树。这个过程需要计算每一个发育树内部节点的祖约原则构建系统发育树。这个过程需要计算每一个发育树内部节点的祖先序列。祖先序列信息用来计算沿每一个分支的替换数目。一个特定的先序列。祖先序列信息用来计算沿每一个分支的替换数目。一个特定的残基对的残基对的PAMPAM分数是通过一个多阶段过程得到的,分数是通过一个多阶段过程得到的,这个过程包括:计算这个过程包括:计算相对突变率(一个特定氨基酸被同源的氨基酸替换的总数除以在整个比相对突变率(一个特定氨基酸被同源的氨基酸替换的总数除以在整个比对中这种氨基酸出现的总数),用随机替换率对预期的氨基酸替换频率对中这种氨基酸出现的总数),用随机替换率对预期的氨基酸替换频率进行标准化,把标准化后的突变率除以特定氨基酸出现频率然后取以进行标准化,把标准化后的突变率除以特定氨基酸出现频率然后取以1010为底的对数。为底的对数。把结果取整然后填入替换矩阵,这个矩阵就可以反映氨基把结果取整然后填入替换矩阵,这个矩阵就可以反映氨基酸替换的可能性。这样就完成了计算对数几率分数的过程。在收集了所酸替换的可能性。这样就完成了计算对数几率分数的过程。在收集了所有可能的氨基酸替换后就可以建立一个有可能的氨基酸替换后就可以建立一个20*2020*20的的PAMPAM矩阵。正的分数表矩阵。正的分数表示替换发生的频率比预期的进化中保存的替换频率高。负的分数表示替示替换发生的频率比预期的进化中保存的替换频率高。负的分数表示替换发生的频率比预期的低。换发生的频率比预期的低。 4141序列两两比对序列两两比对比对用到的得分矩阵PAM 矩阵 对应于较分散序列的高阶的对应于较分散序列的高阶的PAMPAM矩阵是通过对矩阵是通过对PAM1PAM1矩阵相乘推断矩阵相乘推断出来的。例如,出来的。例如,PAM80PAM80是通过对是通过对PAM1PAM1矩阵自乘矩阵自乘8080次得到的。这种数学次得到的。这种数学转换是基于这样一种原理的,那就是它认为在进化过程中一个氨基酸位转换是基于这样一种原理的,那就是它认为在进化过程中一个氨基酸位点发生了多次替换。例如,当观察到一个点发生了多次替换。例如,当观察到一个F F被被I I替换的突变时,进化中的替换的突变时,进化中的变化过程实际上可能经历了一系列的中间过程,比如变化过程实际上可能经历了一系列的中间过程,比如F-M-L-IF-M-L-I。基于这种。基于这种原因,原因,一个一个PAM80PAM80矩阵只相当于观察到突变率的矩阵只相当于观察到突变率的5050。 一个一个PAMPAM单位被定义为有单位被定义为有1 1的氨基酸发生改变或是每的氨基酸发生改变或是每100100个氨基酸个氨基酸中有一个突变。渐增的中有一个突变。渐增的PAMPAM阶数把渐增的阶数把渐增的PAMPAM单位同蛋白质序列的进化单位同蛋白质序列的进化距离联系起来。例如,距离联系起来。例如,PAM250PAM250,有,有2020的氨基酸一致,代表每的氨基酸一致,代表每100100个残个残基就有基就有250250个突变。在理论上,进化中改变的数目大概符合个突变。在理论上,进化中改变的数目大概符合2525亿年的进亿年的进化跨度。因此,化跨度。因此,PAM250PAM250通常被用于发散的序列。因此,低阶的通常被用于发散的序列。因此,低阶的PAMPAM矩矩阵更适用于比对高度相关的序列。阵更适用于比对高度相关的序列。PAM250PAM250的氨基酸的替换矩阵的推断的氨基酸的替换矩阵的推断值可以见表值可以见表3.53.5。4242序列两两比对序列两两比对比对用到的得分矩阵BLOSUM 矩阵 在在PAMPAM矩阵构建过程中,只是直接观察了矩阵构建过程中,只是直接观察了PAM1PAM1中的基于一小堆极中的基于一小堆极其相近序列中的残基替换。对于较分散序列的比对的统计是不可靠的。其相近序列中的残基替换。对于较分散序列的比对的统计是不可靠的。为了弥补这个缺点,产生了一种新的替换矩阵。这是一种氨基酸序列块为了弥补这个缺点,产生了一种新的替换矩阵。这是一种氨基酸序列块的替换矩阵,所有的矩阵都是通过直接观察多序列比对中每种氨基酸替的替换矩阵,所有的矩阵都是通过直接观察多序列比对中每种氨基酸替换的可能性而得到的。它们都是建立在代表换的可能性而得到的。它们都是建立在代表500500组蛋白质序列的组蛋白质序列的20002000个个氨基酸模式基础上的。序列模式也叫块,是少于氨基酸模式基础上的。序列模式也叫块,是少于6060个氨基酸残基长度的个氨基酸残基长度的无空位比对。这些块中的氨基酸残基的替换频率被计算出来形成一张数无空位比对。这些块中的氨基酸残基的替换频率被计算出来形成一张数值表,或叫块替换矩阵。值表,或叫块替换矩阵。 BLOSUM BLOSUM矩阵不用推断,而是用实际上所选序列的残基一致性的比矩阵不用推断,而是用实际上所选序列的残基一致性的比例来构建矩阵。例如,例来构建矩阵。例如,BLOSUM62BLOSUM62表明被选择构建矩阵的序列有平均表明被选择构建矩阵的序列有平均62%62%的一致性。人们也构建了其它一些基于各种不同的一致性水平序列的一致性。人们也构建了其它一些基于各种不同的一致性水平序列的矩阵。和的矩阵。和PAMPAM矩阵的阶数意义相反,矩阵的阶数意义相反,BLOSUMBLOSUM矩阵的阶数越低,它代矩阵的阶数越低,它代表的序列就越分散。表的序列就越分散。4343序列两两比对序列两两比对比对用到的得分矩阵BLOSUM 矩阵 一个特定残基对的一个特定残基对的BLOSUMBLOSUM分数是一个对数几率分数,这个分数是分数是一个对数几率分数,这个分数是通过观察到的残基替换频率比上随机的残基替换频率然后转化为以通过观察到的残基替换频率比上随机的残基替换频率然后转化为以2 2为底为底的对数,而不像的对数,而不像PAMPAM是以是以1010为底的对数。计算的结果被取整后填入替换为底的对数。计算的结果被取整后填入替换矩阵。像矩阵。像PAMPAM矩阵一样,正值和负值分别表示替换的频率比进化中预期矩阵一样,正值和负值分别表示替换的频率比进化中预期的替换频率高或低。的替换频率高或低。BLOSUM62BLOSUM62矩阵的值可见表矩阵的值可见表3.63.6。4444序列两两比对序列两两比对比对用到的得分矩阵PAM 矩阵与BLOSUM 矩阵的比较 PAM PAM矩阵和矩阵和BLOSUMBLOSUM矩阵之间有很多不同。本质上的不同是矩阵之间有很多不同。本质上的不同是PAMPAM矩矩阵,尤其是阵,尤其是PAM1PAM1矩阵是通过一个进化模型得到的,矩阵是通过一个进化模型得到的, 而而BLOSUMBLOSUM矩阵完矩阵完全是由直接观测值构成。因此,全是由直接观测值构成。因此,BLOSUMBLOSUM矩阵可能没有矩阵可能没有PAMPAM矩阵那么强矩阵那么强的进化上的实际意义。的进化上的实际意义。 这是这是PAMPAM矩阵常被用来重构系统发育树的原因。矩阵常被用来重构系统发育树的原因。然而,由于使用了数学推断过程,然而,由于使用了数学推断过程,PAMPAM矩阵对于发散的序列可能不符合矩阵对于发散的序列可能不符合实际。实际。BLOSUMBLOSUM矩阵是完全通过对保守序列的局部比对得到的;而矩阵是完全通过对保守序列的局部比对得到的;而PAM1PAM1矩阵是通过对包含保守和变化区域的整个序列的全局比对得到的。这是矩阵是通过对包含保守和变化区域的整个序列的全局比对得到的。这是BLOSUMBLOSUM矩阵更适用于搜索数据库和寻找蛋白质中的保守区域的原因。矩阵更适用于搜索数据库和寻找蛋白质中的保守区域的原因。 一些经验上的测试表明一些经验上的测试表明BLOSUMBLOSUM矩阵在局部比对的正确性方面胜过矩阵在局部比对的正确性方面胜过PAMPAM矩阵。这很可能是由于矩阵。这很可能是由于BLOSUMBLOSUM矩阵是通过使用比矩阵是通过使用比PAMPAM矩阵更大更矩阵更大更有代表性的数据集得到的。这使得有代表性的数据集得到的。这使得BLOSUMBLOSUM矩阵的值更加可靠。为了补矩阵的值更加可靠。为了补偿偿PAMPAM系统的不足,基于更大数据集的使用相同方法构造的系统的不足,基于更大数据集的使用相同方法构造的PAMPAM矩阵已矩阵已经构造出来。这些矩阵包括经构造出来。这些矩阵包括GonnetGonnet矩阵和矩阵和Jones-Taylor-ThrortonJones-Taylor-Throrton矩阵,矩阵,它们在常规比对中显示了和它们在常规比对中显示了和BLOSUMBLOSUM矩阵相同的性能,但是在构造系统矩阵相同的性能,但是在构造系统发育树方面显示了更强的鲁棒性。发育树方面显示了更强的鲁棒性。4545序列两两比对序列两两比对序列比对的统计学显著性 当给出了显示一定相似度的序列比对时,知道这个观测到的序列比当给出了显示一定相似度的序列比对时,知道这个观测到的序列比对在随机状态下能否发生或者说这个比对是否在统计上是可靠的是非常对在随机状态下能否发生或者说这个比对是否在统计上是可靠的是非常重要的。在统计学上确实是显著的序列比对能提供序列同源的证据。重要的。在统计学上确实是显著的序列比对能提供序列同源的证据。 为了解决这个问题需要对等长但不相关的序列的比对得分进行统计为了解决这个问题需要对等长但不相关的序列的比对得分进行统计测试。通过计算大量不相关序列对的比对得分,我们就能得到一个随机测试。通过计算大量不相关序列对的比对得分,我们就能得到一个随机序列比对得分的分布模型。从这个分布中,我们就可以基于与平均得分序列比对得分的分布模型。从这个分布中,我们就可以基于与平均得分的标准误差来进行统计测试了。许多研究已经证明相似性得分分布呈现的标准误差来进行统计测试了。许多研究已经证明相似性得分分布呈现出一侧带有长尾巴的高偏正态分布的特殊形状(见图出一侧带有长尾巴的高偏正态分布的特殊形状(见图3.73.7)。这种分布符)。这种分布符合合“ “坎贝尔极值分布坎贝尔极值分布” ”,这种分布可以用数学表达式计算。这意味着给,这种分布可以用数学表达式计算。这意味着给定一个比对的相似性得分,通过极值分布的数学公式就可以准确地估计定一个比对的相似性得分,通过极值分布的数学公式就可以准确地估计它的统计学显著性。它的统计学显著性。4646序列两两比对序列两两比对序列比对的统计学显著性 对两条无关序列的统计测试可以通过下面的过程完成。首先得到两对两条无关序列的统计测试可以通过下面的过程完成。首先得到两条序列的理想的比对。通过随机打乱两条序列中的一条这样一个随机过条序列的理想的比对。通过随机打乱两条序列中的一条这样一个随机过程来得到两条等长的无关序列。通过比对这两条序列计算出一个新的比程来得到两条等长的无关序列。通过比对这两条序列计算出一个新的比对得分。通过重复这个过程得到很多这样的比对得分。通过这个过程得对得分。通过重复这个过程得到很多这样的比对得分。通过这个过程得到的比对得分池被用来产生极值分布的参数。最初的比对得分与这个随到的比对得分池被用来产生极值分布的参数。最初的比对得分与这个随机比对的得分分布比较以确定这个分数是否不属于随机分数。如果最初机比对的得分分布比较以确定这个分数是否不属于随机分数。如果最初的分数处于整个分布的边缘,就说明这两条序列的比对得分不是随机的的分数处于整个分布的边缘,就说明这两条序列的比对得分不是随机的而是显著的。给出而是显著的。给出P P值用来指明最初的比对得分是随机得到的可能性。值用来指明最初的比对得分是随机得到的可能性。4747序列两两比对序列两两比对序列比对的统计学显著性 从测试得到的从测试得到的P P值提供了比一致性比例更可靠的判别序列同源的指值提供了比一致性比例更可靠的判别序列同源的指示值。所以如何解释示值。所以如何解释P P值是很重要的。有关研究显示如果值是很重要的。有关研究显示如果P P值小于值小于1010-100-100的话,说明两条序列是精确匹配的。如果的话,说明两条序列是精确匹配的。如果P P值在值在1010-50-50到到1010-100-100之间,我们之间,我们认为两条序列是近似匹配的。认为两条序列是近似匹配的。P P值在值在1010-5-5到到1010-50-50之间说明序列有较近的之间说明序列有较近的同源关系。同源关系。P P值在值在1010-1-1到到1010-5-5之间说明序列之间可能存在较远的同源关系。之间说明序列之间可能存在较远的同源关系。如果如果P P值大于值大于1010-1-1,那么两条序列很可能是随机的关系。但是需要注意的,那么两条序列很可能是随机的关系。但是需要注意的是有时候真正同源的序列可能由于很快的分离速度使它们在序列水平上是有时候真正同源的序列可能由于很快的分离速度使它们在序列水平上缺少统计学上的显著性。它们的进化关系仍然能在三维结构水平上显示缺少统计学上的显著性。它们的进化关系仍然能在三维结构水平上显示出来。出来。 这些统计都是基于无空位的序列比对得到的。我们不知道坎贝尔分这些统计都是基于无空位的序列比对得到的。我们不知道坎贝尔分布是否同样适用于有空位的比对。然而,出于实际应用的需要,我们还布是否同样适用于有空位的比对。然而,出于实际应用的需要,我们还是理想化地认为有空位的比对得分本质上适合这种分布。一个经常使用是理想化地认为有空位的比对得分本质上适合这种分布。一个经常使用的评价序列两两比对在统计学上显著性的软件是的评价序列两两比对在统计学上显著性的软件是PRSSPRSS() )4848序列两两比对序列两两比对总 结 序列两两比对是生物信息学应用的基础。它对序列的结构,功能和序列两两比对是生物信息学应用的基础。它对序列的结构,功能和进化情况的分析是极其有用的。序列两两比对可以用来推断两条序列的进化情况的分析是极其有用的。序列两两比对可以用来推断两条序列的关系。高度相似的序列通常是同源的。然而,必须区分开序列同源和序关系。高度相似的序列通常是同源的。然而,必须区分开序列同源和序列相似。前者是通过序列比较推断出来的而后者是在序列比对后实际观列相似。前者是通过序列比较推断出来的而后者是在序列比对后实际观察到的。对于蛋白质序列而言,从序列比对得到的一致性值常用来推断察到的。对于蛋白质序列而言,从序列比对得到的一致性值常用来推断序列的同源性。虽然这种方法是不精确的。序列的同源性。虽然这种方法是不精确的。 有两种序列比对策略:局部比对和全局比对,完成这两种策略有三有两种序列比对策略:局部比对和全局比对,完成这两种策略有三种类型的比对算法。它们是:点阵方法,动态规划方法和基于单词的方种类型的比对算法。它们是:点阵方法,动态规划方法和基于单词的方法。点阵法在直观地确认相似性方面是有用的,但是缺少另外两种方法法。点阵法在直观地确认相似性方面是有用的,但是缺少另外两种方法的精确性。动态规划算法是寻找最佳比对的准确的定量方法。这种方法的精确性。动态规划算法是寻找最佳比对的准确的定量方法。这种方法包括三个步骤。第一步是建立一个序列与序列的矩阵。第二步是在矩阵包括三个步骤。第一步是建立一个序列与序列的矩阵。第二步是在矩阵中累加得分。最后一步是在矩阵中沿着相反的方向识别最高得分路径。中累加得分。最后一步是在矩阵中沿着相反的方向识别最高得分路径。打分阶段要用到得分矩阵和空位罚分。打分阶段要用到得分矩阵和空位罚分。4949序列两两比对序列两两比对总 结 得分矩阵描述一种残基被另一种残基替换的统计上的可能性。得分矩阵描述一种残基被另一种残基替换的统计上的可能性。PAMPAM和和BLOSUMBLOSUM矩阵是比对蛋白质序列时最常用到的两种得分矩阵。矩阵是比对蛋白质序列时最常用到的两种得分矩阵。PAMPAM矩矩阵使用进化模型,通过比对高度相似的序列来推断比对分散的序列时要阵使用进化模型,通过比对高度相似的序列来推断比对分散的序列时要用的矩阵值。相比之下,用的矩阵值。相比之下,BLOSUMBLOSUM矩阵是通过实际比对得到的。矩阵是通过实际比对得到的。PAMPAM和和BLOSUMBLOSUM矩阵的阶数也表示相反的意思。高阶的矩阵的阶数也表示相反的意思。高阶的PAMPAM矩阵用来比对比较矩阵用来比对比较分散的序列而低阶的分散的序列而低阶的PAMPAM矩阵用来比对高度相关的序列。实际中,如果矩阵用来比对高度相关的序列。实际中,如果不确定使用哪个矩阵,我们可以用试验一些矩阵然后选择一个得到最佳不确定使用哪个矩阵,我们可以用试验一些矩阵然后选择一个得到最佳比对结果的矩阵的方法。序列相似性比对的统计学显著性可以使用一个比对结果的矩阵的方法。序列相似性比对的统计学显著性可以使用一个分数分布遵循极值分布的随机测试来测试。分数分布遵循极值分布的随机测试来测试。5050序列两两比对序列两两比对谢谢 谢谢 大大 家家 !5151序列两两比对序列两两比对
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号