资源预览内容
第1页 / 共63页
第2页 / 共63页
第3页 / 共63页
第4页 / 共63页
第5页 / 共63页
第6页 / 共63页
第7页 / 共63页
第8页 / 共63页
第9页 / 共63页
第10页 / 共63页
亲,该文档总共63页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
多序列比对与Clustal的使用 ,以及各类常见的序列分析 工具介绍中山大学生科院2004年10月内容提要第一部分:多序列比对 意义、方法、算法 Clustal的使用1.Clustalx2.Clustalw第二部分:常见的序列分析软 件分类简介第一部分: 多序列比对及Clustal的使用序列相似性比较和序列 同源性分析序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较 ,用于确定该序列的生物属性,也就是找出与此序列 相似的已知序列是什么。完成这一工作只需要使用两 两序列比较算法。常用的程序包有BLAST、FASTA 等; 序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物 种的序列中进行多序列同时比较,以确定该序列与其 它序列间的同源性大小。这是理论分析方法中最关键 的一步。完成这一工作必须使用多序列比较算法。常 用的程序包有CLUSTAL等;多序列比对的意义 用于描述一组序列之间的相似性关系, 以便了解一个基因家族的基本特征,寻 找motif,保守区域等。 用于描述一个同源基因之间的亲缘关系 的远近,应用到分子进化分析中。 其他应用,如构建profile,打分矩阵 等。 同源性分析中常常要通过多序列比对 来找出序列之间的相互关系,和blast 的局部匹配搜索不同,多序列比对大 多都是采用全局比对的算法。这样对 于采用计算机程序的自动多序列比对 是一个非常复杂且耗时的过程,特别 是序列数目多,且序列长的情况下。多序列比对的方法多序列比对的方法基本上多序列比对可以分为1.手工比对(辅助编辑软件如bioedit ,seaview,Genedoc等)通过辅助软件的不同颜色显示不同残基,靠 分析者的观察来改变比对的状态。2.计算机程序自动比对通过特定的算法(如同步法,渐进法等), 由计算机程序自动搜索最佳的多序列比对状 态。自动多序列比对的算法1.同步法将序列两两比对时的二维动态规划矩 阵扩展到三维矩阵。即用矩阵的维数 来反映比对的序列数目。这种方法的 计算量很大,对于计算机系统的资源 要求比较高,一般只有在进行少数的 较短的序列的比对的时候才会用到这 个方法。自动多序列比对的算法2.步进法最常见的就是clustal所采用的方法。其基本思想就是基于相似序列通常具 有进化相关性的这一假设。Clustal的渐进比对过程在比对过程中,先对所有的序列进 行两两比对并计算它们相似性分值, 然后根据相似性分值将它们分成若干 组,并在每组之间进行比对,计算相 似性分值。根据相似性分值继续分组 比对,直到得到最终比对结果。在比 对过程中,相似性程度较高的序列先 进行比对而距离较远的序列添加在后 面。多序列比对工具 clustalClustal是一个单机版的基于渐进比对的 多序列比对工具,由Higgins D.G. 等开发 。有应用于多种操作系统平台的版本,包 括linux版,DOS版的clustlw,clustalx等。Clustal简介 CLUSTAL是一种渐进的比对方法,先 将多个序列两两比对构建距离矩阵, 反应序列之间两两关系;然后根据距 离矩阵计算产生系统进化指导树,对 关系密切的序列进行加权;然后从最 紧密的两条序列开始,逐步引入临近 的序列并不断重新构建比对,直到所 有序列都被加入为止。Clustalx的工作界面 (多序列比对模式)Clustalx的工作界面 (剖面(profile)比对模式)Clustal的工作原理Clustal输入多个序列快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。邻接法(NJ)构建一个树(引导树)根据引导树,渐进比对多个序列。Clustal的应用1.输入输出格式。输入序列的格式比较灵活,可以是前面介绍过 的FASTA格式,还可以是PIR、SWISS- PROT、GDE、Clustal、GCG/MSF、RSF等 格式。输出格式也可以选择,有ALN、GCG、 PHYLIP和NEXUS等,用户可以根据自己的 需要选择合适的输出格式。2.两种工作模式。a.多序列比对模式。b.剖面(profile)比对模式。3.一个实际的例子。Clustal的应用多序列比对实例输入文件的格式(fasta):KCC2_YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK_HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. KPRO_MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN第一步:输入序列文件。第二步:设定比对的一些参数。参数设定窗口。第三步:开始序列比对。第四步:比对完成,选择保存结果文件的格式Clustalw的使用(一)Clustalw还提供了命令调用形式的使用 方式,方便于批处理过程,下面是一 个典型的执行多序列比对的clustalw命 令:$ ./clustalw infile=dna.fa type=dna gapopen=10 gapext=2 output=gcg outfile=align.gcg -alignClustalw的使用(二)在线的clustalw分析EBI提供的在线clustalw服务http:/www.ebi.ac.uk/clustalw/EBI提供的在线Clustalw服务更为详细的教程可以在这里得到更多关于clustal的帮助 : http:/www-igbmc.u- strasbg.fr/BioInfo/ClustalX/Top.html 实际操作(练习) 使用clustalx程序,对给定的多序列, 选择合适的参数,进行多序列比对, 输出结果文件维phylip格式。 相同的文件,使用ebi和我们提供的在 线服务,进行多序列比对。 对上述计算机程序比对的结果进行手 工改动(bioedit,seaview),使得多 序列比对结果跟符合要求。SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC TIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC WIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ CzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL练习序列第二部分: 常见的序列分析软件分类简介 GCG EMBO
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号