MEGA构建系统进化树的步骤(以MEGA7为例)-

MEGA构建系统进化树的步骤（以MEGA7为例）本文是看中国慕课山东大学生物信息学课程总结出来的分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化，是用它的DNA序列，还是翻译后的蛋白质序列呢？序列的选取要遵循以下原则：1）如果DNA序列的两两间的一致度70%，选用DNA序列。因为，如果DNA序列都如此相似，它的蛋白质会相似到看不出区别，这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列，而不选蛋白质序列。2）如果DNA序列的两两间的一致度70%，DNA序列和蛋白质序列都可以选用。1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致 ( 5-3)。想要做系统发生树先要做多序列比对，然后把多序列比对的结果提交给建树软件进行建树，所以在用MEGA建树时可以输入一个已经比对好的多序列比对，也可以输入一条原始序列，让MEGA先来做多序列比对，再建树（一般我们都是原始序列）。所以我们以后者为例。2. 打开MEGA软件，选择主窗口的”File” “Open A File”找到并打开fasta文件，这时会询问以何种方式打开，我们是原始序列，需要先进行多序列比对，所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。3. 在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW” 进行多序列比对（MEGA提供了ClustalW和Muscle两种多序列比对方法，这里选择熟悉的ClustalW），弹出窗口询问“Nothing selected for alignment，Select all？”选择“OK”。4. 之后，弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样，可以设置替换记分矩阵、不同的空位罚分（罚分填写的是正数，计算时按负数计算）等参数。MEGA的所有默认参数都是经过反复考量设置的，这保证了MEGA傻瓜机全自动档的品质，所以当你无从下手，或者没有什么特别要求的时候，直接点击“OK”，接受这些默认参数，开始多序列比对。了解两个参数：替换记分矩阵，替换记分矩阵是反映残基之间相互替换率的矩阵，也就是说，它描述了残基两两相似的量化关系。DNA 序列有 DNA 序列的替换记分矩阵，蛋白质序列有蛋白质序列的替换记分矩阵，两者不可混用。DNA 序列的替换记分矩阵主要有三种：1）等价矩阵。相同核苷酸得分为 1，不同核苷酸间的替换得分为 0。由于不含碱基的理化信息和不区别对待不同的替换，一般只用于理论计算。 2）转换-颠换矩阵。转换：DNA分子中的嘌呤被嘌呤或嘧啶被嘧啶替换。颠换：DNA分子中的嘌呤被嘧啶或嘧啶被嘌呤替换。在进化过程中，转换发生的频率远比颠换高。为了反映这一情况，转换-颠换矩阵中，转换的得分比颠换要高为-1 分，而颠换的得分为-5 分。 3）BLAST 矩阵。经过大量实际比对发现，如果令被比对的两个核苷酸相同时得分为+5 分，不相同为-4 分，这时比对效果最好。这个矩阵广泛地被 DNA 序列比较所采用。没有为什么，就是好，实践经验所得。因为这个矩阵最早应用于 BLAST 工具，因此得名 BLAST 矩阵。蛋白质的替换记分矩阵要比核酸的复杂一些：1）等价矩阵。相同得 1 分，不同得 0 分。 2）PAM矩阵。基础的 PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值，是基于相似度85%的序列产由统计方法计算得到的。由PAM-1 自乘 n 次可以外推得到PAM-n ，表示发生了更多次突变。如果序列亲缘关系远，也就是说序列间会有很多突变，那就选 PAM 后面跟一个大数字的矩阵；如果亲缘关系近，也就是突变比较少，序列间大多数地方都是一样的，那就选 PAM 后面跟一个小数字的矩阵。3）BLOSUM矩阵。后面也有一个编号，是通过对大量符合特定要求的序列计算而来的。比如BLOSUM62是指这个矩阵是由一致度62%的序列计算得到的。如果序列亲缘关系远，序列相似度低，那就选BLOSUM 后面跟一个小数字的矩阵；如果序列亲缘关系近，序列相似度高，那就选BLOSUM 后面跟一个大数字的矩阵。总结，亲缘关系较近的序列之间的比较，用 PAM 数小的矩阵或BLOSUM 数大的矩阵；而亲缘关系较远的序列之间的比较，用 PAM 数大的矩阵或 BLOSUM数小的矩阵。对于关系较远的序列之间的比较，由于 PAM250 是通过矩阵自乘推算而来的，所以其准确度受到一定限制。相比之下BLOSUM 矩阵更具优势。对于关系较近的序列之间的比较，用 PAM 或 BLOSUM 矩阵做出的比对结果，差别不大。如果关于要比较的序列不知道亲缘关系远近，那么就闭着眼睛用BLOSUM62 吧！如果你记不住或者听不懂上面讲的种种，那就记住BLOSUM62这个名字，也可以走遍天下全不怕！图1：氨基酸差异与矩阵编号对照图图2: 序列亲缘关系远近与矩阵的选择空位罚分包括两种： gap 开头（gap open）和gap延长（gap extend）。默认gap开头罚分高，gap延长罚分低，这样得出的结果gap很集中，有很多长串出现的gap，这可以比对两条很相似的序列-同源序列；相反，如果gap开头罚分少，gap延长罚分高，比对结果gap就比较分散，极少出现连续长串的gap（可以想象其中的原因，总是要保证得分高），这可以比对两条绝大部分序列都很相似，但其中一条的一个功能区在另一条序列中是缺失的两条序列，可以找出这个功能区。5. 比对过程是先进行双序列比对，在进行多序列比对，最后会出现一个多序列比对结果。将之作为中间结果保存下来。在Alignment Explorer窗口中选择“Data”“Export Alignment”“MEGA Format”。这里一定选择MEGA format以方便MEGA后续分析（其他格式适用于其他软件的分析），MEGA自动赋予“.meg”后缀名，保存后，弹出窗口，“为这组数据命名”，自己看得懂知道就可以，我这里命名为“il1r2 alignment”。6. 生成的“.meg”文件可以双击直接导入MEGA。也可以将其拖入MEGA主窗口中。拖入后主窗口增加了一个“TA”按钮，点击弹出新窗口“Sequence Data Explorer”，其是多序列比对结果。再点击“Sequence Data Explorer”上的“TA”按钮，点击后多序列最上面增加了一行，这一行是根据多序列比对结果分析得出的共有序列（consensus sequence），也就是一列里出现次数最多的字母。多序列比对中每一列里的字母如果和共有序列相同则打点，不同则标出不同的字母，空位还是空位。如果还想进一步了解序列的保守程度，可以点击“C”按钮，以黄色标记保守序列；或者点击“V”按钮，以黄色标记不保守序列。通过进一步的分析，可以淘汰掉一些序列，比如海选的的序列里有一些不合群的序列，就可以把他们去掉，不让他们参与建树，以免影响建树质量。此外，还可以对这些序列进行分组标记。点击分组按钮，点击“加号”按钮，更改组名，然后按住Ctrl键同时选中Ungrouped Taxa 列表中的要放入这个组的序列，选中后点击“箭头”按钮，即可将序列放入分组。同理，可以创建其他分组。当序列数量较多时，人为分组，可以从树上更加清晰的看出组内哪些成员叛逃了去了别的组。此外，输入序列的名字较长，作为构建的系统发生树上叶子的名字，会破坏树的外观也不利于信息的解读。因此，需要人为修改一下序列的名字。选中序列后点击，把名字改为能区分彼此的关键词，全部改好之后点击“save”按钮，准备工作全部完成。7. 开始建树。点击MEGA主窗口上的Phylogeny下拉菜单，选择Neighbor Joining（最近邻居法）。弹出窗口询问是否使用当前 .meg里面的数据，选Yes。接下来，弹出参数设置窗口（Analysis Preferences）。参数设置对构建的系统发生树的准确程度非常重要。在树构建好之后，还经常需要根据树的具体情况，重新设置参数，并重新建树，如此反复，纸质结果令人满意为止。同样的如果对参数设置摸不着头脑，就接受默认设置，也能做出基本满意的系统发生树。至少应该掌握其中三个参数的设置： Test of Phylogeny（建树的检验方法），是用来检验建树的质量的。默认的检验方法是Bootstrp method （步长检验）。步长检验需要设定检验次数，通常为100的倍数，默认设置为500。步长检验是根据所选择的建树方法，计算并绘制指定次数株系统发生树。因为大多数建树的方法的核心算法都是统计概率模型，所以每次计算出来的树都会有所差别。而剑豪的系统发生树上每个节点上都会标有一个数字，它代表了指定次数次计算所得出的系统发生树中有百分之多少的树都含有这一节点。一般来讲，绝大多数节点上的数值都大于70%的树才可信。个别低于70%的节点可以暂且容忍，或通过添加、山间序列来改善质量。 Substitution Model。是选择计算遗传距离时使用的计算模型。理论上应该尝试各种模型，根据检验结果选择最合适的模型计算。但在实际操作中，可先尝试选用较简单的距离模型，比如p-distance。 Gap/Missing Data Treatment，大多数建树方法会要求删除多序列比对中含有空位较多的列。但是根据遗传距离度量方法的不同，删除原则也不同。如果是以序列间不同残基的个数来度量遗传距离的话，这里需要选择 Complete deletion（全部删除）。如果是其他方法，比如这里选用的 NJ 方法，可以选择 Partial deletion（部分删除）。删除程度定在 50%，即，保留一半含有空位的列。8. 按照以上方案参数设置后，点击“Compute”按钮，开始构建系统发生树。经过一番计算之后，新窗口 Tree Explorer 里展示的就是创建好的系统发生树。这个窗口里有两个标签页。第一个是 Original Tree（原始树），第二个是 Bootstrap consensus tree（步长检验合并出来的树）。Bootstrap consensus tree 上，节点处的数字表示，经步长检验有百分之几的树具有这根树枝，即，反应了该树枝的可信度。当前构建的这株系统发生树中，绝大多数节点处的数值都是70 的话，这株树整体上就是可信的。 Original Tree 是步长检验构建的 500 株树中的一株，未经过多棵树合并，所以树枝的长短可以精确代表遗传距离。此外，从这株树也可以看出之前的人为分组情况是不是发生了意想不到的变化。比如，有的可能似乎脱离了分组，成为了外类群，从而确定了树根。树构建好之后，外形也许还不太令人满意。比如也许你想要将树的外形改成圆形或三角型，可以通过按钮选择。或者你想要调整树枝的粗细或字体的大小，可以从 View 下拉菜单下的 Option 选项卡中调整。调整好之后，就可以把这棵树保存成图片了。保存图片可以点Image 下拉菜单，选择保存格式。或者将窗口放大，再点按钮将树放大之后屏幕截图。使用TreeExplorer窗口中提供的一些功能可以对生成的系统进化树进行调整和美化。另外，还可以用Word进一步编辑MEGA构建的进化树。至此，一株 NJ 树就构建好了。一般说来，MEGA适用于对少量的序列进行比对和画Tree，如需处理大量或海量的序列数据，建议使用ARB。