生物信息学复习题及答案(陶士珩)-

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E值, 低复杂度区域，点矩阵（dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree），bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。二、问答题1）生物信息学与计算生物学有什么区别与联系？2）试述生物信息学研究的基本方法。 3）试述生物学与生物信息学的相互关系。4）美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举3个以上NCBI维护的数据库。5）序列的相似性与同源性有什么区别与联系？6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？7）简述BLAST搜索的算法。8）什么是物种的标记序列？9）什么是多序列比对过程的三个步骤？10）简述构建进化树的步骤。11）简述除权配对法（UPGMA）的算法思想。12）简述邻接法（NJ）的算法思想。13）简述最大简约法（MP）的算法思想。14）简述最大似然法（ML）的算法思想。15）UPGMA构树法不精确的原因是什么？16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。17）试述DNA序列分析的流程及代表性分析工具。18）如何用BLAST发现新基因？19）试述SCOP蛋白质分类方案。20）试述SWISS-PROT中的数据来源。1）21）TrEMBL哪两个部分？22）试述PSI-BLAST 搜索的5个步骤。2）三、操作与计算题1）如何获取访问号为U49845的genbank文件？解释如下genbank文件的LOCUS行提供的信息： LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-19992）利用Entrez检索系统，对核酸数据搜索，输入如下信息，将获得什么结果：AF114696:AF114714ACCN。 3) 相比使用BLAST套件搜索数据库，BLAST2工具在结果呈现上有什么优点？4） MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件？5）什么简约信息位点Pi？6）以下软件的主要用途是什么？RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction. 7) 为下面的序列比对确定比对得分：匹配得分= +1，失配得分= 0，空位得分= -1。TGTACGGCTATA TC - -CGCCT TA 8) 用UPGMA重建系统发生树，距离矩阵如下：物种ABCDB9C811D121510E15181359）画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸，3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是2?有大于2个替换的树吗?10）如何将所研究的蛋白质与其他相关蛋白质做结构比对。答案部分一、名词解释：生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。P11，第2段。FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（）表示一个新文件的开始，其他无特殊要求。genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“/”结尾。P13，第2段。Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。P83-85。BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98，第1段。打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29，第2段。空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29，第2段。空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37，倒数第2段。E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。P100，第一段。点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。P39-41。多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。P48，需要概括。分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。P112-113系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。P112，第一段。进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。P113，最后一段。系统发育图：P114直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。P28，P146旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上的可能发生了改变。P28，P147外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。P120有根树：能够确定所有分析物种的共同祖先的进化树。P113除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。P119邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。P118。最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。P120最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。P122一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。P121自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。P122开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。P131密码子偏好性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。P133基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。P134-145简约信息位点：指基于DNA或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。P121,第2行结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。P158模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。P161,最后一行PAM矩阵：PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。P30-31BLOSUM矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。P34折叠子（Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。P162TrEMBL：是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。P21PDB（Protein Data Bank）：PDB中收录了大量通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成（如，4HHB），同时支持关键词搜索，还可以FASTA程序进行搜索。P22MMDB(Molecular Modeling Database)：是（NCBI）所开发的生物信息数据库集成系统Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比，对于数据库中的每一个生物大