资源预览内容
第1页 / 共91页
第2页 / 共91页
第3页 / 共91页
第4页 / 共91页
第5页 / 共91页
第6页 / 共91页
第7页 / 共91页
第8页 / 共91页
第9页 / 共91页
第10页 / 共91页
亲,该文档总共91页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
生物信息学数据库及其信息检索生物信息学数据库及其信息检索1生物信息学数据库的种类n核酸、蛋白序列数据库核酸、蛋白序列数据库n基因组数据库基因组数据库n生物大分子三维结构数据库生物大分子三维结构数据库n以上述数据库及文献为基础的二次数据库以上述数据库及文献为基础的二次数据库2生物信息学数据库资源 截至截至2011年,生物信息学数年,生物信息学数据库总数已经达到据库总数已经达到1380个,其个,其中少数大型数据库存储着大多中少数大型数据库存储着大多数生物信息原始数据,绝大多数生物信息原始数据,绝大多数的数据库是针对特定领域的数的数据库是针对特定领域的数据提供检索与分析。数据提供检索与分析。 自自2000年以来,年以来,Necletic Acids Research 杂志每年的第杂志每年的第一期会收集全世界的生物信息一期会收集全世界的生物信息数据库信息,每年的第七期会数据库信息,每年的第七期会出版全世界生物信息分析工具出版全世界生物信息分析工具信息。信息。3核酸序列数据库核酸序列数据库n内容包括世界上所有已公布的核酸序列及其翻译产物内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释序列报告和相关注释nGenBank 美国基因数据银行美国基因数据银行 http:/www.ncbi.nlm.nih.gov/ nEmbl 欧洲分子生物实验室欧洲分子生物实验室 http:/www.ebi.ac.uk/embl.html nDDBJ 日本国立遗传研究所核酸数据库日本国立遗传研究所核酸数据库 http:/www.ddbj.nig.ac.jp4蛋白质序列数据库蛋白质序列数据库nSWISS-PROT SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库(瑞士日内瓦大学)蛋白质序列数据库 http:/www.Expasy.chhttp:/www.Expasy.chnNCBI NCBI 蛋白质数据库蛋白质数据库 http:/www.ncbi.nlm.nih.gov/entrezhttp:/www.ncbi.nlm.nih.gov/entreznPIR PIR 蛋白质序列信息资源库(美、德)蛋白质序列信息资源库(美、德) http:/pir.georgetown.eduhttp:/pir.georgetown.edu 内容包括序列及功能信息、蛋白识别、蛋白质结构预内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能测及其他功能5NCBI 数据库nNCBI(美国国家生物信息中心美国国家生物信息中心)成立于成立于1988年,年,是是NIH(国家卫生研究院)的附属机构。国家卫生研究院)的附属机构。n主要任务:主要任务:n建立公共数据库 (GenBank, dbSNP, OMIM 等.)n开展计算生物学方面的研究n开发序列分析的软件工具n传播生物医学信息n网址:网址:www.ncbi.nlm.nih.gov6在在NCBI 数据库中查询序列数据库中查询序列n集成检索系统:集成检索系统: Entrez系统7限定发表时间限定发表时间限定领域标签限定领域标签限定数据库限定数据库限定基因组位置限定基因组位置限定修改时间限定修改时间限定序列片段限定序列片段限定分子类型限定分子类型排除选项排除选项8GenBank flatfile (GBFF) 格式数据。格式数据。GBFF格式数据可分为三部分:格式数据可分为三部分:第一部分为描述信息,第二部第一部分为描述信息,第二部分为序列特征信息,第三部分分为序列特征信息,第三部分为序列本身。为序列本身。91011在在NCBI中进行序列相似性比对中进行序列相似性比对n序列相似性与功能相似性具有一定的相关性,序列相似性与功能相似性具有一定的相关性,但不绝对。但不绝对。n对于某物种中新克隆的序列通过寻找其它物种对于某物种中新克隆的序列通过寻找其它物种中与之相似的序列有助于对该序列功能的预测。中与之相似的序列有助于对该序列功能的预测。因此序列相似性比对常常是一个新克隆出的序因此序列相似性比对常常是一个新克隆出的序列最先进行的生物信息学分析。列最先进行的生物信息学分析。12序列相似性比对工具序列相似性比对工具BLASTnBLAST:是:是Basic Local Alignment Search Tool 基本局部比对搜索工基本局部比对搜索工具的英文缩写。具的英文缩写。nNCBI 提供了网络版的提供了网络版的BLAST搜索在线服务搜索在线服务(http:/www.ncbi.nlm.nih.gov/BLAST/),该服务方便、免费,该服务方便、免费,缺点是不利于大批量数据的比对,并且也不能搜索自有的数据库。缺点是不利于大批量数据的比对,并且也不能搜索自有的数据库。NCBI提供该程序的单机版本,通过建立本地数据库可以实现批量比对及搜索提供该程序的单机版本,通过建立本地数据库可以实现批量比对及搜索自有数据库。自有数据库。nBLAST 包含包含5个子程序:个子程序: blastn blastp blastX tblastn tblastX13QuerySequence氨基酸序列氨基酸序列DNA序列序列tBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated14程序名程序名搜索序列搜索序列数据库数据库内容内容备注备注blastpProteinProtein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系,进行SEG过滤blastnNucleotideNucleotide 比较核酸序列与核酸数据库寻找较高分值的匹配,对较远的关系不太适用blastxNucleotideProtein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide 比较蛋白质序列和核酸序列数据库,动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxNucleotideNucleotide 比较核酸序列和核酸序列数据库,经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列15Blastx目标序列为目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC6个读码框翻译5端到端到3端端第一位起始:第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第二位起始:第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第三位起始:第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到端到5端端第一位起始:第一位起始:GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第二位起始:第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第三位起始:第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T1617BLAST 原理nQuery: GTACTGGACATGGACCCTACAGGAA GTACTGGACAT TACTGGACATG ACTGGACATGG CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT CATGGACCCTA .Minimum word size = 7Blastn default = 11Megablast default = 2818序列匹配的最低标准序列匹配的最低标准n核酸核酸 BLAST 需要一个精确的匹配需要一个精确的匹配n蛋白蛋白 BLAST 需要在需要在40个氨基酸内有两个匹配个氨基酸内有两个匹配Neighborhood wordsExact word matchATCGCCATGCTTAATTGGGCTT CATGCTTAATT一个匹配一个匹配GTQITVEDLFYNI SEI YYN两个匹配两个匹配19BLASTn缺点的一个反例缺点的一个反例20在在NCBI中进行序列相似性比对中进行序列相似性比对212223核酸数据库参考RNA数据库,参考染色体数据库染色体数据库est 表达序列标签数据库基因组勘测数据库高通量基因组测序数据库专利序列数据库蛋白质数据存储数据库alu_repeats数据库序列标签位点数据库 全基因组鸟枪序列拼接数据库 转录组鸟枪序列拼接数据库16S 核糖体RNA序列数据库24252627282930BlastP31打分矩阵:打分矩阵:PAM30PAM30PAM70PAM70BLOSUM80BLOSUM80BLOSUM62BLOSUM62BLOSUM45BLOSUM45PAM模型可用于寻找蛋白质的进化起模型可用于寻找蛋白质的进化起源,而源,而BLOSUM模型则用于发现蛋白模型则用于发现蛋白质的保守域。质的保守域。32进行比对的数据库进行比对的数据库图形化结果图形化结果33E值(值(E-value)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。接近零,发生这一事件的可能性越小。 34基因开放读码框的识别http:/www.ncbi.nlm.nih.gov/gorf/gorf.html35363738http:/genes.mit.edu/GENSCAN.html39预测单位编号类型正负链起始终止位点长度分值及概率4041CpG岛n定义:位于多种脊椎动物已知基因转录起始位点周围、由胞嘧啶(C)和鸟嘧啶(G)组成的串联重复序列。 nCpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作CpG岛,在哺乳动物基因组中的 12kb的DNA片段,它富含非甲基化的CpG双倍体。CpG岛主要位于基因的启动子(promotor)和第一外显子区域,约有60%以上基因的启动 子含有CpG岛。GC含量大于50%,长度超过200bp。 42CpG 岛区域预测 http:/www.ebi.ac.uk/Tools/emboss/cpgplot/4344转录终止信号预测n在mRNA终止密码子的下游位置上一般有加尾信号,其主要标志位AATAAA序列,称为多聚腺苷酸信号,简称PolyA信号,据此可以预测基因终止位点。4546启动子区域的预测http:/www-bimas.cit.nih.gov/molbio/proscan/4748可变剪切和转录多样性数据库 ASTDn该数据库是有EBI开发的可变剪切和转录多样性数据库(alternative splicing and transcript diversity, ASTD),能提供可变剪切时间(alternative splicing event),转录产物(transcript product),选择性转录起始位点(TSS)及polyA位点等详细信息。49电子克隆n该方法基于EST和基因组数据库,运用生物信息学知识和计算机技术对EST或基因组数据库进行同源比对,然后拼接出基因的编码序列。n首先,我们要有某个基因的一段EST序列作为种子序列,通过它来电子克隆该基因。n我们选用拟南芥中的AMP1基因作为起始序列,克隆油菜(Brassica napa)的AMP1基因。5051比对获得13条同源序列52油菜的这些EST序列与拟南芥AMP1基因序列高度同源。5354将序列存储为FASTA个格式的文件,下载下来。5556EST序列拼接n对得到的13个EST按照它们的重叠区域进行序列拼接,合为一条长的序列。n该过程被称为Contig,可以使用的软件是CAP3,网址为http:/pbil.univ-lyon1.fr/cap3.php5758得到Contig1序列以后,重复进行Blastn比对油菜的EST序列,再次进行序列延长,直到序列不能再延长为止。59n以上做的是亲缘关系较近的电子克隆,应用Blastn比对程序较容易获得比对结果,但如果对于物种亲缘关系较远的物种则上述方法就不容易找到匹配序列。n我们可以尝试使用tblastn和tblastx程序进行比对。n下面我们应用拟南芥的AMP1基因 对水稻EST做电子克隆。6061626364碱基总数大于50000的序列的拼接n应用 online 的CAP3 程序允许的最大碱基总数为50000,对于碱基总数大于50000的可选择其它软件进行拼接。n这里我们用Vector NTI 软件进行拼接。65打开ContigExpress Project 程序,导入FASTA格式的文件6667686970.71关于电子克隆的一些问题n对于亲缘关系较远的物种宜选择tblastx序列比对EST,这样能获得较多的同源EST。n但如果EST数量太多,则需要设定一定条件筛选掉一部分匹配较差的EST。nEST中经常混有载体序列,应注意在拼接前去除载体部分。72克隆载体的去除73747576分子进化遗传分析工具(MEGA 5)nMEGA5 适用于构建进化树,挖掘数据库信息,估计分子进化率,推断祖先序列等项目。该工具包能基于网络数据库,检索、获取序列数据,进行序列比对;然后通过编辑和整理,制作出样式精美的树形图。77787980818283构建系统进化树nMEGA5 工具栏中的Phylogeny提供5种常用系统进化树的构建方法:nMaximum Likelihood, ML最大似然法nNeighbor-Joining,NJ 临位连接法nMinimum-Evolution,ME 最小进化法nMaximum Parsimony,MP 最大简约法nUPGMA 除权配对法 以上5种方法原理不同,但构建方法基本一致。通常对分化程度较大的远缘序列选择ML、NJ、ME,近缘序列可采用MP或UPGMA。8485868788899091
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号