资源预览内容
第1页 / 共92页
第2页 / 共92页
第3页 / 共92页
第4页 / 共92页
第5页 / 共92页
第6页 / 共92页
第7页 / 共92页
第8页 / 共92页
第9页 / 共92页
第10页 / 共92页
亲,该文档总共92页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第7章 蛋白质序列数据库一、常用的蛋白质数据库 SWISS-PROT TrEMBL PIR-PSD UniPro 1 SWISS-PROT 由瑞士日内瓦大学医学生化系于1978年创建,后来与欧 洲分子生物学实验室合作,由瑞士生物信息学研究所( Swiss Institute of Bioinformatics,SIB)和欧洲生物信 息学研究所(EBI)共同维护和管理。UniProtKB/Swiss-Prot protein knowledgebase release 55.1 statistics UniProtKB/TrEMBL PROTEIN DATABASE RELEASE 38.1 STATISTICS Search by citation a. a. 所有序列条目都经过有经验的分子生物学家和蛋白所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核质化学家通过计算机工具并查阅有关文献资料仔细核 实。实。SWISS-PROT的特点b. 每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源) 、引 用文献信息、注释、蛋白质序列等(如:Acetyltransferase)。3D structurec. 蛋白质注释包括蛋白质的功能、翻译后修饰(如糖基化和磷 酸化)、结构域和结合位点、二级结构(如- 螺旋和- 片层)、四级结构(如同聚体和异聚体)、与其它蛋白 质序列的相似性、蛋白质序列残缺与疾病的关系、序列 冲突和变异体等信息。d. SWISS-PROT中尽可能减少冗余序列e. 与其它30多个数据库建立了交叉引用, 其中包括核酸序列数据库、蛋白质序列数 据库和蛋白质结构数据库等。f. 利用序列检索系统(SRS)可以方便地 检索SWISS-PROT和其它EBI的数据库。2 TrEMBLTrEMBL数据库建于1995年,意为 “Translation from EMBL”。该数据库采用SwissPro数据库格式,其数 据来源于: EMBL核酸序列数据库(或GenBank、DDBJ)中所有 编码序列经计算机程序自动翻译的蛋白质 从文献中查到的 或向SWISS-PROT递交的并未整合到SWISS-PROT的 蛋白质序列 TrEMBL数据库分两部分:SP-TrEMBL和 REM-TrEMBL SP-TrEMBL中的条目将最终被归并到 SwissProt数据库中; Rem-TrEMBL包含目前不打算并入SWISS- PROT的蛋白质序列 包括免疫球蛋白、T细胞受体、人工设计合成蛋白 质序列、小肽、专利序列、假基因和截断了的蛋白质等 。3 PIR-PSD 蛋白质信息资源国际蛋白质序列数据库( the Protein Information Resource- International Protein Sequence Database, PIR-PSD 由蛋白质信息资源(PIR)、慕尼黑蛋白质 序列信息中心(MIPS)和日本国际蛋白质 序列数据库(JIPID)共同维护, PIR是最早 的数据库,现已并入UniProt Knowledgebase 是一个全面的、非冗余的、经过专家注释的公 共蛋白质序列数据库。PIR-PSD收集已发表的 蛋白质序列、来源、参考文献和特征信息等, 她的注释中还包括一些原始递交记录中没有的 相关信息,如在遗传图谱的位置、内含子位置 、以及和其他序列、结构、基因组和引文数据 库(如Medline、PDB和TIGR等)的相互参照 PIR-PSD的另一个重要特征是其对蛋白质超家 族的分类,提供序列的等级聚类信息,揭示序 列间的进化关系。4 UniPro 蛋白质信息资源(PIR)、欧洲生物信息学研究所( EBI)和瑞士生物信息学研究所(SIB)合作,于2002 年共同组建世界蛋白质资源(the Universal Protein Resource,UniPro)。 UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库 整合在一起,是目前国际上最全面的蛋白质信息库。综上所述,蛋白质序列数据库种类多且各有特色, 因此,用户在分析蛋白质序列时,应根据实际情况,尽 可能选择几个不同的数据库,并对结果加以比较。The Universal Protein Resource (UniProt) Provides a central resource on protein sequences and functional annotation with three database components, each addressing a key need in protein bioinformatics. The UniProt Knowledgebase (UniProtKB), comprising the manually annotated UniProtKB/Swiss-Prot section and the automatically annotated UniProtKB/TrEMBL section, is the preeminent storehouse of protein annotation. The extensive cross-references, functional and feature annotations and literaturebased evidence attribution enable scientists to analyse proteinsand query acrossdatabases. TheUniProt Reference Clusters (UniRef) speed similarity searches via sequence space compression by merging sequences that are 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) identical. The UniProt Archive (UniParc) stores all publicly available protein sequences, containing the history of sequence data with links to the source databases. UniProt databases continue to grow in size and in availability of information. Recent and upcoming changes to database contents, formats, controlled vocabularies and services are described. 二 疾病相关基因数据库(1)OMIM: OMIM(Online Mendelian Inheritance in Man )是美国Jonhs Hopkins大学Dr. Victor A. McKusick等人建立和编辑的有关人类基因和遗 传病目录的电子版。 于本世纪60年代创立,旨在为临床医师和遗传 病研究工作者提供服务。 OMIM包含大量的及时更新的有关人类基因及 其突变序列数据和遗传病的临床特征等信息和 相关参考文献。OMIM数据库基本信息 MIM-概述、表型、基因型、诊断、临床处理、群体遗传学、动物模型、参考文献、临床表征、编辑史等Eztrez gene -分类、参考序列、蛋白质等 Link outP53基因的OMIM检索结果:(2)GeneCards GeneCards数据库是由以色列Weizmann科学研究所( Weizmann Institute of Science)和Crown人类基因组中 心(Crown Human Genome Center)建立和维护的 它链接、收集了如HUGO,SWISS-PORT,Genbank, PubMed,OMIM,HGMD,Unigene等五十多个数据库 ,提供有关人类、果蝇、小鼠等基因的相关信息,以及 多种遗传性疾病、癌症、转基因资料 它对所有数据库的信息进行了科学地分类整理,形成了 一个关于基因及其产物的生物学和医学信息的电子百科 全书 它的智能化的导航系统,使用户能方便地查找感兴趣的 内容。它还提供了几十个镜像站,与很多的研究所、医 院、基因中心等链接,便于用户进一步查找相关信息。三 NCBI数据库的数据模型数据库模型:是研究人员输入序列、查询序列、进行序列比对的 根本,也是数据库管理人员管理数据的总则。NCBI数据模型包括:序列数据和相关的注释。作用:NCBI模型能轻易地从已公布的DNA序列文献影射 到基因所在的染色体编码蛋白蛋白质三维结构 等。(一) NCBI数据模型的文献1 出版物: 出版物是连接不同结构和不同内容数据库的桥梁; 出版物是数据库记录的基本注释,也是最好的注释,发 表文章比数据库中的记录包含了更完整和更详细的信息 。2 作者 数据或文章的作者是系统联系相关数据和科学研究的关 键因素; GenBank数据库的作者的输入全称姓和名的首字母3 文章最常见的生物科学文献是期刊文献,对于生物数据库的引用格式缺 省是期刊文献 文章也可出现在书、手稿及电子期刊上。 期刊名、年份、文章的首页以及文章作者的姓4 专利权 如果是专利序列,在文献的出处又多了专利文 献; NCBI支持与美国专利局合作开发的完整的专利 引用程序。5 Medline 和 PubMed UIDsPUID 和MUID:PubMed唯一识别器和Medline唯一识别器(二) NCBI数据模型的序列1 序列识别器(SEQIDS):GenBank、DDBJ和EMBL核酸蛋白数据库共用一套序列号a. Locus名称: 兼有唯一辨识器、功能记忆以及序列的组织源等功能; Locus出现在GenBank中的Locus行以及DDBJ记录和EMBL的ID行 ; GenBank中已不再作为有用的名称,只是为了和老数据格式兼容b. 序列号 : GenBank、DDBJ和EMBL具有,以保证序列的相对稳 定性和专一性; 2个大写字母(分配到不同的数据库) 6个数字c. gi 号 gi:基因信息号,核酸序列和蛋白质序列均有gi号; gi的来源:由源数据库提供;序列仅当其完整地被提交 公共数据库处理后,才最终达到一个序列号和一个gi号 ; 位置:在VERSION行中,版本号,gi号 修改记录时,新记录与原先记录不同时(哪怕是一个碱 基不同),产生新的gi号,但序列号不变;2 生物序列(BIOSEQ) 生物序列:一个简单的、连续的核酸或蛋白质分子; 至少有一个序列辨识器(SeqID); 包含DNA、RNA或蛋白质分子的物理信息、注释信息( 如特定区域的生物特征)和描述信息(如该分子是从某 个组织中获得的)。4 序列注释(SEQANNOT)序列注释:是对序列注释的一个自包含集,也指 向特定生物序列、特定位置的信息。信息形式:一个特征表、一类序列比对或一类序 列的图表。a. 序列特征(Seq-feat):所有特征的一般信息,如编码 区、mRNA剪切等; b. 序列比对:亲缘关系、序列的同源性比较; c. 序列图表:GC含量、表层能或覆盖序列长度的精确性 等属性。5 序列描述:是在生物和(或)生物文献的上下文中描述一个 生物序列或生物序列集;生物源(BioSource)来源生物的信息; 分子信息(MolInfo)
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号