资源预览内容
第1页 / 共33页
第2页 / 共33页
第3页 / 共33页
第4页 / 共33页
第5页 / 共33页
第6页 / 共33页
第7页 / 共33页
第8页 / 共33页
第9页 / 共33页
第10页 / 共33页
亲,该文档总共33页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
PIR 蛋白质序列数据库,2,PIR的产生,PIR(Protein Information resouce,蛋白质数据库)的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了蛋白质序列与结构图册。从这本图册中的数据,演化为后来的蛋白质信息资源数据库。,3,PIR的概念,PIR是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组/蛋白质组研究。PIR与其他组织合作,共同构成了PIR-国际蛋白质序列数据库(PSD)一个主要的已预测的蛋白质数据库,包括250,000个蛋白。,4,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。 所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,PIR的功能,5,除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。,6,一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,PIR提供三种类型的检索服务:,PIR主要数据库:,1. UniProt-通用蛋白质资源库 2. iProClass-蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统 4. iProLINK-蛋白质文献、信息和知识整合数据库 5PIR-NREF-非冗余的蛋白质参考资料数据库,8,主页的导航条有五大类: Abrout PIR:对网站的历史、发展、 刊物等的介绍; Databases:包括Proclass、Pirsf、PIRPSD、 PIRNREF 、Uniprot等数据库集合; Search/Analysis:对蛋白质序列分析的多种途径; Dowload:网站提供的蛋白质序列; Support:一些帮助及其它连接.,蛋白质搜索,网站搜索,G00016,(http:/pir.georgetown.edu),9,10,蛋白质一般信息,交叉引用文献,11,相关蛋白质家族信息,12,点击此处,13,此处链接 UniProt databases.,14,在UniProt database搜索s中的结果,15,蛋白质基本信息,蛋白质家族信息,16,17,序列物种来源拉丁名(常用名),记录注册、修改日期,注册号及参考来源,物种分类型,序列长度,序列顺序,文献发表作者/刊名/发表时间/文章名/文献数据库记录号,标题/序列名称,Entry name,通用蛋白质资源库 UniProt,是一个集中收录蛋白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。 欧洲生物信息学研究所(European Bioinformatics Institute) 美国蛋白质信息资源(Prontein Information Resource) 瑞士生物信息研究所(Swiss Institute of Bioinformatics) UniProt协会(UniProt Consortium)编辑、制作的一个信息资源,旨在为从事现代生物研究的科研人员提供一个有关蛋白质序列及其相关功能方面的广泛的、高质量的并可免费使用的共享数据库。,18,UniProt数据库的构成,UniProt数据库 UniProt知识库(UniProtKB) UniProt档案(UniParc) UniProt参考资料库(UniRef) UniProt元基因组学 环境微生物序列数据库(UniMES),19,1.UniProt知识库(UniProtKB),UniProt知识库是一个专家级的数据库,它可以通过与其它资源进行交互查找的方式为用户提供一个有关目的蛋白质的全面的综合信息。UniProtKB包括两个组成部分:UniProtKB/Swiss-Prot UniProtKB/TrEMBL。,20,UniProtKB/Swiss-Prot,UniProtKB/Swiss-Prot主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。 在UniProtKB中,注释包括蛋白质功能 酶学特性 生物学意义的相关结构域及位点 翻译后修饰情况 亚细胞定位 组织特异性 发育阶段特异性 结构、相互作用 剪接异构体 相关疾病信息的注释 。,21,UniProtKB/TrEMBL,UniProtKB/TrEMBL收录的则是高质量的经计算机分析后进行自动注释和分类的序列。计算机辅助注释使用的是Spearmint规则,而人工注释依据的则是蛋白质家族规则,包括HAMAP家族规则(HAMAP family rules)、RuleBase规则、PIRSF分类命名规则以及位点规则。UniProtKB/TrEMBL还收录了所有EMBL-Bank/ GenBank/DDBJ核酸序列数据库中的编码序列的翻译后蛋白质序列和来自拟南芥信息资源库(TAIR)、SGD和人类Ensembl数据库中序列的翻译后蛋白质序列。,22,2. iProClass-蛋白质知识整合数据库 iProClass(http:/pir.georgetown.edu/iproclass/)提供来自90多个生物学数据库的大量整合数据,包括蛋白ID图谱服务、UniProtKB编注蛋白质摘要描述和筛选UnParc数据库的蛋白质序列。使用iProClass可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(ontology)、文献和分类学信息。使用iProClass还可以检索ID图谱、蛋白质词典和相关序列。,3. PIRSF-蛋白质家族分类系统 PIRSF(http:/pir.georgetown.edu/pirsf/)分类系统概要论述家族的特征,如家族名称、分类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通路、功能注释标准体系(ontology)和家族分类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族成员共有的其他特征。,4. iProLINK-蛋白质文献、信息和知识整合数据库 iProLINK(http:/pir.georgetown.edu/iprolink/)提供有关注释内容的文献、蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(ontology)。使用iProLINK可以获得描述蛋白质记录的文本文献资源,在UniProtKB记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(RLIMS-P)文献和获得蛋白质功能注释标准体系(ontology)(PRO)信息。,其他重要的蛋白质序列数据库,PRINTS Pfam,PRINTS,PRINTS(http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php)是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序ADSP或VISTAS序列分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。,Pfam,蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作域(domain)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。 Pfam数据库(http:/pfam.sanger.ac.uk/)是一个大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(HMMs)分析结果的代表。,Uniprot中一个蛋白质的例子,http:/www.uniprot.org/uniprot/P10962,一、基本信息,Uniprot中一个蛋白质的例子,http:/www.uniprot.org/uniprot/P10962,二、功能注释,Uniprot中一个蛋白质的例子,http:/www.uniprot.org/uniprot/P10962,三、序列特征,Uniprot中一个蛋白质的例子,http:/www.uniprot.org/uniprot/P10962,四、蛋白质结构域组成和蛋白质家族,Uniprot中一个蛋白质的例子,http:/www.uniprot.org/uniprot/P10962,五、其他特征:结构、参与的蛋白质互作,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号