资源预览内容
第1页 / 共64页
第2页 / 共64页
第3页 / 共64页
第4页 / 共64页
第5页 / 共64页
第6页 / 共64页
第7页 / 共64页
第8页 / 共64页
第9页 / 共64页
第10页 / 共64页
亲,该文档总共64页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
一次数据库的查寻厕枉食蘑扼滦噬悄闭难幂催檀试啄沦嫡铃枉浑独欣胞奶和充郝丈浓柑披遍一次数据库的查寻一次数据库的查寻数据库查询数据库查询 分子生物学数据库的应用可以分为两个主要方面,即数据库查询(databaase query)和数据库搜索(database search)。数据库查询和数据库搜索是分子生物信息学中两个常用术语。 蚕圾脖班苗月磅猾魂亡负圆板番彬状旷史吧戌沉浸酮享泛酷傻孰谦岳罪哨一次数据库的查寻一次数据库的查寻 所谓数据库查询数据库查询,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。 例如,对蛋白质序列数据库SwissProt输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)。数据库查询有时也称数据库检索,它和互联网上通过搜索引擎 (Search engine) 查找需要的信息是一个概念。 鲤惊嘴涩诲警殃淑舜谎兼诫娶愤填翰护园侨们漾劣诅氰浪暇艘拎淖名数浪一次数据库的查寻一次数据库的查寻 数据库查询、数据库检索和数据库搜索这三个词经常混用。其实,数据库搜索数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。 例如,给定一个胰岛素序列,通过数据库搜索,可以在蛋白质序列数据库SwissProt中找出与该检测序列(query sequence)具有一定相似性的序列。 卤译蚁豆万四混项廊构柄拈欠盛昭宛琵稠枕峪谎琼学裤限鸥童佬狮奋循降一次数据库的查寻一次数据库的查寻 在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。 显然,数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同 叼丫听于慕忠锯昭淫够中衬侵叼群朝访她恭诅矽淌敷迭掂熙婴观翁童薛追一次数据库的查寻一次数据库的查寻以以SRS和和Entrez为例,为例, 介绍数据库查询的基本方法介绍数据库查询的基本方法 疙浸苞浑炙牛陷封帘贴某寒郸归斤肘仗鼓怒植奎帐牡血氦踢茎微瞥寅桃颅一次数据库的查寻一次数据库的查寻 SRS是Sequence Retrieval System的缩写,由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。 随着分子生物信息数据库应用和开发的需求不断增长,SRS已经成为欧洲各国主要生物信息中心必备的数据库查询系统。 目前,SRS已经发展成商业软件,由英国剑桥的LION Bioscience公司继续开发,学术单位在签定协议后可以免费获得该软件的使用权,而非学术单位则需要购买使用权。SRS系统系统念尘李督秆朴喉肾腑眉醇觉痰辛湖买撵蔗涤怂忧溜玫五汽拓北按貌遣阻钡一次数据库的查寻一次数据库的查寻 SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库,目前共有300多个数据库安装在世界各地的SRS服务器上。 可以直接从LION公司的网页上查到这些数据库的名称,并知道它们分别安装在何处(http:/www.lionbio.co.uk/publicsrs.html)。 SRS系统系统贬彼寅相隶楞蜒啃漏霞呼芽襄跟招篓镜享方屹乏谍谓钧烯迢扮职雁十物网一次数据库的查寻一次数据库的查寻 欧洲生物信息学研究所、英国的基因组测序中心Sanger Centre和英国基因组资源中心HGMP等大型生物信息中心安装了100多个数据库。 北京大学生物信息中心1997年开始安装SRS系统,目前共有70多个数据库,其中核酸序列数据库EMBL和蛋白质结构数据库PDB每日更新。国内微生物所、上海生命科学院等单位也于2000年开始安装SRS系统。下表列出国际上主要SRS数据库查询系统服务器系统的网址。 SRS系统系统强杰拓及共闯婉莆痉娥显槽痕滞射崖降克宙钩握暑砷笼侗涎属顶轰惊绅难一次数据库的查寻一次数据库的查寻单 位网 址欧洲生物信息研究所http:/srs6.ebi.ac.uk/srs6/英国基因组资源中心http:/iron.hgmp.mrc.ac.uk/srs6/英国基因组测序中心http:/www.sanger.ac.uk/srs6/法国生物信息中心http:/www.infobiogen.fr/srs6/荷兰生物信息中心http:/www.cmbi.kun.nl/srs6/澳大利亚医学研究所http:/srs.wehi.edu.au/srs6/德国癌症研究所http:/genius.embnet.dkfz-heidelberg.de/menu/srs/加拿大生物信息资源中心http:/www.cbr.nrc.ca/srs6.1/SRS系统系统借已陋嫩胞驳曳滋伏纪绽松擦犯经器悲皿遇摩石你轩盯汪赞扭恰成颅怨候一次数据库的查寻一次数据库的查寻SRS系统使用方法系统使用方法 以北京生物信息中心SRS数据库查寻系统为例讲述SRS系统的使用方法,你可以打开网页http:/srs.pku.edu.cn/srs6/访问北京大学生物信息中心SRS数据库查寻系统。进入SRS主页,点击“Start”按钮即可进入SRS数据库查询系统。 刊朵瞳羌赂嘘悬全侗磐滚竣莆咸僚镀愚歼纤痕悔芳胳帆辛宙碗赏委倒棘学一次数据库的查寻一次数据库的查寻励眷举疹战陨基忱扶走秘趟席其挖观沉墒葱四携茄蛀焊解摆汹活各俺暗晨一次数据库的查寻一次数据库的查寻图1 为北京大学生物信息中心SRS数据库查询系统 在SRS系统的主界面上可以看到北京大学生物信息中心SRS数据库系统安装的部分数据库种类和名称 1橙颖竖姐遇粉泰祥坚瑟廊湿帮咱饥急维缝浴买案杨取芜灸舟苗枢坞俄变荔一次数据库的查寻一次数据库的查寻 点击页面右上方“Show all”右侧的”+”号按钮,即可显示所安装的所有数据库。用鼠标点击数据库名左侧的选择框以选中需要检索的数据库后,可以用三种方式进行查询。 检索可建立逻辑关系检索可建立逻辑关系(and,or,not)进行进行取邑轧壹龟嘲秋芒撤壶侧刷醚鲍逸屑饮岗当蚊霓库饰戴辑晚绿续拣磁昼霖一次数据库的查寻一次数据库的查寻布谨架灌官涌俺妙钥骏溶型岔共梦矩补锣壤这铝康帖孝脸烩绚倘皿椅坤锋一次数据库的查寻一次数据库的查寻1. 快快速速查查询询:在页面右上方的快速检索栏中填入关键词,按回车健或点击“Quick Search”按钮,即可得到查询结果。如选择蛋白质序列数据库SWISSPROT,输入钙离子通道“calcium channel”,按回车键或点击Quick Search按钮后即得到该数据库中与钙离子通道有关的蛋白质序列的条目及其它信息。1朱价润吁卖狼弧峻阔绣轧雅祷技材篱胳恬段既猴街鼻式矛逐浙它著美秦雪一次数据库的查寻一次数据库的查寻2. 标标准准查查询询:快速查询方式简单方便,但不便于由用户限定查询条件。 例如,上述查询结果中包含了部分钾离子通道序列条目,也包括了钙离子通道序列片段条目,因为在这些条目中,也出现了“calcium channel”关键词。选择标准查询方式,则可以由用户给出适当的查询条件,以缩小查询范围。罗肺谎养衅搂使藉伞轩雷研存佣包堰追称副包护庇观笺晴俗熙术嗅坑少疹一次数据库的查寻一次数据库的查寻 以蛋白质序列数据库SWISSPROT为例,选择该数据库后,点击 “Standard”按钮,则进入该数据库的标准查询页面。将页面左侧查询结合方式选择栏“combine search with”下的AND改为BUTNOT,再在查询表单中分别填入“calcium channel”、“potassium channel”和“fragment”,则可将钾离子通道和钙离子通道蛋白的序列片段滤除。同时,在序列条目显示方式栏“Use predefined view”中选择“proteinChart”(图2), 祈财儿奶纂赡沤何帘晒还营谴怯贤解创稚器呸狗区辜拘吏刺粥沤渣宣钧恃一次数据库的查寻一次数据库的查寻图2 蛋白质序列数据库SwissProt标准查询页面 您焕金招赛挨竖鸭雪吊倔蜕枢淖簇己屁良埃吨众妖市甥笛春谚钝柜兽搅郡一次数据库的查寻一次数据库的查寻 点击页面左上方的“Submit Query”按钮,则得到以Java图形表示的蛋白质序列疏水特性图。改变用于计算平均疏水值的残基数,可以得到不同的波形图(图3)。 娇欧榴待大颈睡孜棺拆邮唐惯饶厘倡漾障永捕寇刷屡织虱明糙聂痊伴烘悄一次数据库的查寻一次数据库的查寻图3 蛋白质序列数据库SwissProt疏水特性图 铂毅椿谦宵刨衰唾趟拥人毡蹲旁孽平逝桅宿腥僳基条七旬散倪腾封乓亭求一次数据库的查寻一次数据库的查寻3. 扩展查询:扩展查询:标准查询方式的功能比快速查询有所增加,但并没有体现SRS的全部查询功能。而利用扩展查询方式,则可充分利用SRS系统强大的查询功能。 例如,可以将输入关键词的查询范围限定在物种、说明、作者、文献等范围内,也可以限定日期和序列长度等。对EMBL数据库,还可以选择人、植物、EST等不同的子库进行检索(图4)。异柑缅型挠无晤渤拯潜副儒墩镑臻栖卑韭边浪矩幌莆用勃观慌搬废圾腆沛一次数据库的查寻一次数据库的查寻图4 核酸序列数据库EMBL扩展查询方式页面 脂蓉裸逗骗熊迎夺兽翌霹睫哆队疚臀苍派医勇整舶颇啸节害般涪消领跑鸳一次数据库的查寻一次数据库的查寻 例如,选择植物“Pln”,在物种“Organism”栏填入水稻的物种名“Oryza sativa”,在序列长度“=”栏中填入400,并把“Display per page”的缺省值由30改为10000,点击“Submit Query”,则可得到EMBL数据库中长度大于400bp的所有水稻序列条目,并在屏幕上全部列出。 此外,还可以选择EMBL和SwissProt等数据库的序列特征表(feature table)中某些特殊内容,实现快速高效的检索。坷评儒崖涡又影抽椰歌膏铝叫甚营呀猖戏型临霄佳熊帝愚涨廉忆叶砖厨棉一次数据库的查寻一次数据库的查寻 例如,选择蛋白质序列数据库SwissProt,进入开展查询页面,在“FtKey”栏中选择“disulfide”,不填入任何关键词而直接点击“Submit Query”,则可得到SWISSPROT中所有含二硫键的蛋白质序列条目。 俗捏筐帜素纸菌你劲暗度喻郸咀昧鸟赁逊倒工苏惋对诀毯艇怨酶特屠屡永一次数据库的查寻一次数据库的查寻 上述SRS的使用方法,仅仅是其中一部分。SRS系统另有许多其它功能,它设有六个常用选择按钮:TOP PAGE、QUERY、RESULTS、SESSIONS、VIEWS、DATABANKS,点击这些按钮,则可随时进入其特定的页面 懈藉赶婶娘鹿吴震趟坦汞钡力予郊宗苯傅倍毡呢康陡钓钒察笨缔番话润贫一次数据库的查寻一次数据库的查寻TOP PAGE:数据库选择页面,用来选择所需查询的数据库名称,用户可选择一个数据库进行查询,也可同时选择多个数据库查询 QUERY:标准查询方式页面,用来输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等查询项目,有的数据库可以选择全文搜索(All Text)选项,适用于对数据库内容不很熟悉、对所查信息不很确切的情况。蓝战会豫伤琵二鹿斌棠赫稀十引椿宿逼畔指刊缸睛垫脸够抿降瑞流森轩彰一次数据库的查寻一次数据库的查寻SESSIONS:查询过程存储页面,可以将某次查询过程以文件形式下载到用户本地计算机上保存起来,以供下次使用;也可把本地计算机上的存放的查询过程文件上载到服务器上。RESULTS:查询结果管理页面,用来对查询结果作组合、链接等处理,以得到进一步的筛选结果。悟珠蔓婚脑垛锋银锑皖项碱厢播确交伞缓线秃揍倦馋殊层怜帆曲怒族苑豆一次数据库的查寻一次数据库的查寻VIEWS:显示管理页面,用户可以选择和定义查询结果的显示方式,包括文本方式、表格方式、图形方式、FASTA搜索结果方式等。DATABANKS:系统安装的数据库清单,包括数据库名称、版本、类型、数据量、建立索引的日期等。 此此外外,SRS系系统统提提供供了了详详细细的的联联机机帮帮助助信信息息,任任何何页页面面下下点点击击右右上上方方的的Help按按钮钮,即即可可启启动动联联机机帮帮助助手手册册。仔仔细细阅阅读读该该手手册册,可熟悉可熟悉SRS系统的使用方法。系统的使用方法。阁膊伦丹仗薛乱误奥遵胁骋晾娃它剧篇撇椅刮破稿谎芒京驮汗沥嫌潍蚁晋一次数据库的查寻一次数据库的查寻SRS系统的特点系统的特点SRS系统是一个功能强大的数据库查询功能,其主要特点作有以下几个方面 1. 统一的用户界面统一的用户界面 SRS具有为统一的Web用户界面,用户只需安装Netscape等网络浏览器即可通过Internet查询世界各地SRS服务器上的300多个数据库。SRS支持以文本文件形式存放的各种数据库,包括序列数据库EMBL、SwissProt,结构数据库PDB,资料数据库AAIndex、Biocat、dbcat,文献数据库MedLine等 川寐肿庇聪角至滚雁毁鬼媒视靠同搔埠沙爱搽泊灵预彩火寒告袒浅巳枫玄一次数据库的查寻一次数据库的查寻生物信息数据库种类繁多,结构各异。如何快速、高效地对各种数据库进行查询,是数据库查询系统必须解决的问题。SRS系统采用了建立数据库索引文件的手段,较好地解决了这一问题。即使是含几百万个序列的EMBL数据库,只需几分钟即可实现整库查询,得到所需结果。此外,SRS系统具有查询结果相关处理功能,每次查询结果可作为进一步查询的子数据库,并可对其进行并、交等操作,对查询结果进行组合或筛选 2. 高效的查询功能高效的查询功能壹解苔逾氏扭垮口满濒椅丫帕穷淋让渴咱四投罩娩羔域熄址树的沥得搂孩一次数据库的查寻一次数据库的查寻3. 灵活的指针链接灵活的指针链接通过超文本指针链接实现信息资源的有机联系,是目前Internet信息服务的主要趋势。许多生物信息数据库均包含与其它相关数据库的代码,如SwissProt数据库中的蛋白质序列包含了该序列在EMBL、PDB、Prosite、Medline等其它数据库的代码。利用超文本链接,可将这些相关数据库联系在一起。SRS采用实时方式,根据查询结果产生链接指针,而不是在原始数据库中增加超文本标记,既节省了存储空间,也便于数据库管理 影声嘘冤胳栈赚瞅铃泵拭送家忿孤误纪薛柄雹厄榜醉烤栈藻濒揭掳山呛荫一次数据库的查寻一次数据库的查寻4. 方便的程序接口方便的程序接口 将序列分析等常用程序整合到基本查询系统中,是SRS的另一个重要特点。用户可以对查询结果直接进行进一步分析处理。例如,查询所得的蛋白质序列,可立即用BLAST和FASTA查询程序进行数据库搜索,找出其同源序列;也可以用PrositeSearch程序,寻找功能位点;用ClustalW程序进行多序列比较 抱盅互邢恕胳斤檬凋贴沥焉到求肩吏隘婿芋棒律堡嗽奋蚀舵坯俐褂傀满辐一次数据库的查寻一次数据库的查寻5. 开放的管理模式开放的管理模式 在管理模式上,SRS采用了开放的方式。无论是数据库还是应用程序,均可进行扩充和更新。用户可在本地机上安装自己的SRS系统,并将自己的数据库添加到SRS系统中,并可与其它数据库实现超文本链接。也可自行编写应用程序,整合到SRS系统中 6. 统一的开发平台统一的开发平台 SRS系统中所有数据库均以文件系统方式存放,通过预先建立索引文件实现数据库查询。因此它不依赖于Oracle、Sybase等商业数据库管理软件,便于推广使用。为建立索引文件,特别是对EMBL这样大型数据库建立索引,系统的内存和CPU资源需要满足一定的要求 蔷铣柏鸥扬谩祖妥贷斧轻建惋拭芒列韩履妄权树鱼燎疤响倚艇觉咒虏员晤一次数据库的查寻一次数据库的查寻 Entrez由美国NCBI开发,用于对文献摘要、序列、结构和基因组等数据库进行关键词查询,找出相关的一个或几个数据库条目。该系统目前主要包括核酸序列数据库、蛋白质序列数据库、基因组数据库、蛋白质结构数据库、生物医学文献摘要数据库、系统分类数据库、人类遗传疾病和遗传缺失在线数据库,以及基因信息数据库、种群亲缘关系核酸序列比对数据库、表达序列标签数据库等。Entrez系统系统绥伦恼活哉真辨委痹仑陇另枕帛狙冠胳荐宝林辜竞星俏逞入禹戚嫁抒铆虑一次数据库的查寻一次数据库的查寻 Entrez 是由NCBI主持的一个数据库检索系统,它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。 因此,可以从一个DNA序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。 Entrez系统系统九锗亦贡壬澳联懂殴侯胎敲枝注版锡多鞘筏叶钢皇豁泣幽呀一咏凶屉说遏一次数据库的查寻一次数据库的查寻Entrez中核酸数据库为:GenBank, EMBL, DDBJ蛋白质数据库为:Swiss-Prot, PIR, PFR, PDBPubMed基因组和染色体图谱资料Entrez中的数据库包括:中的数据库包括:Entrez系统系统摔搁腻中郡黔苇伯蘑篡铀大匣融溅拧榔喂入卤亮燥髓培恼秽从岸岳椎沉独一次数据库的查寻一次数据库的查寻检索领域:检索领域:(Search Fields) 在WWW Entrez检索系统中,检索内容被分为许多小的领域,每一个检索领域包含以下信息:进入进入(Accession): 包含进入号相关性相关性(Affiliation): 包括该检索领域建立时的相关信息,原作者地址,有时亦有其他作者地址作者姓名作者姓名(Author Name): 包含文章作者清单E.C号号(E.C.Number): 是酶学委员会命名的酶的编号特征词特征词(Feature Key): 描述DNA特征的关键词基因符号基因符号(Gene Symbol): 基因的标准名称杂志名杂志名(Journal Title):为检索条目第一次发表时的杂志名,该杂志名是以缩写形式储存于数据 库中,如果不清楚杂志是如何缩写的可采用List Terms来查看 关键词关键词(Keywords):可以使用较特定的索引条目来检索以上数据库。类似于医学光盘检索Medline UID : 是Medline对每一个条目给出的唯一识别标记MeSH主题词主题词(MeSH Terms): 包括 MeSH的主题词,下级主题词MeSH主要关键词主要关键词 (MeSH Major Topic):为检索条目十分重要的MeSH词目Entrez系统系统觅兔卷配迄酚呕涪往抽务择坑胶系畅分建北尖爸窗教溯迭茂蛊栖梭诛煤岳一次数据库的查寻一次数据库的查寻修改日期(修改日期(Modification Date): 包含该条目进入Entrez的日期, 与出版日期一 样,以年/月/日形式出现 页数页数(Page Number): 该文章所在杂志的页码特性特性(Property): 一个或几个关键词,用来描述该序列的类型出版日期出版日期(Publication Date):包含文章出版日期以及序列录入GenBank的日期PubMed ID: PubMed对每一个条目给出的识别标记物种物种(Organism): 包含与该蛋白或核酸序列相关物种的学名和俗名蛋白质名称蛋白质名称(Protein name):Seq Id: 与FASTA识别标记类似,为序列的一种识别标记物质物质(Substance): 与该条目相关的化学物质名称Entrez系统系统耀君宅滓善纬玩镍意殿枉殃扳刊竿哥申环斥刷佐酿擅愈兢祖氮腮鹤锥宛桨一次数据库的查寻一次数据库的查寻文字检索词文字检索词(Text Words):包含文章中的所有词,其中:包含文章中的所有词,其中:Medline词目:词目:标题和文摘蛋白质词目:蛋白质词目: 定义,评论,蛋白名称,蛋白描述核酸条目:核酸条目: 定义,评论,基因名称,基因名称标题检索词标题检索词(Title Words): 在标题中出现的词,或在描述该条目时出现的词卷卷(Volume): 刊登该文章杂志所在卷使用Medline UID, PubMed ID和 Seq ID进行检索时,在栏目框中要输入数字。如要输入多个数字,中间要用空格或逗号隔开。并选择相对应的检索领域Entrez系统系统吴砖攻打铸序睁脉漳砧媒钳柜术耐未体梗瘁骗堆剔侩亦盛抠阵邓搭夷看鞠一次数据库的查寻一次数据库的查寻www Entrez可以采用几种不同途径的检索方式:名词列表格式名词列表格式(list term):当输入一检索词后,Entrez将列出与此相关的该领域中所有标准的检索词名称, 此时,可选择一或多个标准名词去检索。自动格式(自动格式(automatic):):当输入一个检索词后,即自动检索,如果输入的检索词超过一个,则Entrez会自动将之组合起来, 如果无结果,则可尝试将这多个检索词用“ ”括起来。Entrez系统系统检索模式检索模式(Search Modes)发弃粱询赚央馈弟猩媳蒙仍妨盅趟画锹售喧抹讽稀喉殴亮良脖淑俊为季猎一次数据库的查寻一次数据库的查寻每一个文件都可以有数种阅读方式,目的各不相同。一般来说,“引文格式(citation)”最适合于阅读Medline形式的文件;“GenPept” 格式适用于阅读蛋白质文件;“GenBank”格式用来阅读核酸文件。Entrez系统系统阅读文献阅读文献(Viewing Document)雁弗揭旭浙纵哨幻袖趁剥城琐鬼菲象痉队窍增呢纠俘畴唐回恭硼伸缴弧室一次数据库的查寻一次数据库的查寻对于对于PubMed文章:文章:引文(citation)格式:包含题目,文摘,MeSH主题词等文摘格式:包含题目,文摘ASN.1格式:文章以ASN.1格式出现MEDLINE格式:文章以MEDLINE格式出现 对于蛋白和核酸文件:对于蛋白和核酸文件:GenBank/GenPept格式: 标准的GenBank或GenPept格式Report格式:GenBank格式ASN.1格式FASTA格式图形格式(Graphic View)对于结构文件:对于结构文件:结构总结格式:结构的基本信息,可以看三维结构ASN.1格式:对于基因组文件:对于基因组文件:图形格式ASN.1格式Entrez系统系统阅读方式:阅读方式:可单一阅读,亦可成批阅读可单一阅读,亦可成批阅读诈记凌谓邪讶涉镐惺搓床山炭造滴妊燥廓殊靳升惜公隔擒锐郁犁痢爽腰犊一次数据库的查寻一次数据库的查寻Entrez系统的使用方法系统的使用方法 进入NCBI主页(www.ncbi.nlm.nih),即可看到位于页面上部的数据库检索栏,其缺省检索选项为核酸序列数据库GenBank(图5)。可以在检索栏中直接输入需要查询的内容。例如,需要检索蜘蛛毒素的核苷酸序列,在检索栏中输入“spider toxin”,点击起 始 按 钮 “Go”, 则 可 得 到 核 酸 序 列 数 据 库GenBank中和蜘蛛毒素相关的序列条目,一共17条。例误矫循浆吝宪士汛漆跌尾握溃攀段锭妓尸瞪宙钝柔纯伯俱颧送缸撮朱弱一次数据库的查寻一次数据库的查寻图5 进入NCBI主页蛀匿酱抒钞糖萎屁哩峙乘莹匡龚奥茂倒兽杜榜罗商竞台埃襟训行成枷重隋一次数据库的查寻一次数据库的查寻GenBank和EMBL等核酸序列数据库中的大部分数据,是由生物学家通过计算机网络直接提交,或通过计算机程序直接从大规模序列测定所得结果送入数据库中,没有严格的标准。 在数据库查询时,经常会遇到“想找的找不到,找到的却不是”这样的问题。例如,上述“spider toxin”查询所得到的17个序列条目,有很大一部分是重复的;而我国特有蜘蛛“虎纹捕鸟蛛”的毒素(Huwentoxin)却没有检索到。这是因为作者在提交该序列时,使用了“Huwentoxin”,而没有使用“spider toxin”。因此,必须输入“Huwentoxin”,才能找到该序列条目(图6)。 收恍迈驭倡陨腥铜疮昌百荐涟擎残郁嘱须壮全春襄寂宿坛宽陪抬姑步及自一次数据库的查寻一次数据库的查寻工瞒萨调迄溢匈圈明彬掸靖告欺到销坏煤澡遍蔡鹤漾狠微衅惮怜说挑垦细一次数据库的查寻一次数据库的查寻GenBank核酸序列数据库中虎纹捕鸟蛛毒素Huwentoxin-I条目饿伦沉典庸羞虚栏脉蝇闷邪瘟轻帛吭恕六冕徘要尿缄仅刑劳赊舞辰戌嗡叔一次数据库的查寻一次数据库的查寻尽管Entez系统使用方便,初次使用时,最好阅读一下联机帮助文件,按其提供的向导实例练习一遍,以便提高查询效率,很快找到需要的结果。点击中页面左侧的“About Enterz”按钮,即可进入其帮助页面(图6)。该页面的下方有一个说明各数据库之间相互关系的框图,点击图中的数据库名,即可进入该数据库的帮助页面。而点击右上方“More about”下的“Entrez”,则进入Entrez使用详解。点击“Try a tutorial”,则开始联机向导练习。该向导以查询结核杆菌基因组中编码青霉素结合蛋白(penicillin-binding)基因为例,边操作、边讲解,直到找到需要的结果 庸阻教侮就号愈隐搬邑亡裕灌也与嗜岭抓嫌坡塑窗琅迎另艇迁做禁七茸灾一次数据库的查寻一次数据库的查寻图6 Entrez数据库查询系统帮助页面酗蜘朱吠囱荧乡锐箱挺弊蚜校祟嘱维陶街岭奋群支夫焚戒音佯姆鬃瑚疵某一次数据库的查寻一次数据库的查寻通过向导练习,可以熟悉Entrez系统的各种辅助功能,包括限定查询范围(Limits)、预览查询结果(Preview/Index)、查看查询记载(History)和操作剪贴板(Clipboard),提高查询效率。点击Limits按钮,即可进入限定查询范围页面,可以根据该数据库结构,将输入的关键词的查询范围限制在某个范围内,如编号、代码、提交日期等。伍糠喀痢奴陵乳耳要酶瘪惑鲍祈墓母舞记蛮富获句梨榷量并庸鄂醚富泌煤一次数据库的查寻一次数据库的查寻不同的数据库,其限定范围不同不同的数据库,其限定范围不同,如序列数据库可以限定序列长度,文献数据库则可以限定作者、题目、杂志名称等。 点击预览查询按钮(Preview/Index),检索栏中会增加一个“Preview”按钮,输入关键词后,若点击“Preview”按钮,则不列出具体查询结果,而只列出查询到的数据条目数数据条目数。利用这一辅助功能,可以提高查询速度,并对查询结果有个初步了解,以便对查询结果作进一步处理,缩小查询范围。 点击“History”按钮,则可以查看查询过程的记录,对每次查询结果进行分析,并作进一步处理。遣榜络明映植闹录昧境费鞠绕扎枉朽鲸档惕吴询瘁见况馋袭菇敞醒骇岩俘一次数据库的查寻一次数据库的查寻例如,若需要检索与细胞凋亡有关的自噬基因“autophagy”的核酸序列,可以按下面步骤进行: (1) 进入NCBI主页,点击Entrez按钮进入Entrez查询系统,点击“Nucleotide”按钮选择核酸序列数据库; 炕讶粮奇青饯库份阿燥颠璃抓来拟铱汁唬迭蚂渐浦枝爽节岔攘益谚僚衙刽一次数据库的查寻一次数据库的查寻岗洞噬瞎徐躯区翁作刮嘲侯请约巡旺抖陵绒暗弓袭槐冶才可煮昆玖润南儡一次数据库的查寻一次数据库的查寻(2) 点击“Limits”按钮,在检索栏中填入“Autophagy”并 在 “Limited to”选 择 栏 中 选 择“Title word”;点击“Preview/Index”按钮进入Preview页面,点击检索栏内的“Preview”按钮,得到核酸序列数据库的文献题目中与Autophagy有关的序列条目数以及该次查询结果的编号;孝补腊膜弄猫瘩殆考吁丧疼辉纺浓蛀羞硒着贪矗灰谊绳上霸美鸿忌醉赚盟一次数据库的查寻一次数据库的查寻詹宇送丸秆骡抓鲸擎怖信咨邢怔滤从奖髓佃虚琅处客激足孜恤坑啡安碾艰一次数据库的查寻一次数据库的查寻(3) 点击“Limits”按钮,在检索栏中填入“human”并 在 “Limited to”选 择 栏 中 选 择“Organism”;点击“Preview/Index”按钮进入Preview页面,点击检索栏内的“Preview”按钮,得到核酸序列数据库中所有人类的序列条目数以及该次查询结果的编号;加苟蚌鄙杯予靴拭筒蔑辐骆娇诸仲掐蛙权甘阁缎彤厂在颖韭蔡膳诚逾盏檬一次数据库的查寻一次数据库的查寻酋按磷都众酸肪使烂珠钩栈岸般乓狰盎撇层方唉刻销烽演褐恒放宙赋扑紊一次数据库的查寻一次数据库的查寻(4) 在在检检索索栏栏中中填填入入上上述述两两次次查查询询结结果果的的编编号号,并并用用“AND”链链接接,如如上上述述编编号号为为#1和和#2,则则可可在在检检索索栏栏中中输输入入“#1 AND #2”(注注意意AND必必须须用用大大写写字字母母),点击点击“Go”按钮即可得到查询结果按钮即可得到查询结果(图图8)。涤菏潮整卿馅伪舷圆庭橙孟馈日榴洱蓬烤挪油扭珠泡篆饰侦渴裤茶暴颇佩一次数据库的查寻一次数据库的查寻图8 利用Entrez系统检索人类自噬基因序列结果(注:核酸序列数据库在不断更新,实际搜索结果可能有所不同)草忻命蚜郑胡揩徘真甘芯坠衅粱杯体摊耻鞠拴皮蛮人矢洗臻狐宴视农耪碱一次数据库的查寻一次数据库的查寻淑述屯镐忿尾贤氓狈吁好示潮妇谬椭键希换奥琳口症俏拱独起督沉兄呼复一次数据库的查寻一次数据库的查寻Entrez系统的特点系统的特点澎锄咸皱还盲零臻巴赠悦签菱鸿鹅园母哥皮境牡漠樟郝泄畅觅胁庚抹反莆一次数据库的查寻一次数据库的查寻 Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一个数据库。例例如如,自自噬噬基基因因检检索索结结果果中中,列列出出了了它它们们在在蛋蛋白白质质数数据据库库中中的的链链接接,点点击击Protien即即可可得得到到该该基基因的蛋白质序列条目。因的蛋白质序列条目。Entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形 纠糯贸伏淬菱咽氮瘤挣晚缩沥抛呕敖嗓馅啸盂搏族冬疥亚杉哼斡绍问授令一次数据库的查寻一次数据库的查寻Entrez系统的开发基于特殊的数据模型NCBI ANS.1 (Abstract Syntax Notation),在对于文献摘要中的关键词查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“Related Articles”继续查找相关文献 态膘梢慌本眼痒途嚏同摄饼桓职皇炙石拨骋稻垂葫循啼蕴亡揖服拨排骗簇一次数据库的查寻一次数据库的查寻
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号