资源预览内容
第1页 / 共88页
第2页 / 共88页
第3页 / 共88页
第4页 / 共88页
第5页 / 共88页
第6页 / 共88页
第7页 / 共88页
第8页 / 共88页
第9页 / 共88页
第10页 / 共88页
亲,该文档总共88页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
Bioinformatics生物信息学生物信息学主讲教师:杨期和主讲教师:杨期和2009.811.1 生物信息学(生物信息学(Bioinformatics)的起源和特点的起源和特点 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。 2生物信息学生物信息学HGP生物数据的激增生物数据的激增(每(每15个月翻一番个月翻一番)生物学家生物学家数学家数学家计算机计算机科学家科学家生物信息学生物信息学(bioinfomatics)的诞生的诞生3三种科学文化的融合三种科学文化的融合三种科学文化的融合三种科学文化的融合生物学家生物学家生物学家生物学家( ( ( (生物学问题生物学问题生物学问题生物学问题) ) ) )数学物理学家数学物理学家数学物理学家数学物理学家计算机科学家计算机科学家计算机科学家计算机科学家( ( ( (基础理论问题基础理论问题基础理论问题基础理论问题) ) ) )工程师工程师工程师工程师(技术应用)(技术应用)(技术应用)(技术应用)4 生物信息学(bioinformatics)是80年代未随着人类基因组计划(Human genomeproject)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。 51.2内涵内涵1.2.1概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递的存贮、传递和表达和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理、药理过程的中各种生物信息、药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学6广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。 71.2.1概念(狭义概念(狭义)生物生物分子数据分子数据深层次生物学知识分子生物信息学分子生物信息学Molecular Bioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用8 由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。 9曼哈顿原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划从人类基因组计划(从人类基因组计划(HGP)说起)说起106060年代初,美国总统年代初,美国总统KennedyKennedy提出两个科学计划:提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP,Human Genome Project)目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘为什么提出为什么提出为什么提出为什么提出HGPHGP?11 DNA: 遗传物质遗传物质(遗传信息的载体遗传信息的载体) 双螺旋结构双螺旋结构 A, C, G, T四种基本字符的复杂文本四种基本字符的复杂文本 基因基因(Gene):具有遗传效应的具有遗传效应的DNA分子片段分子片段DNADNA、基因、基因组基因、基因组基因、基因组基因、基因组1213 人类基因组计划准备用人类基因组计划准备用1515年时年时间,投入间,投入3030亿美元,完成人类全部亿美元,完成人类全部2424条染色体的条染色体的3 310109 9脱氧核苷酸对脱氧核苷酸对( (bpbp) )的序列测定,主要任务包括作的序列测定,主要任务包括作图图( (遗传图谱、物理图谱的建立及遗传图谱、物理图谱的建立及转录图谱的绘制转录图谱的绘制) )、测序和基因识、测序和基因识别。其中还包括模式生物别。其中还包括模式生物( (如大肠如大肠杆菌、酵母、线虫、小鼠等杆菌、酵母、线虫、小鼠等) )基因基因组的作图和测序,以及信息系统的组的作图和测序,以及信息系统的建立。建立。作图作图和和测序测序是基本的任务,是基本的任务,在此基础上解读和破译生物体生老在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息病死以及和疾病相关的遗传信息15HGPHGP的的的的历史回顾历史回顾历史回顾历史回顾1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985 Dulbecco在Science撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”,Watson担任第一任主任1990.10经美国国会批准,人类基因组计划正式启动James WatsonWalter Gilbert1719951995第一个自由生物体流感嗜血菌第一个自由生物体流感嗜血菌( (H. H. infinf) )的全基因组测序完成的全基因组测序完成1996 1996 完成人类基因组计划的遗传作图完成人类基因组计划的遗传作图 启动模式生物基因组计划启动模式生物基因组计划H.inf全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫181997 1997 大肠杆菌大肠杆菌( (E.coliE.coli) )全基因组测序完成全基因组测序完成1998 1998 完成人类基因组计划的物理作图完成人类基因组计划的物理作图 开始人类基因组的大规模测序开始人类基因组的大规模测序 CeleraCelera公司加入,与公共领域竞争公司加入,与公共领域竞争 启动水稻基因组计划启动水稻基因组计划1999.7 1999.7 第第5 5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划192001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面20At the White House on June 26, Francis Collins (r), Director of the National Human Genome Research Institute, President Clinton, and J. Craig Venter, President of Celara Genomics, lauded the thousands of scientists who contributed to the genome sequence.211999.7第5届国际公共领域人类基因组测序会议,加快测序速度2000 Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组拟南芥全基因组的测序工作2000.6.26公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15Nature刊文发表国际公共领域结果2001.2.16Science刊文发表Celera公司及其合作者结果Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥22HGPHGP的最初目标的最初目标通过国际合作,用通过国际合作,用1515年时间年时间(1990(19902005)2005)至至少投入少投入3030亿美元,构建详细的人类基因组遗传图和物理图亿美元,构建详细的人类基因组遗传图和物理图 ,确定人类确定人类DNADNA的全部核苷酸序列,定位约的全部核苷酸序列,定位约1010万基因,并对其它万基因,并对其它生物进行类似研究。生物进行类似研究。4 4张图:张图: HGPHGP的终极目标的终极目标阐明人类基因组全部阐明人类基因组全部DNADNA序列;序列;识别基因;识别基因;建立储存这些信息的数据库;建立储存这些信息的数据库;开发数据分析工具;开发数据分析工具;研究研究HGPHGP实施所带来的伦理、法律和社会问题。实施所带来的伦理、法律和社会问题。 遗传图物理图物理图序列图序列图转录图转录图23 1995年,在美国人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整较为完整的生物信息学的定义:生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。 24Bioinformatics生物分子数 据 计算机计 算 + 25细胞细胞分子分子存贮、复制、传递和表达存贮、复制、传递和表达遗传信息的系统遗传信息的系统生物信息的载体生物信息的载体2、生物分子信息、生物分子信息26n生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体nDNA分子分子n蛋白质分子蛋白质分子2728Protein Machines 29From the Cell to Protein Machines 30生物分子至少携带着三种信息生物分子至少携带着三种信息n遗传信息遗传信息n与功能相关的结构信息与功能相关的结构信息n进化信息进化信息31(1)遗传信息的载体遗传信息的载体DNA 遗传信息的载体主要是DNA 控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达 32DNA通过自我复制,在生物体的繁衍过通过自我复制,在生物体的繁衍过程中传递遗传信息程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代个体中得以表达,并使后代表现出与亲代相似的生物性状。相似的生物性状。 基因控制着蛋白质的合成基因控制着蛋白质的合成 DNARNA蛋白蛋白质质转录转录翻译翻译33基因的DNADNA序列序列DNA前体RNAmRNA多多肽链蛋白质序列对对应应关关系系遗遗传传密密码码34(2)蛋白质的结构决定其功能蛋白质的结构决定其功能n蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构 n蛋白质结构决定于蛋白质的蛋白质结构决定于蛋白质的序列序列(这是(这是目前基本共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。信息隐含在蛋白质序列之中。35(3) DNA分子和蛋白质分子分子和蛋白质分子都含有进化信息都含有进化信息n通过比较通过比较相似的蛋白质序列相似的蛋白质序列,如肌红蛋,如肌红蛋白和血红蛋白,可以发现由于基因复制白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。而产生的分子进化证据。n通过比较来自于不同种属的同源蛋白质,通过比较来自于不同种属的同源蛋白质,即即直系同源蛋白质直系同源蛋白质,可以分析蛋白质甚,可以分析蛋白质甚至种属之间的系统发生关系,推测它们至种属之间的系统发生关系,推测它们共同的祖先蛋白质。共同的祖先蛋白质。36生生物物分分子子信信息息DNA序列数据序列数据 蛋白质序列数据蛋白质序列数据 生物分子结构数据生物分子结构数据 生物分子功能数据生物分子功能数据 最基本最基本直观直观复杂复杂生物分子数据类型生物分子数据类型37 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质蛋白质结构结构蛋白质蛋白质功能功能最基本的最基本的生物信息生物信息维持生命活维持生命活动的机器动的机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态的变化百态的变化生物分子数据及其关系生物分子数据及其关系38n第一部遗传密码已被破译,但对密码的转录过程还不第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数清楚,对大多数DNA非编码区域的功能还知之甚少非编码区域的功能还知之甚少n 对于第二部密码,目前则只能用统计学的方法进行分对于第二部密码,目前则只能用统计学的方法进行分析析n无论是第一部遗传密码,还是第二部遗传密码,都隐无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。藏在大量的生物分子数据之中。生物分子数据是宝藏,生物分子数据是宝藏,生物信息数据库是金矿,生物信息数据库是金矿,等待我们去挖掘和利用。等待我们去挖掘和利用。39生物分子信息的特征生物分子信息的特征n生物分子信息数据量大生物分子信息数据量大 n生物分子信息复杂生物分子信息复杂 n生物分子信息之间存在着密切的联系生物分子信息之间存在着密切的联系401.3 生物信息学的发展历史生物信息学的发展历史生物信息学生物信息学基本思想的产生基本思想的产生 生物信息学生物信息学 的迅速发展的迅速发展二十世纪二十世纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术的技术的发展发展人类基因组人类基因组计划的计划的推动推动 41n2020世纪世纪5050年代,生物信息学开始孕育年代,生物信息学开始孕育n2020世纪世纪6060年代,生物分子信息在概念上将计算年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来生物学和计算机科学联系起来n2020世纪世纪7070年代,生物信息学的真正开端年代,生物信息学的真正开端n2020世纪世纪7070年代到年代到8080年代初期年代初期 ,出现了一系列著,出现了一系列著 名的序列比较方法和生物信息分析方法名的序列比较方法和生物信息分析方法 n2020世纪世纪8080年代以后,出现一批生物信息服务机年代以后,出现一批生物信息服务机 构和生物信息数据库构和生物信息数据库n2020世纪世纪9090年代后年代后 ,HGPHGP促进生物信息学的迅速促进生物信息学的迅速 发展发展42关于生物信息学发展历程中的重要大事,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:请参见下面两个网站的介绍:http:/www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html、http:/www.biosino.org/bioinformatics/。431.4 生物信息学主要研究内容生物信息学主要研究内容1、 生物分子数据的收集与管理生物分子数据的收集与管理2、 数据库搜索及序列比较数据库搜索及序列比较 3、 基因组序列分析基因组序列分析 4、基因表达数据的分析与处理、基因表达数据的分析与处理 5、蛋白质结构预测、蛋白质结构预测 44基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROTPDBPIR(1)生物分子数据的收集与管理45(2) 数据库搜索及序列比较数据库搜索及序列比较 n搜索同源序列在一定程度上就是通过序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列寻找相似序列 n序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对(Alignment),),即将两个序列的各个字符即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种列共有的排列顺序,这是序列相似程度的一种定性描述定性描述n多重序列比对多重序列比对研究的是多个序列的共性。序列研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。也可用于研究一组蛋白质之间的进化关系。 46发现同源分子47(3)基因组序列分析)基因组序列分析 n遗传语言分析遗传语言分析天书天书 n基因组结构分析基因组结构分析n基因识别基因识别n基因功能注释基因功能注释n基因调控信息分析基因调控信息分析n基因组比较基因组比较48(4)基因表达数据的分析与处理)基因表达数据的分析与处理n基因表达数据分析是目前生物信息学研究的热基因表达数据分析是目前生物信息学研究的热 点和重点点和重点 n目前对基因表达数据的处理主要是进行聚类分目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 n所用方法主要有:所用方法主要有:n相关分析方法相关分析方法n模式识别技术中的层次式聚类方法模式识别技术中的层次式聚类方法n人工智能中的自组织映射神经网络人工智能中的自组织映射神经网络n主元分析方法主元分析方法 49基因芯片基因芯片505152层次式聚类层次式聚类53二二维维电电泳泳图图54(5)蛋白质结构预测)蛋白质结构预测 n蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定 ,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径n蛋白质结构预测分为蛋白质结构预测分为:n二级结构预测二级结构预测n空间结构预测空间结构预测 蛋白质折叠蛋白质折叠55二级结构预测二级结构预测n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:n立体化学方法立体化学方法n图论方法图论方法n统计方法统计方法n最邻近决策方法最邻近决策方法n基于规则的专家系统方法基于规则的专家系统方法n分子动力学方法分子动力学方法n人工神经网络方法人工神经网络方法 n预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统系统56空间结构预测空间结构预测n在空间结构预测方面,比较成功的理论在空间结构预测方面,比较成功的理论方法是方法是同源模型法同源模型法 n该方法的依据是:相似序列的蛋白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构 n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作 57 纵观当今生物信息学界的现纵观当今生物信息学界的现状,可以发现,大部分人都状,可以发现,大部分人都把注意力集中在基因组、蛋把注意力集中在基因组、蛋白质组、蛋白质结构以及与白质组、蛋白质结构以及与之相结合的药物设计上之相结合的药物设计上 1.5 生物信息学当前的主要任务生物信息学当前的主要任务 581.5.1 基因组基因组 (1) 新基因的发现新基因的发现 通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆电子克隆”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。 591.5.2 非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析 60 非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。 对非蛋白编码区进行生物学意义分析的策略有两种,一种一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。 611.5.3 基因组整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握 把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片基因芯片技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。 621.5.4 基因组演化与物种演化基因组演化与物种演化 63 尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基从基因组整体结构组织和整体功能调节网络方面,结合相应的生因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。实演化历史的最佳途径。 641.5.2 蛋白质组蛋白质组 65 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况; 因此,近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和质谱质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。 66 基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定蛋白质三维结构也不一定是静态的,在行使功能的过程中其是静态的,在行使功能的过程中其结构也会相应的有所改变结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构之外1.5.3蛋白质结构蛋白质结构 67 另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 681.5.4 新药设计新药设计 69 近年来随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转移、构象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分子的量子效应。70 但生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数理理论成果对生物体进行完整系统的数理模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控制自身以及所有其他的生命体71生物信息学不仅仅是一门科学学科,生物信息学不仅仅是一门科学学科, 它更是一种重要的研究开发工具。它更是一种重要的研究开发工具。 从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。 从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。72生物信息学研究意义生物信息学研究意义生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心n认识生物本质认识生物本质n了解生物分子信息的组织和结构,破译基因了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系组信息,阐明生物信息之间的关系n改变生物学的研究方式改变生物学的研究方式 n改变传统研究方式,引进现代信息学方法改变传统研究方式,引进现代信息学方法n在医学上的重要意义在医学上的重要意义n为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据n为设计新药提供依据为设计新药提供依据731.5.5 生物信息学所用的方法和技术生物信息学所用的方法和技术 数学统计方法数学统计方法 动态规划方法动态规划方法 机器学习与模式识别技术机器学习与模式识别技术 数据库技术及数据挖掘数据库技术及数据挖掘 人工神经网络技术人工神经网络技术专家系统专家系统 分子模型化技术分子模型化技术量子力学和分子力学计算量子力学和分子力学计算 生物分子的计算机模拟生物分子的计算机模拟因特网(因特网(Internet)技术技术 74(1)数学统计方法n生物活动常常以大量、重复的形式出现,既受生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法中一种常用的分析方法 n数据统计、因素分析、多元回归分析是生物学数据统计、因素分析、多元回归分析是生物学研究必备的工具研究必备的工具n隐马尔科夫模型(隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain) 75(2)动态规划方法n动态规划(动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法法或复杂空间的优化搜索方法 n动态规划解决问题的基本过程是:将一动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推推求出局部最优解,随着执行过程的推进,进,“局部局部”逐渐接近逐渐接近“全局全局”,最终,最终获得全局最优解获得全局最优解 76(3)机器学习与模式识别技术n机器学习机器学习n机器学习是模拟人类的学习过程,以计算机为工具获取知机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验识、积累经验 n1 1、遗传算法遗传算法采用随机搜索方法,具有自适应能力和便采用随机搜索方法,具有自适应能力和便于并行计算于并行计算 n2 2、神经网络神经网络的理论是基于人脑的结构,其目的是揭示的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接一个系统是如何向环境学习的,这一种方法被称为联接主义。主义。 n模式识别模式识别n模式识别是机器学习的一个主要任务。模式是对感兴趣客模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中客体进行鉴别,将相同或者相似的客体归入同种类别中n模式识别主要有两种方法模式识别主要有两种方法: :n根据对象的统计特征进行识别,根据对象的统计特征进行识别,n根据对象的结构特征进行识别根据对象的结构特征进行识别 77环境学习知识库执行机器学习系统的基本结构机器学习系统的基本结构反反 馈馈78(4)数据库技术及数据)数据库技术及数据挖掘挖掘n数据库技术数据库技术 n数据仓库数据仓库 n虚拟数据库技术(虚拟数据库技术(Virtual DatabaseVirtual Database,简称简称 VDBVDB) n数据挖掘(数据挖掘(data miningdata mining) n又称作数据库中的知识发现又称作数据库中的知识发现 (Knowledge Discovery (Knowledge Discovery in Database)in Database),它是从数据库或数据仓库中发现并它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式测和决策行为起着十分重要作用的模式 n数据挖掘过程一般分为数据挖掘过程一般分为4 4个基本步骤:数据选择、数个基本步骤:数据选择、数据转换、数据挖掘和结果分析据转换、数据挖掘和结果分析 79(5)人工神经网络技术)人工神经网络技术n人工神经网络(人工神经网络(Artificial Neural Network, 简称简称ANN)是通过模拟神经元的特性以及脑的是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型机制建立的一种数学模型 n在生物信息学中,使用得最多的是在生物信息学中,使用得最多的是反向传播神反向传播神经网络经网络(Back Propagation Neural Network,简称简称BP网网)。)。BP网被认为是稳定网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络模型。标准的于有监督学习的网络模型。标准的BP网由三层网由三层神经元组成:输入层、隐藏层和输出层神经元组成:输入层、隐藏层和输出层 80输入层隐藏层输出层反向传播神经网络结构示意反向传播神经网络结构示意81使用界面解释机构推理机知识获取知识库数据库82(6)分子模型化技术)分子模型化技术n分子模型化(分子模型化(Molecular modeling)是利用是利用计算机模拟分子结构、研究分子之间相互作用计算机模拟分子结构、研究分子之间相互作用的一种技术的一种技术n分子模型化是进行分子设计的基础。分子图形分子模型化是进行分子设计的基础。分子图形学(学(Molecular Graphics)是进行分子模型是进行分子模型化的一项重要技术,正是由于分子图形学和其化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功的相互结合,才使得分子模型化方法取得成功8384(7)量子力学和分子力学计算)量子力学和分子力学计算 n量子力学主要研究原子、分子、凝聚态物质、量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础理以及原子核和基本粒子的结构、性质的基础理论,在化学等有关学科中得到了广泛的应用论,在化学等有关学科中得到了广泛的应用 n分子力学(分子力学(Molecular Mechanics)方法是方法是一种非量子力学的计算分子结构、能量与性质一种非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力的方法,该方法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质场方法模拟分子的结构,计算分子的性质 n在进行分子结构分析、构象优化、分子间相互在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分作用研究及分子模拟时需要应用量子力学或分子力学子力学 85(8)生物分子的计算机模拟)生物分子的计算机模拟 n所谓生物分子的计算机模拟就是从分子或所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质力学及热力学等方面的性质n分子动力学和蒙特卡罗方法(分子动力学和蒙特卡罗方法(Monte Carlo method)是两种最常用的技术,是两种最常用的技术,另一种模拟方法是模拟退火方法另一种模拟方法是模拟退火方法 86 反馈,改进模型 实验实验现象数学模型计算机模拟模拟结果分析新的设想87(9)因特网()因特网(Internet)技术技术nInternet已经成为生物学研究的平台,同已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所流特别是生物分子数据的交流的场所n通过网络查询或搜索所需要的生物信息,使通过网络查询或搜索所需要的生物信息,使用分析工具用分析工具 n将所要处理的数据直接送到相应的网络服务将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理器上,服务器接受你的处理请求,并将处理结果返回结果返回 88
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号