资源预览内容
第1页 / 共35页
第2页 / 共35页
第3页 / 共35页
第4页 / 共35页
第5页 / 共35页
第6页 / 共35页
第7页 / 共35页
第8页 / 共35页
第9页 / 共35页
第10页 / 共35页
亲,该文档总共35页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二章 生物信息学研讨方法概述马飞马飞南京师范大学南京师范大学比较基因组学与生物信息学实验室比较基因组学与生物信息学实验室一、生物信息学研讨方法概述一、生物信息学研讨方法概述1 生物信息学研讨的三个层面生物信息学研讨的三个层面初级层面初级层面中级层面中级层面高级层面高级层面初级层面初级层面 基于现有的生物信息数据库和资源,利用成熟基于现有的生物信息数据库和资源,利用成熟的生物信息学工具专业网站、软件处理生物信的生物信息学工具专业网站、软件处理生物信息学问题息学问题生物信息数据库生物信息数据库NCBI、EBI等等基因组序列分析、序列比对软件基因组序列分析、序列比对软件GCG、BLAST、CLUSTAL等等系统发育树构造软件系统发育树构造软件PHYLIP、PALM、MEGA等等分子动力学模拟软件分子动力学模拟软件GROMACS、NAMD等等搜集、整理有特征的生物信息学数据集搜集、整理有特征的生物信息学数据集中级层面中级层面 利用数值计算方法、数理统计方法和相关利用数值计算方法、数理统计方法和相关的工具,研讨生物信息学问题的工具,研讨生物信息学问题概率、数理统计根底概率、数理统计根底科学计算根底科学计算根底现有的数理统计和科学计算工具现有的数理统计和科学计算工具EXCEL、SPSS、SAS、 MATLAB等等建立有特征的生物信息学数据库建立有特征的生物信息学数据库高级层面高级层面 提出有重要意义的生物信息学问题;自主创提出有重要意义的生物信息学问题;自主创新,开展新型方法,开发新型工具,引领生物信新,开展新型方法,开发新型工具,引领生物信息学领域研讨方向。息学领域研讨方向。面向生物学领域,处理生物学问题面向生物学领域,处理生物学问题数学、物理、化学、计算科学等思想和方法数学、物理、化学、计算科学等思想和方法建立模型,开展算法建立模型,开展算法自行编程,开发软件,建立网页自行编程,开发软件,建立网页Linux系统、系统、C/C+、PERL、 数据库技术数据库技术rich.yunda.org/test/amphioxusest/ rich.yunda.org/test/rg01/index.php 从事生物信息学研讨应具备多方面的科学根底从事生物信息学研讨应具备多方面的科学根底1、一定的计算才干,包括相应的软、硬设备。要有各种、一定的计算才干,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进展有效的交流。要数据库或者能与国际、国内的数据库系统进展有效的交流。要有兴隆、稳定的互联网络系统;有兴隆、稳定的互联网络系统;2、强有力的创新算法和软件。没有算法创新,生物信息、强有力的创新算法和软件。没有算法创新,生物信息学就无法获得继续的开展;学就无法获得继续的开展;3、与实验科学,特别是与自动化的大规模高通量的生物、与实验科学,特别是与自动化的大规模高通量的生物学研讨方法与平台技术建立广泛、严密的联络。这些技术,既学研讨方法与平台技术建立广泛、严密的联络。这些技术,既是产生生物信息数据的主要方法,又是验证生物信息学研讨结是产生生物信息数据的主要方法,又是验证生物信息学研讨结果的关键手段。果的关键手段。 从事生物信息学研讨的人员必需具备多学科交叉的知识。从事生物信息学研讨的人员必需具备多学科交叉的知识。2 生物信息学的生物信息学的“降龙十八掌降龙十八掌第一式第一式第一式第一式 见龙在田见龙在田见龙在田见龙在田 1 1掌握生物信息数据库及其查掌握生物信息数据库及其查掌握生物信息数据库及其查掌握生物信息数据库及其查询搜索方法询搜索方法询搜索方法询搜索方法(Database & searching)(Database & searching)对分子生物信息数据库的种类以及某些详细数据库的掌握对分子生物信息数据库的种类以及某些详细数据库的掌握和了解和了解从现有数据库中熟练获得需求的数据信息尤其是二级数从现有数据库中熟练获得需求的数据信息尤其是二级数据库据库能熟练地进展数据库查询和数据库搜索数据库查询系统能熟练地进展数据库查询和数据库搜索数据库查询系统Entrez、SRS;搜索工具;搜索工具BLAST等等数据库技术、互联网技术数据库技术、互联网技术第二式第二式第二式第二式 飞龙在天飞龙在天飞龙在天飞龙在天2 2学会生物信息学软件和工学会生物信息学软件和工学会生物信息学软件和工学会生物信息学软件和工具的运用具的运用具的运用具的运用(Software & application)(Software & application)利用成熟的生物信息学工具专业网站、软件处理生物信息学问题利用成熟的生物信息学工具专业网站、软件处理生物信息学问题基因组序列分析、序列比对软件基因组序列分析、序列比对软件GCG、BLAST、CLUSTAL等等系统发育树构造软件系统发育树构造软件PHYLIP、PALM等等基因芯片检测分析软件商业软件基因芯片检测分析软件商业软件ScanArray、Array-Pro等等 分子动力学模拟软件分子动力学模拟软件GROMACS、NAMD等等第三式第三式第三式第三式 鸿渐于陆鸿渐于陆鸿渐于陆鸿渐于陆3 3掌握概率论根底掌握概率论根底掌握概率论根底掌握概率论根底(Probability theory)(Probability theory)随机事件、概率随机事件、概率随机变量、概率分布随机变量、概率分布大数定律、中心极限定理大数定律、中心极限定理几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面“Most of the problems in computational sequence analysis are essentially statistical.“Biological sequence analysis第四式第四式第四式第四式 或跃在渊或跃在渊或跃在渊或跃在渊4 4掌握数理统计根底掌握数理统计根底掌握数理统计根底掌握数理统计根底(Statistical methods)(Statistical methods)样本和统计量方差、均值样本和统计量方差、均值参数估计、假设检验参数估计、假设检验根本的统计分析方差分析、协方差分析、回归分析根本的统计分析方差分析、协方差分析、回归分析常用统计软件的运用常用统计软件的运用SPSS、SAS几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面第五式第五式第五式第五式 羚羊触藩羚羊触藩羚羊触藩羚羊触藩 5 5熟习基于频率的组分分析熟习基于频率的组分分析熟习基于频率的组分分析熟习基于频率的组分分析方法和权重矩阵方法方法和权重矩阵方法方法和权重矩阵方法方法和权重矩阵方法(Composition analysis & (Composition analysis & weight matrix method)weight matrix method)符号如碱基频率反映具有生物学意义的序列特征,符号如碱基频率反映具有生物学意义的序列特征,如内含子剪接位点的发现,如内含子剪接位点的发现,KOZAK规那么的发现等规那么的发现等核酸组分、氨基酸组分、密码子运用频率核酸组分、氨基酸组分、密码子运用频率k-tuples/k-mers频率分析频率分析权重矩阵权重矩阵(weight matrix) 分析分析主要用于具有特定生物学意义的序列特征的分析主要用于具有特定生物学意义的序列特征的分析权重矩阵分析方法举例权重矩阵分析方法举例权重矩阵分析方法举例权重矩阵分析方法举例例:人类基因例:人类基因例:人类基因例:人类基因内含子内含子内含子内含子/ /外显外显外显外显子剪接位点的子剪接位点的子剪接位点的子剪接位点的序列特征分析序列特征分析序列特征分析序列特征分析R = A or GR = A or GY = C or UY = C or UN = A, G, C or UN = A, G, C or U供体位点供体位点供体位点供体位点受体位点受体位点受体位点受体位点BayesianBayesian打分函数用于剪接位点预测的公式打分函数用于剪接位点预测的公式打分函数用于剪接位点预测的公式打分函数用于剪接位点预测的公式The likelihood that a property value v (of a new structure) is drawn from the splicing site is:Score for the overall likelihood of the query sequence being a site is:Say we have a sequence S= S1S2Sn. Then one need to calculateSo to look for a donor site in the sequence, we might calculate 第六式第六式第六式第六式 潜龙勿用潜龙勿用潜龙勿用潜龙勿用 6 6信息论方法信息论方法信息论方法信息论方法(Information method)(Information method)信息熵信息熵信息的度量:是信息符号出现何种形状的一种不确定性程度,信息的信息的度量:是信息符号出现何种形状的一种不确定性程度,信息的获得要对不确定性进展否认。获得要对不确定性进展否认。生物信息的符号如生物信息的符号如ACGT四种符号,形状空间即其一切能够的陈列四种符号,形状空间即其一切能够的陈列用于构造预测用于构造预测信息熵信息熵H描写了由描写了由pi表示的随机实验结果的先验不确定性,或察看表示的随机实验结果的先验不确定性,或察看到输出时所获得的信息量。到输出时所获得的信息量。第七式第七式第七式第七式 利涉大川利涉大川利涉大川利涉大川 7 7期望最大化期望最大化期望最大化期望最大化EMEM方法方法方法方法(Expectation Maximization)(Expectation Maximization)适用于具有隐变量的模型和问题,如神经网络模型中的隐节点和适用于具有隐变量的模型和问题,如神经网络模型中的隐节点和HMM模型中的隐形状等模型中的隐形状等用于构造的识别,如用于构造的识别,如Motif识别的识别的MEME方法、方法、HMM中的中的Baum-Welch算法算法第八式第八式第八式第八式 神龙摆尾神龙摆尾神龙摆尾神龙摆尾 8 8动态规划方法动态规划方法动态规划方法动态规划方法(Dynamic Programming)(Dynamic Programming)第九式第九式第九式第九式 密云不雨密云不雨密云不雨密云不雨9 9迭代方法迭代方法迭代方法迭代方法(Iteration)(Iteration)迭代的目的通常是在形状空间找到目的函数收敛的稳定解迭代的目的通常是在形状空间找到目的函数收敛的稳定解迭代的目的通常是在形状空间找到目的函数收敛的稳定解迭代的目的通常是在形状空间找到目的函数收敛的稳定解在运用方式识别方法时,对系统参数的学习通常要经过迭代来实现在运用方式识别方法时,对系统参数的学习通常要经过迭代来实现在运用方式识别方法时,对系统参数的学习通常要经过迭代来实现在运用方式识别方法时,对系统参数的学习通常要经过迭代来实现迭代必需可以不断逼近稳定解迭代必需可以不断逼近稳定解迭代必需可以不断逼近稳定解迭代必需可以不断逼近稳定解第十式第十式第十式第十式 突如其来突如其来突如其来突如其来1010回归、拟合、相关性分析、回归、拟合、相关性分析、回归、拟合、相关性分析、回归、拟合、相关性分析、关联分析关联分析关联分析关联分析(Regression, fitting, (Regression, fitting, correlation & association)correlation & association)经典的统计分析方法经典的统计分析方法主要目的:描画和预测自变量与因变量间的关系主要目的:描画和预测自变量与因变量间的关系第十一式第十一式第十一式第十一式 双龙取水双龙取水双龙取水双龙取水 1111判别分析方法判别分析方法判别分析方法判别分析方法(Discriminant analysis)(Discriminant analysis)第十二式第十二式第十二式第十二式 鱼跃于渊鱼跃于渊鱼跃于渊鱼跃于渊1212聚类分析方法聚类分析方法聚类分析方法聚类分析方法(Clustering method)(Clustering method)聚类分析群分析是适用多元统计分析的一个新分支,正处于开展聚类分析群分析是适用多元统计分析的一个新分支,正处于开展阶段。实际上尚未完善,但运用非常广泛。本质上是一种分类问题,目的阶段。实际上尚未完善,但运用非常广泛。本质上是一种分类问题,目的是建立一种分类方法,将一批数据按照特征的亲疏、类似程度进展分类。是建立一种分类方法,将一批数据按照特征的亲疏、类似程度进展分类。条件:研讨对象总体的类别数目未知,也不知总体样本的详细分类情条件:研讨对象总体的类别数目未知,也不知总体样本的详细分类情况况目的:经过分析,选定描画个体类似程度的统计量、确定总体分类数目的:经过分析,选定描画个体类似程度的统计量、确定总体分类数目、建立分类方法;对研讨对象给出合理的分类。目、建立分类方法;对研讨对象给出合理的分类。(“物以类聚是聚类物以类聚是聚类分析的根本出发点分析的根本出发点 )定性、阅历的分类的局限定性、阅历的分类的局限定性、阅历的分类的局限定性、阅历的分类的局限 分类较粗、数据量小、凭仗阅历分类较粗、数据量小、凭仗阅历分类较粗、数据量小、凭仗阅历分类较粗、数据量小、凭仗阅历谱系聚类法系统聚类法、动态聚类法、模糊聚类法谱系聚类法系统聚类法、动态聚类法、模糊聚类法谱系聚类法系统聚类法、动态聚类法、模糊聚类法谱系聚类法系统聚类法、动态聚类法、模糊聚类法生物信息学中的聚类分析问题:生物信息学中的聚类分析问题:生物信息学中的聚类分析问题:生物信息学中的聚类分析问题: 根据根据根据根据DNADNA芯片获得的基因表达数据进展基因聚类数据量庞大芯片获得的基因表达数据进展基因聚类数据量庞大芯片获得的基因表达数据进展基因聚类数据量庞大芯片获得的基因表达数据进展基因聚类数据量庞大 蛋白质相互作用网络的分类蛋白质相互作用网络的分类蛋白质相互作用网络的分类蛋白质相互作用网络的分类 根据不同物种的大分子序列进展类似性比较并构建系统发育树根据不同物种的大分子序列进展类似性比较并构建系统发育树根据不同物种的大分子序列进展类似性比较并构建系统发育树根据不同物种的大分子序列进展类似性比较并构建系统发育树X(1)X(2)X(3)X(4)X(5)GibbonSymphalangusHumanGorillaChimpanzee黑猩猩黑猩猩猩猩猩猩猿猴猿猴长臂猿长臂猿第十三式第十三式第十三式第十三式 震惊百里震惊百里震惊百里震惊百里1313MarkovMarkov模型的运用模型的运用模型的运用模型的运用(Markov model)(Markov model)MarkovMarkov过程:从一种形状转移到另一种形状时,过程仅取决于前面过程:从一种形状转移到另一种形状时,过程仅取决于前面过程:从一种形状转移到另一种形状时,过程仅取决于前面过程:从一种形状转移到另一种形状时,过程仅取决于前面n n种形状,是一种有序种形状,是一种有序种形状,是一种有序种形状,是一种有序n n模型。模型。模型。模型。 n n是影响下一个形状选择的形状数。是影响下一个形状选择的形状数。是影响下一个形状选择的形状数。是影响下一个形状选择的形状数。最简单的最简单的最简单的最简单的MarkovMarkov过程是一阶过程,形状的选择完全取决于前一形状,过程是一阶过程,形状的选择完全取决于前一形状,过程是一阶过程,形状的选择完全取决于前一形状,过程是一阶过程,形状的选择完全取决于前一形状,这种选择是按照概率来选择的。这种选择是按照概率来选择的。这种选择是按照概率来选择的。这种选择是按照概率来选择的。形状的选择是概率的,而非确定的。故形状的选择是概率的,而非确定的。故形状的选择是概率的,而非确定的。故形状的选择是概率的,而非确定的。故MarkovMarkov过程本质上是一种随机过程本质上是一种随机过程本质上是一种随机过程本质上是一种随机过程。过程。过程。过程。第十四式第十四式第十四式第十四式 损那么有孚损那么有孚损那么有孚损那么有孚1414隐隐隐隐MarkovMarkov模型方法模型方法模型方法模型方法(HMM method)(HMM method)将核苷酸序列看成一个随将核苷酸序列看成一个随机序列,机序列,DNA序列的编码部分序列的编码部分与非编码部分在核苷酸的选用与非编码部分在核苷酸的选用频率上对应着不同的频率上对应着不同的Markov模模型。由于这些型。由于这些MarkovC+C+G+G+C CGGC CGGCCGGC+C+CCG+G+GGB BE E0.130.130.120.120.0340.0340.0100.0100.0120.0120.0030.0030.00320.00320.00020.0002模型的统计规律是未知的,模型的统计规律是未知的,而而HMM可以自动寻觅出它可以自动寻觅出它们隐藏的统计规律。对于们隐藏的统计规律。对于高等生物这样复杂的高等生物这样复杂的DNA序列,序列,HMM必需学习不同必需学习不同的基因构造的信号。的基因构造的信号。隐隐Markov模型模型(HMM)语音识别语音识别语音识别语音识别(Speech (Speech recognition)recognition)光字符识别光字符识别光字符识别光字符识别(Optical (Optical character character recognition)recognition)生物序列分析生物序列分析生物序列分析生物序列分析(Biological sequence (Biological sequence analysis)analysis)1序列比较与搜索尤其是多序列比对序列比较与搜索尤其是多序列比对2基因及信号的识别、预测包括基因及信号的识别、预测包括DNA编码与非编码区的识别、真核编码与非编码区的识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识别基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识别3蛋白质二级构造、家族、超家族预测、分类等蛋白质二级构造、家族、超家族预测、分类等生物特征识别生物特征识别生物特征识别生物特征识别(Biometrics)(Biometrics)第十五式第十五式第十五式第十五式 时乘六龙时乘六龙时乘六龙时乘六龙1515感知器与人工神经网络方法感知器与人工神经网络方法感知器与人工神经网络方法感知器与人工神经网络方法(Perceptron & ANN (Perceptron & ANN method)method)第十六式第十六式第十六式第十六式 龙战于野龙战于野龙战于野龙战于野1616决策树、支持向量机及其决策树、支持向量机及其决策树、支持向量机及其决策树、支持向量机及其它方式识别方法它方式识别方法它方式识别方法它方式识别方法(Decision tree & SVM (Decision tree & SVM method)method)方式识别是在输入样本中寻觅特征并识别对象的一种方法。方式识别是在输入样本中寻觅特征并识别对象的一种方法。方式识别主要有两种方法,一种是根据统计特征进展识别,另一种是方式识别主要有两种方法,一种是根据统计特征进展识别,另一种是根据对象的构造特征进展识别,而后者常用的方法为句法识别。根据对象的构造特征进展识别,而后者常用的方法为句法识别。在基因识别中,对于在基因识别中,对于DNA序列上的功能位点和特征信号的识别都需求序列上的功能位点和特征信号的识别都需求用到方式识别。用到方式识别。第十七式第十七式第十七式第十七式 履霜冰至履霜冰至履霜冰至履霜冰至1717微分方程的数值方法微分方程的数值方法微分方程的数值方法微分方程的数值方法(Numerical methods)(Numerical methods)分子动力学模拟:研讨生物大分子的构象,主要还是用基于半阅历势分子动力学模拟:研讨生物大分子的构象,主要还是用基于半阅历势分子动力学模拟:研讨生物大分子的构象,主要还是用基于半阅历势分子动力学模拟:研讨生物大分子的构象,主要还是用基于半阅历势函数的分子动力学方法,而量子力学那么在确定势函数的参数和研讨部分函数的分子动力学方法,而量子力学那么在确定势函数的参数和研讨部分函数的分子动力学方法,而量子力学那么在确定势函数的参数和研讨部分函数的分子动力学方法,而量子力学那么在确定势函数的参数和研讨部分性质时起作用。对蛋白质进展动力学研讨是利用计算机进展模拟实验的根性质时起作用。对蛋白质进展动力学研讨是利用计算机进展模拟实验的根性质时起作用。对蛋白质进展动力学研讨是利用计算机进展模拟实验的根性质时起作用。对蛋白质进展动力学研讨是利用计算机进展模拟实验的根底。底。底。底。分子动力学得到一组动力学微分方程,要求得到初值问题的解。分子动力学得到一组动力学微分方程,要求得到初值问题的解。分子动力学得到一组动力学微分方程,要求得到初值问题的解。分子动力学得到一组动力学微分方程,要求得到初值问题的解。微分方程的数值求解:有限差分法、有限元法微分方程的数值求解:有限差分法、有限元法微分方程的数值求解:有限差分法、有限元法微分方程的数值求解:有限差分法、有限元法十七式合一十七式合一十七式合一十七式合一 亢龙有悔亢龙有悔亢龙有悔亢龙有悔 1818最终要诀:各类方法综合最终要诀:各类方法综合最终要诀:各类方法综合最终要诀:各类方法综合运用运用运用运用All in one!All in one!综合运用不同的研讨方法综合运用不同的研讨方法一直面向生物学问题一直面向生物学问题知识和技艺的学习方法知识和技艺的学习方法文献的查阅和阅读方法文献的查阅和阅读方法中、英文论文的写作方法中、英文论文的写作方法
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号