资源预览内容
第1页 / 共47页
第2页 / 共47页
第3页 / 共47页
第4页 / 共47页
第5页 / 共47页
第6页 / 共47页
第7页 / 共47页
第8页 / 共47页
第9页 / 共47页
第10页 / 共47页
亲,该文档总共47页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
届毕业论文(设计) 题目:肾上腺素受体基因单倍型的 确定及分布估计姓 名: 指导教师: 教授 肾上腺素受体基因单倍型的确定 及分布估计 n摘要:对哮喘病进行case-conctrol study的第一步就是要确定个体 的单倍型。Reihsaus假设异常的2AR基因与哮喘的生理研究密切有 关。2AR基因在染色体5q3132上。2AR基因的编码区中没有内 含子。人类的2AR基因上有多个单核苷酸多态性位点(single- nucleotide polymorphisms ,SNPs),单个的SNP信息没有任何预 兆性的价值,而一条染色体上的多个SNP位点经组合后得到的单倍 型(haplotype)信息却不清楚。利用SNP信息确定个体单倍型一 般有三种算法:Clark算法,EM算法和Phase算法。经分析13个 SNP位点的213种(8192)理论组合,我确定了12种单倍型,并 估计了其分布情况。n n关键词:肾上腺素受体. 单倍型. SNP.算法Haplotype reconstruction and its distribution of 2-adrenergic receptor genenAbstract: nThe first step for proceeding the research on asthma disease “case- control study” is to identify the haolotype. Abnormality of the 2- adrenergic receptor gene (2AR) has been hypothesized to be involved in the physiology of asthma (Reihsaus et al.1993). The receptor is encolded by an gene on chromosome 5q31-32. The gene encoding 2- adrenergic receptor (2AR) is devoid of introns within its coding region The human 2 -adrenergic receptor gene has multiple single-nucleotide polymorphisms (SNPs),but single SNP informations hasnt any predictive value,and the relevance of chromosomally phased SNPs (haplotypes) is not known Three popular algorithms, Clarks parsimony algorithm, EM algorithm and Phase algorithm, are used to obtain haplotype from SNP information. Thirteen SNPs were found organized into 12 haplotypes out of the theoretically possible 8192 combinations. n nKey word: 2- adrenergic receptor, haplotype, SNP, algoritm. 一.前言: n单倍型(haplotype)是指一条染色体上单 核苷酸多态(SNP)位点排列出的序列。在 DNA序列上,不同个体在大多数位点是相同 的,但在这些SNP位点可能表现出差异,这 样的差异在人类基因组中平均每250-350bp 出现一次。可以认为一个单倍型就是一条 链上包含几个相邻的SNP位点的DNA序列。 n普通的基因检测方法只能给出各位点的基 因型,而不能提供个体的单倍型信息。我 们可以通过对群体中的随即抽样进行全面 的基因检测,确定其两条染色体的序列, 这样我们就可以获得每个个体的单倍型, 再通过统计分析便可估计群体的单倍型, 但是这种方法的检测费用很高,而且该技 术目前尚未普及。 n目前最流行的方法是用统计学方法代替实 验室检测,利用统计学原理,对抽样的基 因型信息进行分析,以确定个体单倍型及 估计群体的单倍型频率。分析方法基本上 有三种:n1.Clark算法。(Clark A.G .1990)n2.EM(Expectation-Maximization)算法。 (Excoffer L. Slatkin M.1995)3.Phase算法。(Stephens.M.et al 2001 ) n2AR是G蛋白偶联的受体,它中介的是生物 组织对儿茶酚胺的反应。编码2AR的基因 位于人类的5q31-32染色体区域中。2AR有 七个跨膜结构域,羧基末端及氨基末端分 别位于膜内外两侧。Reihsaus et al.( 1993)发现了该基因中非同义的SNP位点( 序列中的46,79和491位,见Table 1 and GenBank accessions nos.AF022953, AF022954, AF022956)。 nMartinez et al.(1997)用实验证明个体 2AR的SNP信息的不同会导致支气管扩张肌 不同的收缩反应。Drysdale et al.( 2000)认为这些位点与哮喘(asthma)这 种疾病有密切联系。然而单个的SNP信息没 有任何预兆性的价值。 n这里以四个种族组成的确定群体(23个 Caucasians高加索人,19个African- Americans非洲的美洲人后裔,20个Asians 亚洲人及15个Hispanic-Latinos西班牙的 拉丁后裔)为研究对象,分析2AR 基因从 5端非转录区域(5UTR)到编码区的大约 1.6kb的连续区域,确定了13个SNP位点, 确定了12种单倍型及分布情况。 二.原理和方法: n(1)Clark 算法n(2)EM(Expectation-Maximization)算法n(3) Phase算法Clark 算法nClark AG 在1990年提出的Clark 算法是将 样本中可能出现的单倍型数量降低到最少 的方法。示例:个体在这7个位点都是纯合的如: ATGGTAC一个确定的单倍型。 n如:个体基因型是ATGC/GTAC,该个体是 单杂合的,ATGGTAC/ATGCTAC n当杂合位点多于一个时,该个体的两条染 色体序列就无法确定,即单倍型无法确定 ,而且杂合位点越多,可能出现的单倍型 数目就越多。 计算可能出现的单倍型个数:N=2k (k表示杂合位点数)nClark算法就是县列出具有纯合和单杂合位 点的个体的单倍型,然后用这些已经确定 的单倍型去确定其他多杂合位点的个体的 单倍型。示例:个体基因型是ATG/CGT/CAC两对可能的单倍型: ATGGTAC/ATCGCACATGGCAC/ATCGTAC Clark算法的基本步骤: nSTEP1.找出所抽样本中所有的纯合和单杂 合中所有的纯合和单杂合的个体,把这次 个体的单倍型作为已经确定的单倍型; nSTEP2.用这些单倍型去比较那些未被确定 的单倍型,如果有一种单倍型与已知单倍 型相同,则可以认为与它相对的一条单倍 型也被确定;n STEP3.循环第二步,直到再找不到能够 被确定的单倍型。*_* EM(Expectation-Maximization )算法 nExcoffier 等在1995年提出的EM算法旨在 找出一组能够最大可能符合样本基因型的 单倍型频率。n具体用来实现这一方法的思路不只一种, 笔者用以下这种随机抽样的方法来举例说 明该方法的原理。 nEM算法要求对象要遵守HardyWeinberg 平衡n所谓HardyWeinberg平衡,简单地说, 对一对等位基因而言,假设A地基因频率位 p,a地基因频率位q,则这三种三种基因型 的频率分别为:AAAaaaq22pqq2n在没有其它因素的影响下,只要在这三种 不同基因型个体间充分随机交配,则次代 各基因频率及基因型频率保持不变。对每个位点的样本基因型进行卡方检验, 剔除不遵守HardyWeinberg平衡的位点 信息。 EM算法的步骤 nSTEP1.Ai表示i位点上的基因数目,则L个 位点就可能有 个单倍型。 Pi表示第i个单倍型频率。Pi0.其中 i=1,2,3U ,假设每个个体所有可能出现的单倍型频率 相等,根据个体的基因型求出Pi,i1,2 ,3U。 nSTEP2.将STEP1.中求出的Pi作为初始假设 的群体单倍型频率,然后每次从样本中抽 出M个不同的个体,抽N次,则每次所抽个 体组成的小群体就会有2M个单倍型。再从 群体中可能出现的U个单倍型中抽2M个单 倍型(有放回抽样),抽足够多次(根据 样本的多少及位点的多少来决定,不影响 结果)。这样可以肯定,至少有一次所抽 到的单倍型组合会符合我们某次抽取的M 个个体的基因型。例如:一次抽两个个体,只抽四次,则 M2, N4。结果如下表: Q12, Cjm( GAC,ACT,AAT,GCT)OR (AAT,ACT,GAT,GCT). nSTEP3. 计算Cjm的先验概率为:其中,Rjm表示Cjm的第i个单倍型出现的次 数。Tjm表示Cjm中出现不同单倍型的个数。 那么有抽样符合样本基因型的概率为: STEP4.计算Cjm的后验概率:被抽中的样本中第i个单倍型的个数为:nSTEP5.用Ei/2MN代替Pi。n STEP6.重复STEP2.到STEP5,直到Lall趋 近于最大值,此时STEP5.中的Pi即为群体 中第i个单倍型的频率。 nSTEP7.对于每一个个体的单倍型,EM算 法时通过求 Pr op(h/G,Pi)来确定个 体的单倍型。式子中,h,G,pi分别代表 一个单倍型,样布的基因型,每个单倍型 的频率。循环一次后 循环26次后,所得数据见下表:*_*Phase算法nMatthew Stephens等在2001年提出 Phase算法。该算法是通过Gibbs抽样来 获得一个与真实值最相近的样本单倍型的 一种Bayesian算法。 n它基于一个猜测的H(0)作为个体的单倍型, 假设的个体I的单倍型Hi Hi(i1) HiiHi(i1)最后的一组Hi就是确定的样本单倍型 。n根据所掌握的个体基因型信息,猜测每个 个体的单倍型H(0),当t0,1, 2时,通过以下步骤从H(0)中获得 H(I1): nSTEP1.从单倍型未确定的个体中抽一个个 体i。nSTEP2.以Pr(Hi/G, H-i(i))的概率抽取Hi (i+1),其中H -i(i)表示不包括个体i的单倍型的H(i)。n STEP3.当ji时,使Hj(i1)Hj(i), j=1,2,n,n表示群体中的个体数量。 算法的难点就在STEP2.,即Gibbs抽样,这也是改方 法优于其它方法的关键。条件概率Pr(Hi/G, H-i(i) )建立在假设的基础上,对于大多数样本而言并不 是已知的。所以,要对这个条件概率作以变换方可 应用。 *_*三.计算和结果: n在2AR基因上1.6kb的区域中,确定了13 个多态性位点(SNPs)。13个位点就有 213种可能的单倍型组合。通过对四个群体 的分析,我确定了12种单倍型。除了 Hispanic-Latinos(H-L)群体中唯一的纯 合型haplotype 1 之外,所有SNP位点及其 它单倍型都符合哈迪温伯格平衡(Hardy- Weinbeig equilibrium).Table 1:2AR基
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号