资源预览内容
第1页 / 共75页
第2页 / 共75页
第3页 / 共75页
第4页 / 共75页
第5页 / 共75页
第6页 / 共75页
第7页 / 共75页
第8页 / 共75页
第9页 / 共75页
第10页 / 共75页
亲,该文档总共75页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
5 解读基因组序列弄清楚: 1.基因组顺序中所包含的全部遗传信息是什 么(查找基因) 2.基因组作为一个整体如何行使其功能其一,根据已知的序列人工判读或计算机 分析寻找与基因有关的序列(如:序列筛 查定位基因) 其二,实验研究,看其能否表达基因产物 及其对表型的影响,既实验分析细菌DNA的简单ORF扫描 高等真核生物DNA的ORF扫描 功能性RNA定位基因同源性搜索和比较基因组学 自动标注基因组序列所有编码蛋白质的基因含有可读框(open reading frames ORF):是由可编码氨基酸 的密码子组成 ORF起始于起始密码子(一般是ATG)终止 于终止密码子(TAA,TAG,TGA) 每个DNA序列有6种可读框如果DNA序列CG碱基含量占50%则TAA,TAG,TGA每 一个将平均每64bp出现一次 如果GC含量大于50%那么含A和T碱基的终止密码子 出现的频率会相对比较少,但是预期每100 200bp还会出现一次 寻找ORF的方式是将100个密码子作为一个基因长 度的下限简单的ORF应用于细菌DNA序列的扫描 可以成功的定位大多数基因,因为细菌基 因间距非常小重叠基因较少,而且细菌基 因内无内含子,ORF连续。基因无内含子ORF连续高等真核生物基因之间间隔太大发现家ORF的概率 增加 高等真核生物基因内有内含子导致ORF不连续,外 显子小于100个密码子因此高等真核生物基因不会以长ORF形式出现 在基因组序列中,ORF无法扫描内含子的基因图密码子偏倚:特定生物体的基因中并不是所有密 码子使用频率都相等,真正外显子有所偏倚。 外显子内含子边界 :因为有特定的序列特征 而区分开 上游调控序列:调控序列有明显特点,可用来定 位基因起始区搜寻编码RNA二级结构的特征碱基序列 搜寻DNA编码茎环或发夹结构的程序 搜索与功能RNA基因相关的调控序列 搜寻紧凑的较小基因组中蛋白质编码基因 间的空位置同源性搜索:查询DNA数据库来判断所检测序列是 否与已知基因的序列相同或者是相似 比较基因组学:当相关基因组进行比较时,同源 基因由于它们的序列相似性很高就容易被鉴别出 来,而在第二个基因组中没有明确同源物的任何 ORF都可以很肯定的认为不是基因计算机方法从序列分析开始,运用能扫 描ORF、外显子-内含子边界及上游调控区 并能在数据库中检测同源基因ORF的程序进 行序列分析。这些程序同时也用于寻找重 复序列及功能RNA基因的特意性特征,而后 信息整合分析。大多数基因定位的试验方法依赖于检测 由基因转录成的RNA分子。 杂交试验可以判断某一片段是否含有转录 序列 cDNA测序有助于在DNA片段中进行基因作图 精确定位转录物末端 可以准确定位外显子内含子边界如果用标记的基因组片段与细胞RNA进行 northern杂交,就可以检测到那个片段上的基因 所转录出的RNA。缺点: 一些单个基因有两个或更多长度不等的转录物 mRNA表达时期和部位的特异性将cDNA序列与基因组DNA序列相比较,就可 以描述相应基因的位置找到外显子内含子的 边界,两个决定此方法成功的因素:所研究基因DNA片段表达水平的高低cDNA分子的完整性将RNA做起始材料进行特殊类型的PCR 逆转录PCR(reverse transcriptase PCR,RT- PCR)快速扩增cDNA末端 其他的转录物准确作图的方法包括异源双链分析 (heteroduplex analysis)外显子捕获(exon trapping):将一特殊类型 载体导入合适的真核细胞系中。根据已知的小基 因序列确定出插入的外显子其实和终止核苷酸的 位置,从而准确描述外显子5.2 确定单个基因的功能一旦一个新基因在基因组序列中获得定位,就 要探索它的功能问题。大肠杆菌基因组序列中4288个蛋白质编码基因 中,以前已经鉴定出的基因只有1853个(占总数的 43%)。对于酿酒酵母,此数值只有30%。像基因定位一样,也尝试着用计算机分析和实 验研究来确定未知基因的功能。5.2.1基因功能的计算机分析同源性搜索是通过把被研究的DNA序列与数据库 中其他所有的DNA序列进行比较来定位基因。 同源性搜索的基础是相关的基因具有相似序列, 因此可以通过与不同物种中已测序的同源基因具 有相似性来发现新基因。同源性反映出进化关系同源基因具有共同的进化祖先,是通过基因之 间的序列相似性而发现的。(如图5.16)同源基因分两类:定向进化同源基因orthologous gene 是那些不 同生物体间存在的同源物,它们的共同祖先早于物 种之间的分裂。同源基因通常具有相同的或很类似 的功能。Eg:人类和黑猩猩的肌红蛋白基因是同源 基因。图5.16 定向进化同源基因和平行进化同源基因平行进化同源基因paralogous gene 存在于相同 生物体中,常是可识别的多基因家族的成员,它们 共同的祖先可能早于或晚于目前发现新基因的物种 分裂。eg:人类肌红蛋白和球蛋白基因是平行 基因:它们起源于5.5亿年前祖先基因的复制。通常一对同源基因不具有相同的核苷酸序列, 但具有相似的序列。同源性搜索就是利用这些序列 的相似性。同源性相似性(如图5.17)如果一对相关基因的序列有80%的核苷酸是相同生 物,就描述它们是“80%同源”是不正确的。一对基因 在进化上要么有关要么无关,没有介于二者之间的情况 ,因此把同源性描述为百分数是没意义的。图5.17 两个DNA序列具有80%的序列一致性同源分析可以提供整个基因或基因片段 的功能信息可以用DNA序列进行同源性搜索,但通常在搜索 之前先将假定基因的序列转换为氨基酸序列。这样做 的一个原因是蛋白质中有20种不同氨基酸,但DNA中 只要4种核苷酸,因此当比较氨基酸序列时,无关基 因序列通常会表现出更大的差别(如图5.18)。因此 如果使用氨基酸序列进行同源性搜索,就不太可能得 到假结果。同源性搜索程序时通过在查找序列和数据库序列之间进行比 较而开始的。对于每个比较来讲,都计算出一个得分,操作人 员通过这个得分可以估量查询序列与试验序列同源的可能性。 有两种方法可以产生这个得分。图5.18 当在氨基酸水平进行比较,更明显。两条核苷酸序列中,绿色表示相同,红色表示不同。有76% 的一致,如星号所示。把序列翻译成氨基酸,一致性就降低到28%。黄色表示相同 ,棕色表示不同。AA序列之间进行比较就表明基因不是同源的,核苷酸水平的 相似性是偶然的。最简单的方法是计算相同氨基酸在两条序列中都存在 的位点数。这个数值被转换成平均数后就可以给出两 条序列之间的相似程度。最先进的方法是运用不相同氨基酸之间的化学相关 性为比对中的每个位点进行评分,相同或很近的氨基 酸(eg:leu和ile)分数就高,不相关的氨基酸( eg:phe和ser)分数就低。这种分析就确定了一对序 列之间的相似程度。可进行同源性搜索分析的软件最常用的是BLAST ,只需登陆到该网站的一个DNA数据库中,将序列输 入到在线搜索工具就可以进行分析。标准的BLAST程 序能有效鉴别出序列相似性大于30%40%的同源基因 。PSI-BLAST(位点特异的重复BLAST ),通过将 标准BLAST搜索的同源序列组合成一个序列谱能鉴别 出相关性差别更大的序列,运用该序列谱的特征能鉴 别出在起始搜索中没有检测到的另外的同源序列。同源基因具有非常不同的生物功能,一个例子是眼 晶状体的晶体蛋白,其中一些与代谢酶同源。因此 ,待查找序列与晶体蛋白之间具有同源性并不代表 待查找序列是一种晶体蛋白,而且待查找序列与代 谢酶之间具有相似性或明显的同源性也不能表明待 查找序列是一种代谢酶。 基因是不相关的,但它们蛋白质具有相似的功能, 并同时具有每种蛋白质上一个结构域的编码序列, 而此结构域对其共同的功能起关键作用。虽然基因 本身没有共同的祖先,结构域却有共同的祖先。 tudor结构就是一个典型的例子(如图5.19)图5.19 tudor结构域图的上部显示果蝇tudor蛋白结构,它含有10个拷 贝的tudor结构域。另一个果蝇蛋白homeless及人类A- 激酶锚定蛋白(AKAP149)中发现了此结构域,它在RNA 代谢中发挥一定的作用。除了含有tudor结构域外,这 些蛋白质并不相似。每种蛋白质的活性都在一个方向或 其他方向中与RNA有关运用同源性搜索为人类疾病基因确定功能人类基因组测序的主要原因之一是能获得人类疾病相 关的基因。同源性搜索在疾病基因的研究中发挥很重要的作用, 因为在另一种生物体中发现人类疾病基因的同源基因 经常是理解人类基因生物化学功能的关键。5.2.2用实验分析阐明基因的功能常规的路线:表型基因型 新的方法:基因型表型 通过基因失活进行功能分析与表型有关的基因可以通过确定具有突变表型 的生物体中哪个基因是失活的而被鉴别出来。如果 起点是基因而不是表型,那么相应的策略就是进行 基因突变并确定所引起的表型改变,这是大多数用 于确定未知基因功能的技术基础。同源重组可以使单个基因失活使特定基因失活的最简单方法是用一段无关DNA片段 将其破坏(如图5.20) 。这可以通过在基因的染色 体拷贝和另一段与靶基因有一些相同序列的DNA之间 进行同源重组来达到。现在的目的只要知道两个DNA 分子具有相似序列,重组能引起分子片段进行互换 就足够了。 如何进行基因失活呢?酿酒酵母(如图5.21)模式生物:人小鼠图5.20 同源重组引起基因失活靶基因的染色体拷贝与克隆载体携带的断 裂基因结合起来。结果是,靶基因被失活了。图5.21 酵母缺失盒的应用缺失盒包括抗生素抗性基因和该基因前面在 酵母中表达所需的启动子序列以及两侧的限制性 位点。“缺失盒”是含有抗生素抗性的基因,不是酵母基 因组中的正常部分,但如果转入酵母染色体中就会起 作用,就产生一种转化的对抗生素遗传霉素有抗性的 酵母细胞。运用缺失盒之前,新的DNA片段作为尾端连 接到每个末端。这些片段与要被失活的酵母基因的部 分序列相同。当改良盒导入酵母细胞后,同源重组就 在DNA末端和酵母基因的染色体拷贝之间出现,用抗生 素抗性基因代替后者。因此,通过将培养物接种到含 有遗传霉素的琼脂培养基中来筛选携带替换基因的细 胞。所产生的克隆缺少靶基因的活性,可以通过检查 它们的表型获得此基因功能的一些提示。3.不用同源重组进行基因失活转座子标记技术(transposon tagging) 通过向基 因中插入转座元件或转座子使其失活。(更适合用 于整体研究基因组的功能) RNA干扰或RNAi是一种完全不同的基因失活方法,它 并不打断基因本身,而是破坏其mRNA 。这是通过将 与目的mRNA序列匹配的小双链RNA分子导入细胞中完 成的。双链RNA被打断成小分子来诱导mRNA的降解(如图 5.22)图5.22 RNA干扰双链RNA分子被Dicer核酸酶切割成2125bp的“ 小干扰RNA”(siRNA)。每个siRNA的一条链与靶 mRNA碱基配对,后被RDE-1核酸酶降解4.基因过表达也可以用来探索功能需要区分两种情况:表型变化是由于过表达的特异功能造成的; 特异性比较小的表现变化反映了异常情况。过表达一个基因,必须运用一种特殊类型的克隆载 体,设计此类载体以保证被克隆的基因能合成尽可能多 的蛋白质。因此,这种载体是多拷贝的,意思是在宿主 细胞内它可以复制到每个细胞40200个拷贝,所以也就 出现了待测基因的许多拷贝。载体必须含有高活性启动 子,以便每个拷贝的待测基因能被转变成大量mRNA,再 次确保合成尽可能多大的蛋白质(如图5.23)图5.23 通过基因过表达进行功能分析目的是确定被研究的基因过表达是否影响转基因小 鼠的表型。因此将目的基因的cDNA插入到带有高性启动 子序列的克隆载体中,此启动子序列指导克隆基因在小 鼠肝脏中表达。应用cDN
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号