如何查找基因的启动子序列.doc-

定义：启动子是参与特定基因转录及其调控的DNA序列。包含核心启动子区域和调控区域。核心启动子区域产生基础水平的转录，调控区域能够对不同的环境条件作出应答，对基因的表达水平做出相应的调节。区域：启动子的范围非常大，可以包含转录起始位点上游2000bp，有些特定基因的转录区内部也存在着转录因子的结合位点，因此也属于启动子范围。这项搜寻要从UCSC基因组浏览器开始，网址为http:/genome.ucsc.edu/。以编码pendrin (PDS)的基因为例来说明上述问题。PDS与耳蜗的异常发育、感觉神经性听力下降以及弥散性甲状腺增大（甲状腺肿）有关。进入UCSC的主页后，在Organism的下拉菜单中选择Human，然后点击Browser。使用者现在到了人类基因组浏览器入口。本例的搜寻很简单：在assembly的下拉菜单中选择Dec. 2001，在position框中键入pendrin，然后点击Submit。返回的页面结果显示一个已知的基因和两个mRNA序列。继续点击mRNA序列的登录号AF030880，出现包含这个mRNA区域的图解概要。为了获得这个区域更清晰的图像，点击紧靠zoom out的1.5X按钮。最后点击页面中部的reset all按钮，使各个路径的设置恢复默认状态。然而，对于本例的搜寻目的来说，默认设置不是理想的设置。按照视图利用页面底部的Track Controls按纽，将一些路径设置为hide模式（即不显示），其他设置为dense模式（所有资料密集在一条直线上）；另一些路径设置为full模式（每个特征有一个分开的线条，最多达300）。在考虑这些路径内究竟存在那些资料之前，对这些路径的内容和表现做一个简要的讨论是必要的，许多这些讨论是由外界提供给UCSC的。下面是对基因预测方法的更进一步讨论，这些信息也可以在其他地方找到。对于Known Genes（已知基因）和预测的基因路径来说，一般的惯例是以一个高的垂直线或块状表示每个编码外显子，以短的垂直线或块状表示5端和3端非翻译区。起连接作用的内含子以非常细的线条表示。翻译的方向由沿着细线的箭头指示。Known Genes来自LocusLink内的mRNA参照序列，已经利用BLAT程序将这些序列与基因组序列进行比对排列。Acembly Gene Predictions With Alt-splicing路径是利用Acembly程序将人类mRNA和EST序列数据与人类基因组序列进行比对排列而来的。Acembly程序试图找到mRNA与基因组序列的最好的比对排列以及判断选择性剪接模型。假如有多于1个的基因模型具有统计学意义，则它们都全部显示出来。有关Acembly的更多信息可以在NCBI的网站找到（http:/www.ncbi.nih.gov/IEB/Research/Acembly/）。Ensembl Gene Predictions路径由Ensembl提供。Ensembl基因通过许多方法来预测，包括与已知mRNA和蛋白质进行同源性比较，ab initio基因预测使用GENSCAN和基因预测HMMs。 http:/www.ebi.ac.uk/ensembl/Fgenesh+ Gene Predictions路径通过寻找基因的结构特征来预测基因内部的外显子，例如剪接位点的给位和受位的结构特征，利用一种动态的程序算法推定编码区域和推定外显子5端和3端的内含子区域；这个方法也考虑到蛋白质相似性的资料。Genscan Gene Predictions路径由GENSCAN方法衍生而来，通过这个方法，可以确定内含子、外显子、启动子区域和poly(A)信号。此时，这个方法并不期望查询的序列只出现1个基因，因此可以对部分基因或被基因之间的DNA分隔的多个基因进行准确的预测。Human mRNAs from Genbank路径显示基因库的人类mRNAs与基因组序列的比对排列。Spliced ESTs和Human EST路径显示来自GenBank的ESTs序列与基因组的序列对齐比较。由于ESTs通常代表了转录基因的片断，一个EST很有可能对应于某个外显子区。最后，Repeating Elements by RepeatMasker这个路径显示的是重复元件，例如散在的或长或短的核元素(SINEs和LINEs)，长末端重复序列(LTRs)和低复杂性区域(http:/repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker)。一般来说，在将基因预测方法应用于核苷酸序列之前，需要去掉或掩饰这些成分。回到视图显示的例子，可以看到大多数路径返回了几乎同样的基因预测结果。作为一个规则，通过多种方法预测的外显子提高了预测的正确率而不会出现“假阳性”结果。多数方法显示3端非翻译区，以左侧大而短的块状表示。Acembly路径显示除了全长序列产物（如这个部分第3条线所示）之外还有3个可能的选择性剪接，其它大多数路径显示与此预测结果相符。Genscan路径从左、右方向往远处延伸：GENSCAN可以被用于预测多个基因。尽管这些图解概要很有用，然而研究者更需要与这些垂直线或块状相对应的序列。以此为例，用Fgenesh+预测作为获得原始序列数据的基础，但不管选择哪个路径其步骤都是一样的。点击标有Fgenesh+ Gene Predictions的路径，出现的是一个描述预测的概要页面。序列的区域与pendrin基因相似（从这个例子一开始就已经知道了）。给出了序列的大小及序列开始和结束的预测，并显示预测是以负链为基础的。想要获得序列，点击Genomic Sequence。使用者将被带到一个标题为Get Genomic Sequence Near Gene的查询页面，在这个页面上，可以获得转录物、编码区、启动子或转录物加启动子的序列。点击Transcript返回的页面显示完整的转录子，外显子以大写字母表示。点击Coding Region Only得到的是编码区,外显子以大写字母表示。点击Transcript + Promoter，返回的页面显示的是在上述选择Transcript所获序列的5端添加了启动子序列，以大写字母表示外显子。启动子的长度显示在文本框内。点击Promoter返回的页面正好是启动子区。下面再以BCL-2基因为例，查找查找该基因的启动子区域，首先要找到该基因的基因组序列。去NCBI吧，在Search的下拉菜单里找到Gene，在检索项里输入Bcl-2，检索第一项就是bcl-2 for human，点进去看看啥样。首先你可以看到该基因的参考序列（reference sequence）,然后看到bcl-2的位置和基因组背景。bcl-2上游是PHLPP，下游是FVT1基因。在这个长长的网页的最后是已经注册的Bcl-2基因的信息。看到基因组序列了么，点进去，根据序列信息自己就能定位转录起始位点，上游就是promoter了，简单吧。不！我觉得麻烦。有更简单的方法么？有！注意到在网页的开头有这么个链接么？HGNC：990 点进去，看看吧。原来是BCL-2的symbol report，各种各样的连接。注意到左下角的Ensembl GeneView 了么，很有用的，点击。呵呵，原来到了Ensemble了，是Ensemble的report。列出了一堆令人兴奋的信息，太全了，只要是和这个基因相关的信息都能找到，包括SNP，Isoforms，等等等。我们感兴趣的是，这个连接“View genomic sequence for this gene with exons highlighted”点击，看看，原来是bcl-2的基因组结构，红底色碱基是exon，绿底色碱基是SNP，太牛了。别光高兴，忘了找promoter，默认的这个report只是显示bcl-2，上游600bp，下游600bp。想想，短了一点。怎么样让5端多显示几百个碱基呢？秘密在这里。把“5 Flanking sequence”的值改成5000bp，哼！小样！不行？10000，20000，。，靠，上一个基因的exon都露出来，算了吧（最大值99999）。如果保守估计可以做起始位点上游2000bp内的区域，如果最大化估计，可以用起始位点上游至上有基因的最后一个exon结尾处，算你狠！然后就分析吧，先到MATCH分析一下转录因子结合位点。