大学生物信息学课件-bHLH基因的电子克隆与结构分析-

1/102bHLH基因的电子克隆与结构分析一、研究背景二、基础知识三、技术路线四、研究方法2/102一、研究背景1、bHLH转录因子家族2、内含子演化学说3/1021、bHLH转录因子家族转录因子的bHLH家族在调控生物的发育过程（如神经细胞、肌细胞和血细胞生成，性别决定，肠的发育）中起重要作用。bHLH结构由约60个氨基酸长，由一个碱性区域（b）、两个螺旋和一个环（HLH）组成。HLH结构域促使相同分子之间形成同型二聚体或不同家族成员之间异型二聚体，被二聚化作用组合在一起的碱性区域能结合到特殊的由6个核苷酸组成的DNA 序列上。+4/10245个bHLH转录因子家族-1/25/10245个bHLH转录因子家族-2/26/1022、内含子演化学说来自Emc基因结构的证据似乎支持内含子早现说。7/102人类Emc基因结构Hs ID1 mRNA 993 nt (NM_002165)100567ORF (155 aa)389184389708389948390405Intron (239bp)ID1 motif 319417-AA-A15255269839938/102大鼠Emc基因结构Rn Emc-1 mRNA 931 nt147147291567513ORF (148 aa)NW_047658.2 332635073326463733263507332639773326419933264637Intron (221bp)Emc-1 motif 265363-AA-A9319/102小鼠Emc基因结构Mm ID1 mRNA 930 nt149149293087533ORF (148 aa)NT_039207.6 935062169350737193506216935067069350693393507371Intron (226bp)ID1 motif 28538310/102红粉甲虫Emc基因结构-AA-ATcEmc mRNA 1059 nt14034041029105941448ORF (135 aa)Emc motif 149247NW_001093514 226250222512 Minus strand226250225848223137222512 Intron (2710bp)11/102家蚕Emc基因结构Ctg007027 14309 bp24632010BmbHLH44 (Emc) mRNA 1600 nt145461584557285Intron (3694bp)1582-AA-A160068496ORF (142 aa)TACTCGTGCGATTACGgtgagtacagGCACCTCTAAAAATactttGTGCGATTAACGGCACCTCTAAAAATaaaa+1ATGAAAGCG Emc motif 17927712/102果蝇Emc基因结构-AA-ADmEmc mRNA 2066 nt182682720482066263862ORF (199 aa)Emc motif 392490NT_037436 749402753493749402750227752272753493 Intron (2044bp)13/102埃及伊蚊Emc基因结构AaEmc mRNA 1189 nt18058061189341826ORF (161 aa)Emc motif 452550AAGE02004109 3329929732 Minus strand33299324953011529732 Intron (2379bp)14/102非洲疟蚊Emc基因结构AgEmc mRNA 1012 nt17267271012389667ORF (92 aa)Emc motif 497604 (36 aa)NW_045819 91518579150762 Minus strand9151857915113291510449150762Intron (87bp)15/102蜜蜂Emc基因结构-AA-AAmEmc mRNA 655 nt101309639ORF (165 aa)NW_001253369.1 674068672564 Minus strand674068673968673418672564Intron (549bp)673211672893Intron (317bp)1161655Emc motif 230328102 310655-AA-A ?16/102鸡Emc基因结构-AA-AGgEmc mRNA 1239 nt NM_205002199423 42412001239ORF (134 aa)NW_001471673.1 569940571687569940570164570262571687Intron (98bp)488570326489570978Intron (651bp)?176480Emc motif 20530317/102蟾蜍Emc基因结构-AA-AXtEmc mRNA NM_203554 1251 nt4435011224ORF (165 aa)AC151469.2 2707831244270782752028450312442850730522199497Emc motif 2283264445021251Intron (929bp)Intron (2014bp)18/102斑马鱼Emc基因结构-AA-ADrEmc ID1 mRNA 1010 nt14564579941010107493ORF (128 aa)Emc motif 269367NW_001510626.1 25047062503606 Minus strand2504706250425225041452503606Intron (106bp)19/102海胆Emc基因结构-AA-ASpEmc mRNA 1623 nt110851086125416235281193ORF (221 aa)Emc motif 672770NW_001465655.1 103958919551039581028669513894970Intron (7727bp)Intron (2653bp)16161255923169195520/102线虫Emc基因结构CeEmc mRNA 427nt (?)ORF (107 aa)NC_003284.6 42494264250738U51999.115960 16633317No Emc motif4249426Intron (60bp) 424948442495454249651Intron (779bp) 42504311672554250519Intron (47bp) 427 25642505674250738Ledent文章中，线虫没有Emc基因，此处mRNA转译结果，与Emc motif是有些差别，但也许是最早的Emc？ CeEmc motif (possible) KIDTLNLAIAYINMLDDVLRTPEDSGQYIQKCV21/102海鞘Emc基因结构-AA-ACiEmc mRNA 846 nt183484650343ORF (97 aa)Emc motif 176274AABS01000107.1 3154130708 Minus strand315413070822/102二、基础知识1、基因的结构2、什么是EST？23/1021、基因的结构DNATranscriptionPre-mRNAExon 1 Intron 1 Exon 2 Intron 2 Exon 3SplicingMature mRNAORF-AAAAAAATranslation-AAAAAAA5-UTR3-UTRProtein24/1022、什么是EST？“EST是mRNA的碎片”RT-PCR（不同的实验室可能得到不同的片段）AAAAAAAmRNA (可能很长)EST1 EST2 EST3EST4EST525/102三、技术路线有对应蛋白质找出蛋白质序列bHLH基序无对应蛋白质用蛋白质序列对 RefRNA做Tblastn用mRNA 序列对 genome 做blastn对genome序列做内含子分析画出基因结构图用bHLH基序对 ESTs做Tblastn用SeqMan对相似度在90%以上的 EST进行装配用装配出的序列对 ESTs做 blastn用SeqMan对相似度在90%以上的 EST进行装配是用装配出的序列对 genome 做 blastn否分析mRNA 的ORF否分析装配出的序列的 ORFBlastP将ORF翻译出蛋白质序列装配出的序列是否比上次的长？26/102四、研究方法1、Blast搜索与序列提取2、内含子剪接位点分析3、Tblastn与序列装配4、基因结构图绘制27/1021、Blast搜索与序列提取1）Blastp2）提取mRNA序列3）Blastn4）提取基因组序列28/1021）BlastpClick here.29/102Blastp30/102输入bHLH基序与物种名称31/102Blastp点击打开参数设定界面32/102更改搜索参数之后点击 BLAST 开始搜索将E值设为0.0001。33/102点击Identities=100%的序列号将E值设为0.0001。34/102记录序列号、氨基酸数目信息35/102将蛋白质序列复制到EditSeq中选中并复制36/102注意：要选择New Protein选择New Protein弹出的对话框点击OK37/102全选、转成大写字母后复制到WORD文件中38/102蛋白质序列粘贴蛋白质序列粘贴处39/1022）提取mRNA序列点击此处40/102记录序列号、碱基数目信息41/102将mRNA序列复制到EditSeq中选中并复制42/102注意：要选择New DNA选择New DNA弹出的对话框点击OK43/102找出mRNA序列的ORF先把光标放到第一各碱基处，再电击Find ORF。44/102把ORF碱基转成大写字母45/102全选并复制到WORD文件中46/102mRNA序列粘贴mRNA序列粘贴处47/1023）BlastnClick here.48/102输入mRNA序列与物种名称、选择数据库1）mRNA序列2）物种名称3）数据库选择要选择基因组序列4）点击打开参数设定界面49/102更改搜索参数之后点击 BLAST 开始搜索将E值设为0.0001。50/102将Blastn结果复制到WORD文件中Blastn结果粘贴处51/102找出基因组序列的始末点Query 1 ATCTTGGATTCCGCGGTAGCGGAGGCGGCGGTCAGGCGCCGCTTCTGGGGAGTGGCCTTT 60| Sbjct 149115810 ATCTTGGATTCCGCGGTAGCGGAGGCGGCGGTCAGGCGCCGCTTCTGGGGAGTGGCCTTT 149115751Query 3538 ACTG 3541| Sbjct 149048813 ACTG 149048810起始点终止点注意：数据来源于人类ARNT mRNA的Blastn结果。52/1024）提取基因组序列输入序列号，例： NC_000001.9选择CoreNucleotide53/102输入序列始末点不选起始点终止点起始点数字比终止点数字大，就应选择此处，否则不选。最后点击 Refresh54/102将基因组序列复制到EditSeq中选中并复制55/102注意：要选择Ne