资源预览内容
第1页 / 共66页
第2页 / 共66页
第3页 / 共66页
第4页 / 共66页
第5页 / 共66页
第6页 / 共66页
第7页 / 共66页
第8页 / 共66页
第9页 / 共66页
第10页 / 共66页
亲,该文档总共66页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因分析 5.趋势性上调和下调基因分析 6.基因集功能富集分析,1.1transcriptome,转录组(transcriptome)是指特定生物体在某种状态或某一生理条件下,细胞内所有基因转录产物的总和,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。 从RNA层次研究基因表达的情况,即为转录组学(transcriptomics),是研究细胞表型和功能的一个重要手段。,1.2转录组研究的重要性,转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式。 转录组的研究比基因组的研究能给出更高效的有用信息。 与基因组不同,转录组更有时间空间性。除了异常的mRNA降解现象(如转录衰减)以外,转录组反映的是特定条件下活跃表达的基因,转录组的研究可以提供什么条件下什么基因表达什么信息,从而推断相应未知基因的功能,揭示特定调节基因的作用机制 对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗 通过对转录组的研究,也让个性化医疗的目标,从共性转移到个性,成为可能,几种转录组研究所用技术的比较,DNA芯片技术:只适用于检测已知序列,却无法捕获新的mRNA。杂交技术灵敏度有限,对于低丰度的mRNA,微阵列技术难以检测,也无法捕获到目的基因mRNA表达水平的微小变化。,SAGE(基因表达系列分析):,可以全面了解特定组织或细胞类型中基因群体表达状态,它的显著特点是能够大量获取基因组范围基因表达的类别与丰度,该技术成功地应用于特异组织或细胞的转录组研究和mRNA群体间差异表达基因鉴定。 缺点是需要大量的mRNA,MPSS(多重性平行定序):,对于功能基因组研究非常有效,能在短时间内捕获细胞或组织内全部基因的表达特征;对于鉴定致病基因并揭示该基因在疾病中的作用机制等发挥了重要作用。 可以侦测到极为罕见的基因表现,1.4转录组测序,(1)RNA聚合酶I和III负责种类稀少、功能重要的看家非编码RNA基因的转录,包括rRNA,tRNA,snoRNA,snRNA等。由这两类RNA聚合酶转录的非编码RNA属于看家RNA,在各种生理和病理状态下都被高水平转录,转录产物占细胞内RNA总量的95%以上,不是生命科学研究前沿领域的主要关注对象,(2)RNA 聚合酶II负责蛋白质编码基因和调控非编码RNA的转录,在真核生物的不同生理和病理状态下表达量被严格调控,一直吸引着各生命科学研究领域的重点关注,无比幸运的是,由RNA聚合酶II生成的转录的末端均含有3端多聚腺苷尾【3poly(A)tail】。 转录组测序一般是对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。这样的数据有效排除了看家非编码RNA的干扰,可以通过一次测序获得一种细胞内几乎所有重要基因的表达参数。,转录组高通量测序的优势?,高通量、更精确的数字信号、无需已知序列、能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能够发现未知转录本和稀有转录本,精确的识别可变剪接位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。,转录组前沿研究简介,单细胞转录组分析 转录组测序确定RNA结构 转录组测序在疾病中的应用,2.高通量测序,测序技术的发展 高通量测序技术(High-throughput sequencing)又称“第二代”测序技术(“Next-generation” sequencing technology),高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing),2.1高通量测序优势?,价格比第一代大幅度降低 可扩展的高通量 需要样品量少 新颖的测序化学技术 单个或配对末端支持,2.2高通量测序技术的应用,重头测序(de novo sequencing) 重测序(resequencing) 全转录组测序(whole transcriptome resequencing) 小分子RNA测序(small RNA sequencing) 染色质免疫共沉淀测序(ChIP-seq),2.3三种常见的测序平台,Illumina Genome Analyzer,专利核心技术“DNA 簇”和“可逆性末端终结”,达成自动化样本制备及基因组数百万个碱基大规模平行测序。具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究。 Genome Analyzer IIx测序技术原理 1)文库制备:将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。 2) 桥式PCR产生DNA簇,a、Solexa 测序专用的测序芯片(flow cell)表面连接有一层单链引物(Primer),单链状态的 DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上;,b、通过扩增反应使得单链 DNA成为双链 DNA;,c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5或 3)随机和附近的另外一个引物互补,被固定住,形成“桥“(bridge); d、在测序芯片上同时有上千万 DNA 单分子发生以上的反应;,e、c 中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;,f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应; g、在反复进行 30 多轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆“DNA簇群”;,h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析;,3)测序反应 Illumina Genome AnalyzerIIx是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时加入带有4种荧光标记的dNTP,每个碱基末端被保护基团封闭,每个循环只允许单个碱基合成,经过扫描,读取该次反应后的荧光信号结果,该保护基团被除去,下一个反应可继续进行,如此反复,得出碱基的精确序列。,illumina测序平台的特点,1)可控制的高通量:一次实验可读取量大于 15 亿个碱基/芯片 2)上样需求低:上样量只在pmol级(ng级) 3)简单、快速、自动化 4)低错误测序比例 利用新颖的可逆荧光标记终止子,可以在DNA链延伸的过程中检测单个碱基掺入。由于四个可逆终止子dNTP在每个测序循环都存在,自然的竞争减少了掺入的错配。,454/ GS-FLX 系统的测序技术,1)技术原理:GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。焦磷酸测序的原理如下: (1)1个特异性的测序引物和单链DNA模板结合,然后加入酶混合物(包括DNA Polymerase、ATP Sulfurylase、Luciferase和Apyrase)和底物混合物(包括APS和Luciferin)。 (2)向反应体系中加入1种dNTP,如果它刚好能和DNA模板的下一个碱基配对,则会在DNA 聚合酶的作用下,添加到测序引物的3末端,同时释放出一个分子的焦磷酸(PPi)。,(3)在ATP硫酸化酶的作用下,生成的PPi可以和APS结合形成ATP;在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。 (4)反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。 (5)加入另一种dNTP,使第24步反应重复进行,根据获得的峰值图即可读取准确的DNA序列信息。,2)工作流程:,3. GS FLX系统的技术优势和限制 1)读长优势:单个序列的读长平均可达到450个碱基左右;2)操作简便高效,不需建库、克隆挑取、质粒提取等工作;3)分析结果快速、信息高通量,10小时的运行当中可获得100多万个读长,读取超过4-6亿个碱基信息;4)应用广泛且稳定,测序结果一致性较高;5)同聚物的限制,即相同碱基的连续掺入,如AAA或GGG,由于没有终止元件来阻止单个循环的连续掺入,同聚物的长度就需要从信号强度中推断出来。此处可能产生误差。因此,主要错误类型是插入-缺失,而不是替换。,ABI SOLID3 system,SOLID平台技术原理: SOLID是基于寡核苷酸连接和检测进行测序的技术。它以4色荧光标记寡核苷酸的连续连接反应为基础,以双碱基编码技术为检测技术,对单拷贝的DNA片段进行大规模扩增和高通量测序。 基本过程如下: (1)文库制备:根据实际情况制备文库:片段文库或末端配对文库 (2)乳液PCR (3)磁珠富集技术制备单分子模板:含有DNA模板的磁珠共价结合在SOLiD玻片表面。 (4)连接测序:上机测序,边连接边测序,获得SOLiD原始颜色序列。,SOLiD系统特点 1)高准确度:双碱基编码检测技术在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。 2)高通量:单次运行可产生50GB的序列数据。 3)可扩展性 4)灵活性 5)运行时间较长,测序片段相对较小:单次运行时间长达7天,最短3.5天。最长2*50bp。,测序技术的比较,Illumina Genome Analyzer,3.转录组数据分析,4.差异表达基因分析,统计学分析: 1. Fold change, 一般2-fold increase or decrease (平行实验的样本较少) 2. p-value (平行实验的样本较多),4.1差异倍数法,Fold change= log2(A/B),Fold change = log2(A/B),A:sampleA表达值 B:sampleB表达值,通常以1和-1为作为差异表达的阈值,判断基因是否差异表达,倍数法是比较常用的一种方法,因为比较简单和直接。 但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别阈值为2倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断阈值,又有可能增大假阳性率。 这一方法没有考虑到差异表达的统计显著性。,4.2卡方检验,条件:a.所有单元频数都不能等于零,b.要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。 2=(ad-bc)2(a+b+c+d)/(a+b)(c+d)(a+c)(b+d) df=1,根据2求出p值,对于p=0.05或0.01的,拒绝原假设,存在显著的统计学意义。 统计学家已证明,当自由度比较大时,误差较小;自由度等于1时,特别n比较小,或理论频数= 02的那些四格表的P值之和,即为确切概率P值,假设检验问题,型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(False Discovery Rate)值等。,False Discovery Rate (FDR),错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者P值,使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控制错误发现率(False Disco
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号