资源预览内容
第1页 / 共75页
第2页 / 共75页
第3页 / 共75页
第4页 / 共75页
第5页 / 共75页
第6页 / 共75页
第7页 / 共75页
第8页 / 共75页
第9页 / 共75页
第10页 / 共75页
亲,该文档总共75页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
李曦 副教授 中南大学湘雅医院临床药理研究所 公用数据库基因组表达谱数据挖掘策略 及分析方法 Nature Reviews Genetics 16, 8597 (2015) 什么是数据挖掘 从海量数据中揭示潜在的生物学规律。 为什么要学习数据挖掘 l把握自己的命运 l最大化利用已有数据 l寻找新的课题 数据挖掘的步骤 生物医学研究人员的优势 l数据处理步骤、统计分析均有工具可以完成 l数据挖掘表型的确定 l数据的选择 l数据挖掘结果的解读 生物医学数据挖掘所需技能 l必备技能: 基本的生物信息学知识 各种数据库的使用、数据库信息的解读 基本的生物统计学知识 分析方法的选择,分析软件的使用 l可选技能: R语言的基本操作 R包的使用 Linux系统的基本操作 生物信息学分析软件的使用 基因组表达谱数据挖掘流程 l确定研究策略 l获取表达谱数据 l处理表达谱数据 l统计分析 l验证分析 数据挖掘案例 分析策略 l 核心思路: 影响脑胶质瘤发生发展的基因可能影响脑胶质瘤的预后 l 分析流程: 获取包含脑胶质瘤组织和正常脑组织的全基因组表达数据 的多个数据集 鉴定在脑胶质瘤组织和正常脑组织中差异表达的基因 在自己收集的样本中验证这些基因 分析这些基因与肿瘤分级以及总生存期之间的关系 策略举例 l影响阿糖胞苷药物敏感性的基因可能影响AML预后。 l影响铂类药物敏感性的基因可能影响多种肿瘤的预后。 l在高低肿瘤分级中存在差异的基因可能影响癌症预后。 研究策略如何确定 l研究策略可以千变万化 l研究策略决定了论文的上限 l应根据自身专业选择有意义的研究策略 包含基因组表达谱数据的数据库 Gene Expression Omnibus (GEO) https:/www.ncbi.nlm.nih.gov/geo ArrayExpress https:/www.ebi.ac.uk/arrayexpress/ The Cancer Genome Atlas (TCGA) https:/gdc-portal.nci.nih.gov/ International Cancer Genome Consortium https:/dcc.icgc.org/ GEO数据库关键名词 Profile:数据库整理好的单个基因的概述 Datasets:见GDS和GSE。 GSM:单个样本的实验数据 GDS:数据库整理好的关于某个话题的GSM集合。一个GDS中 的所有GSM为同一平台。 GSE:一个实验项目中的多个GSM合集,可能使用多个平 台。 GPL:芯片平台,如Affymetrix, Agilent等。 Profile示例 实验描述实验结果展示 Value:归一化的相对表达量 Rank:探针表达值在所有表 达值中的排名的百分比。 Rank越高,表达越高。 Datasets示例 芯 片 介 绍 芯片注释文件 样本描述 Limma法分析的TOP250结果 https:/paolo.shinyapps.io/ShinyVolcanoPlot/ 韦恩图 http:/bioinformatics.psb.ugent.be/webtools/Venn/ 通路分析 https:/david.ncifcrf.gov/ 生存分析验证 Survexpress http:/bioinformatica.mty.itesm.mx:8080/Biomatec/ SurvivaX.jsp KM Plotter 输入基因名 选择分析表型 GEO数据本机处理 统计分析+作图软件 SPSS Graphad R Kaplan-Meier法 单因素生存分析 分类变量 做生存曲线图 Cox回归模型 单因素或多因素生存分析 分类或连续变量 计算HR和95%CI 生存分析 P值HR 双击弹出 谢谢! 肿瘤靶向药物的个体化治疗 数量性状 连续变量,如:身高、体重、药物剂量等 质量性状 分类变量,如:性别、疗效、等级等 其他类型性状 时间依赖性变量,如:生存期,中位生存时间等 研究表型 参数检验(符合正态分布时) T检验(独立样本或配对样本):两样本均数比较 方差分析:两个以上样本均数比较 线性回归分析:多个因素对因变量的影响 非参数检验(不符合正态分布时) Mann-Whitney U 检测:两独立样本 Kolmogorov-Smirnov 检测:两独立样本 McNemar检验:配对样本 Kruskal-Wallis检验:多独立样本 数量性状常用统计分析方法 卡方检验:单因素对因变量的影响 逻辑回归:多个因素对因变量的影响 质量性状常用统计分析方法 A:期望值5且样本量40,用 Pearson卡方。 B:1期望值5且样本量40,用连 续校正。(仅用于四格表资料) C:期望值5或样本量40,用Fisher 精确检验。 还有问题解决不了怎么办? 加入达人学社QQ群 (加群请注明信息:单位+专业+姓名,每人限加一个群) 33405037、491043563 496353730、496740737 496974932、273757394 大神帮你解决高难文献 群内共享资源 资源获取技术教学视频 同行分享交流(主要为 生物、医学、化学专业 ) 请关注达人学社微信 公众号 甲骨文技术负责人 微信号 请注明个人信息: 单位、专业、姓名 张常昕夏艳东 讲座主办单位 达人学社 湖南甲骨文生物医药有限公司 知识回顾知识回顾 Knowledge Knowledge ReviewReview
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号