资源预览内容
第1页 / 共39页
第2页 / 共39页
第3页 / 共39页
第4页 / 共39页
第5页 / 共39页
第6页 / 共39页
第7页 / 共39页
第8页 / 共39页
第9页 / 共39页
第10页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
计算机科学与技术专业毕业论文计算机科学与技术专业毕业论文 精品论文精品论文 基于机器学习的基于机器学习的RNARNA 干扰效率研究干扰效率研究关键词:关键词:RNARNA 干扰效率干扰效率 遗传算法遗传算法 支持向量机支持向量机 人工神经网络人工神经网络 特征提取特征提取 分类程分类程 序序摘要:自 RNA 干扰于 1998 年发现之后,RNA 干扰已经成为了抑制基因表达的有 效工具,已广泛应用在基因功能分析,疾病治疗、药物靶标发现以及抗肿瘤研 究等方面。在 RNA 干扰的过程中,最重要的一步是设计高效的 siRNA。虽然目 前已经提出了一些预测方法,但存在着考虑因素单一、样本量小且大多是实验 经验的定性总结等缺陷。因此,如何综合考虑各种因素从而设计高效的 siRNA 仍然是一项具有挑战性的工作。另外,针对目前 mRNA 二级结构是否与 RNA 干扰 效率相关的矛盾结论,本文还对 mRNA 二级结构与 RNA 干扰效率的关系进行了研 究。 随着实验样本的增加,使得采用机器学习方法来研究 RNA 干扰效率成为 了可能。为了构建分类器,我们首先利用 siRecords 数据库构建了分类器所需 的训练集及测试集。对于每个样本,我们分别从 siRNA 序列碱基特征、siRNA 序列片段特征、热力学特征及结构特征四个方面进行了特征提取。为了研究靶 标 mRNA 二级结构与 RNA 干扰效率的关系,我们利用 RNA 二级结构谱概念,采用 基于 NaiveBayes 方法的 TClass 分类程序构建了分类器。然后,在此基础上, 综合考虑了各种特征,分别采用支持向量机方法和人工神经网络构建了分类器 siRNAFilter-SVM 和 siRNAFiltev-ANN,同时,为了提高分类器的性能,我们分 别采用 GA 算法搜索了影响 SVM 分类器性能的两个重要参数 C 和 以及采用 bagging 集成方法优化了人工神经网络的泛化能力。 采用 Naive Bayes 方法 构建的 TClss 分类器从 RNA 二级结构谱中筛选出了 9 个特征,通过这 9 个特征, 分类精度达到了 74.67。通过对测试集分类的结果表明,采用支持向量机方 法构建的分类器的敏感性和特异性分别为 16.3和 92.1。采用人工神经网络 构建的分类器有着较好的性能,敏感性与特异性分别为 20.5和 94.2。 只需 mRNA 与 siRNA 结合区域附近的 9 个序列片段自由能数值作为特征就能达到 较高分类精度,这表明 mRNA 局部片段的二级结构自由能与 RNA 干扰效率之间是 有关系的。另外,通过与最近公开发表的其它大学与研究机构的分类程序相比, 采用人工神经网络构建的分类程序 siRNAFilter-ANN 在保持较高特异性的同时 达到了较高的敏感性,适于用来设计 siRNA 序列。正文内容正文内容自 RNA 干扰于 1998 年发现之后,RNA 干扰已经成为了抑制基因表达的有效 工具,已广泛应用在基因功能分析,疾病治疗、药物靶标发现以及抗肿瘤研究 等方面。在 RNA 干扰的过程中,最重要的一步是设计高效的 siRNA。虽然目前 已经提出了一些预测方法,但存在着考虑因素单一、样本量小且大多是实验经 验的定性总结等缺陷。因此,如何综合考虑各种因素从而设计高效的 siRNA 仍 然是一项具有挑战性的工作。另外,针对目前 mRNA 二级结构是否与 RNA 干扰效 率相关的矛盾结论,本文还对 mRNA 二级结构与 RNA 干扰效率的关系进行了研究。随着实验样本的增加,使得采用机器学习方法来研究 RNA 干扰效率成为了可 能。为了构建分类器,我们首先利用 siRecords 数据库构建了分类器所需的训 练集及测试集。对于每个样本,我们分别从 siRNA 序列碱基特征、siRNA 序列 片段特征、热力学特征及结构特征四个方面进行了特征提取。为了研究靶标 mRNA 二级结构与 RNA 干扰效率的关系,我们利用 RNA 二级结构谱概念,采用基 于 NaiveBayes 方法的 TClass 分类程序构建了分类器。然后,在此基础上,综 合考虑了各种特征,分别采用支持向量机方法和人工神经网络构建了分类器 siRNAFilter-SVM 和 siRNAFiltev-ANN,同时,为了提高分类器的性能,我们分 别采用 GA 算法搜索了影响 SVM 分类器性能的两个重要参数 C 和 以及采用 bagging 集成方法优化了人工神经网络的泛化能力。 采用 Naive Bayes 方法 构建的 TClss 分类器从 RNA 二级结构谱中筛选出了 9 个特征,通过这 9 个特征, 分类精度达到了 74.67。通过对测试集分类的结果表明,采用支持向量机方 法构建的分类器的敏感性和特异性分别为 16.3和 92.1。采用人工神经网络 构建的分类器有着较好的性能,敏感性与特异性分别为 20.5和 94.2。 只需 mRNA 与 siRNA 结合区域附近的 9 个序列片段自由能数值作为特征就能达到 较高分类精度,这表明 mRNA 局部片段的二级结构自由能与 RNA 干扰效率之间是 有关系的。另外,通过与最近公开发表的其它大学与研究机构的分类程序相比, 采用人工神经网络构建的分类程序 siRNAFilter-ANN 在保持较高特异性的同时 达到了较高的敏感性,适于用来设计 siRNA 序列。 自 RNA 干扰于 1998 年发现之后,RNA 干扰已经成为了抑制基因表达的有效工具, 已广泛应用在基因功能分析,疾病治疗、药物靶标发现以及抗肿瘤研究等方面。 在 RNA 干扰的过程中,最重要的一步是设计高效的 siRNA。虽然目前已经提出 了一些预测方法,但存在着考虑因素单一、样本量小且大多是实验经验的定性 总结等缺陷。因此,如何综合考虑各种因素从而设计高效的 siRNA 仍然是一项 具有挑战性的工作。另外,针对目前 mRNA 二级结构是否与 RNA 干扰效率相关的 矛盾结论,本文还对 mRNA 二级结构与 RNA 干扰效率的关系进行了研究。 随 着实验样本的增加,使得采用机器学习方法来研究 RNA 干扰效率成为了可能。 为了构建分类器,我们首先利用 siRecords 数据库构建了分类器所需的训练集 及测试集。对于每个样本,我们分别从 siRNA 序列碱基特征、siRNA 序列片段 特征、热力学特征及结构特征四个方面进行了特征提取。为了研究靶标 mRNA 二 级结构与 RNA 干扰效率的关系,我们利用 RNA 二级结构谱概念,采用基于 NaiveBayes 方法的 TClass 分类程序构建了分类器。然后,在此基础上,综合 考虑了各种特征,分别采用支持向量机方法和人工神经网络构建了分类器 siRNAFilter-SVM 和 siRNAFiltev-ANN,同时,为了提高分类器的性能,我们分 别采用 GA 算法搜索了影响 SVM 分类器性能的两个重要参数 C 和 以及采用bagging 集成方法优化了人工神经网络的泛化能力。 采用 Naive Bayes 方法 构建的 TClss 分类器从 RNA 二级结构谱中筛选出了 9 个特征,通过这 9 个特征, 分类精度达到了 74.67。通过对测试集分类的结果表明,采用支持向量机方 法构建的分类器的敏感性和特异性分别为 16.3和 92.1。采用人工神经网络 构建的分类器有着较好的性能,敏感性与特异性分别为 20.5和 94.2。 只需 mRNA 与 siRNA 结合区域附近的 9 个序列片段自由能数值作为特征就能达到 较高分类精度,这表明 mRNA 局部片段的二级结构自由能与 RNA 干扰效率之间是 有关系的。另外,通过与最近公开发表的其它大学与研究机构的分类程序相比, 采用人工神经网络构建的分类程序 siRNAFilter-ANN 在保持较高特异性的同时 达到了较高的敏感性,适于用来设计 siRNA 序列。 自 RNA 干扰于 1998 年发现之后,RNA 干扰已经成为了抑制基因表达的有效工具, 已广泛应用在基因功能分析,疾病治疗、药物靶标发现以及抗肿瘤研究等方面。 在 RNA 干扰的过程中,最重要的一步是设计高效的 siRNA。虽然目前已经提出 了一些预测方法,但存在着考虑因素单一、样本量小且大多是实验经验的定性 总结等缺陷。因此,如何综合考虑各种因素从而设计高效的 siRNA 仍然是一项 具有挑战性的工作。另外,针对目前 mRNA 二级结构是否与 RNA 干扰效率相关的 矛盾结论,本文还对 mRNA 二级结构与 RNA 干扰效率的关系进行了研究。 随 着实验样本的增加,使得采用机器学习方法来研究 RNA 干扰效率成为了可能。 为了构建分类器,我们首先利用 siRecords 数据库构建了分类器所需的训练集 及测试集。对于每个样本,我们分别从 siRNA 序列碱基特征、siRNA 序列片段 特征、热力学特征及结构特征四个方面进行了特征提取。为了研究靶标 mRNA 二 级结构与 RNA 干扰效率的关系,我们利用 RNA 二级结构谱概念,采用基于 NaiveBayes 方法的 TClass 分类程序构建了分类器。然后,在此基础上,综合 考虑了各种特征,分别采用支持向量机方法和人工神经网络构建了分类器 siRNAFilter-SVM 和 siRNAFiltev-ANN,同时,为了提高分类器的性能,我们分 别采用 GA 算法搜索了影响 SVM 分类器性能的两个重要参数 C 和 以及采用 bagging 集成方法优化了人工神经网络的泛化能力。 采用 Naive Bayes 方法 构建的 TClss 分类器从 RNA 二级结构谱中筛选出了 9 个特征,通过这 9 个特征, 分类精度达到了 74.67。通过对测试集分类的结果表明,采用支持向量机方 法构建的分类器的敏感性和特异性分别为 16.3和 92.1。采用人工神经网络 构建的分类器有着较好的性能,敏感性与特异性分别为 20.5和 94.2。 只需 mRNA 与 siRNA 结合区域附近的 9 个序列片段自由能数值作为特征就能达到 较高分类精度,这表明 mRNA 局部片段的二级结构自由能与 RNA 干扰效率之间是 有关系的。另外,通过与最近公开发表的其它大学与研究机构的分类程序相比, 采用人工神经网络构建的分类程序 siRNAFilter-ANN 在保持较高特异性的同时 达到了较高的敏感性,适于用来设计 siRNA 序列。 自 RNA 干扰于 1998 年发现之后,RNA 干扰已经成为了抑制基因表达的有效工具, 已广泛应用在基因功能分析,疾病治疗、药物靶标发现以及抗肿瘤研究等方面。 在 RNA 干扰的过程中,最重要的一步是设计高效的 siRNA。虽然目前已经提出 了一些预测方法,但存在着考虑因素单一、样本量小且大多是实验经验的定性 总结等缺陷。因此,如何综合考虑各种因素从而设计高效的 siRNA 仍然是一项 具有挑战性的工作。另外,针对目前 mRNA 二级结构是否与 RNA 干扰效率相关的 矛盾结论,本文还对 mRNA 二级结构与 RNA 干扰效率的关系进行了研究。 随 着实验样本的增加,使得采用机器学习方法来研究 RNA 干扰效率成为了可能。为了构建分类器,我们首先利用 siRecords 数据库构建了分类器所需的训练集 及测试集。对于每个样本,我们分别从 siRNA 序列碱基特征、siRNA 序列片段 特征、热力学特征及结构特征四个方面进行了特征提取。为了研究靶标 mRNA 二 级结构与 RNA 干扰效率的关系,我们利用 RNA 二级结构谱概念,采用基于 NaiveBayes 方法的 TClass 分类程序构建了分类器。然后,在此基础上,综合 考虑了各种特征,分别采用支持向量机方法和人工神经网络构建了分类器 siRNAFilter-SVM 和 siRNAF
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号