资源预览内容
第1页 / 共37页
第2页 / 共37页
第3页 / 共37页
第4页 / 共37页
第5页 / 共37页
第6页 / 共37页
第7页 / 共37页
第8页 / 共37页
第9页 / 共37页
第10页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
哈尔滨工业大学理学硕士学位论文- I -摘 要复杂数据主要表现在相依、非线性、维数高与不完全观测等,在股市、基因序列和经济等领域中经常出现。为解决巨型数据集合问题,数据挖掘的理论、方法和技术已应运而生。而针对诸如怎样同时检验成千上万个基因中哪些基因的表达水平有显著性差异之类的高维统计推断问题,以错误发现率为主要特征的非参数估计方法无疑为其提供了一个有效的解决途径。本文主要研究考察错误发现率的在各种参数模型和非参数模型下的控制检验方法,全文共分为四章。文章首先介绍了所选取课题的背景和意义,以及国内外在该方向的研究现状。在多重假设检验的背景下,给出了错误发现率的定义,提出利用 p 值进行假设检验,并在假设检验独立和相依的情形下对错误发现率的控制方法进行了探讨。在研究错误发现率的控制方法时,发现在处理多重假设检验问题时,核心的问题是如何估计真实零假设的个数,因此本文采用经验贝叶斯估计来估计它的值。在参数混合模型和非参数混合模型中研究真实零假设的估计问题是本文的核心内容。针对正态混合分布模型和 Beta 混合分布模型两种参数混合模型,文章采用矩估计方法和基于 p 值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别介绍了最小二乘估计方法、Beta 分布拟合模型和 Beinstein 多项式拟合模型的方法。文章的最后以 Hedenfalk 报告的一组乳腺癌患者的基因数据为例进行仿真研究,发现错误发现率为微阵列数据的多重假设检验提供了合适的错误控制指标。关键词:错误发现率;多重假设检验;p 值;非参数估计;微阵列数据哈尔滨工业大学理学硕士学位论文- II -AbstractComplex data always appear in the stock market, gene sequences, economic and other fields, which mainly show the characteristic of dependent, nonlinear, high dimension and incomplete observations. In order to solve the problem of huge data collection, the theories, methods and techniques of data mining are proposed. While how to examine the high-dimensional statistical inference problem, such as the significant differences of expression levels in thousands of genes, the non-parametric estimation of false discovery rate provide an effective solution.This paper mainly investigate the test method based on the false discovery rate of various parametric model and non-parametric model, which is divided into four chapters. Firstly, this paper introduce the background and significance of the topic, and the current studies in this direction at home and abroad. Under the background of multiple hypotheses testing, the paper describe the definition of the false discovery rate, propose using the p-value to test the hypothesis testing, and discuss the controlling method of the false discovery rate when the hypotheses testing is independent or dependent. When we investigate the controlling method of the false discovery rate and studied the multiple hypothesis testing problem, we find that the central problem is how to estimate the number of true null hypothesis, so this paper use the empirical Bayes estimation to estimate its value. Investigating the estimation of true null hypothesis in the mixing parametric model and non-parametric model is core of the dissertation. Aiming at the mixed normal distribution model and Beta mixture distribution model, This paper use the method of moment estimation and least squares estimation method based on the p-value to estimate its value; On studying the non-parametric mixture model, the paper introduce the least square estimation method, Beta distribution fitting model method and the Beinstein polynomial fitting model method. Finally, the paper conduct the simulation research based on a group of patients with breast cancer gene data by Hedenfalk, and find that the false discovery rate is able to provide a suitable error control targets for the multiple hypothesis testing of microarray data.Keywords: false discovery rate, multiple hypotheses testing, p-value, non-parametric estimation, microarray data哈尔滨工业大学理学硕士学位论文- III -目 录摘 要 .IAbstract .II第 1 章 绪 论 .11.1 课题研究的背景及意义 .11.2 国内外在该方向的研究现状 .11.2.1 国外对错误发现率的研究现状 .11.2.2 国内研究现状 .31.3 本文拟研究的主要内容 .31.4 创新点 .3第 2 章 错误发现率的多重检验方法 .52.1 多重假设检验的错误测度 .52.2 值的定义、性质和计算方法 .6P2.3 独立情形下基于 FDR 控制的检验方法 .72.4 相依情形下基于 FDR 控制的检验方法 .82.5 真实零假设的个数 或比值 的估计 .90m02.5.1 估计 .92.5.2 经验贝叶斯估计 .112.6 本章小结 .12第 3 章 参数混合模型和非参数混合模型的估计 .133.1 引言 .133.2 正态分布混合模型 .
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号