资源预览内容
第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
第9页 / 共26页
第10页 / 共26页
亲,该文档总共26页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
LOGO 1 数据缺失及其填补方法综述 报告人:邵宏赡 日 期:2013.4 LOGO 2 目录页 CONTENTS PAGE 一一 二二 三三 引言 数据缺失简介 数据缺失的处理方法 主要内容主要内容 四四 处理方法评价 五五 总结 LOGO 3 TRANSITION PAGE 过渡页 一一 二二 三三 引言 数据缺失简介 数据缺失的处理方法 四四处理方法的选择与评价 五五 总结 LOGO 4 引言 Part 1 在社会调查资料中,最为常见的问题就是 。造成数据缺失 的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有 缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的 影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到 的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解, 来挽救有缺失的调查数据,以保证研究工作顺利进行。 数据缺失 LOGO 5 TRANSITION PAGE 过渡页 一一 二二 三三 引言 数据缺失简介 数据缺失的处理方法 四四 处理方法的选择与评价 五五 总结 LOGO 6 数据缺失简介 Part 2 数据缺失是指在数据采集时由于某种原因应该 得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的 。 统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的 一个重要标准, 但实际调查中经常遇到数据缺失的情况。 无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item non- response) 。 “单位无回答”被调查者不愿意或者不能够回答整张的问卷; “项目无回答”被调查者拒绝回答个别的调查项目。 概念(Concept) LOGO 7 数据缺失简介 Part 2 缺失原因(Reason) 在存储数据的过程中,由于机器的损坏造成数据存储失败; 调查员在采集数据过程中,由于主观因素人为地认为数据不重要 或无用,而私自丢弃数据; 调查员信息录入失误; 受访者拒绝透露被调查信息,或回答错误信息; 受访者选取失误。例如调查 工资情况,选取的受访者是婴幼儿 。 在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面 的 ,主要有以下几种: LOGO 8 数据缺失简介 Part 2 Little和Rubin针对 缺失数据,探讨缺失数据与目标变量是否有关,定义了3 种不同的缺失机制。 产生机制( Mechanism ) MCARMARMNAR 完全随机缺失 (Missing Completely At Random) :数据的缺失 与不完全变量以及完全 变量都是无关的。 随机缺失 (Missing At Random) :数据的缺失仅仅依 赖于完全变量。 非随机缺失(Not Missing At Random):不 完全变量中数据的缺失 ,依赖于不完全变量本 身。这种缺失是不可忽 略的。 LOGO 9 数据缺失简介 Part 2 产生机制( Mechanism ) LOGO 10 数据缺失简介 Part 2 缺失模式( Pattern) 数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失 数据矩阵R的分布。当一维目标变 量出现缺失数据时,我们在数据处理 过程中首先要考虑缺失数据产生机制,而对于多维目标变 量而言,除 了考虑缺失数据产生机制外,还要判断数据的缺失模式。 LOGO 11 数据缺失简介 Part 2 缺失模式( Pattern) 假设完全数据资料阵 y 是由m个观测 、 n个变量组 成的mn矩阵,通过分析这 个矩阵的特点,可以推断出 数据缺失模式。 LOGO 12 TRANSITION PAGE 过渡页 一一 引言 四四 处理方法的选择与评价 五五 总结 二二 数据缺失简介 三三 数据缺失的处理方法 LOGO 13 Part 3 数据缺失的处理方法 基本方法 基于完整观测 单位的方法 单一填补法 基于填补的方法 人工填补法 删除法 不处理 加权调整法 列表删除 个案删除(配对删除) 多重填补法 均值填补法 回归填补法 热平台填补法(Hot deck 填补法、就近补齐法) 冷平台填补法 期望最大化法 极大似然估计 马尔科夫链蒙特卡罗法(MCMC) 趋势得分法 随机回归填补法(PMM法) K最近距离邻法 贝叶斯网络 人工神经网络 C4.5方法 LOGO 14 Part 3 数据缺失的处理方法 这种方法简便易行。在被调查对象出现多个变 量的缺失, 并且被删除的含缺失的数据量在整个数 据集中的数据量占的比例非常小的情况下, 是非常 简单而有效的。 它的不足之处在于,删除缺失数据的过程中减 少了原始的数据,导致了信息的损耗。因此, 当缺 失数据所占比例较大,特别当缺失数据非随机分布时 , 这种方法可能导致数据发生偏离, 从而引出错误 的结论。 基于完整观测 单位的方法 删除法 加权调整法 列表删除 个案删除(配对删除) 加权是一个减少偏差的比较简单的 措施, 但是由于丢弃不完整单位的信息 , 并且没有提供一个内在的方差控制, 所以在样本量较大时, 易出现错误的结 果。 LOGO 15 Part 3 数据缺失的处理方法 多重填补法1977年由Rubin首先提出, 经过Meng和Schafer等人不断的完善和综合 已形成一个比较系统的理论,该法有以下优 点:多重插补过程产生多个中间插补值, 可以利用插补值之间的变异反映无回答的不 确定性,包括无回答原因已知情况下抽样的 变异性和无回答原因不确定造成的变异性。 多重插补通过模拟缺失数据的分布,较好 地保持变量之间的关系。多重插补能给出 衡量估计结果不确定性的大量信息,单一插 补给出的估计结果则较为简单。 单一插补的优点 1、标准的完全数据分析方法 2、对公众应用数据库,程序运行一次 缺点低估估计量的方差 改进校正估计量的方差,主要利用Jackknife、Bootstrap 等工具,给出方差的相合估计。 单一填补法 基于填补的方法 人工填补法 多重填补法 均值填补法 回归填补法 热平台填补法(Hot deck 填补法、就近补齐法) 冷平台填补法 期望最大化法(EM) 极大似然估计 马尔科夫链蒙特卡罗法(MCMC) 趋势得分法 随机回归填补法(PMM法) K均值聚类法( K-means clustering ) C4.5方法 多重插补缺点: 一、生成多重插补比单一插补需要更多工作 二、贮存多重插补数据集需要更多存储空间 三、分析多重插补数据集比单一插补需要花费更多精力 。 LOGO 16 Part 3 数据缺失的处理方法 不处理就是直接在包含空值的数据上进行数据挖掘。 贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对 变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网 的结构不但复杂性较高(随着变量的增加,指数级增加),网络维 护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响 了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在 指数爆炸的危险。 人工神经网络可以有效的对付空值,但人工神经网络在这方面 的研究还有待进一步深入展开。 不处理 贝叶斯网络 人工神经网络 LOGO 17 Part 3 数据缺失的处理方法 数据填补通常是一件非常繁琐的工作, 很多常用的统计软件以及专门为其编写的软件都可以 完成。从中可以看出,各种软件的着重点不同, 使用效果也不尽相同, 在使用时要根据个人实际需 要加以选择。 常用的数据缺失填补软件 LOGO 18 TRANSITION PAGE 过渡页 一一 引言 三三 数据缺失的处理方法 五五 总结 二二 数据缺失简介 四四 处理方法的选择与评价 LOGO 19 Part 4 处理方法的选择与评价 处理方法的选择 LOGO 20 Part 4 处理方法的选择与评价 处理方法的评价 LOGO 21 Part 4 处理方法的选择与评价 LOGO 22 Part 4 处理方法的选择与评价 处理方法的评价 LOGO 23 TRANSITION PAGE 过渡页 一一 引言 三三 数据缺失的处理方法 四四 处理方法的选择与评价 二二 数据缺失简介 五五 总结 LOGO 24 总结 Part 5 这段时间,阅读了相关的文献资料,对数据缺失的概念、缺失原因、缺失机制、缺 失模式以及一些基本填补方法有了大致的理解,并初步了解了数据缺失处理方法的研究 现状。 对于数据缺失国内外学者已经做了广泛的研究,但没有哪一种处理缺失数据的方法 是普遍适用的,每种方法都存在不如人意之处 。目前各种新兴的方法层出不穷, 如人工 神经网络, 机器智能模型等。所以针对各种实际问题, 要注意分清问题的实质, 适当地运 用处理方法才是解决好实际问题的关键所在,此外,融合相关领域、相关学科的优秀算 法,实现创新。 LOGO 25 总结 Part 5 计划: 继续研读针对缺失数据构造分类器的相关文献资料,摸索其中的研究理论和方法, 并结合相关学科的先进理论(核主元分析,遗传算法等),探究一种更高效的处理缺失 数据分类问题的方法,与已有方法加以比较验证。 LOGO 26
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号