资源预览内容
第1页 / 共60页
第2页 / 共60页
第3页 / 共60页
第4页 / 共60页
第5页 / 共60页
第6页 / 共60页
第7页 / 共60页
第8页 / 共60页
第9页 / 共60页
第10页 / 共60页
亲,该文档总共60页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
分析一个存分析数据所想到的分析一个存分析数据所想到的出现的问题往往多于结论出现的问题往往多于结论吴喜之 阎洁中国人民大学 统计学院2004年12月从教科书可期待什么?o整齐的数据(可能有些缺失值)整齐的数据(可能有些缺失值)o选好的意义明确的变量选好的意义明确的变量o完全确定的研究目标完全确定的研究目标o按照一定的模型进行拟合按照一定的模型进行拟合o得到可合理解释的结果和漂亮的输出得到可合理解释的结果和漂亮的输出o根据理论(条件当然满足)做出解释根据理论(条件当然满足)做出解释o一切都令人满意一切都令人满意但是在实际中o数据形式和想象的差别可能很大数据形式和想象的差别可能很大o可能很难摸清大量变量的内在含义和关系可能很难摸清大量变量的内在含义和关系o研究目标经常无法事先确定研究目标经常无法事先确定o没有任何现成的理论来确定什么模型合适没有任何现成的理论来确定什么模型合适o得到各种从统计或医学均不易解释的输出得到各种从统计或医学均不易解释的输出o永远不知数据是否满足一些定理和方法的永远不知数据是否满足一些定理和方法的条件条件o还需面对许多医学和统计的决策还需面对许多医学和统计的决策o这些决策很难说哪个这些决策很难说哪个“对对”或或“错错”我们的数据o一个鼻咽癌数据一个鼻咽癌数据*o只有只有136个观测值个观测值o其中仅有其中仅有129个可用个可用o一共一共41个变量,其中包括个变量,其中包括性别;病人诊断资料,如原发症状、原发部位、性别;病人诊断资料,如原发症状、原发部位、病理分级、病理分级、B症状有无、国际预兆指数、国际预症状有无、国际预兆指数、国际预兆指数合并兆指数合并B症状、淋巴结大小、肿瘤症状、淋巴结大小、肿瘤M分期、分期、WHO得分、分化程度、肿瘤得分、分化程度、肿瘤T分期、淋巴结单双分期、淋巴结单双侧、肿瘤侧、肿瘤TNM分期等指标;病人治疗资料,如治分期等指标;病人治疗资料,如治疗方案、化疗方案、化疗周期;病人治疗近期效疗方案、化疗方案、化疗周期;病人治疗近期效果资料,放疗疗效、化疗疗效、总初次治疗疗效;果资料,放疗疗效、化疗疗效、总初次治疗疗效;病人远期疗效资料,复发资料病人远期疗效资料,复发资料-是否复发、复是否复发、复发时间、复发部位、复发肿瘤的发时间、复发部位、复发肿瘤的TNM分期,合并分期,合并症资料症资料-是否发生合并症、合并症发生时间,是否发生合并症、合并症发生时间,生存资料生存资料-是否死亡(指因癌症死亡)、生存是否死亡(指因癌症死亡)、生存时间。时间。我们面对的第一个决策问题我们面对的第一个决策问题o我们所关心的是复发还是死亡我们所关心的是复发还是死亡o没有任何理论上的理由来排斥哪一个没有任何理论上的理由来排斥哪一个o它们都和医疗效果相关,但是它们都和医疗效果相关,但是o从实践的角度,复发数据显然比死亡从实践的角度,复发数据显然比死亡完整完整o因此我们仅以复发事件作为考虑重点因此我们仅以复发事件作为考虑重点 o这里我们只考虑和此目的有关的这里我们只考虑和此目的有关的22个个变量(其中变量(其中20个为个为“自变量自变量”)常规的分析方法常规的分析方法 o进行进行“复发时间复发时间”的常规生存分析的常规生存分析o这些方法包括:这些方法包括:o简单寿命表简单寿命表oKaplan-Meier分析分析oCox比例风险模型比例风险模型o等等等等生命表生命表Kaplan-Meier方法o为了检验复发时间与哪些因素有关为了检验复发时间与哪些因素有关o通常采用了以下三种检验方法:通常采用了以下三种检验方法:oLog Rank检验检验oBreslow检验检验oTarone-Ware检验检验o三者的区别在于其检验统计量对不同时间三者的区别在于其检验统计量对不同时间的事件赋予的权重不同。的事件赋予的权重不同。Kaplan-Meier方法o根据三种检验结果可知根据三种检验结果可知o有显著影响意义的因素包括:有显著影响意义的因素包括:oT分期、放疗疗效、化疗疗效、总初次治分期、放疗疗效、化疗疗效、总初次治疗疗效疗疗效o可能有意义的因素包括:可能有意义的因素包括:o性别、原发症状、性别、原发症状、ipi和和b症、有无转移、症、有无转移、化疗周期数等化疗周期数等o于是可以估计生存函数(画图)于是可以估计生存函数(画图)一些变量的一些变量的三种检验结三种检验结果果一些累积生存函数估计图o有些可以区别明显有些可以区别明显o有些不明显有些不明显o有些看不出来有些看不出来生生存存函函数数图图(性性别别区区分分)生生存存函函数数图图(关关于于T分分期期)生生存存函函数数图图(关关于于初初次次疗疗效效)生生存存函函数数图图( ipi和和b症症)生生存存函函数数图图(放放疗疗疗疗效效?)EN:巩固治疗,巩固治疗,CR:完全治愈,完全治愈,PR:部分治愈,部分治愈,S:轻微缓解(或者轻微缓解(或者是没变化)是没变化)PD:肿瘤进展肿瘤进展生生存存函函数数图图(化化疗疗疗疗效效?)EN:巩固治疗,巩固治疗,CR:完全治愈,完全治愈,PR:部分治愈,部分治愈,S:轻微缓解(或者轻微缓解(或者是没变化)是没变化)PD:肿瘤进展肿瘤进展Cox Regressiono自变量:自变量:20个变量个变量o逐步回归:逐步回归:Forward:LRoOrdinal变量处理:当作分类变量。变量处理:当作分类变量。Cox Regression注:M分期为”有无转移”T分期为“肿瘤组织学分期”选中了选中了M分期和分期和T分期分期Cox Regression生生存存函函数数图图( TM分分期期)对这些结果的解释企图:对这些结果的解释企图:o确诊时的确诊时的T分期和分期和M分期对于肿瘤的复分期对于肿瘤的复发有显著影响。发有显著影响。o确诊时其确诊时其T分期较早的话,则治疗后分期较早的话,则治疗后复发的可能性要小于复发的可能性要小于T分期较晚的人群,分期较晚的人群,即使复发,其复发时间也相对要晚一即使复发,其复发时间也相对要晚一些。些。oM分期也是一样。分期也是一样。o因此,能在癌症早期及时发现是鼻咽因此,能在癌症早期及时发现是鼻咽癌诊治的一个重点。癌诊治的一个重点。三种检验不一致时的解释三种检验不一致时的解释 :o控控制制“有有无无B症症状状”因因素素,分分析析放放疗疗效效果果与与复复发发的关系的关系o其其复复发发时时间间分分布布的的Log Rank检检验验结结果果并并不不显显著著,p-值值=0.0744,而而另另外外两两个个检检验验的的结结果果是是显显著著的的,Breslow检检验验, p-值值=0.0280,Tarone-Ware检检验,验, p-值值=0.0403三种检验不一致时的解释三种检验不一致时的解释 :o多多数数文文献献只只进进行行Log Rank检检验验,而而很少用后两种很少用后两种o这三种检验有什么区别呢?这三种检验有什么区别呢?o看看这些检验背后的机理看看这些检验背后的机理o这这三三个个检检验验的的零零假假设设都都是是检检验验各各组组间间生存分布相同生存分布相同o三三个个检检验验的的统统计计量量均均是是基基于于比比较较每每个个时时点点的的实实际际发发生生事事件件数数与与期期望望发发生生事事件数件数三种检验不一致时的解释三种检验不一致时的解释 :o这这三三个个检检验验的的主主要要区区别别在在于于对对不不同同时时间间点点的的权权重不同:重不同:oLog Rank检检验验对对每每个个事事件件的的权权重重相相同同,无无论论其其发生早晚发生早晚oBreslow检检验验按按照照在在风风险险中中的的个个体体数数对对事事件件加加权权,而而在在风风险险中中的的个个体体时时间间而而减减少少,因因此此早早期期发生的事件权重晚期发生的事件权重大发生的事件权重晚期发生的事件权重大oTarone Ware检检验验按按照照在在风风险险中中的的个个体体数数的的平平方方根根对对事事件件加加权权,因因此此结结果果则则介介于于前前面面二二者者之之间间,对对早早期期事事件件的的权权重重要要小小于于Breslow检检验验,大大于于Log Rank检检验验,因因而而其其统统计计量量和和p-值值也也介介于二者之间于二者之间三种检验不一致时的解释三种检验不一致时的解释 :o面面对对以以上上的的分分析析数数据据,可可以以认认为为:放放疗疗效效果果对对于于复复发发来讲,是有显著影响的来讲,是有显著影响的o但但是是其其影影响响更更多多的的是是对对早早期期复复发发,而而对对晚晚期期复复发发的的影影响可能要小一些响可能要小一些 定序变量看作分类变量或者定量变量?定序变量看作分类变量或者定量变量? o一一些些方方便便(傻傻瓜瓜)软软件件默默认认地地把把定定序序变变量看作分类变量来处理量看作分类变量来处理 o如如 果果 我我 们们 把把 这这 些些 Ordinal变变 量量 作作Interval变变量量来来处处理理的的话话,用用同同样样的的Forward:LR方方法法和和自自变变量量,结结果果又又将将如何呢?如何呢?o最最后后我我们们发发现现结结果果和和上上面面完完全全不不同同。作作为为分分类类变变量量处处理理时时,“T分分期期”和和“M分分期期”作作为为两两个个重重要要变变量被筛选出来量被筛选出来o而而作作为为连连续续变变量量处处理理时时,“国国际际预预后后指指数数(ipi)合合并并B症症状状”则则是是唯一被选中的变量唯一被选中的变量定序变量看作分类变量或定量变量?定序变量看作分类变量或定量变量? o这种结果该如何解释?这种结果该如何解释?o哪个结果更可信呢?哪个结果更可信呢?o问问题题是是在在什什么么情情况况下下,定定序序变变量量可可作作连连续续变变量量来来处处理理,什什么么情情况况可可作作分分类类变变量量来来处处理呢?理呢? 定序变量看作分类变量或定量变量?定序变量看作分类变量或定量变量? o对对分分类类变变量量而而言言,常常将将缺缺失失数数据据作作为为单单独独一一组组(如如问问卷卷调调查查中中的的“不知道不知道”)o这这种种处处理理在在数数据据整整理理中中为为保保证证数数据的工整是无可指责的据的工整是无可指责的o但但是是如如果果在在分分析析中中依依然然将将其其作作为为单单独独一一组组参参与与分分析析,则则可可能能对对结结果果会有影响会有影响缺失数据处理缺失数据处理 而将缺失值不纳入分析时,输出为而将缺失值不纳入分析时,输出为不将缺失值(未进行化疗者)去掉,有不将缺失值(未进行化疗者)去掉,有数据量问题数据量问题 o数据量不够导致本该检测出的差别数据量不够导致本该检测出的差别检测不出来检测不出来o在对在对“有无转移有无转移”进行分析时,我进行分析时,我们可以得到以下检验结果:们可以得到以下检验结果:“有无转移有无转移”真的没有影响吗?真的没有影响吗?o从从医医学学专专业业知知识识来来判判断断,“有有无无转转移移”对对于肿瘤预后而言是有显著影响的于肿瘤预后而言是有显著影响的o那究竟是什么地方出了问题呢?那究竟是什么地方出了问题呢?o可以察看一下数据量可以察看一下数据量o“有有转转移移”的的病病例例数数为为6例例,其其中中有有3例例是是删失数据,只有删失数据,只有3例发生了终点事件,例发生了终点事件,o“无转移无转移”病例数有病例数有33例发生了终点事件,例发生了终点事件,o拿拿这这样样两两组组人人群群进进行行比比较较时时,由由于于一一组组人人群数量太少而不能检出其差别。群数量太少而不能检出其差别。数据量问题数据量问题数据量不够导致错误结论数据量不够导致错误结论o从从专专业业知知识识出出发发,“ipi合合并并B症症状状”变变量量得得分分越越高高的的人人群群其其疾疾病病的的严严重重性性越越高高,而而从从上上面面的的分分析析数数据据,可可以以看看到到得得分分为为2的的人人群群其其平平均均复复发发时时间间要要长长于于得得分分为为1的的人人群群o为什么?为什么?数据量问题数据量问题o这样一个不合适结论是由数据量不够而导致这样一个不合适结论是由数据量不够而导致作研究时,不能盲目看结果,还要充分考虑样作研究时,不能盲目看结果,还要充分考虑样本量。这一点在很多的文献中也是被忽略掉的。本量。这一点在很多的文献中也是被忽略掉的。片面观察结果,会忽视了结果的可靠性。片面观察结果,会忽视了结果的可靠性。 分类数据的合并问题分类数据的合并问题 o在在治治疗疗方方案案的的分分析析中中,发发现现“治治疗疗方方案案”并并不不是是一一个个显显著因素。著因素。分类数据的合并问题分类数据的合并问题 o但但是是观观察察其其数数据据发发现现,化化疗疗患患者者只只有有2人人发生了终点事件,这一类样本量较少。发生了终点事件,这一类样本量较少。分类数据的合并问题分类数据的合并问题 o如如把把“化化疗疗” 一一类类剔剔除除,并并把把“先先放放后后化化”、“先先化化后后放放”、“化化放放化化”三三类类合合并并之之后后,则则有有o如如把把“化化疗疗”一一类类剔剔除除,并并把把“先先放放后后化化”、“先先化化后后放放”两两类类合合并并为为“化化放放结结合合”之之后后,则则会会有有 o结果差别很大;到底应该如何操作呢?结果差别很大;到底应该如何操作呢?混杂因素混杂因素o依依然然举举“治治疗疗方方案案”的的例例子子,如如将将“性性别别”作作为为分分层层变变量量来来控控制制其其混杂效应,则对于男性:混杂效应,则对于男性:混杂因素混杂因素o而对于女性:而对于女性:混杂因素混杂因素o对于全体(控制性别影响之后):对于全体(控制性别影响之后):o值得思考值得思考o用决策树方法用决策树方法(C5.0)进行分析进行分析o将将“是是否否复复发发”(1为为非非复复发发,2为为复复发发)作作为为目目标标变变量量,将将其其余余20个个变变量量作作为为X变变量量,分分析析这这些些X变量与变量与“复发复发”的关系的关系用决策树方法进行分析用决策树方法进行分析 用决策树方法进行分析用决策树方法进行分析 o得得到到如如下下规规则则。如如其其中中黑黑体体显显示示部部分分表表示示:T分分期期为为2,性性别别为为2,国国际际预预兆兆指指数数为为2的的病病例例有有7例,其中例,其中71.4%为复发者为复发者o用用决决策策树树方方法法进进行行生生存存数数据据的的分分析析,有两点要注意有两点要注意:o1)决决策策树树方方法法是是一一种种数数据据挖挖掘掘算算法法,它它对对于于样样本本量量的的要要求求要要比比一一般般统统计计方方法要大法要大o2)决决策策树树方方法法不不能能充充分分利利用用生生存存时时间信息,其结果的可靠性有待商讨。间信息,其结果的可靠性有待商讨。o不不过过该该方方法法还还是是可可以以作作为为规规律律初初步步探探索的工具。索的工具。 用决策树方法进行分析用决策树方法进行分析 o对于连续数据进行离散化时,如本例中的对于连续数据进行离散化时,如本例中的淋巴结大小,按照淋巴结的实际厘米数将淋巴结大小,按照淋巴结的实际厘米数将病例划分为四组,病例划分为四组,none,6cmo这些分割点看上去是根据这些分割点看上去是根据“专业经验专业经验”而而选择的,它们不见得是合适的选择的,它们不见得是合适的o如何确定分割点,而不是人为地、随意地如何确定分割点,而不是人为地、随意地进行指定呢?进行指定呢?o或者根本没必要将连续变量进行离散?或者根本没必要将连续变量进行离散?分隔点问题分隔点问题 o许多分隔据说是鉴于医学经验许多分隔据说是鉴于医学经验o这些医学分隔又有没有统计的支持呢?这些医学分隔又有没有统计的支持呢?o上面的分隔很规整:上面的分隔很规整:3cm、6cm及以上及以上o类似于类似于“无信息无信息”先验分布先验分布o有没有有没有“无信息无信息”先验分布呢?先验分布呢?o谁也说不清哪个空间是谁也说不清哪个空间是“原始空间原始空间”还是还是“变换后的空间变换后的空间”o下面的图形可能有些启发下面的图形可能有些启发“无信息无信息”vs“经验经验” “等间隔等间隔”和和“内紧外松内紧外松”的互相变换的互相变换“等间隔等间隔”和和“外紧内松外紧内松”的互相变换的互相变换“等间隔等间隔”和和“下紧上松下紧上松”的互相变换的互相变换“等间隔等间隔”和和“下紧上松下紧上松”的互相变换的互相变换o把连续变量换成离散变量的现象非常普遍。把连续变量换成离散变量的现象非常普遍。这包括社会、经济、医疗卫生等几乎生活这包括社会、经济、医疗卫生等几乎生活的所有方面的所有方面o这是不是前计算机时代的以定性为主的思这是不是前计算机时代的以定性为主的思维方式的继续呢?维方式的继续呢?o但可以肯定的是,离散化不仅失去大量信但可以肯定的是,离散化不仅失去大量信息、造成处理复杂化,而且必然会产生分息、造成处理复杂化,而且必然会产生分隔点确定的合理性问题隔点确定的合理性问题o也给产生各种也给产生各种“猫腻猫腻”留出了大量的空间留出了大量的空间分隔点问题分隔点问题 二维列联表二维列联表 o在我们数据中共有在我们数据中共有21个变量(包括个变量(包括“是否复发是否复发”)在理论上可以组成)在理论上可以组成210个二维列联表,但是个二维列联表,但是其中有其中有143个有一个以上空格个有一个以上空格 o在67个无空穴(共210个)二维列联表中Pearson统计量卡方检验的p值只有4个小于0.05 二维列联表二维列联表 o共有共有134个二个二维列联表能用维列联表能用不太费时间的不太费时间的Fisher精确检精确检验,但只有验,但只有18个个p值小于值小于0.05 从二维列联表分析从二维列联表分析o我们可以看到我们可以看到B症状的有无和症状的有无和T分分期有密切关系期有密切关系o实际上,有实际上,有B症状的人中症状的人中T分期较分期较严重的比例要大于无严重的比例要大于无B症状的人。症状的人。o而且在列联表分析中也可以看到而且在列联表分析中也可以看到有有B症状的病例其放疗疗效也劣于症状的病例其放疗疗效也劣于无无B症状者。症状者。o是否复发是否复发和和T分期分期显著相关显著相关o列联表的相关性分析虽然无法和生存列联表的相关性分析虽然无法和生存时间挂钩,但可以获得某些变量之间时间挂钩,但可以获得某些变量之间的相关性;比如的相关性;比如o各种分期和各种疗效之间的关系各种分期和各种疗效之间的关系o各种症状和各种疗效之间的关系各种症状和各种疗效之间的关系o可以从错综复杂的关系中理出头绪可以从错综复杂的关系中理出头绪o对列联表的分析在对列联表的分析在EDA阶段很有帮助阶段很有帮助列联表列联表 o在分析这个数据时提出的问题可能比在分析这个数据时提出的问题可能比解决的更多解决的更多o但这是正常的但这是正常的o我们的学生可能会证明复杂的理论我们的学生可能会证明复杂的理论o他们也可能会计算一些教科书上的习他们也可能会计算一些教科书上的习题和简单的例子题和简单的例子o如果他们能够在分析实际数据时更加如果他们能够在分析实际数据时更加熟练和轻松,统计就不愁没有饭碗了熟练和轻松,统计就不愁没有饭碗了结语结语 谢谢大家谢谢大家Cox Regression
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号