资源预览内容
第1页 / 共23页
第2页 / 共23页
第3页 / 共23页
第4页 / 共23页
第5页 / 共23页
第6页 / 共23页
第7页 / 共23页
第8页 / 共23页
第9页 / 共23页
第10页 / 共23页
亲,该文档总共23页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
Coxs proportional hazard regression比例风险模型比例风险模型Cox回归回归多元统计学多元统计学 是一种允许资料有是一种允许资料有“截尾或终检截尾或终检”数据存在的,数据存在的,可以同时分析众多因素对生存时间影响的多变可以同时分析众多因素对生存时间影响的多变量生存分析方法。量生存分析方法。CoxCox回归回归多元统计学多元统计学第一节第一节 生存时间生存时间一生存时间概念:狭狭狭狭义义义义的的角角度度来来讲讲,生生存存时时间间是是患患某某种种疾疾病病的的病病人发病到死亡所经历的时间跨度。人发病到死亡所经历的时间跨度。广广广广义义义义的的角角度度来来讲讲,可可以以把把生生存存时时间间定定义义为为从从某某种起始事件到达某种终点事件所经历的跨度种起始事件到达某种终点事件所经历的跨度。多元统计学多元统计学例如:例如: 我们可以把下列事件作为起始事件和终点事件:我们可以把下列事件作为起始事件和终点事件:起始事件 终点事件疾病确诊疾病确诊死亡死亡治疗开始治疗开始治愈治愈症状缓解症状缓解疾病恶化疾病恶化接触毒物接触毒物出现毒性反应出现毒性反应接触危险因素接触危险因素发病发病 多元统计学多元统计学二两类生存时间数据:(一)完全数据:(一)完全数据:在在随随访访工工作作中中,当当观观察察到到了了某某患患者者的的明明确确结结局局时时,该该病病人所提供的关于生存时间的信息是完整的。人所提供的关于生存时间的信息是完整的。我我们们把把到到达达了了明明确确结结局局的的病病人人的的生生存存时时间间数数据据称称为为完完全全数据。用符号数据。用符号“t”表示。表示。多元统计学多元统计学(二)截尾数据(二)截尾数据(二)截尾数据(二)截尾数据 1定义定义:在随访工作中,由于某种原因未能观察到病人:在随访工作中,由于某种原因未能观察到病人的明确结局,不知道病人的确切生存时间,随访资料不的明确结局,不知道病人的确切生存时间,随访资料不完整。这样的资料称为截尾数据。完整。这样的资料称为截尾数据。2价值价值:提供了观察期内的信息,生存时间不会短于观:提供了观察期内的信息,生存时间不会短于观察时间。用符号察时间。用符号“t+”表示。表示。3产生截尾现象的原因产生截尾现象的原因:(1)病人失访)病人失访(2)病人的生存期超过了研究的终止期。)病人的生存期超过了研究的终止期。(3)在动物实验中,有时预先规定观察期限。)在动物实验中,有时预先规定观察期限。 多元统计学多元统计学(三)图示:(三)图示: 多元统计学多元统计学三生存时间资料的整理:设总共观察了设总共观察了n n例病人的生存时间,记第例病人的生存时间,记第i i名病人的生存名病人的生存时间为时间为t ti i,则全部,则全部n n例病人的生存时间可以记为例病人的生存时间可以记为t t1 1,t,t2 2, ,t,tn n如图如图1.11.1中的生存时间(年)按病人号的顺序排列为中的生存时间(年)按病人号的顺序排列为2,42,4+ +,3,1,3,1+ +如果将这些生存时间按由小到大的顺序排列,则得到一如果将这些生存时间按由小到大的顺序排列,则得到一个有序的生存时间列为个有序的生存时间列为t t(1)(1)tt(2)(2)tt(n)(n)图图1.11.1中的生存时间有序系列为:中的生存时间有序系列为:1 1+ +,2,3,4,2,3,4+ +。多元统计学多元统计学几种不同类型的生存时间的例子:几种不同类型的生存时间的例子: 例例1.1 1.1 2020名行输卵管结扎术的妇女经峡部名行输卵管结扎术的妇女经峡部- -峡部吻合术后的受孕峡部吻合术后的受孕时间(月)为:时间(月)为:1,1,2,3,3,4,4,4,6,6,8,9,9,10,11,12,13,15,17,181,1,2,3,3,4,4,4,6,6,8,9,9,10,11,12,13,15,17,18。此例中的生存时间均为完全数据,并已按由小到大的顺此例中的生存时间均为完全数据,并已按由小到大的顺序排列整理。序排列整理。多元统计学多元统计学例1.22323名行输卵管结扎术的妇女经壶腹部名行输卵管结扎术的妇女经壶腹部- -壶腹部吻合术后的壶腹部吻合术后的受孕时间(月)为:受孕时间(月)为:1,3,5,5,5,6,6,6,7,8,10,10,141,3,5,5,5,6,6,6,7,8,10,10,14+ +,17,19,17,19+ +,20,20+ +,22,22+ +,26,26+ +,31,31+ +,34,34,34,34+ +,44,59,44,59。此例为有序生存时间资料,并包括有截尾数据。此例为有序生存时间资料,并包括有截尾数据。可在随访期内任何时点上发生截尾类型称为随机截尾可在随访期内任何时点上发生截尾类型称为随机截尾(random censoringrandom censoring)。本例中的截尾就是随机截尾。)。本例中的截尾就是随机截尾。多元统计学多元统计学例例1.31.31515只雌性大白鼠接触毒物只雌性大白鼠接触毒物DHGDHG后观察后观察1212周,其生存时间为:周,其生存时间为:4,6,8,9,9,10,10,10,11,12,12,12+,12+,12+,12+4,6,8,9,9,10,10,10,11,12,12,12+,12+,12+,12+。 此例是一个定时截尾数据的资料,所有到第此例是一个定时截尾数据的资料,所有到第1212周未死周未死亡的动物的生存时间都属于截尾数据。亡的动物的生存时间都属于截尾数据。 多元统计学多元统计学例例1.41.4 当观察单位较多时,可以按一定的时间区间分段整理。当观察单位较多时,可以按一定的时间区间分段整理。设在第设在第i i个时间内(个时间内(t ti i,t,ti+1i+1)开始时的病人数为)开始时的病人数为n ni i,在此区,在此区间内的死亡数为间内的死亡数为d di i,则在第,则在第i+1i+1个区间开始时的病人数为个区间开始时的病人数为n ni+1i+1=n=ni i-d-di i。分组资料情况见下表。分组资料情况见下表。 多元统计学多元统计学四生存分析的方法: 一般可以分为参数、非参数、半参数三类。一般可以分为参数、非参数、半参数三类。 1 1、生生存存时时间间的的分分布布符符合合某某一一特特定定类类型型,如如对对数数正正态态分分布布、weibullweibull分分布布、指指数数分分布布等等,则则可可以以用用特特定定的的分分布布函函数数分分析析,这这称称之之为参数法。为参数法。 2 2、若若不不知知道道生生存存时时间间的的分分布布类类型型,而而对对分分布布或或其其某某些些特特征征作作推推断,就只能用半参数或非参数法。断,就只能用半参数或非参数法。 如如:用用寿寿命命表表估估计计期期望望寿寿命命;用用Kaplan-meierKaplan-meier法法求求生生存存率率,作作生生存存曲曲线线;用用logranklogrank检检验验等等作作不不同同组组别别生生存存过过程程差差异异的的显显著著检检验验,均均属非参数法。属非参数法。 3 3、由由于于Cox Cox 比比例例风风险险模模型型不不是是直直接接利利用用时时间间t t的的全全部部信信息息,而而只只是是利利用用了了时时间间t t所所提提供供的的顺顺序序统统计计量量的的信信息息,故故有有人人称称之之为为半半参参数数方方法。法。多元统计学多元统计学第二节第二节 Cox比例风险回归比例风险回归一模型结构:一模型结构:一模型结构:一模型结构: 设设有有n n名名病病人人,第第i i名名病病人人的的生生存存时时间间为为t ti i,同同时时该该病病人人具具有有一一组组伴伴随随变变量量x xi1i1,x,xi2i2,x,xi3i3, ,x,xipip。该该病病人人生生存存到到时时间间t ti i的的风风险险函函数数h hi i(t)(t)是是其其基基础础风风险险函函数数h h0 0(t)(t)与与相相应应伴伴随随变变量量的的函函数的乘积,写成数学表达式为数的乘积,写成数学表达式为 h hi i(t)=h(t)=h0 0(t)(t)exp(exp(1 1x xi1i1+ +p px xipip) ) 多元统计学多元统计学CoxCox证证实实伴伴随随变变量量的的函函数数具具有有指指数数形形式式,故故CoxCox的的比比例例风风险回归可写为险回归可写为 h hi i(t)=h(t)=h0 0(t)(t)exp(exp(1 1x xi1i1+ +p px xipip) 2-1) 2-1风风风风险险险险函函函函数数数数:表表示示一一个个生生存存到到时时间间t t的的病病人人,从从t t到到t+tt+t这一非常小的区间内死亡的概率极限。这一非常小的区间内死亡的概率极限。实实际际工工作作中中,h(t)h(t)可可用用在在时时间间区区间间(t ti i,t,ti+1i+1)内内的的死死亡亡人人数数对对该该区区间间开开始始时时的的病病人人数数之之比比来来估估计计。如如:表表1-11-1所示。所示。InhInhi i(t)/ h(t)/ h0 0(t)=(t)=1 1x xi1i1+ +p px xipip 2-2 2-2 相对风险度的自然对数值 的意义 多元统计学多元统计学二回归系数的估计方法: 危危险险集集(risk risk setset)的的意意义义:是是这这群群病病人人虽虽然然恰恰在在t ti i之之前前尚尚生生存,但处于危险之中,将在存,但处于危险之中,将在t ti i及以后陆续死亡(或失访)而退出。及以后陆续死亡(或失访)而退出。 CoxCox提提出出第第i i例例病病人人在在时时间间t ti i上上死死亡亡的的条条件件似似然然函函数数(或或称称偏偏似似然函数)然函数)l li i为:为:多元统计学多元统计学SR SR i i 表表示示所所有有属属于于危危险险集集R R i i中中的的病病人人。当当有有截截尾尾数数据据t ti i+ +时时,由由于于该该病病人人只只提提供供了了在在t ti i尚尚生生存存的的信信息息,而而不不知知道道他他以以后后的的确确切切死死亡亡时时间间。因因此此,其其只只能能包包含含在在R Ri i中,而不能直接构成其似然函数。中,而不能直接构成其似然函数。为为方方便便构构成成整整体体似似然然函函数数,用用指指示示变变量量来来定定义义R Ri i是是否否为完全数据,其赋值规则为:为完全数据,其赋值规则为:多元统计学多元统计学对全部对全部n n例病人的资料所构成的条件似然函数为:例病人的资料所构成的条件似然函数为:当当同同一一时时点点t ti i上上有有mimi(1 1)例例重重复复死死亡亡例例数数时时,BreslowBreslow建议采用下面的条件似然函数:建议采用下面的条件似然函数:多元统计学多元统计学三实例:多元统计学多元统计学一一名名有有巩巩固固治治疗疗的的病病人人(x x3 3=1=1)和和一一名名无无巩巩固固治治疗疗的的病病人人(x x3 3=0=0)相相比比,其相对危险度的计算是:其相对危险度的计算是:h hi i(t)/ h(t)/ h0 0(t)=expb(t)=expb3 3(1-0)=exp(-1.8870)=0.15(1-0)=exp(-1.8870)=0.15(倍倍) )x x2 2(淋巴结浸润)每增加一个等级,其相对危险度变为:(淋巴结浸润)每增加一个等级,其相对危险度变为:h hi i(t)/ h(t)/ h0 0(t)=exp(t)=exp(b b2 2)=exp(0.4998)=1.65(=exp(0.4998)=1.65(倍倍) )多元统计学多元统计学对于对于“5050例急性淋巴细胞白血病人的资料例急性淋巴细胞白血病人的资料”如将生存时间的赋值划为如将生存时间的赋值划为二分类变量,即二分类变量,即: :Y=1Y=1(生存一年以内)(生存一年以内) 0 0(生存一年以上)(生存一年以上)采用采用LogisticLogistic回归分析,结果如下:回归分析,结果如下:多元统计学多元统计学第三节第三节 应用比例风险模型的注意事项应用比例风险模型的注意事项1 1在在应应用用风风险险比比例例模模型型时时,允允许许有有“失失访访”或或“终终检检”现现象象,影影响响因因素素x x可可以以是是计计量量资资料料、计计数数资资料料或或等等级级资资料料。该模型可对多个因素及其交互项同时作分析。该模型可对多个因素及其交互项同时作分析。2 2比比例例风风险险模模型型中中的的h hi i(t)(t)及及h h0 0(t)(t)称称之之为为风风险险率率或或死死亡亡率率,该该指指标标可可以以是是多多种种,如如发发病病率率、转转化化率率等等相相对对指指标标。在数理统计上可统称为风险率或风险函数。在数理统计上可统称为风险率或风险函数。3 3以以比比例例风风险险模模型型作作分分析析时时,也也可可以以估估计计相相对对危危险险度度。某因素的相对危险度就是某因素的相对危险度就是e ei。多元统计学多元统计学谢谢!谢谢!多元统计学多元统计学
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号