危险度分析和Logistic回归-

危险度分析和危险度分析和LogisticLogistic回归回归第十七章第十七章上海第二医科大学生物统计教研室危险度分析和LOGISTIC回归主要用于研究影响肿瘤和其它各种疾病的发病因素或预后因素。一般的相对危险度计算通常用于单因素分析。 LOGISTIC回归可用于多因素分析。第十七章危险度分析和第十七章危险度分析和LogisticLogistic回归回归第一节第一节发病危险度比较的统计指标发病危险度比较的统计指标病因分析（或预后分析）的目的：找出影响疾病发生（或预后好坏）的原因及其影响的强度。如果某因素对疾病发生有影响,就称该因素与疾病发病有联系,而联系的强度则反映该因素对疾病发生影响的大小。危险度分析就是分析某因素对疾病发生是否有关，以及关系的大小。第一节第一节发病危险度比较的统计指标发病危险度比较的统计指标危险度（RISK）：通常指某个不幸事件发生的概率。危险度大表示发生的可能性大。某病发病危险度：就是观察对象在观察期间发生某病的概率,即某病发病率。研究发病危险度的统计指标常有相对危险度,特异危险度和人群特异危险度。一相对危险度一相对危险度相对危险度(relative risk)简记为RR,人群总体中暴露于某因素者的发病率P1与不暴露于某因素者的发病率P0之比值称为该因素对于该疾病发病的相对危险度,即: RR1时,表示该因素为危险因素,使发病危险度增大;RR2=6.635,故P0.01，拒绝H0,认为总体比数比不为1,患子宫内膜癌与绝经期使用过雌激素有关；并估计绝经期使用过雌激素的妇女患子宫内膜癌的相对危险度是不用者的3.71倍。病例对照研究优点：简单易行，不需长期随访，特别适用于研究发病率低的疾病。病例对照研究缺点：回顾性研究，从果到因，不合理，可靠性差。一成组病例对照研究一成组病例对照研究二分层分析二分层分析有时在分析某危险因素与疾病之间的关系时, 有些额外因素会对所分析的问题起干扰作用,这些额外因素就称为混杂因素。它能部分甚至全部掩盖危险因素与疾病之间的真实关系,故必须设法排除。例如要研究卫生状况与某传染病发病之间的关系,但传播可能与居住密度有关 ,故居住密度对所研究的问题就成为一个混杂因素,如果结论中未排除该因素之干扰,将影响推断之可靠性。以下这个假设例说明混杂因素所起的干扰作用,假定混杂因素分为2个水平(,)表17.3 混杂因素干扰的假设例混杂因素未分层混杂因素分层分析暴露非暴露暴露非暴露暴露非暴露病例 300 56 294 21 6 35 对照 700 944 606 79 94 865二分层分析二分层分析但将混杂因素分为两层后,层的分别仅为1.83,1.58。由此可见该混杂因素的干扰会导致不正确的推断。分层分析有助于克服混杂因素之干扰。分层分析(Stratified Analysis)是对可能的混杂因素(常常是性别,年龄,或其它有关条件)进行分层,使得每一层内混杂因素处于同一水平上,这样就可排除它的干扰。二分层分析二分层分析 K层22表统计分析步骤:以P323，例17.4为例，根据年龄分为5层（1）计算各层的比数比，作显著性检验。（2）检验各层的总体比数比是否相同。如差异有统计学意义，结束。（3）如差异无统计学意义，计算公共比数比。（4）检验公共比数比和1之间的差异是否有统计学意义。三配对病例对照研究三配对病例对照研究在成组病例对照研究中,为了排除混杂因素的干扰可以使用分层分析,但当可能的混杂因素较多时,所分层次就会很多,而且必须调查较大的样本, 否则各层中频数就会太小,这种情况有时会给工作带来困难,一个较好的控制混杂因素的办法就是配对病例对照研究(Paired Case-Contral Study)。本方法的基本点就是对每一名病例, 选择一名或数名各种控制因素与病例相近的非病例作为对照者,在调查一开始就把他们配成对 ,然后一对对地进行比较分析。这样做可以使各对内部保持均衡,尽可能排除或减少混杂因素的影响,从而提高分析的效能。配对因素可以是按属性分类的变量,如性别、民族、血型、职业、既往病史等,也可以是连续性变量,如年龄、血压、某种生理、生化指标等。三配对病例对照研究三配对病例对照研究 Logistic回归是一个较好的，目前常用的，控制混杂因素的多因素分析方法。多变量分析中使用的多元线性回归模型,应变量y常取为一个计量数据。 Logistic回归中y呈现为二值变量形式。如发病与不发病，死与活,成功与失败,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0，在SAS的logistic回归中最好记成1与2。Y=1：反应，如：发病，死亡，成功Y=2：不反应，如：不发病，存活，不成功第五节第五节 LogisticLogistic回归回归Y：反应变量（response variable)X: 协变量(covariate),解释(explanatory)变量，伴随变量等, X可以呈现二值变量的形式,也可以计量的或等级的指标。 logistic回归是一种概率模型。设P为Y呈现反应值为1的概率,P=P(Y=1)，则Q=1-P,为呈现非反应值的概率，Q=P(Y=2)。 P与各协变量Xi之间的关系可用下式表示。第五节第五节 LogisticLogistic回归回归发病的概率：P=exp(b0+b1x1+bmxm)/1+exp(b0+b1x1+bmxm)不发病的概率： Q=1-P=1/1+exp(b0+b1x1+bmxm) P/(1-P)=exp(b0+b1x1+bmxm)定义y=lnP/(1-P)为logit变换,它是比数的自然对数值,则有 y=lnp/(1-p)= b0+b1x1+bmxm 第五节第五节 LogisticLogistic回归回归 SAS的Logistic回归和多元回归一样，也可用逐步剔选的方法选择变量，使方程内变量都显著，方程外变量都不显著，称为逐步Logistic回归。 Logistic回归模型既适用于队列研究又适用于病例对照研究。第五节第五节 LogisticLogistic回归回归1. 在队列研究中用于预测把各协变量代入方程，得到P值，即发病的概率。2. 因素分析分析哪些因素（协变量）对疾病的发生有显著作用。对各偏回归系数作显著性检验，如显著，则说明在排除其它因素的影响后，该因素与发病有显著关系。 Logistic回归的应用3. 求各因素在排除其它因素的影响后，对于发病的相对危险度（或比数比）如某因素Xi的偏回归系数为bi，则该因素Xi对于发病的比数比为exp(bi)(1) 当Xi为二值变量时，如吸烟（1=吸，0=不吸） exp(bi)为吸烟对于发病的比数比Logistic回归的应用（2）当Xi为等级变量时，如吸烟（0=不吸，1=少量，2=中等，3=大量）。 exp(bi)为每增加一个等级，发病的相对危险度如大量对于不吸其发病的相对危险度为： exp(3bi)（3）当Xi为连续变量时，如年龄（岁） exp(bi)为每增加一岁时，发病的相对危险度如60岁相对于35岁其发病的相对危险度为exp(25bi)Logistic回归的应用4. 比较各因素对于发病的相对重要性比较各标准化偏回归系数bi 绝对值的大小，绝对值大的对发病的作用也大。5. 考察因素之间的交互作用如考察XL和XK之间的交互作用是否显著，再增加一各指标：XLK= XL*XK ，如其偏回归系数bLK显著，则XL和XK之间的交互作用显著。6. Logistic回归也可用于二类间的判别分析。Logistic回归的应用判别分类表判别分类表预测值观察值合计不治愈治愈不治愈 17 6 23 治愈 5 87 92 合计 22 93 115判别分类表判别分类表敏感性（Sensitivity）=实际不治愈病例中所预测不治愈比例 17/23=73.9%特异性（specificity）=实际治愈病例中所预测治愈比例 87/92=94.6%正确率（correct）=预测正确的病例数 / 总病例数（17+87）/ 115=90.4%假阳性率（false positive rate）=预测不治愈而实际治愈比例 5/22=22.7%假阴性率（false negative rate）=预测治愈而实际不治愈比例 6/93=6.5%由此可得LOGISTIC回归方程为： P/（1P）EXP（-17.96+3.63X5+1.60X6+1.91X7+2.57X8）方程内各偏回归系数都大于零，因此这些变量数值越大不治愈的概率越大。根尖X线片有阴影的，换药次数多的，根管充填不密合或超填的，医生经验不丰富的病人不容易治愈。对象和方法：1）一般的样本描述：样本来源，例数，死亡数，存活数。性别和年龄构成情况等。2）各指标含义及其数量化情况。X1A：胃癌位置是否胃底, 胃底=1, 非胃底=0。YY：手术后3年是否死亡，死亡=1，存活=0 。3）统计方法：用统计软件包进行数据处理和统计分析。单变量分析时，计数资料用卡方检验，或确切概率计算比较各水平的死亡率；计量资料用t检验比较死亡组和存活组的均数之差异。多变量分析用逐步LOGISTIC回归。以手术后3年是否死亡（YY）作为反应变量，其余指标为协变量。剔选变量的P值均取0.05。结果：1）单变量分析结果：如需详细给出结果，可对每个变量给出一个RC表或四格表，包含各水平的死亡率和各水平死亡率比较的P值；对于计量指标给出死亡组和存活组的例数，均数和标准差以及两均数差异显著性检验的P值。如只需给出简单结果，可仅给出对于是否死亡有显著作用的指标的情况。2）LOGISTIC回归结果：给出最后一步方程内变量的情况。指标偏回归系数标准误 P值标准偏回归系数常数项 -2.8770 2.0954 0.1697 .各指标的相对危险度：大体类型为浸润对于非浸润3年内死亡的相对危险度为： e胃癌深度级别每增加1级： e淋巴结转移级别每增加1级： e血色素每减少1g/L： e白细胞数每增加1000个/mm3：e0.386 从标准偏回归系数的绝对值大小可得：胃癌深度级别，淋巴结转移级别和血色素对于手术后3年生存率的影响较大，胃癌的大体类型和白细胞数淋巴结转移级别和血色素对于手术后3年生存率的影响较小。LOGISTIC回归方程为：y=ln(P/(1-P)= -2.8770+2.2844 大体类型为浸润 +1.0102 胃癌深度级别 +1.6321 淋巴结转移级别 -0.5764 血色素（g/L） +0.000386 白细胞数（个/mm3）用此LOGISTIC回归方程对于这98例样本进行回代判别，如P大于0.5判为死亡，P小于0.5判为存活，结果如下：回归方程判别结果实际情况死亡存活合计死亡 47 7 54 存活 9 35 44 合计 56 42 98敏感性（Sensitivity）=实际死亡病例中所预测死亡比例 47/54=87.0%特异性（specificity）=实际不死亡病例中所预测不死亡比例 35/44=79.5%正确率（correct）=预测正确的病例数 / 总病例数（47+35）/ 98=83.7%假阳性率（false positive rate）=预测死亡而实际不死亡比例 9/56=16.1%假阴性率（false negative rate）=预测不死亡而实际死亡比例 7/42=16.7%