暨南大学研究生课程医学统计学16-logistic回归-

第十六章第十六章 logistic回归分析回归分析暨南大学医学院医学统计教研室暨南大学医学院医学统计教研室林汉生林汉生内容内容logistic 回归的概念回归的概念应用举例应用举例预备知识：预备知识：OR值与值与RR值值logistic回归对资料的要求回归对资料的要求模型的建立与变量筛选模型的建立与变量筛选logistic回归分析的结果表达回归分析的结果表达logistic回归应用的本卷须知回归应用的本卷须知logistic回归的应用回归的应用logistic回归的种类回归的种类logistic回归分析资料主要来源回归分析资料主要来源一、一、logistic 回归的概念回归的概念在医学研究中经常遇到应变量为二项分在医学研究中经常遇到应变量为二项分类的资料，如治愈与未愈、生存与死亡、类的资料，如治愈与未愈、生存与死亡、发病与未发病等，可以概括为发病与未发病等，可以概括为阳性与阴阳性与阴性两种互斥的结果性两种互斥的结果，同时可能存在，同时可能存在对分对分类结果发生概率产生影响的因素即自变类结果发生概率产生影响的因素即自变量量。研究研究1个二分类观察结果与多个影响因素个二分类观察结果与多个影响因素之间关系的多变量分析方法。之间关系的多变量分析方法。二、应用举例二、应用举例探讨疾病发生的危险因素、筛选与探讨疾病发生的危险因素、筛选与疾病预后有关的因素、综合多个指标进疾病预后有关的因素、综合多个指标进行诊断试验，等。如：行诊断试验，等。如：非胰岛素依赖型糖尿病的危险因素分析非胰岛素依赖型糖尿病的危险因素分析301例急性心肌梗死病人急性期预后因素例急性心肌梗死病人急性期预后因素的的logistic模型分析模型分析运动试验运动试验logistic回归分析对冠心病的诊回归分析对冠心病的诊断价值断价值三、预备知识：三、预备知识：OR值与值与RR值值预备知识：预备知识：OR值值OR值值odds ratio:比值比或优势比比值比或优势比比值比值 odds 是指某事物发生的概率与不发是指某事物发生的概率与不发生的概率之比。病例组和对照组有暴露史与无生的概率之比。病例组和对照组有暴露史与无暴露史的概率分别为暴露史的概率分别为: a / (a+b), b/(a+b) a / b c / (c+d), d / (c+d) c / d OR= a / b/ c / d =ad/bc = 76 44/ 10 40出生时有窒息缺氧史儿童，发生低智的危险出生时有窒息缺氧史儿童，发生低智的危险是对照儿童的倍要经过假设检验。是对照儿童的倍要经过假设检验。OR值与值与RR值值RRrelative risk：暴露人群发病率：暴露人群发病率P(1)与非与非暴露人群发病率暴露人群发病率P(0)之比。当之比。当P(1)和和 P(0)都很都很小时，小时，OR值接近值接近RR值。值。RR1:说明暴露越多，发病越多，可能是致病说明暴露越多，发病越多，可能是致病因素；因素；RR1：说明暴露越少，发病越少，可能是抑制：说明暴露越少，发病越少，可能是抑制发病因素。发病因素。四、四、 logistic回归对资料的要求回归对资料的要求Y 取值：取值：0，1X1，X2，X3，Xm的取值：计数、计的取值：计数、计量和等级资料。量和等级资料。五、模型的建立与变量筛选五、模型的建立与变量筛选将回归效果显著的自变量选入模型，不将回归效果显著的自变量选入模型，不显著的自变量那么排除在模型外，使建显著的自变量那么排除在模型外，使建立的模型比较稳定和便于解释。立的模型比较稳定和便于解释。?实习指导实习指导?例题例题例例某研究人员在探讨肾细胞癌转移的有某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中，收集了一批行关临床病理因素研究中，收集了一批行根治性肾切除患者的肾癌标本资料，现根治性肾切除患者的肾癌标本资料，现从中抽取从中抽取26例资料作为例如进行例资料作为例如进行logistic回归分析。回归分析。有关符号意义说明如下有关符号意义说明如下i:标本序号标本序号x1 :确诊时患者年龄确诊时患者年龄x2 :肾细胞血管内皮生长因子，分肾细胞血管内皮生长因子，分3个等级个等级x3 :肾细胞癌组织内微血管数肾细胞癌组织内微血管数x4 :肾癌细胞核组织学分级，分肾癌细胞核组织学分级，分4级级x5 :肾细胞癌分期，分肾细胞癌分期，分4期期y :肾细胞癌转移情况肾细胞癌转移情况1转移；转移；0无转移无转移1. SPSS的数据工作表的数据工作表2. SPSS的操作步骤的操作步骤Analyze Regression Binary LogisticLogistic regression 对话框对话框将将Y选入选入Dependent栏，栏，X1 X5选入选入Covariate栏，选择栏，选择Forward:LR法。法。单击单击Options按钮。按钮。Options对话框对话框单击单击Continue按钮按钮单击单击OK按钮按钮3. SPSS的结果与分析的结果与分析1数据根本情况数据根本情况数据根本情况为数据根本情况为26例纳入分析，没有缺失值例纳入分析，没有缺失值 20步时的分析结果步时的分析结果变量筛选第变量筛选第0步的步的Score检验结果，可作为单变量检验结果，可作为单变量logistic回归分析的结果。如进行单变量回归分析的结果。如进行单变量logistic回归分回归分析，在析，在水准，变量水准，变量X2、X4和和X5有统计学意义。有统计学意义。 3拟合优度用决定系数拟合优度用决定系数R2描述描述4分类表：只有分类表：只有1个分错类，个分错类，即观察值为即观察值为0类，而预测值为类，而预测值为1类类Y的观察值和预测值的符合情况：观测值为的观察值和预测值的符合情况：观测值为0时肾时肾癌未转移，预测的准确率为癌未转移，预测的准确率为94.1%；观测值为；观测值为1时时肾癌转移，预测的准确率为肾癌转移，预测的准确率为100.0%；总的预测；总的预测准确率为准确率为96.2%。该指标可以评价。该指标可以评价logistic模型的拟模型的拟合优度。合优度。 5模型中的变量模型中的变量B：回归系数。当其他变量保持不变时，：回归系数。当其他变量保持不变时，Xj每增加每增加或减少或减少1个单位时，个单位时，OR值自然对数的平均变化量。值自然对数的平均变化量。Exp (B)：OR值经校正的，或调整的值经校正的，或调整的OR值，值，adjusted odds ratioSE：回归系数的标准误：回归系数的标准误Wald值：对回归系数进行假设检验的统计量值：对回归系数进行假设检验的统计量最重要的结果最重要的结果选入模型的变量：选入模型的变量：X2和和X4的的OR值都大于值都大于1，故等，故等级越高，肾癌转移的风险越大。级越高，肾癌转移的风险越大。总体总体OR值的值的95%可信区间太宽，提例如数太少可信区间太宽，提例如数太少。可以将可以将X2和和X4的取值代入下式，计算肾癌转移的的取值代入下式，计算肾癌转移的可能性。判断的截断点默认为，大于，那么预测为可能性。判断的截断点默认为，大于，那么预测为肾癌转移分类表中的结果。肾癌转移分类表中的结果。6未引入模型的变量未引入模型的变量没有引入模型的变量，最小的没有引入模型的变量，最小的P值为。即使将值为。即使将引入变量的检验水准放宽到，也不能引入新引入变量的检验水准放宽到，也不能引入新变量。变量。多因素多因素logistic回归分析结果回归分析结果影响影响因素因素回归回归系数系数回归系数回归系数标准误标准误Wald统计量统计量P值值OR值值OR95%CIX22.4131.1964.0720.04411.171.07116.44X42.0961.0883.7130.0548.140.9768.62该表可以改进吗？表表1 肾细胞癌转移的多因素肾细胞癌转移的多因素logistic回归分析回归分析影响因素影响因素OR值值P 值值OR 95% CI肾细胞血管内皮生长因子肾细胞血管内皮生长因子11.170.0441.07116.44肾癌细胞核组织学分级肾癌细胞核组织学分级8.140.0540.97 68.62影响因素影响因素OR值（值（95CI）P 值值肾细胞血管内皮生长因子肾细胞血管内皮生长因子11.17 （1.07116.44）0.044肾癌细胞核组织学分级肾癌细胞核组织学分级 8.14 （ 0.97 68.62 ）0.054表表1 肾细胞癌转移的多因素肾细胞癌转移的多因素logistic回归分析回归分析小结小结用多因素用多因素logistic回归分析的似然比前进法筛回归分析的似然比前进法筛选变量，引入变量的检验水准为选变量，引入变量的检验水准为。在所研。在所研究的究的5个有关临床病理因素中，入选模型的个有关临床病理因素中，入选模型的因素有因素有2个：肾细胞血管内皮生长因子表达个：肾细胞血管内皮生长因子表达等级是肾细胞癌转移的危险因素经校正的等级是肾细胞癌转移的危险因素经校正的OR值为，值为，95% CI为为，P；肾癌细胞核组；肾癌细胞核组织学分级也是肾细胞癌转移的危险因素经织学分级也是肾细胞癌转移的危险因素经校正的校正的OR值为，值为，95% CI为为，P=0.054 。六、六、logistic回归分析的结果表达回归分析的结果表达赋值表赋值表单因素分析单因素分析多因素分析多因素分析例例:16-2P339为了探讨冠心病发生的有关危险因素，为了探讨冠心病发生的有关危险因素，对对26例冠心病病人和例冠心病病人和28例对照者进行病例对照者进行病例对照研究，各因素的说明及资料见表。例对照研究，各因素的说明及资料见表。试用试用logistic回归分析方法筛选危险因素。回归分析方法筛选危险因素。冠心病危险因素的病例对照调查资料冠心病危险因素的病例对照调查资料表表1 冠心病的相关因素与赋值冠心病的相关因素与赋值相关因素相关因素变量名变量名赋值说明赋值说明年龄（岁）年龄（岁）X140=1,4554=2,5564=3,65=4高血压史高血压史X2无无0，有，有1高血压史家族史高血压史家族史 X3无无0，有，有1吸烟吸烟X4不吸不吸0，吸，吸1高血脂史高血脂史X5无无0，有，有1动物脂肪摄入动物脂肪摄入X6低低0，高，高1体重指数体重指数X724=1, 24=2, 26=3A型性格型性格X8否否0 ，是，是1冠心病冠心病Y对照对照0，病例，病例1一相关因素与赋值一相关因素与赋值二单因素分析二单因素分析单独分析每个自变量单独分析每个自变量X与应变量与应变量Y是否有是否有关联。检验水准可以放宽到。对单因素关联。检验水准可以放宽到。对单因素有统计学意义的变量，进行多因素有统计学意义的变量，进行多因素logistic回归分析。回归分析。当某个自变量有缺失值时，不影响对其当某个自变量有缺失值时，不影响对其它自变量进行分析。它自变量进行分析。可以分析每个自变量与应变量的关联可以分析每个自变量与应变量的关联对自变量进行初步筛选，为多因素分析对自变量进行初步筛选，为多因素分析做准备。当例数较少，而自变量较多，做准备。当例数较少，而自变量较多，缺失值较多时，初步筛选更有必要。缺失值较多时，初步筛选更有必要。单因素分析方法单因素分析方法无序分类资料：卡方检验无序分类资料：卡方检验有序分类资料：卡方检验中的线性趋势有序分类资料：卡方检验中的线性趋势检验检验计量资料：计量资料：t检验检验每次引入每次引入1个自变量进行个自变量进行logistic回归分析回归分析任意类型资料任意类型资料当缺失值没有或很少时，逐步多因素当缺失值没有或很少时，逐步多因素logistic回归回归0步时的分析结果任意类型步时的分析结果任意类型资料资料1. 卡方检验卡方检验Y Column (s)Chi-square卡方检验卡方检验Risk 求求OR值或值或RR值值列联表及列联表及行行百分数百分数8个变量，例数个变量，例数54，无缺失值，无缺失值年龄：等级资料；病例组与对照年龄：等级资料；病例组与对照组的年龄构成组的年龄构成线性趋势检验：年龄与冠心病的发病呈线线性趋势检验：年龄与冠心病的发病呈线性关系性关系 2，P等级资料，不能计算等级资料，不能计算OR值值A型性格型性格与与冠心病冠心病 2，P0.009OR=4.85 (1.42, 16.51)表中的因素都是表中的因素都是2分类变量分类变量如果是计量资料，那么百分率改如果是计量资料，那么百分率改为为， 2 改为改为t2. 每次引入每次引入1个自变量进行个自变量进行logistic回归分析回归分析OR为为4.85, 95% CI为为Score统计量的结果与卡方检验一致统计量的结果与卡方检验一致Wald统计量的结果与卡方检验很接近统计量的结果与卡方检验很接近3. 当缺失值没有或很少时，逐步多因当缺失值没有或很少时，逐步多因素素logistic回归回归0步时的分析结果步时的分析结果结果结果没有缺失值没有缺失值Score统计量的结果与卡方检验一统计量的结果与卡方检验一致无缺失值的情况下致无缺失值的情况下三多因素分析三多因素分析筛选独立的自变量进入模型筛选独立的自变量进入模型例如，动物脂肪摄入和体重指数在单因例如，动物脂肪摄入和体重指数在单因素分析都有统计学意义，但多因素分析素分析都有统计学意义，但多因素分析时，只有动物脂肪摄入这个因素被引入时，只有动物脂肪摄入这个因素被引入模型。说明动物脂肪摄入与体重指数可模型。说明动物脂肪摄入与体重指数可能有联系，动物脂肪摄入提供的信息取能有联系，动物脂肪摄入提供的信息取代了体重指数。代了体重指数。多因素多因素logistic回归分析结果回归分析结果结果简洁清楚结果简洁清楚七、七、logistic回归应用的本卷须知回归应用的本卷须知危险因素分析危险因素分析时，将计量指标转变为等时，将计量指标转变为等级或二分类指标如年龄，肿瘤转移的淋级或二分类指标如年龄，肿瘤转移的淋巴结个数，使巴结个数，使OR值的实际意义明确。值的实际意义明确。无序分类变量的赋值方法：哑变量无序分类变量的赋值方法：哑变量样本含量：经验上，病例和对照的人数应样本含量：经验上，病例和对照的人数应至少各有至少各有3050例。例。SPSS中哑变量的设置中哑变量的设置Categorical按钮的使用按钮的使用例例P 352 1352名少年儿童肥胖症危险因素调查资料名少年儿童肥胖症危险因素调查资料肥胖症：无；有根据体重指数肥胖症：无；有根据体重指数BMI划分划分性别：男；女性别：男；女年龄组：年龄组：7-9岁；岁；10-12岁；岁；13-15岁；岁；16岁及岁及以上以上胆固醇：低；高胆固醇：低；高甘油三脂：低；高甘油三脂：低；高数据文件数据文件多因素多因素logistic回归分析回归分析年龄的年龄的OR值为，什么含义？值为，什么含义？Crosstab：肥胖发生风险并非随年龄增加：肥胖发生风险并非随年龄增加而减少。可以而减少。可以79岁年龄组为参照岁年龄组为参照79岁年龄组为参照：岁年龄组为参照：单击单击Categorical选择：选择：First (1： 79岁年龄组岁年龄组)单击单击Change，单击，单击Continue单击单击OK哑变量自动生成哑变量自动生成Frequency是分层的数目，总共有是分层的数目，总共有64层，其中有层，其中有7层的例数为层的例数为0结果解释结果解释年龄的参照组为年龄的参照组为79岁岁年龄组年龄组(1)的的OR值为，值为，P。即在校正了。即在校正了其它因素后，其它因素后， 1012岁儿童患肥胖症的风岁儿童患肥胖症的风险是险是79岁儿童的倍。岁儿童的倍。1315岁和岁和16岁及以上儿童患肥胖症的风岁及以上儿童患肥胖症的风险与险与79岁儿童比较，差异无统计学意义。岁儿童比较，差异无统计学意义。性别的性别的OR值为？值为？1:男性；男性；2:女性女性甘油三酯的甘油三酯的OR值为？值为？ 1:低；低；2:高高是每个年龄组都是是每个年龄组都是男性肥胖率高于女性吗？男性肥胖率高于女性吗？八、八、logistic回归的应用回归的应用筛选疾病预后或发生的有关因素筛选疾病预后或发生的有关因素诊断模型的建立诊断模型的建立校正混杂因素校正混杂因素如临床试验数据分析：当评价指标为二值如临床试验数据分析：当评价指标为二值变量有效，无效，非处理因素在试验组变量有效，无效，非处理因素在试验组和对照组中分布可能不均衡时。可以利用和对照组中分布可能不均衡时。可以利用logistic回归分析得到调整后的药物评价结果。回归分析得到调整后的药物评价结果。 Y group 年龄年龄病病情情0无效；无效；1有效有效 (1常规疗法；常规疗法；2新疗法新疗法不均衡不均衡九、九、logistic回归的种类回归的种类非条件非条件logistic回归分析：简称回归分析：简称logistic回归分回归分析，即前面介绍的内容，应用最广泛。析，即前面介绍的内容，应用最广泛。条件条件logistic回归分析：为消除混杂因素对研回归分析：为消除混杂因素对研究结果的影响，对每究结果的影响，对每1例病人选择例病人选择1至数例在至数例在混杂因素的暴露水平上相一致的，符合研究混杂因素的暴露水平上相一致的，符合研究条件的，未患病的人作为对照，共同组成一条件的，未患病的人作为对照，共同组成一个匹配组。统计分析按匹配组进行。个匹配组。统计分析按匹配组进行。多项分类多项分类Logistic回归分析回归分析有序多分类有序多分类Logistic回归分析回归分析十、十、Logistic回归分析回归分析资料主要来源资料主要来源回忆性资料研究开始前病历等资料已经存在，回忆性资料研究开始前病历等资料已经存在，但可能不完整但可能不完整前瞻性资料可按设计要求收集临床和实验室数前瞻性资料可按设计要求收集临床和实验室数据据现况研究横断面研究：在某一特定人群中，调现况研究横断面研究：在某一特定人群中，调查收集特定时间内某种疾病的患病情况及其有关查收集特定时间内某种疾病的患病情况及其有关因素：如因素：如“医学高校知识分子高血压及相关危医学高校知识分子高血压及相关危险因素险因素Logistic分析；分析；“山西省居民高血压患病山西省居民高血压患病情况及危险因素调查情况及危险因素调查病例对照研究：如病例对照研究：如“山东省大肠癌影响因素病例山东省大肠癌影响因素病例对照研究，对照研究，“宫颈癌危险因素的病例对照研究宫颈癌危险因素的病例对照研究罕见疾病的病因研究罕见疾病的病因研究作业作业简答题简答题P350：1，2，3，4，5上机练习：实习十八上机练习：实习十八 logistic 回归回归P339 例例16-2