资源预览内容
第1页 / 共61页
第2页 / 共61页
第3页 / 共61页
第4页 / 共61页
第5页 / 共61页
第6页 / 共61页
第7页 / 共61页
第8页 / 共61页
第9页 / 共61页
第10页 / 共61页
亲,该文档总共61页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
线性相关与回归线性相关与回归 直直直直线线相关相关相关相关 相关系数相关系数相关系数相关系数 样样本相关系数的本相关系数的本相关系数的本相关系数的计计算算算算 相关系数的假相关系数的假相关系数的假相关系数的假设检验设检验 总总体相关系数体相关系数体相关系数体相关系数 的区的区的区的区间间估估估估计计 运用相关系数运用相关系数运用相关系数运用相关系数时应时应留留留留意的意的意的意的问题问题 直线回归直线回归直线回归直线回归 建立直线回归方程的根本原建立直线回归方程的根本原建立直线回归方程的根本原建立直线回归方程的根本原理理理理 建立直线回归方程的步骤建立直线回归方程的步骤建立直线回归方程的步骤建立直线回归方程的步骤回归系数的假设检验回归系数的假设检验回归系数的假设检验回归系数的假设检验 直线回归方程的用途直线回归方程的用途直线回归方程的用途直线回归方程的用途 等级相关等级相关等级相关等级相关 曲线回归曲线回归曲线回归曲线回归 直线相关直线相关 直线相关直线相关 称简单相关。用于研讨两个随机变称简单相关。用于研讨两个随机变量与之间相关关系及亲密程度。适量与之间相关关系及亲密程度。适用于双变量正态分布用于双变量正态分布(bivariate (bivariate normal distribution)normal distribution)资料。两变量资料。两变量X X、Y Y间的相关关系可用散点图直观阐明,间的相关关系可用散点图直观阐明,而相关分析就是用相关系数对这种关系而相关分析就是用相关系数对这种关系给以定量的描画。给以定量的描画。 相关系数相关系数 直直线相关系数又称相关系数又称积差相关系数差相关系数(coefficient of product-moment (coefficient of product-moment correlation)correlation),简称相关系数。称相关系数。创用于用于F.Y.Edgeworth(1892)F.Y.Edgeworth(1892),样本相关系数本相关系数用用r r表示,表示,总体相关系数用体相关系数用表示。表示。 样本相关系数的计算样本相关系数的计算 相关系数的计算公式为:相关系数的计算公式为: 例例9-19-1测得某地岁儿童测得某地岁儿童1010人的人的体重体重(kg)(kg)与体外表积与体外表积(103cm2)(103cm2)资料见下资料见下表,试以此样本资料计算体重与体外表表,试以此样本资料计算体重与体外表积的相关系数。积的相关系数。 相关系数的假相关系数的假设检验 根据根据样本本计算出的相关系数算出的相关系数r r,是,是总体相关系数体相关系数的估的估计值。从。从=0=0无无直直线相关的相关的总体中抽取体中抽取样本,其本,其r r不不一定一定为0 0。因此,得到。因此,得到r0r0后,由于存后,由于存在抽在抽样误差,那么有必要差,那么有必要检验r r能否来能否来自自=0=0的的总体,以断定两体,以断定两变量量间能否有能否有直直线相关关系。相关关系。 在在进展假展假设检验时,无效假,无效假设H0H0为:=0,=0,即两即两变量量间无直无直线相关关系;相关关系;备择假假设H1H1为:00,两,两变量量间有直有直线相关关系。常用的假相关关系。常用的假设检验方法是方法是t t检验,检验统计量量t t值的的计算公式如下:算公式如下: 例例9-2 9-2 就例就例9-19-1资料,问某地资料,问某地4 4岁岁儿童体重与体外表积间能否有直线关系儿童体重与体外表积间能否有直线关系?H0H0:0 0,两,两变变量量间间无直无直线线相关关系;相关关系;H1H1:00,两,两变变量量间间有直有直线线相关关系。相关关系。0.050.05。 本例本例n=10,r=0.9579,n=10,r=0.9579,按下式按下式计算算t t值: 查附表附表(t(t界界值表表) ),得,得P P0.001,0.001,按按=0.05=0.05水准回水准回绝H0H0,接受,接受H1H1,故可以以,故可以以为某地某地4 4岁儿童体重与体外表儿童体重与体外表积呈耿直呈耿直线相关关系。相关关系。 同样地,也可按同样地,也可按=n-2=n-2直接查直接查 (r (r界界值表值表) )求求P P值。值。 由于由于 , ,所以,结论同所以,结论同t t检检验验 P P0.0010.001 总体相关系数体相关系数的区的区间估估计 总体相关系数体相关系数00时,从,从这样的的总体中抽体中抽样计算出的算出的样本相关系数本相关系数r r不不服从正服从正态分布,此分布,此时,假,假设对r r按下式按下式作作Z Z变换反双曲正切反双曲正切变换,那么,那么Z Z近近似服从似服从规范差范差为 的正的正态分布。故可分布。故可以按正以按正态分布原理求出分布原理求出Z Z的的1-1-可信区可信区间,再,再对Z Z的可信区的可信区间作反作反变换双曲双曲正切正切变换得得总体相关系数体相关系数的的1-1-可可信区信区间。 反双曲正切变换:反双曲正切变换: 或或 Z Z的的1-1-可信区可信区间计间计算公式:算公式: 缩缩写写 的的1-1-可信区可信区间计间计算公式:算公式: 缩缩写写 例例9-3 9-3 已求得某地已求得某地4 4岁儿童岁儿童1010人人的体重与体外表积的相关系数即样的体重与体外表积的相关系数即样本相关系数,本相关系数,r=0.9579r=0.9579,求总体相,求总体相关系数即某地关系数即某地4 4岁儿童的体重与体外岁儿童的体重与体外表积的相关系数的表积的相关系数的95%95%的可信区间。的可信区间。 Z Z的的95%95%可信区可信区间为间为: 的的1-1-可信区可信区间为间为: 所以求得所以求得的的95%95%可信区可信区间为间为 0.8271,0.99030.8271,0.9903 ,其,其统计统计学意学意义为义为按按95%95%的可信程度得到的的可信程度得到的总总体相关系数能体相关系数能够够存在的一个范存在的一个范围围。运用相关系数时应留意的问题运用相关系数时应留意的问题 1 1样本相关系数与本相关系数与总体相关系数体相关系数间存在抽存在抽样误差,所以求得差,所以求得样本相关系本相关系数后数后应进展假展假设检验。 2 2有相关关系不等于因果关系。有相关关系不等于因果关系。有无因果关系有无因果关系还需需结合合专业知知识进一步一步研研讨。 3 3在在实践任践任务中要区中要区别相关的相关的统计学意学意义与相关与相关强度。相关有度。相关有统计学意学意义指指该样本相关系数本相关系数r r来自来自=0=0的的总体体概率很小,而相关概率很小,而相关强度表示两度表示两变量量间相相互关系的互关系的亲密程度,用密程度,用值的大小来反映。的大小来反映。直线回归直线回归 直线回归直线回归 直线回归分析是研讨两变量直线回归分析是研讨两变量X X、Y Y数量数量上线性依存关系的一种统计分析方法。它上线性依存关系的一种统计分析方法。它要求应变量要求应变量Y Y服从正态分布;自变量服从正态分布;自变量X X是一是一个可以准确丈量和严厉控制的变量,也可个可以准确丈量和严厉控制的变量,也可以是一个服从正态分布的变量。直线回归以是一个服从正态分布的变量。直线回归分析的义务就是求解分析的义务就是求解X X、Y Y变量的回归方程,变量的回归方程,并用此方程来反映并用此方程来反映X X、Y Y两变量的线性依存两变量的线性依存关系。关系。 建立直线回归方程的根本原理建立直线回归方程的根本原理 在散点图中可以想象出无数条直线在散点图中可以想象出无数条直线代表这些点的直线趋势,但是在这些直代表这些点的直线趋势,但是在这些直线中,我们希望找出一条最具代表性的线中,我们希望找出一条最具代表性的直线,假设有一条直线它满足散点图上直线,假设有一条直线它满足散点图上的每一点到该直线的纵向间隔的平方和的每一点到该直线的纵向间隔的平方和最小即最小此即数学上的最小二乘法最小即最小此即数学上的最小二乘法原理这样一个条件,那么我们以为这原理这样一个条件,那么我们以为这样一条直线是最有代表性的。该直线回样一条直线是最有代表性的。该直线回归方程的表达式为:归方程的表达式为: 式中式中X X为自变量,读为自变量,读hathat为应变为应变量量Y Y的估计值。的估计值。a a为直线在为直线在Y Y轴上的截距,轴上的截距,即即X=0X=0时的值。时的值。b b为直线的斜率,称为回为直线的斜率,称为回归系数,表示归系数,表示X X变动一个单位时,变动一个单位时, 平均平均变动的单位数。变动的单位数。 在满足最小二乘法原理,即在满足最小二乘法原理,即 最小的前提下,用微积分学知识可推最小的前提下,用微积分学知识可推出出a a、b b的计算公式为:的计算公式为: 建立直线回归方程的步骤建立直线回归方程的步骤 1 1用实测数据绘制散点图用实测数据绘制散点图 2 2计算回归系数计算回归系数b b与截距与截距a a, 下面以例下面以例9-19-1资料阐明建立直线回资料阐明建立直线回归方程的详细步骤:归方程的详细步骤: 过点过点(12(12,5.3832)5.3832)与与(15(15,6.0990)6.0990)可在直角坐标系上作直线。假设纵坐标、可在直角坐标系上作直线。假设纵坐标、横坐标无折断时,将此直线左端延伸与横坐标无折断时,将此直线左端延伸与纵轴相交,交点的纵坐标必然等于截距纵轴相交,交点的纵坐标必然等于截距a a,同时所绘直线必然经过,同时所绘直线必然经过 。这。这两点可以用来核对直线绘制能否正确。两点可以用来核对直线绘制能否正确。 回回归系数的假系数的假设检验 样本回本回归系数系数b b是是总体回体回归系数系数的估的估计值。从。从=0=0无直无直线回回归关系关系的的总体中抽取体中抽取样本,由于存在抽本,由于存在抽样误差,差,其其b b不一定等于不一定等于0 0。因此,得到。因此,得到b0b0后,后,必需必需检验b b能否来自能否来自=0=0的的总体,以断体,以断定两定两变量量间能否存在直能否存在直线回回归关系。关系。 回归系数的假设检验常用回归系数的假设检验常用t t检验,检验,检验统计量值的计算公式为:检验统计量值的计算公式为: 仍以例仍以例9-19-1资料阐明建立直线回归资料阐明建立直线回归方程后对回归系数的假设检验步骤:方程后对回归系数的假设检验步骤: 根据对例根据对例9-19-1资料进展回归分析的资料进展回归分析的结果可得到如下数据:结果可得到如下数据:1建立检验假设并确定检验水准H0:0,即体重与体外表积间无直线回归关系;H1:0,即体重与体外表积间有直线回归关系。=0.05。2.计算检验统计量计算检验统计量 3.确定P值,作出推断结论查附表(t界值表):由于,,故P0.001,所以按=0.05水准回绝H0,接受H1。阐明体重与体外表积间存在直线回归关系。这里值得留意的是:对同一资料,相关系数与回归系数的假设检验是等价的,即。 直线回归方程的用途直线回归方程的用途 1 1两变量间存在直线关系时,直两变量间存在直线关系时,直线方程可定量地描画两变量间的线性线方程可定量地描画两变量间的线性依存关系。依存关系。 2 2根据直线回归方程由知变量值根据直线回归方程由知变量值估计未知变量值:如统计预测。估计未知变量值:如统计预测。 运用直线回归方程时应留意的问题运用直线回归方程时应留意的问题 1 1求出样本资料的直线回归方程求出样本资料的直线回归方程后应进展假设检验。后应进展假设检验。 2 2运用直线回归方程时,要留意运用直线回归方程时,要留意方程只适用于自变量方程只适用于自变量X X的样本数据动摇的样本数据动摇范围,不能任不测延其运用范围。范围,不能任不测延其运用范围。等级相关等级相关 等等级相关相关 第一第一节引引见的的积差相关系数适用于差相关系数适用于双双变量正量正态分布的分布的资料,但有料,但有时其中一其中一个甚至两个个甚至两个变量都不服从正量都不服从正态分布,分布,这时需用非参数相关分析方法。需用非参数相关分析方法。 本本节引引见由由spearmanspearman提出的秩相提出的秩相关分析方法。本方法适用于以下情况:关分析方法。本方法适用于以下情况: 不服从双不服从双变量正量正态分布而不宜分布而不宜作作积差相关分析的差相关分析的资料;料; 总体分布体分布类型未知的型未知的资料;料; 原始数据是按等原始数据是按等级分分类的的资料。料。 例例9-2 9-2 某医院调查了某医院调查了1212例病人的例病人的血小板浓度和出血病症两方面的资料,血小板浓度和出血病症两方面的资料,试以此样本资料计算秩相关系数。试以此样本资料计算秩相关系数。 表中出血病症是按等级分类的资表中出血病症是按等级分类的资料,称为等级资料,所以应采用秩相料,称为等级资料,所以应采用秩相关系数来描画血小板浓度与出血病症关系数来描画血小板浓度与出血病症之间的关系。之间的关系。 本资料中出血病症这一变量一样本资料中出血病症这一变量一样秩次较多,有秩次较多,有1111个,占总察看病例数个,占总察看病例数的的91.7%(11/12)91.7%(11/12)。秩相关系数计算步。秩相关系数计算步骤为:骤为: 假假设一一样秩次秩次总数不多于察看数不多于察看总例数的例数的25%25%,可以采用,可以采用简易公式易公式计算秩算秩相关系数,此相关系数,此时,要,要计算出算出 di2di2,本例,本例已已计算出,算出,计算算过程及程及结果果见表表9-29-2第第7 7和第和第8 8列,列,=402.5=402.5,n=12n=12。代。代入入简易公式式即可易公式式即可计算出秩相关系数算出秩相关系数=1-6402.5/(123-12)=-0.4073=1-6402.5/(123-12)=-0.4073, 此例简易公式计算出的秩相关系数此例简易公式计算出的秩相关系数的绝对值明显小于校正式计算值,这是的绝对值明显小于校正式计算值,这是由于本例一样秩次总数太多多于由于本例一样秩次总数太多多于25%25%所致,所以对一样秩次出现次数较多所致,所以对一样秩次出现次数较多的资料,计算秩相关系数时勿必用简易的资料,计算秩相关系数时勿必用简易公式计算,以免产生较大的误差。公式计算,以免产生较大的误差。 曲线回归曲线回归 曲线回归在医学研讨中经常遇到两变量间不呈直线关系的资料,所以我们就无法直接运用直线回归分析来研讨这种类型的资料;但是,我们可以经过适当的变量变换,使不呈直线关系的资料直线化rectification。曲线直线化扩展了直线回归的运用范围, 1 1曲线拟合曲线拟合curve fittingcurve fitting 曲线直线化是曲线拟合的重要手曲线直线化是曲线拟合的重要手段之一。对于某些非线性资料,可经过段之一。对于某些非线性资料,可经过适当的变量变换使之直线化,用直线回适当的变量变换使之直线化,用直线回归分析方法求出归分析方法求出a a、b b的大小,再复原为的大小,再复原为原始变量,即可得到拟合的曲线方程。原始变量,即可得到拟合的曲线方程。 2 2直接运用变量变换后的直线直接运用变量变换后的直线回归回归 在卫生检验任务中,假设两变量在卫生检验任务中,假设两变量呈曲线趋势,常对变量进展变量变换呈曲线趋势,常对变量进展变量变换使之直线化,然后求出新变量的直线使之直线化,然后求出新变量的直线化回归方程,绘制规范曲线任务曲化回归方程,绘制规范曲线任务曲线,直接用于指点实际。线,直接用于指点实际。 曲线拟合步骤曲线拟合步骤 选定曲线类型选定曲线类型 变量变换变量变换 按最小二乘法原理求直线化方程按最小二乘法原理求直线化方程将直线化的方程转换为曲线方程,作将直线化的方程转换为曲线方程,作曲线图。曲线图。 选定曲线类型选定曲线类型 先在坐标纸上绘制散点图,结合先在坐标纸上绘制散点图,结合专业知识选取恰当的曲线类型。比如专业知识选取恰当的曲线类型。比如两变量间当变量两变量间当变量X X自变量增大,自变量增大,Y Y应变量随之增大或减少得越应变量随之增大或减少得越来越快。这时可拟合指数曲线或对数来越快。这时可拟合指数曲线或对数曲线。曲线。 变量变换变量变换 假设曲线类型是指数曲线,只须假设曲线类型是指数曲线,只须对对Y Y进展对数变换;假设曲线类型是对进展对数变换;假设曲线类型是对数曲线,只须对数曲线,只须对X X进展取对数变换。变进展取对数变换。变换后都分别使两变量间呈直线关系。换后都分别使两变量间呈直线关系。 如指数曲如指数曲线:Y=e(A+BX)Y=e(A+BX),假,假设两两边取自然取自然对数后,有数后,有Y=A+BX(Y=A+BX(此此处YY代表代表lnY),lnY),阐明明YY与与X X存在直存在直线关关系,所以我系,所以我们可以可以对Y Y取取对数数变换后后进展直展直线回回归分析。分析。 如如对数曲数曲线:Y=A+BlnX,X0Y=A+BlnX,X0,假,假设对X X进展取展取对数数变换,有,有Y=A+BXY=A+BX此此处XX代表代表lnXlnX,阐明明Y Y与与XX存在存在直直线关系,所以我关系,所以我们可以可以对X X取取对数数变换后后进展直展直线回回归分析。分析。 按最小二乘法原理求直按最小二乘法原理求直线化方程化方程 根据前面引根据前面引见的直的直线回回归分析方法,分析方法,求出求出变量量变换后的直后的直线回回归方程方程Y=a+bXY=a+bXYY和和XX是原始是原始变量量Y Y和和X X经适当适当变量量变换后的新后的新变量。在量。在卫生生检验任任务中,可直接运用此直中,可直接运用此直线化方程而不用化方程而不用将它复原将它复原为曲曲线方程。方程。 将直线化的方程转换为曲线方将直线化的方程转换为曲线方程,作曲线图。程,作曲线图。 曲线直线化的关键是找到使曲线曲线直线化的关键是找到使曲线函数直线化的变量变换方法,而后的函数直线化的变量变换方法,而后的计算分析方法与前述的直线回归分析计算分析方法与前述的直线回归分析方法完全一样,故在本节不作详细实方法完全一样,故在本节不作详细实例引见。例引见。 相关与回归分析流程图相关与回归分析流程图
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号