资源预览内容
第1页 / 共115页
第2页 / 共115页
第3页 / 共115页
第4页 / 共115页
第5页 / 共115页
第6页 / 共115页
第7页 / 共115页
第8页 / 共115页
第9页 / 共115页
第10页 / 共115页
亲,该文档总共115页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第四章 相关分析与回归分析n4.1 简单相关分析简单相关分析n4.2 回归分析回归分析n4.3 非线性回归非线性回归STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n4.1 4.1 简单相关分析简单相关分析n4.1.1 相关分析的基本概念相关分析的基本概念n4.1.2 用用INSIGHT模块作相关分析模块作相关分析n4.1.3 用用“分析家分析家”作相关分析作相关分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.1 相关分析的基本概念相关分析的基本概念1. 1. 散点图散点图 散散点点图图是是描描述述变变量量之之间间关关系系的的一一种种直直观观方方法法。我我们们用用坐坐标标的的横横轴轴代代表表自自变变量量X,纵纵轴轴代代表表因因变变量量Y,每每组组数数据据(xi,yi)在在坐坐标标系系中中用用一一个个点点表表示示,由由这这些些点点形形成成的的散散点点图图描描述述了了两两个个变变量量之之间间的的大大致致关关系系,从从中中可可以以直直观观地地看看出变量之间的关系形态及关系强度。出变量之间的关系形态及关系强度。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图图4-1就是不同形态的散点图。就是不同形态的散点图。 (a) (b) (c) (d) 就就两两个个变变量量而而言言,如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条直直线线,则则称称为为线线性性相相关关,如如图图4-1(a)和和(b);如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条曲曲线线,则则称称为为非非线线性性相相关关或或曲曲线线相相关关;如如图图4-1(c);如如果果两两个个变变量量的的观观测测点点很很分分散散,无无任任何何规规律律,则则表表示示变变量量之之间间没没有有相相关关关关系系,如如图图4-l(d)。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 相关系数相关系数 相相关关系系数数是是对对变变量量之之间间关关系系密密切切程程度度的的度度量量。若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系系数数,记为记为;总体相关系数的计算公式为:;总体相关系数的计算公式为:其其中中COV(X,Y)为为变变量量X和和Y的的协协方方差差,D(X)和和D(Y)分分别别为为X和和Y的方差。的方差。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 若若相相关关系系数数是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关关系系数数(简简称称为为相相关关系系数数),记记为为r。样样本本相相关关系系数数的的计计算公式为:算公式为: 一一般般情情况况下下,总总体体相相关关系系数数是是未未知知的的,我我们们通通常常是是将样本相关系数将样本相关系数r作为作为的近似估计值。的近似估计值。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质: 相相关关系系数数的的取取值值范范围围:1 r 1,若若0 r 1,表表明明X与与Y之之间间存存在在正正线线性性相相关关关关系系,若若1 r 0,表表明明X与与Y之间存在负线性相关关系。之间存在负线性相关关系。 若若r = 1,表表明明X与与Y之之间间为为完完全全正正线线性性相相关关关关系系;若若r = 1,表表明明X与与Y之之间间为为完完全全负负线线性性相相关关关关系系;若若r = 0,说明二者之间不存在线性相关关系。,说明二者之间不存在线性相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质: 当当1 r 1时时,为为说说明明两两个个变变量量之之间间的的线线性性关关系系的的密密切切程程度度,通通常常将将相相关关程程度度分分为为以以下下几几种种情情况况:当当| r | 0.8时时,可可视视为为高高度度相相关关;0.5 | r | 0.8时时,可可视视为为中中度度相相关关;0.3 | r | 0.5时时,视视为为低低度度相相关关;当当| r | 0.3时时,说说明明两两个个变变量量之之间间的的相相关关程程度度极极弱弱,可可视视为为不不相相关关。但但这这种种解解释释必必须须建建立立在在对对相相关关系系数数进进行行显显著著性性检检验验的基础之上。的基础之上。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 相关系数的显著性检验相关系数的显著性检验 相相关关系系数数的的显显著著性性检检验验也也就就是是检检验验总总体体相相关关系系数数是是否否显显著著为为0,通通常常采采用用费费歇歇尔尔(Fisher)提提出出的的t分分布布检检验验,该该检检验验可可以以用用于于小小样样本本,也也可可以以用用于于大大样样本本。检检验验的的具具体步骤如下:体步骤如下: 1) 提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0: = 0;H1: 0STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 1) 提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0: = 0;H1: 0 2) 由样本观测值计算检验统计量:由样本观测值计算检验统计量:的观测值的观测值t0和衡量观测结果极端性的和衡量观测结果极端性的p值:值:p = P| t | | t0 | = 2Pt |t0| 3) 进进行行决决策策:比比较较p和和检检验验水水平平 作作判判断断:p ,拒拒绝原假设绝原假设H0;p ,不能拒绝原假设,不能拒绝原假设H0。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4. 4. 置信椭圆置信椭圆 可以生成两类置信椭圆:可以生成两类置信椭圆: 均值置信椭圆:预测两变量均值的置信区域;均值置信椭圆:预测两变量均值的置信区域; 预预测测值值置置信信椭椭圆圆:预预测测两两变变量量分分布布个个别别观观测测值值的的置置信区域。信区域。 关于预测值置信椭圆的两点说明:关于预测值置信椭圆的两点说明: 1) 作作为为置置信信曲曲线线,表表示示数数据据以以设设定定的的百百分分率率(置置信信水水平)落入的椭圆区域;平)落入的椭圆区域; 2) 作作为为相相关关性性指指标标。若若两两个个变变量量不不相相关关,椭椭圆圆应应该该为为圆圆;两两个个相相关关的的变变量量有有拉拉长长的的椭椭圆圆,可可以以用用椭椭圆圆长长短短轴轴之比来衡量相关的程度。之比来衡量相关的程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.2 用用INSIGHT模块作相关分析模块作相关分析【例例4-1】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。表表4-1就就是是该该银银行行所所属属的的25家家分分行行2002年的有关业务数据。年的有关业务数据。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-1 某商业银行2002年的主要业务数据银银行行想想知知道道,不不良良贷贷款款是是否否与与贷贷款款余余额额、应应收收贷贷款款、贷贷款款项项目目的的多多少少、固固定定资资产产投投资资等等因因素素有有关关?如如果果有有,是是一种什么样的关系一种什么样的关系?关系强度如何关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 设表设表4-1中数据已经存放在数据集中数据已经存放在数据集Mylib.bldk中。中。1. 1. 制作散点图制作散点图 首首先先制制作作变变量量之之间间的的散散点点图图,以以便便判判断断变变量量之之间间的的相相关性。步骤如下:关性。步骤如下: 1) 在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk; 2) 选选择择菜菜单单“Analyze(分分析析)”“Scatter Plot (Y X)(散点图)(散点图)”; 3) 在在打打开开的的“Scatter Plot (Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4; 4) 单击单击“OK”按钮,得到变量的分析结果。按钮,得到变量的分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从各各散散点点图图中中可可以以看看出出,不不良良贷贷款款(Y)与与贷贷款款余余 额额 (x1)、 应应 收收 贷贷 款款(x2)、 贷贷 款款 项项 目目 多多 少少(x3)、固固定定资资产产投投资资额额(x4)之之间间都都具具有有一一定定的的线线性性关关系系。但但从从各各散散点点的的分分布布情情况况看看,与与贷贷款款余余额额(x1)的的线线性性关关系系比比较较密密切切,而而与与固固定定资资产产投投资资额额(x4)之之间间的的关关系系最不密切。最不密切。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 相关系数计算相关系数计算 1) 在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk; 2) 选选择择菜菜单单“Analyze(分分析析)”“Multivariate (Y X)(多变量)(多变量)”; 3) 在在打打开开的的“Multivariate (Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定;选定X变量:变量:x1、x2、x3、x4; 4) 单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程结结果果显显示示各各变变量量的的统统计计量量和和相相关关(系系数数)矩矩阵阵,从从相相关关矩矩阵阵中中可可以以看看出出,在在不不良良贷贷款款Y与与其其他他几几个个变变量量的的关关系系中中,与与贷贷款款余余额额(x1)的的相相关关系系数数最最大大,而而与与固固定定资资产产投投资额资额(x4)的相关系数最小。的相关系数最小。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5) 为为了了检检验验各各总总体体变变量量的的相相关关系系数数是是否否为为零零,选选择择菜菜单单:“Tables”“CORR p-values”,得得到到相相关关系系数数为为零零的原假设的的原假设的p值,如图值,如图4-6所示。所示。 基基于于这这些些p值值,拒拒绝绝原原假假设设,即即不不良良贷贷款款与与其其他他几几个个变量之间均存在着显著的正相关关系。变量之间均存在着显著的正相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 置信椭圆置信椭圆 继续上述步骤。继续上述步骤。 6) 选选 择择 菜菜 单单 : “Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得得到到不不良良贷贷款款与与其其他他几几个变量的散点图及预测值的置信椭圆,如图所示。个变量的散点图及预测值的置信椭圆,如图所示。变变量量Y和和x1间间散散点点图图上上的的这这个个椭椭圆圆被被拉拉得得很很长长,表表明明变变量量Y和和x1之间有很强的相关性。之间有很强的相关性。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.3 用用“分析家分析家”作相关分析作相关分析【例例4-2】通通常常用用来来评评价价商商业业中中心心经经营营好好坏坏的的一一个个综综合合指指标标是是单单位位面面积积的的营营业业额额,它它是是单单位位时时间间内内(通通常常为为一一年年)的的营营业业额额与与经经营营面面积积的的比比值值。对对单单位位面面积积营营业业额额的的影影响响因因素素的的指指标标有有单单位位小小时时车车流流量量、日日人人流流量量、居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分。这这几几个个指指标标中中车车流流量量和和人人流流量量是是通通过过同同时时对对几几个个商商业业中中心心进进行行实实地地观观测测而而得得到到的的。而而居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分是是通通过过随随机机采采访访顾顾客客而而得得到到的的平平均均值值数数据据。表表4-2为为从从某某市市随随机机抽抽取取的的20个个商商业业中中心心有有关关指标的数据,试据此说明变量间的相关程度。指标的数据,试据此说明变量间的相关程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-2 20个商业中心有关指标的数据设表设表4-2数据已保存在数据集数据已保存在数据集Mylib.jyzk中。中。商业中心编号单位面积年营业额(万元/平方米)Y每小时机动车流量(万辆)x1日人流量 (万人)x2居民年消费额(万元)x3对商场环境满意度x4对商场设施满意度x5对商场商品丰富程度满意度x612.50.513.901.9479623.20.264.242.8674632.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.065.711.74699202.50.584.111.85796STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1. 1. 相关分析的设置相关分析的设置 在在“分析家分析家”中作相关分析的步骤如下:中作相关分析的步骤如下: 1) 在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk; 2) 选选择择主主菜菜单单“Statistics”“Descriptive(描描述述性性统统计计)”“Correlations(相相关关)”,打打开开“Correlations”对对话话框框,按按图图4-8 设设置置分分析析变变量量及及内内容。容。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 结果分析结果分析 显显示示结结果果首首先先给给出出各各个个变变量量的的描描述述性性统统计计量量,包包括括观观测测总总数数、各各变变量量的的均均值值及及标标准准差差等等。然然后后给给出出变变量量的的相相关关系系数数矩矩阵阵(分分析析变变量量中中任任两两者者之之间间的的相相关关系系数数),以以及及原原假假设设为为H0:Rho = 0(即即H0: = 0)的的检检验验结结果果(仅给出(仅给出p值),如图值),如图4-9所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从相相关关系系数数的的取取值值来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)接接近近高高度度相相关关;单单位位面面积积营营业业额额(Y)与与每每小小时时机机动动车车流流量量(x1)、对对商商场场环环境境的的满满意意度度(x4)、对对商商场场设设施施的的满满意意度度(x5)为为低低度度相相关关;单单位位面面积积营营业业额额(Y)与与商商场场商商品品丰丰富富程程度度满意度(满意度(x6)则属于中度相关。)则属于中度相关。 从从相相关关系系数数的的假假设设检检验验结结果果来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)、商商场场商商品品的的丰丰富富程程度度满满意意度度(x6)、对对商商场场设设施施的的满满意意度度(x5)的的相相关关系系数数显显著著不不为为0(p 10即即可可认认为为模模型型有有很很强强的的共共线线问问题。题。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程8. 8. 利用回归方程进行预测利用回归方程进行预测 (1) 点预测点预测 假设通过检验的假设通过检验的“最优最优”回归方程为回归方程为当当自自变变量量的的一一组组新新观观测测值值x0 = (x01,x02,x0k)对对应应的的因变量的预测值为因变量的预测值为STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2) 区间预测区间预测 区间预测分为均值的预测区间和个体的预测区间。区间预测分为均值的预测区间和个体的预测区间。 若若将将 理理解解为为E(y0)的的预预测测值值,则则在在给给定定的的显显著著水水平平 下,下,E(y0)的置信区间为的置信区间为其其中中, , n为为观观测测次次数数,k为为自自变变量个数。量个数。 若若将将 理理解解为为个个体体值值y0的的预预测测值值,则则在在给给定定的的显显著著水水平平 下,下,y0的置信区间为的置信区间为STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.2 用用INSIGHT模块作回归分析模块作回归分析【例例4-3】根根据据例例4-1的的数数据据集集Mylib.bldk,建建立立不不良良贷贷款的预测公式。款的预测公式。1. 1. 一元线性回归一元线性回归 建立不良贷款对贷款余额的回归方程。建立不良贷款对贷款余额的回归方程。(1) 分析分析 1) 在在INSIGHT模模块块中中打打开开数数据据集集Mylib.bldk。选选择择菜菜单单“Analyze”“Fit(Y X)”,打开,打开“Fit(Y X)”对话框;对话框; 2) 在在“Fit(Y X)”对对话话框框中中,将将Y设设为为响响应应变变量量,将将x1设为自变量;设为自变量; 3) 单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 显示的结果分为若干张表:显示的结果分为若干张表: 第第一一张张表表提提供供关关于于拟拟合合模模型型的的一一般般信信息息,Y = x1表表示示这个分析是以这个分析是以Y为响应变量,为响应变量,x1为自变量的线性模型;为自变量的线性模型; 第二张表给出回归方程:第二张表给出回归方程: 第第三三张张表表是是带带有有回回归归直直线线的的散散点点图图,给给出出了了回回归归的的图图形表示,如图;形表示,如图;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 图图的的下下面面是是参参数数回回归归拟拟合合表表(图图4-14)。其其中中判判定定系系数数R-Square(R2)为为模模型型平平方方和和占占总总平平方方和和的的比比例例,反反映了回归方程能够解释的信息占总信息的比例;映了回归方程能够解释的信息占总信息的比例;第第四四张张表表提提供供拟拟合合的的汇汇总总度度量量(图图4-15):Mean of Response(响响应应变变量量的的均均值值)是是变变量量Y的的平平均均值值,Root MSE(均均方方残残差差平平方方根根)是是对对各各观观测测点点在在直直线线周周围围分分散散程程度度的的一一个个度度量量值值,为为随随机机误误差差的的标标准准差差(也也是是实实测测值值Y的标准差)的标准差) 的无偏估计。的无偏估计。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第五五张张方方差差分分析析表表(图图4-16)包包含含对对回回归归方方程程的的显显著著检验:检验:对对一一元元线线性性回回归归,第第六六张张型型检检验验表表提提供供与与方方差差分分析析表表一样的检验,如图一样的检验,如图4-17;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第第七七张张参参数数估估计计表表给给出出了了回回归归直直线线截截距距和和斜斜率率的的估估计计值值及及其其显显著著性性检检验验等等内内容容。在在这这个个例例子子里里,截截距距的的p值值 = 0.05,表表示示模模型型还还有有改改进进的的余余地地,可可以以考考虑虑拟拟合合截截距距为为0的的回回归归直直线线。斜斜率率的的t检检验验p值值 .150.05,应应接接受受原原假假设设,认认为为残残差差为为正正态态性分布。性分布。所所以以,模模型型 是是合合适适的的,用用其其对对不不良良贷贷款款进进行行预测会更符合实际。预测会更符合实际。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 多元线性回归多元线性回归【例例4-4】引引入入数数据据集集Mylib.BLDK中中的的所所有有4个个自自变变量量对不良贷款建立多元线性回归。对不良贷款建立多元线性回归。 (1) 分析步骤分析步骤 在在INSIGHT模块中打开数据集模块中打开数据集Mylib.BLDK。 1) 选选择择菜菜单单“Analyze”“Fit(Y X)(拟拟合合)”,打开打开“Fit(Y X)”对话框;对话框; 2) 在在“Fit(Y X)”对对话话框框中中,选选择择变变量量Y,单单击击“Y”按按钮钮,将将Y设设为为响响应应变变量量;选选择择变变量量x1、x2、x3、x4,单单击击“X”按钮,将按钮,将x1、x2、x3、x4设为自变量;设为自变量; 3) 单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的结结果果中中可可以以看看到到,多多元元回回归归分分析析的的输输出出类类似似于一元线性回归的输出,同样分为七张表:于一元线性回归的输出,同样分为七张表: 第一张表提供关于拟合模型的一般信息;第一张表提供关于拟合模型的一般信息; 第二张表给出模型方程第二张表给出模型方程(即回归方程即回归方程),如图,如图4-26。 可知回归方程为:可知回归方程为:STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第三三张张模模型型拟拟合合汇汇总总表表(图图4-27)表表明明R-Square为为0.7976,比比一一元元线线性性回回归归模模型型有有一一定定提提高高,但但不不足足以以说说明明模模型型优优于于一一元元回回归归模模型型,因因为为在在模模型型中中增增加加自自变变量量总总能提高能提高R-Square。Adj R-Sq(修修正正R2)考考虑虑了了加加入入模模型型的的变变量量数数,在在比比较较不不同同多多元元模模型型时时用用Adj R-Sq更更合合适适。如如在在这这里里它它为为0.7571,而而在在简简单单模模型型中中为为0.6991,说说明明这这一一模模型型比比一一元线性模型更多地说明变量元线性模型更多地说明变量Y的变化。的变化。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第四四张张方方差差分分析析表表中中(下下图图左左),看看到到p值值0.0001,拒拒绝绝原原假假设设并并可可作作出出至至少少有有一一个个回回归归系系数数不不为为零零的的结结论论,说明所建模型的线性关系是显著的。说明所建模型的线性关系是显著的。III型型检检验验表表(上上图图右右)与与参参数数估估计计表表(下下图图)给给出出各各个个自自变变量量的的回回归归系系数数为为零零的的假假设设检检验验,各各自自变变量量的的回回归归系系数的数的F检验与检验与t检验在这里是一致的。检验在这里是一致的。参参数数估估计计表表(上上图图右右)包包括括截截距距的的显显著著性性检检验验,还还给给出出了容差(了容差(Tolerance)和方差膨胀因子()和方差膨胀因子(VIF)。)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程两两表表中中自自变变量量x2、x3、x4的的回回归归系系数数假假设设检检验验的的p值值较较大大,说说明明这这些些自自变变量量对对Y的的影影响响不不显显著著,这这种种情情况况可可能能是是这这些些变变量量对对预预测测Y值值作作用用不不大大,也也可可能能是是由由于于这这些些变变量量之之间间的的高高度度相相关关性性所所引引起起的的共共线线问问题题。如如果果自自变变量量之之间间具具有有高高度度的的共共线线关关系系,则则它它们们所所提提供供的的预预测测信信息息就就是是重重复复的的,在在参参数数(回回归归系系数数)检检验验中中这这些些变变量量的的显显著著性性就就可可能能被被隐隐蔽蔽起起来来,故故应应考考虑虑剔剔除除一一些些自自变变量量,重重新新拟拟合合回回归归方方程程。(本本例例中中x1的的方方差差膨膨胀胀系系数数较较大大,说说明明x1与与其其余自变量有一定的线性关系)余自变量有一定的线性关系)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2) 剔除自变量剔除自变量 在在上上面面的的例例子子中中首首先先考考虑虑剔剔除除变变量量x3,对对此此只只需需在在刚刚才才已已打打开开的的拟拟合合窗窗的的任任一一处处选选中中变变量量x3,如如图图4-31所所示示,再再在在主主菜菜单单中中选选择择“Edit”“Delete”所所有有的的结结果果就就会修改为不含会修改为不含x3的拟合结果。的拟合结果。类类似似地地剔剔除除作作用用不不显显著著的的自自变变量量x2,得得到到拟拟合合结结果果如如图图4-32所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程从从图图4-32所所示示的的拟拟合合结结果果可可以以看看到到,回回归归方方程程的的显显著著性性检检验验以以及及x1、x4的的显显著著性性检检验验都都已已通通过过。但但是是方方程程的的判判定定系系数数R2还还不不如如前前述述一一元元回回归归方方程程 的的判判定定系系数数大大。因因此此,考考虑虑进进一一步步优优化化模模型型,拟拟合合不不含含常常数数项项而而仅仅含含x1、x4的回归方程。的回归方程。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 拟合结果如图拟合结果如图4-33所示。所示。结果显示,回归方程为:结果显示,回归方程为: 结结果果还还可可以以看看到到,回回归归方方程程的的显显著著性性检检验验以以及及x1、x4的的显显著著性性检检验验都都已已通通过过,方方程程的的修修正正判判定定系系数数Adj R2也也比比前前述述所所有有回回归归方方程程的的Adj R2大大,因因此此采采用用该该回回归归模模型型更为合适。更为合适。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.3 用用“分析家分析家”作回归分析作回归分析【例例4-5】根根据据例例4-2中中的的数数据据集集Mylib.jyzk,建建立立单单位位面面积营业额的预测公式。积营业额的预测公式。 在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1. 1. 一元线性回归一元线性回归 (1) 分析步骤分析步骤 选选择择主主菜菜单单“Statistics(统统计计)”“Regression(回回归归)”“Linear(线线性性)”,打打开开“Linear Regression(线线性性回回归归)”对对话话框框,按按图图4-34设置分析变量,设置分析变量,STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的输输出出结结果果中中, p值值.0001 = 0.05,所所以以模模型的作用是显著的。型的作用是显著的。 参参数数估估计计部部分分列列举举了了回回归归方方程程中中两两个个参参数数的的值值以以及及有有关的显著性检验的结果。拟合的回归方程为:关的显著性检验的结果。拟合的回归方程为:t检验的结果表明检验的结果表明x2的系数显著不为的系数显著不为0。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2) 制作散点图制作散点图 在在上上述述操操作作打打开开的的“Linear Regression”对对话话框框中中,单单击击“Plots”按按钮钮。在在打打开开的的“Linear Regression:Plots”对对话话框框中中,选选择择“Predicted”选选项项卡卡,选选中中“Plot observed vs independent”复复选选框框。单单击击“OK”按按钮钮,得得到到分分析析结结果果,包包含含响响应应变变量量Y与与解解释释变变量量x2的的散散点图,如图点图,如图4-36右所示。右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3) 拟合不含常数项的回归拟合不含常数项的回归 在在“Linear Regression”对对话话框框中中单单击击“Model”按按钮钮,在在打打开开的的“Linear Regression:Model”对对话话框框中中选选中中“Do not include an intercept”复选框,如图复选框,如图4-37;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的输输出出结结果果中中, p值值 .0001 = 0.05,所所以以模模型型的的作作用用是是显显著著的的。在在汇汇总总的的信信息息中中,显显示示了了R2和和校校正正R2分分别别为为0.9540和和0.9516,远远远远高高于于含含有有常常数数项项的的回回归归模型。模型。 参参数数估估计计部部分分表表明明t检检验验的的结结果果x2的的系系数数显显著著不不为为0,拟合的回归方程为:拟合的回归方程为:STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 多元线性回归多元线性回归【例例4-6】引引入入数数据据集集Mylib.jyzk中中所所有有6个个自自变变量量对对因因变量单位面积营业额变量单位面积营业额Y建立多元线性回归。建立多元线性回归。(1) 分析步骤分析步骤 1) 选选择择主主菜菜单单“Statistics” “Regression” “Linear”,打打开开“Linear Regression(线线性性回回归归)”对对话框,按下图所示进行多元线性回归分析;话框,按下图所示进行多元线性回归分析;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 显显示示的的分分析析结结果果表表明明模模型型的的作作用用是是显显著著的的(F统统计计量量的的值值为为268.30,p值值0.00010.05 = )。)。 参参数数估估计计部部分分表表明明拟拟合的回归方程为:合的回归方程为:y = 0.26044 + 0.16644x1 + 0.33987x2 + 0.73354x3 + 0.03201x4 0.00471x5 0.04752x6 参参数数显显著著性性检检验验表表明明,进进入入回回归归的的6个个自自变变量量,其其作作用用在在其其它它变变量量进进入入回回归归的的前前提提下下并并不不都都是是显显著著的的。例例如如x1、x4、x5、x6的作用就不显著。的作用就不显著。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2) 逐步回归逐步回归 “分分析析家家”中中选选择择变变量量的的方方法法很很多多,在在上上述述步步骤骤的的“Linear Regression”对对话话框框中中,单单击击“Model”按按钮钮,打开打开“Linear Regression:Model”对话框。对话框。 在在“Method”选选项项卡卡中中包包含含多多种种变变量量的的选选择择方方法法,选选择择其其中中一一种种,例例如如选选择择“Backward elimination(逐逐步步剔剔除法)除法)”,如图,如图4-41所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程继继续续剔剔除除进进入入回回归归的的变变量量中中最最不不显显著著的的自自变变量量x6,直到所有的参数显著不为直到所有的参数显著不为0。结果如图。结果如图4-42所示。所示。 参数估计部分表明拟合的回归方程为:参数估计部分表明拟合的回归方程为: 模模型型的的R2为为0.9902,C(p)值值较较小小(仅仅为为3.8425);方方差差分分析析中中模模型型的的作作用用也也是是显显著著的的(F统统计计量量的的值值为为540.98,p值值0.00010.05 = )。)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.4 使用使用REG过程作回归分析过程作回归分析1. REG1. REG过程的语法格式过程的语法格式 REG过程的基本用法为:过程的基本用法为:PROC REG DATA ; VAR ; MODEL = /; PRINT ; PLOT = /;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 说明:说明: MODEL语语句句用用以以指指定定所所要要拟拟合合的的回回归归模模型型,其其后后的的选项与选项与REG语句的选项类似。语句的选项类似。 PLOT语语句句用用以以对对两两个个变变量量绘绘制制散散点点图图,表表达达式式中中位位置置在在前前(在在乘乘号号“*”之之前前)的的变变量量作作为为散散点点图图的的y轴轴,位位置置在在后后的的变变量量作作为为散散点点图图的的x轴轴。等等号号后后的的符符号号为为散散点点图图中中表表示示点点的的图图形形符符号号,此此项项内内容容可可省省略略,SAS会会用用默默认认方方式式显显示示图图形形,但但如如需需指指定定,符符号号要要用用单单引引号号括括起起来。对于同一个模型可以指定多个来。对于同一个模型可以指定多个plot语句。语句。 PRINT语语句句用用于于交交互互地地显显示示MODEL语语句句中中的的有有关关选选项,可以将拟合模型的有关统计量显示在结果中。项,可以将拟合模型的有关统计量显示在结果中。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 多元回归多元回归【例例4-7】使使用用REG过过程程对对数数据据集集Mylib.jyzk中中所所有有6个个自变量与因变量单位面积营业额自变量与因变量单位面积营业额Y建立多元线性回归。建立多元线性回归。 调调用用如如下下的的REG过过程程就就可可以以在在输输出出窗窗口口产产生生如如图图4-43所示的结果:所示的结果:proc reg data = Mylib.jyzk; var y x1 x6; model y = x1 x6;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 逐步回归逐步回归 我我们们发发现现有有些些变变量量的的作作用用不不显显著著,所所以以使使用用REG提提供供的自动选择最优自变量子集的选项。的自动选择最优自变量子集的选项。 在在MODBL语语句句中中加加上上“SELECTION = 选选择择方方法法”的的选选项项就就可可以以自自动动挑挑选选自自变变量量,选选择择方方法法有有NONE(全全用用,这这是是缺缺省省),FORWARD(向向前前逐逐步步引引入入法法),BACKWARD(向向后后逐逐步步剔剔除除法法),STEPWISE(逐逐步步筛筛选选法法),MAXR(最最大大R2增增量量法法),MINR(最最小小R2增增量量法法),RSQUARE(R2选选择择法法),ADJRSQ(修修正正R2选择法),选择法),CP(Mallows的的Cp统计量法)。统计量法)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 比如,我们用如下程序:比如,我们用如下程序:model y = x1 x6 / selection=stepwise;run; 可得到逐步筛选法的分析结果,如图可得到逐步筛选法的分析结果,如图4-444-47所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-45 逐步筛选法第2步STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-46 逐步筛选法第3步STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-47 最终结果模型 最最后后结结果果表表明明,只只有有变变量量x2、x3、x4进进入入了了模模型型,而而其它变量则不能进入模型。其它变量则不能进入模型。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4. 4. 预测预测 REG过过程程给给出出的的缺缺省省结结果果比比较较少少。用用PRINT语语句句和和PLOT语语句句可可以以显显示示额额外外的的结结果果。为为了了显显示示模模型型的的预预测测值值(拟合值拟合值)和预测值的和预测值的95%置信区间,使用语句:置信区间,使用语句: print cli;run; 得到如图得到如图4-48所示的结果。所示的结果。 用用print cli列列出出的的是是预预测测值值的的置置信信区区间间,使使用用如如下下语语句还可以列出模型均值的置信区间:句还可以列出模型均值的置信区间: print clm;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-48 预测值和95%置信区间STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程5. 5. 散点图散点图 对对于于自自变变量量是是一一元元的的情情况况,可可以以在在自自变变量量和和因因变变量量的的散点图上附加回归直线和均值置信界限。比如,散点图上附加回归直线和均值置信界限。比如, plot y*x2/conf95;run;可可以以产产生生图图4-49,在在图图的的上上方方列列出出了了回回归归方方程程,右右方方还还给出了观测个数、给出了观测个数、R2、修正的、修正的R2、根均方误差。、根均方误差。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n4.3 4.3 非线性回归非线性回归n4.3.1 多项式回归多项式回归n4.3.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.3.1 多项式回归多项式回归1. 1. 问题问题【例例4-8】某某大大型型牙牙膏膏制制造造企企业业为为了了更更好好地地拓拓展展产产品品市市场场,有有效效地地管管理理库库存存,公公司司董董事事会会要要求求销销售售部部门门根根据据市市场场调调查查,找找出出公公司司生生产产的的牙牙膏膏销销售售量量与与销销售售价价格格、广广告告投投入入等等之之间间的的关关系系,从从而而预预测测出出在在不不同同价价格格和和广广告告费费用用下下的的销销售售量量。为为此此,销销售售部部的的研研究究人人员员收收集集了了过过去去30个个销销售售周周期期(每每个个销销售售周周期期为为4周周)公公司司生生产产的的牙牙膏膏的的销销售售量量、销销售售价价格格、投投入入的的广广告告费费用用,以以及及同同期期其其它它厂厂家家生生产的同类牙膏的市场平均销售价格,见表产的同类牙膏的市场平均销售价格,见表4-3。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-3 牙膏销售量与销售价格、广告费用等数据其中价格差指其它厂家平均价格与公司销售价格之差。其中价格差指其它厂家平均价格与公司销售价格之差。 表表中中数数据据已已存存放放在在数数据据表表Mylib.yagao中中,试试根根据据这这些些数数据据建建立立一一个个数数学学模模型型,分分析析牙牙膏膏销销售售量量与与其其它它因因素素的的关系,为制订价格策略和广告投入策略提供数量依据。关系,为制订价格策略和广告投入策略提供数量依据。销售周期公司销售价格(元)其它厂家平均价格(元)广告费用(百万元)价格差(元)销售量(百万支)13.853.805.50-0.057.3823.754.006.750.258.5133.704.307.250.609.5243.703.705.5007.50273.703.656.50-0.058.27283.753.755.7507.67293.803.855.800.057.93303.704.256.800.559.26STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 分析与假设分析与假设 由由于于牙牙膏膏是是生生活活必必需需品品,对对大大多多数数顾顾客客来来说说,在在购购买买同同类类产产品品的的牙牙膏膏时时更更多多地地会会在在意意不不同同品品牌牌之之间间的的价价格格差差异异,而而不不是是它它们们的的价价格格本本身身。因因此此,在在研研究究各各个个因因素素对对销销售售量量的的影影响响时时,用用价价格格差差代代替替公公司司销销售售价价格格和和其其它它厂厂家平均价格更为合适。家平均价格更为合适。 记记牙牙膏膏销销售售量量为为y,其其它它厂厂家家平平均均价价格格与与公公司司销销售售价价格格之之差差(价价格格差差)为为x1,公公司司投投入入的的广广告告费费用用为为x2,其其它它厂厂家家平平均均价价格格和和公公司司销销售售价价格格分分别别为为x3和和x4,x1 = x3 x4。基基于于上上面面的的分分析析,我我们们仅仅利利用用x1和和x2来来建建立立y的的预预测测模型。模型。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 基本模型基本模型 为为了了大大致致地地分分析析y与与x1和和x2的的关关系系,首首先先利利用用表表4-3的的数据分别作出数据分别作出y对对x1和和x2的散点图,代码如下:的散点图,代码如下:data yagao; set Mylib.yagao;proc gplot data = yagao; plot y*x1=1 y*x2=2; symbol1 v=star i=rl cv=orange ci=blue w=1; symbol2 v=star i=rq cv=orange ci=blue w=1;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从左左图图可可以以发发现现,随随着着x1的的增增加加,y的的值值有有比比较较明明显显的的线性增长趋势,图中的直线是用线性模型线性增长趋势,图中的直线是用线性模型 (1)拟拟合合的的(其其中中 是是随随机机误误差差);而而在在右右图图中中,当当x2增增大大时时,y有有向向上上弯弯曲曲增增加加的的趋趋势势,图图中中的的曲曲线线是是用用二二次次函函数数模模型型 (2)拟拟合合的的。综综合合上上面面的的分分析析,结结合合模模型型(1)和和(2)建建立立如如下下的回归模型的回归模型 (3)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4. 4. 模型求解模型求解 使用如下过程代码:使用如下过程代码:data yagao; set Mylib.yagao; x2x2=x2*x2;proc reg data = yagao; var y x1 x2 x2x2; model y = x1 x2 x2x2; print cli;run; 代代码码执执行行结结果果分分为为三三个个部部分分,如如图图所所示示为为前前两两个个部部分分:方差分析和参数估计。方差分析和参数估计。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程5. 5. 结果分析结果分析 1) 方方差差分分析析的的结结果果显显示示,R2 = 0.9054表表明明因因变变量量y(销销售售量量)的的90.54可可由由模模型型确确定定,F值值远远远远超超过过F检检验验的的临临界界值值,p值值0.0001远远小小于于 ,因因而而模模型型(3)从从整整体体来来看看是是可用的。可用的。 2) 参参数数估估计计给给出出了了模模型型(3)中中 0, 1, 2, 3的的估估计计值值,即即0 = 17.3244,1 = 1.3070,2 = -3.6956,3 = 0.3486。只只有有2的的t检验检验p值值 = 0.0564,略高于,略高于0.05的水平。回归模型为:的水平。回归模型为: (4)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3) 统统计计输输出出显显示示了了销销售售量量y的的观观测测值值、预预测测值值、标标准准差差、预预测测值值的的95%置置信信上上限限与与95%置置信信下下限限、残残差差,如如图图4-53所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6. 6. 销售量预测销售量预测 根根据据回回归归模模型型(4),只只需需知知道道该该销销售售周周期期的的价价格格差差x1和和投投入入的的广广告告费费用用x2,就就可可以以计计算算预预测测值值,即即可可预预测测公公司司未未来来某某个个销销售售周周期期牙牙膏膏的的销销售售量量y。比比如如公公司司计计划划在在未未来来的的某某个个销销售售周周期期中中,维维持持产产品品的的价价格格差差为为x1 = 0.2元元,并并将将投投入入x2 = 6.5百百万万元元的的广广告告费费用用,则则该该周周期期牙牙膏膏销销售售量量的的估估计计值值为为y = 17.3244 + 1.3070 0.2 + (-3.6956) 6.5 + 0.3486 6.52 = 8.2933百万支。百万支。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程7. 7. 模型改进模型改进 根根据据直直觉觉和和经经验验可可以以猜猜想想,x1和和x2之之间间的的交交互互作作用用会会对对y有有影影响响,不不妨妨简简单单地地用用x1,x2的的乘乘积积代代表表它它们们的的交交互互作用,于是将模型作用,于是将模型(3)增加一项,得到增加一项,得到 (5) 在在这这个个模模型型中中,y的的均均值值与与x2的的二二次次关关系系为为,由由系系数数 2, 3和和 4确定,并依赖于价格差确定,并依赖于价格差x1。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 使用如下过程代码:使用如下过程代码:data yagao; set Mylib.yagao; x2x2=x2*x2; x1x2=x1*x2;proc reg data = yagao; var y x1 x2 x2x2 x1x2; model y = x1 x2 x2x2 x1x2; print cli;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 与与图图4-52的的结结果果相相比比,R2与与Adj-R2都都有有所所提提高高,说说明明模模型型(5)比比模模型型(3)有有所所改改进进。并并且且,所所有有参参数数t检检验验的的p值值均均小小于于0.05,为为显显著著非非零零,所所以以有有理理由由相相信信模模型型(5)比比模型模型(3)更符合实际。模型更符合实际。模型(5)的回归方程为:的回归方程为: (6) 用用公公式式(6)对对公公司司的的牙牙膏膏销销售售量量作作预预测测。仍仍设设在在某某个个销销售售周周期期中中,维维持持产产品品的的价价格格差差x1 = 0.2元元,并并将将投投入入x2 = 6.5百百万万元元的的广广告告费费用用,则则该该周周期期牙牙膏膏销销售售量量y的的估估计计值为:值为:= 29.1133 + 11.1342 0.2 7.6080 6.5 + 0.6712 6.52 1.4777 0.2 6.5 = 8.3272(百万支百万支)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.3.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 表表4-4给给出出了了一一些些常常见见的的可可线线性性化化的的一一元元非非线线性性模模型型,对对线线性性化化后后的的线线性性模模型型可可以以利利用用SAS的的前前述述方方法法进进行行一一元线性回归分析。元线性回归分析。表4-4 典型函数及线性化方法函数名称函数表达式线性化方法双曲线函数1/y = a + b/xu = 1/x v = 1/y幂函数y = axbu = lnx v = lny指数函数y = aebxu = x v = lnyy = aex/bu = 1/x v = lny对数函数y = a + blnxu = lnx v = yS型函数u = e-x v = 1/ySTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 下下面面通通过过一一个个具具体体实实例例说说明明一一元元非非线线性性回回归归分分析析的的方方法:法:【例例4-9】炼钢厂考虑钢包的重量炼钢厂考虑钢包的重量y与试验次数与试验次数x的关系。的关系。表4-5 钢包的重量y与试验次数x的数据 假假定定数数据据已已存存如如数数据据集集Mylib.gbzl,下下面面分分三三步步进进行行分析建立模型:分析建立模型:序号xy序号xy12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218111.0068109.931319111.20710110.49STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1. 1. 确定回归函数可能形式确定回归函数可能形式 为为确确定定可可能能的的函函数数形形式式,首首先先描描出出数数据据的的散散点点图图。步步骤如下:骤如下: 1) 在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.gbzl; 2) 选择菜单选择菜单“Analyze”“Scatter Plot(Y X)”; 3) 在在打打开开的的“Scatter Plot(Y X)”对对话话框框中中选选定定Y变变量量:Y;选选定定X变变量量:X;单单击击“OK”按按钮钮,得得到到变变量量Y对对X的的散点图,如图散点图,如图4-58所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 散散点点图图呈呈现现出出明明显显的的向向上上且且上上凸凸的的趋趋势势,可可能能选选择择的的函数关系有很多,比如可以给出如下三种曲线函数:函数关系有很多,比如可以给出如下三种曲线函数: , , 令令 、 、 、 ,三三种种曲曲线线函函数数又可以表示为:又可以表示为:v = a + bu,y = a + bw,y = a + bz, STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 变量变换变量变换 在在INSIGHT模模块块中中,打打开开数数据据集集Mylib.gbzl,选选择择主主菜菜 单单 “Edit”“Variables”“Other”, 打打 开开“Edit Variables”对对话话框框;如如图图4-59所所示示分分别别增增加加四四个个变变量量: 、 、 和和 后后,得得到到数数据据集集如图如图4-60所示。所示。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图图4-60 新数据集新数据集 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 分分别别做做v对对u、y对对w和和y对对z散散点点图图,从从散散点点图图(如如图图4-61)可可以以看看出出变变换换后后的的两两变变量量的的关关系系接接近近线线性性,可可以以考考虑虑建建立立线线性性回回归归模模型。型。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 回归方程的比较回归方程的比较 利利用用4.2.2中中介介绍绍的的INSIGHT的的功功能能分分别别建建立立v和和u、y和和w及及y和和z线性回归方程为:线性回归方程为: 1) v = 0.0090 + 0.0008 u 模型的各项检验结果如图模型的各项检验结果如图4-62。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 2) y = 106.315 + 1.7140 w 模型的各项检验结果如图模型的各项检验结果如图4-63。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3) y = 106.301 + 1.1947 z 模型的各项检验结果如图模型的各项检验结果如图4-64。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从上上面面三三个个的的结结果果看看,三三个个线线性性模模型型均均有有效效。其其中中第第一一个个模模型型的的判判定定系系数数R2最最大大、剩剩余余标标准准差差最最小小,所所以以第第一一个个方方程程拟拟合合得得最最好好,所所以以应应选选用用线线性性回回归归方方程程v = 0.0090 + 0.0008 u,原数据的回归方程为:,原数据的回归方程为:即即 。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号