资源预览内容
第1页 / 共36页
第2页 / 共36页
第3页 / 共36页
第4页 / 共36页
第5页 / 共36页
第6页 / 共36页
第7页 / 共36页
第8页 / 共36页
第9页 / 共36页
第10页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
,第9章 回归分析 回归分析侧重于分析变量之间的数量变化规律,并通过回归方程描述和反映这种关系,帮助人们准确把握因变量受一个或多个自变量影响的程度,进而进行预测。 回归分析的一般步骤: 1、确定回归方程的因变量(被解释变量)和自变量(解释变量); 2、确定回归模型,通常利用散点图; 3、建立回归方程,估计参数; 4、对回归方程进行检验,主要有:模型检验,参数检验等; 5、利用回归方程进行预测。 按线性相关与否:线性回归分析和非线性回归分析; 按自变量的多少:一元回归分析和多元回归分析。,在 SPSS 中 , 实现回归分析的功能在 :AnalyzeRegression Regression 命令菜单有如下九个过程。 Linear: 线性回归分析 ; Curve Estimation: 曲线估计分析 ; Binary logistic : 二维逻辑分析 ; Multinormal logistic 多维逻辑分析 ; Ordinal 顺序分析 ; Probit 概率分析 ; Nonlinear: 非线性回归分析 ; Weight Estimation 加权估计分析 ; 2-Stage Least Squares : 两阶最小二乘分析。,9.1 Linear 线性回归分析,其中0为回归常数,其中 1,n 为回归系数,为随机误差。 基本要求:自变量和因变量都为数值型,且线性相关程度较高。随机误差要求无自相关性, y服从正态分布 。,【设置界面】,因变量,一个,自变量,可多个,自变量筛选法,条件筛选法,散点图标志变量,异方差时,对选入变量用加权最小二乘法估计模型参数,【statistics按钮】,回归系数相关量 95%置信区间 回归系数协方差阵,拟合优度相关量,多重共线性分析,自变量进入回归方程引起R变化量,自相关的DW检验,即检验H0:=0,异常值分析,【plots按钮】通过图形用于对残差序列进行分析,因变量 标准化预测值 标准化残差 剔除残差 调整的预测值 学生化残差 剔除学生化残差,绘制散点图坐标,依次绘制因变量与各自变量的散点图,【Save按钮】将选中结果作为新变量存入数据文件或新文件,预测值,观测值与均值偏差,预测值区间,残差值,剔除某case后改变值,【option按钮】,多元线性回归分析中自变量进入或剔除的标准,回归分析中是否包含常数项,【结果形式】,可决系数-自变量可解释因变量的比例,模型的方差分析,H0: b1=bn=0,模型中常数项与回归系数的检验 回归方程为time=-1.955+3.457diam,H0:a=0 H0:bi=0,【实例】为研究某公司职工当前工资水平(salary),收集了影响因素6个,即开始工资(salbegin $)、受教育时间(educ)、来公司工作时间(jobtime)、工种(jobcat)、来前工作经验(prevexp)及是否少数民族(minority),试用多元线性回归对该公司当前工资水平建立恰当回归模型。 【数据准备】见下页,6个影响因素变量,自变量逐步筛选,【设置界面】,【statistics按钮】,【Save按钮】,【结果形式】,先后选入自变量, minority未选入,剔除变量,复相关系数,随自变量的加入而增大,较大,线性相关高,可决系数,D-W统计量值:在1.52.5间无显著自相关性,随自变量的加入,线性模型都有显著效果,H0:b1=b5=0,H0:b1=b2=b3=0,随自变量的加入,因变量与自变量都显著线性相关,H0:a=0,bi=0 (j=1,.,5),标准化回归系数(无量纲),用于比较各变量重要程度大小,可见,第5个回归方程为 salary=-15038.574+1.365salbegin+5859.585jobcat-19.553prevexp+154.698jobtime+539.642educ 复相关系数R=0.917,可决系数R2=0.84,经检验,回归模型、回归系数及D-W检验都有显著统计学意义。 对工资水平影响较大的因素依次为 开始工资、工种、来前工作经验、来公司工作时间、受教育时间。,9.2 Curve Estimation: 曲线估计分析,曲线回归(估计、拟合):选定一种用函数表达曲线,使理论数据与实际数据间的差异尽可能小。 解决问题:(1)曲线模型的选择;(2)模型参数的确定。 基本思路:通过散点图及专业、经验等确定函数类型,再利用SPSS解决。,可以经变量变换转化为线性关系,SPSS中Curve Estimation解决。,不能经变换转化为线性关系,用迭代或分段平均值等方法处理, SPSS中Nonlinear解决,Curve Estimation中提供了11种本质线性模型:,【实例】某产品零售商已知产品的广告投入和销售额的数据,试找出适当的回归方程。,【作散点图预分析】 Graphs-scatter/dot,重叠散点图,用于多对变量,三维散点图,用于三个相关变量,简单散点图,用于一对变量,矩阵散点图,用于多对变量,单点散点图,用于单个变量,设置散点标识,颜色,设置散点标签,设置栅格,行列分类分组,【散点图设置】,可见,不是非常明确,可以近似拟合直线、二次曲线及三次曲线。 【注意】若不能明确判定函数类型时,可选几种可能曲线,再利用SPSS的结果分析、判定。,【设置界面】,若选用time,则因变量数据作为时间均匀的时间序列,【结果形式】,由表中可决系数R2 可见,二次或三次曲线拟合较好,且模型检验也有统计学意义。 二次曲线方程:sales=3.903+2.854advert-0.245advert2 三次曲线方程: sales=3.283+3.471advert-0.422advert2+0.015advert3,拟合曲线:,9.3 Nonlinear: 非线性回归分析,该种模型不能经变换转化为线性模型,用迭代或分段平均值等方法处理。 基本要求:自变量和因变量都为数值型。 非线性回归分析的关键 :(1)曲线模型的选择及参数确定;(2)迭代算法的初始值。,Nonlinear中提供了19种非本质线性模型:,【设置界面】,选定的函数表达式(19种之1),模型中参数初始值的设定,设置目标损失函数,使其最小化,设置参数约束条件,【parameter按钮】,【option按钮】,迭代方法: 连续二次规划法 阻尼最小二乘法(默认),设置参数约束条件,【constraint按钮】,【结果形式】 迭代过程表,经15次迭代,相邻两次迭代残差平方和几乎为0,即得到参数最优解,迭代终止。,参数估计表,由表可得非线性回归方程为 Saels=12.904-11.268exp(-0.496advert),参数估计相关系数表,方差分析表,与因变量均值的变异,全部变异,由表中可决系数R2 =0.909,说明模型可以解释因变量的90.9%的变异。,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号