第9章spss回归-－金锄头文库

,第9章回归分析回归分析侧重于分析变量之间的数量变化规律，并通过回归方程描述和反映这种关系，帮助人们准确把握因变量受一个或多个自变量影响的程度，进而进行预测。回归分析的一般步骤： 1、确定回归方程的因变量（被解释变量）和自变量（解释变量）； 2、确定回归模型，通常利用散点图； 3、建立回归方程，估计参数； 4、对回归方程进行检验，主要有：模型检验，参数检验等； 5、利用回归方程进行预测。按线性相关与否：线性回归分析和非线性回归分析；按自变量的多少：一元回归分析和多元回归分析。,在 SPSS 中 , 实现回归分析的功能在：AnalyzeRegression Regression 命令菜单有如下九个过程。 Linear: 线性回归分析 ; Curve Estimation: 曲线估计分析 ; Binary logistic : 二维逻辑分析 ; Multinormal logistic 多维逻辑分析 ; Ordinal 顺序分析 ; Probit 概率分析 ; Nonlinear: 非线性回归分析 ; Weight Estimation 加权估计分析 ; 2-Stage Least Squares : 两阶最小二乘分析。,9.1 Linear 线性回归分析,其中0为回归常数，其中 1,n 为回归系数，为随机误差。基本要求：自变量和因变量都为数值型，且线性相关程度较高。随机误差要求无自相关性， y服从正态分布。,【设置界面】,因变量，一个,自变量，可多个,自变量筛选法,条件筛选法,散点图标志变量,异方差时，对选入变量用加权最小二乘法估计模型参数,【statistics按钮】,回归系数相关量 95%置信区间回归系数协方差阵,拟合优度相关量,多重共线性分析,自变量进入回归方程引起R变化量,自相关的DW检验，即检验H0:=0,异常值分析,【plots按钮】通过图形用于对残差序列进行分析,因变量标准化预测值标准化残差剔除残差调整的预测值学生化残差剔除学生化残差,绘制散点图坐标,依次绘制因变量与各自变量的散点图,【Save按钮】将选中结果作为新变量存入数据文件或新文件,预测值,观测值与均值偏差,预测值区间,残差值,剔除某case后改变值,【option按钮】,多元线性回归分析中自变量进入或剔除的标准,回归分析中是否包含常数项,【结果形式】,可决系数-自变量可解释因变量的比例,模型的方差分析,H0: b1=bn=0,模型中常数项与回归系数的检验回归方程为time=-1.955+3.457diam,H0:a=0 H0:bi=0,【实例】为研究某公司职工当前工资水平（salary），收集了影响因素6个，即开始工资（salbegin $）、受教育时间（educ）、来公司工作时间（jobtime）、工种（jobcat）、来前工作经验（prevexp）及是否少数民族（minority），试用多元线性回归对该公司当前工资水平建立恰当回归模型。【数据准备】见下页,6个影响因素变量,自变量逐步筛选,【设置界面】,【statistics按钮】,【Save按钮】,【结果形式】,先后选入自变量， minority未选入,剔除变量,复相关系数，随自变量的加入而增大，较大，线性相关高,可决系数,D-W统计量值：在1.52.5间无显著自相关性,随自变量的加入,线性模型都有显著效果,H0:b1=b5=0,H0:b1=b2=b3=0,随自变量的加入，因变量与自变量都显著线性相关,H0:a=0，bi=0 (j=1,.,5),标准化回归系数(无量纲)，用于比较各变量重要程度大小,可见，第5个回归方程为 salary=-15038.574+1.365salbegin+5859.585jobcat-19.553prevexp+154.698jobtime+539.642educ 复相关系数R=0.917，可决系数R2=0.84，经检验，回归模型、回归系数及D-W检验都有显著统计学意义。对工资水平影响较大的因素依次为开始工资、工种、来前工作经验、来公司工作时间、受教育时间。,9.2 Curve Estimation: 曲线估计分析,曲线回归（估计、拟合）：选定一种用函数表达曲线，使理论数据与实际数据间的差异尽可能小。解决问题：(1)曲线模型的选择；(2)模型参数的确定。基本思路：通过散点图及专业、经验等确定函数类型，再利用SPSS解决。,可以经变量变换转化为线性关系，SPSS中Curve Estimation解决。,不能经变换转化为线性关系，用迭代或分段平均值等方法处理， SPSS中Nonlinear解决,Curve Estimation中提供了11种本质线性模型：,【实例】某产品零售商已知产品的广告投入和销售额的数据，试找出适当的回归方程。,【作散点图预分析】 Graphs-scatter/dot,重叠散点图，用于多对变量,三维散点图，用于三个相关变量,简单散点图，用于一对变量,矩阵散点图，用于多对变量,单点散点图，用于单个变量,设置散点标识，颜色,设置散点标签,设置栅格，行列分类分组,【散点图设置】,可见，不是非常明确，可以近似拟合直线、二次曲线及三次曲线。【注意】若不能明确判定函数类型时，可选几种可能曲线，再利用SPSS的结果分析、判定。,【设置界面】,若选用time，则因变量数据作为时间均匀的时间序列,【结果形式】,由表中可决系数R2 可见，二次或三次曲线拟合较好，且模型检验也有统计学意义。二次曲线方程：sales=3.903+2.854advert-0.245advert2 三次曲线方程： sales=3.283+3.471advert-0.422advert2+0.015advert3,拟合曲线：,9.3 Nonlinear: 非线性回归分析,该种模型不能经变换转化为线性模型，用迭代或分段平均值等方法处理。基本要求：自变量和因变量都为数值型。非线性回归分析的关键：(1)曲线模型的选择及参数确定；(2)迭代算法的初始值。,Nonlinear中提供了19种非本质线性模型：,【设置界面】,选定的函数表达式（19种之1）,模型中参数初始值的设定,设置目标损失函数，使其最小化,设置参数约束条件,【parameter按钮】,【option按钮】,迭代方法：连续二次规划法阻尼最小二乘法（默认）,设置参数约束条件,【constraint按钮】,【结果形式】迭代过程表,经15次迭代，相邻两次迭代残差平方和几乎为0，即得到参数最优解，迭代终止。,参数估计表,由表可得非线性回归方程为 Saels=12.904-11.268exp（-0.496advert）,参数估计相关系数表,方差分析表,与因变量均值的变异,全部变异,由表中可决系数R2 =0.909，说明模型可以解释因变量的90.9%的变异。,