资源预览内容
第1页 / 共14页
第2页 / 共14页
第3页 / 共14页
第4页 / 共14页
第5页 / 共14页
第6页 / 共14页
第7页 / 共14页
第8页 / 共14页
第9页 / 共14页
第10页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
. SPSSSPSS 统计软件统计软件 课程作业课程作业信计信计 111111X X 晓蕾晓蕾1.1. 某单位对某单位对 100100 名女生测定血清总蛋白含量名女生测定血清总蛋白含量, ,数据如下数据如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.574.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.079.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.573.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.075.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.370.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.773.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.375.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.473.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算样本均值计算样本均值、中位数中位数、方差方差、标准差标准差、最大值最大值、最小值最小值、极差极差、偏度和峰度偏度和峰度, ,并给出均值并给出均值的置信水平为的置信水平为 95%95%的置信区间的置信区间。第第 1 1 步步 数据组织数据组织:定义 1 个变量为:血清总蛋白含量,其度量标准为度量。第第 2 2 步步探索分析设置探索分析设置:选择菜单分析 描述统计 探索,打开探索 对话框,将血清总蛋白含量字段移入因变量列表。打开统计量对话框,选中描述性选项;打开探索:图对话框,选中按因子水平分组、茎叶图、带检验的正态图、1 / 14.直方图等选项。打开探索:选项,选中按列表排除个案选项。第第 3 3 步步 运行结果与分析运行结果与分析:描述描述血清总蛋白含量均值统计量73.668072.8864标准误.39389均值的 95% 置信区间下限.241.478上限74.44965% 修整均值73.6533中值73.5000方差15.515标准差3.93892极小值64.30极大值84.30X围20.00四分位距4.60偏度峰度.054.037表中显示血清总蛋白含量的描述性统计量,左表中只显示的是均值、均值的 95%置信区间的上下限、中值、方差、标准差、极大/小值、偏度、峰度等2.2. 绘出习题绘出习题 1 1 所给数据的直方图所给数据的直方图、盒形图和盒形图和图图, ,并判断该数据是否服从正态分布并判断该数据是否服从正态分布。上图为标准Q-Q图,Q-Q图可以用来检验数据是否服从某种分布,在Q-Q图中,检验数据是否2 / 14.较好地服从给定分布的标准有两个:看标准 Q-Q 图上的数据点与直线的重合度;Q-Q趋势图上的点是否关于直线Y=0 在较小的 X 围内上下波动。从上图中可以看出,题目中的数据与直线重合度较好,故很好地服从正态分布,这与前面的正态检验表中的结果是一致的箱图中显示血清蛋白总含量数据绘制成对应的箱体 。每一个箱体上方那条线的取值代表该分组中最大值,下方那条线的取值代表最小值。箱体自身的三条线从上到下分别代表 3/4 分位点、中位点、1/4 分位点的取值。正态性检验正态性检验血清总蛋白含量a. Lilliefors 显著水平修正Kolmogorov-SmirnovaShapiro-Wilk统计量.073df100Sig.200*统计量.990df100Sig.671*. 这是真实显著水平的下限。表中显示了血清总蛋白含量的两种检验方法的正态性检验结果,包括各分组的统计量、自由度与显著性水平,以 K-S 方法的分析:其自由度 sig.=0.200,明显大于 0.05,故应接受原假设,认为题中数据服从正态分布3.3. 正常男子血小板计数均值为正常男子血小板计数均值为225 10 / L, , 今测得今测得2020名男性油漆工作者的血小板计数值名男性油漆工作者的血小板计数值9 单位单位:10 / L 如下如下:9220220188188162162230230145145160160238238188188247247113113126126245245164164231231256256183183190190158158224224175175问油漆工人的血小板计数与正常成年男子有无异常问油漆工人的血小板计数与正常成年男子有无异常?分析分析: :这是一个典型的比较样本均值和总体均值的T检验问题 ;第第1 1步数据组织步数据组织:首先建立SPSS数据文件,只需建立一个变量血小板计数,录入相应的数据即可3 / 14.第第2 2步步 单样本单样本T T检验分析设置检验分析设置选择菜单分析比较均值单样本T检验S,打开 单样本T检验 对话框,将变量血小板计数移入检验变量列表框,并输入检验值225;打开单样本T检验:选项对话框 ,设置置信区间为95%;单个样本统计量单个样本统计量血小板计数N20均值192.1500标准差42.23652均值的标准误9.44437上表给出了单样本T检验的描述性统计量,包括样本数N、均值、标准差、均值的标准误。单个样本检验单个样本检验血小板计数t-3.478df19检验值 = 225差分的 95% 置信区间Sig.003均值差值-32.85000下限-52.6173上限-13.0827本例置信水平为95%,显著性水平为0.05,从上表中可以看出,双尾检测概率P值为0.003,小于0.05,故原假设不成立,也就是说,男性油漆工作者的血小板与225 10 / L有显著性差异,无9理由相信油漆工人的血小板计数与正常成年男子无异常。4.4. 在某次考试中在某次考试中, ,随机抽取男女学生的成绩各随机抽取男女学生的成绩各1010 名名, ,数据如下数据如下:男男:9999797959598989797989899999828280808585女女:8888545456562323757565657373505080806565假设总体服从正态分布假设总体服从正态分布, ,比较男女得分是否有显著性差异比较男女得分是否有显著性差异。第第1 1步步 数据组织数据组织: :在SPSS数据文件中建立两个变量,分别为性别、成绩,度量标准分别为名义、4 / 14.度量,变量品种的值标签为:b男生,g女生,录入数据。第第2 2步步 独立样本独立样本T T检验设置检验设置: :选择菜单 选择比较均值独立样本T检验,打开独立样本T检验对话框,将成绩 作为要进行T检验的变量,将性别字段作为分组变量,定义分组变量的两个分组分别为b和g。打开独立样本T检验:选项对话框,具体选项内容与设置与单样本T检验相同。组统计量组统计量成绩性别男生女生N1010均值84.000062.9000标准差11.5277418.45385均值的标准误3.645395.83562上表给出了本例独立样本T检验的基本描述统计量,包括两个样本的均值、标准差和均值的标准误。独立样本检验独立样本检验成绩假设方差相等假设方差不相等方差方程的 Levene 检验均值方程的 t 检验F1.607Sig.221t3.0673.067df1815.096Sig.均值差值.007.00821.1000021.10000标准误差值6.880656.88065差分的 95% 置信区间下限6.644296.44235上限35.5557135.75765根据上表方差方程的 Levene 检验中的sig.为0.221,远大于设定的显著性水平0.05,故本例两组数据方差相等。在方差相等的情况下,独立样本T检验的结果应该看上表中的假设方差相等一行,第5列为相应的双尾检测概率Sig.双侧为0.007,在显著性水平为0.05的情况下,T统计量的概率p值小于0.05,故应拒绝零假设,即认为两样本的均值不是相等的,在本例中,能认为男女得分绩有显著性差异。5 / 14.5.5. 设有设有5 5种治疗荨麻疹的药种治疗荨麻疹的药, ,要比较它们的疗效要比较它们的疗效。假设将假设将3030个病人分成个病人分成5 5组组, ,每组每组6 6人人, ,令同令同组病人使用一种药组病人使用一种药, ,并记录病人从使用药物开始到痊愈所需时间并记录病人从使用药物开始到痊愈所需时间, ,得到下面的记录得到下面的记录:药物类别药物类别1 12 23 34 45 5问所有药物的效果是否一样问所有药物的效果是否一样?第第1 1步分析步分析:治愈所需天数治愈所需天数5,8,7,7,10,85,8,7,7,10,84,6,6,3,5,64,6,6,3,5,66,4,4,5,4,36,4,4,5,4,37,4,6,6,3,57,4,6,6,3,59,3,5,7,7,69,3,5,7,7,6由于考虑的是一个控制变量药物对一个观测变量治愈所需天数的影响,而且是五种药物,所以不适宜用独立样本T检验仅适用两组数据,应采用单因素方差分析。第第2 2步数据的组织步数据的组织:数据分成两列,一列是治愈所需天数,变量名为治愈所需天数,另一变量是药物种类变量值分别为1,2,3,4,5,变量名为药物种类,输入数据并保存。第第3 3步方差相等的齐性检验步方差相等的齐性检验:由于方差分析的前提是各个水平下这里是不同的药物种类影响下的治愈所需天数的总体服从方差相等的正态分布,且各组方差具有齐性。其中正态分布的要求并不是很严格,但对于方差相等的要求是比较严格的,因此必须对方差相等的前提进行检验。误差方差等同性的误差方差等同性的 LeveneLevene 检验检验a a因变量:治愈所需天数F.552df14df225Sig.6996 / 14.检验零假设,即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + 药物类别方差齐性检验的H0假设是:方差相等。从上表可看出相伴根据Sig.=0.6990.05说明应该接受H0假设即方差相等。故下面就用方差相等的检验方法。ANOVAANOVA治愈所需天数组间组内总数平方和36.46758.50094.967df42529均方9.1172.340F3.896显著性.014上表是几种饲料方差分析的结果,组间Between Groups平方和Sum of Squares为36.467,自由度df为4,均方为9.117;组内Within Groups平方和为58.500,自由度为25,均方为2.340;F统计量为3.896。由于组间比较的相伴概率Sig.p值=0.0140.05,故应拒绝H0假设四种饲料喂猪效果无显著差异,说明五种药物对治愈所需天数有显著性差异。第第4 4步多重比较分析步多重比较分析:通过上面的步骤,只能判断4种饲料喂猪效果是否有显著差异。如果想进一步了解究竟是哪种药物与其他组有显著性的均值差别即哪种药物更好等细节问题,就需要在多个样本均值间进行两两比较。由于第3步检验出来方差具有齐性,故选择一种方差相等的方法,这里选LSD方法;显著性水平默认取0.05;多个比较多个比较治愈所需天数LSD 药 药均值差值 标准误差2.5000*.88318Sig.00995% 置信区间下限.6811上限4.3189物类别物类别类别1类别27 / 14.类别3类别4类别5类别2类别1类别3类别4类别5类别3类别1类别2类别4类别5类别4类别1类别2类别3类别5类别5类别1类别2类别3类别4基于观测到的均值。3.1667*2.3333*1.3333-2.5000*.6667-.1667-1.1667-3.1667*-.6667-.8333-1.8333*-2.3333*.1667.8333-1.0000-1.33331.16671.8333*1.0000.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.88318.001.014.144.009.457.852.198.001.457.354.048.014.852.354.268.144.198.048.2681.3477.5144-.4856-4.3189-1.1523-1.9856-2.9856-4.9856-2.4856-2.6523-3.6523-4.1523-1.6523-.9856-2.8189-3.1523-.6523.0144-.81894.98564.15233.1523-.68112.48561.6523.6523-1.34771.1523.9856-.0144-.51441.98562.6523.8189.48562.98563.65232.8189误差项为均值方 = 2.340。*. 均值差值在 .05 级别上较显著。从整个表反映出来五种药物相互之间均存在显著性差异,从效果来看是第3种最好,其次是第2种,第1种最差。上图为几种药物均值的折线图,可以看出均值分布比较陡峭,均值差异也较大。6.6. 某公司在各地区销售一种特殊化妆品某公司在各地区销售一种特殊化妆品。该公司观测了该公司观测了 1515 个城市在某月内对该化妆品的个城市在某月内对该化妆品的销售量销售量 Y Y 与各地区适合使用该化妆品的人数与各地区适合使用该化妆品的人数X1X1 和人均收入和人均收入 X2,X2,得到数据如下得到数据如下:地区地区1 12 2销售销售 箱箱 162162120120人数人数 千人千人 274274180180人均收入人均收入 元元 24502450325432548 / 14.3 34 45 56 67 78 89 910101111121213131414151522322313113167671691698181192192116116555525225223223214414410310321221237537520520586862652659898330330195195535343043037237223623615715737037038023802283828382347234737823782300830082450245021372137256025604020402044274427266026602088208826052605 画出这三个变量的两两散点图画出这三个变量的两两散点图, ,并计算出两两之间的相关系数并计算出两两之间的相关系数。试建立试建立Y Y与与X1,X2X1,X2之间的线性回归方程之间的线性回归方程, ,并研究相应的统计推断问题并研究相应的统计推断问题, ,同时预测适合购买同时预测适合购买此化妆品的人数为此化妆品的人数为 220220 千人千人, ,人均收入为人均收入为 25002500 元的某城市对该化妆品的销量元的某城市对该化妆品的销量。第第 1 1 步步 分析分析:这是一个因变量和两个自变量之间的问题,故应该考虑用二元线性回归解决。第第 2 2 步步 数据组织数据组织:定义三个变量,分别为z销售量、x人数、y人均收入。第第 3 3 步步 一元线性回归分析设置一元线性回归分析设置:选择菜单分析回归线性,打开线性回归对话框,将变量销售量作为因变量 ,9 / 14.人数和人均收入作为自变量。打开统计量对话框,选上估计和模型拟合度。单击绘制T按钮,打开线性回归 :图对话框 ,选用 DEPENDENT 作为 y轴,*ZPRED 为 x 轴作图。并且选择直方图和正态概率图作相应的保存选项设置,如预测值、残差和距离等。输入输入移去的变量移去的变量模型1输入的变量人均收入, 人数a移去的变量方法. 输入a. 已输入所有请求的变量。表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出,进入模型的自变量为销售量模型汇总模型汇总b b模型1R.999aR 方.999调整 R 方标准估计的误差.9992.17722a. 预测变量: , 人均收入, 人数。b. 因变量: 销售量R=0.999,说明自变量与因变量之间的相关性很强。R方 =0.999,说明自变量销售量可以解释因变量人数和人均收入的99.9%的差异性。AnovaAnovab b模型1回归残差平方和53844.71656.884df212均方26922.3584.740F5679.466Sig.000a总计53901.60014a. 预测变量: , 人均收入, 人数。b. 因变量: 销售量表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出,F统计量的观测值为5679.466,显著性概率10 / 14.为0.000,即检验假设H0:回归系数B = 0成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。系数系数a a非标准化系数模型1B3.453标准误差2.431标准系数试用版t1.420Sig.181.934.108人数人均收入a. 因变量: 销售量.496.009.006.00181.9249.502.000.000表中显示回归模型的常数项、非标准化的回归系数B 值与其标准误差、标准化的回归系数值、统计量t值以与显著性水平Sig.。从表中可看出,回归模型的常数项为 3.453,自变量人数的回归系数为 0.496,人均收入的回归系数为 0.009.因此,可以得出回归方程:销售量销售量=3.453+ 0.496=3.453+ 0.496 人数人数+0.009+0.009 人均收入人均收入。回归系数的显著性水平为 0.000,明显小于 0.05,故应拒绝 T 检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。当购买此化妆品的人数为220千人,人均收入为2500元时,该城市该化妆品的销量为:销售量销售量=220=220 0.496+0.0090.496+0.009 2500+3.453=135.0732500+3.453=135.073箱箱系数系数a a非标准化系数模型1B3.453标准误差2.431标准系数试用版t1.420Sig.181零阶相关性偏部分.934.108.995.639.999.940.768.089人数人均收入a. 因变量: 销售量.496.009.006.00181.9249.502.000.0007.7.研究青春发育阶段的年龄和远视率的变化关系研究青春发育阶段的年龄和远视率的变化关系, ,测得数据如下测得数据如下年年 6 67 78 89 910101111121213131414151516161717181811 / 14.龄龄远远 63.663.661.061.038.838.813.713.714.14.视视 4 4率率请对年龄与远视率的关系进行曲线估计请对年龄与远视率的关系进行曲线估计。第第 1 1 步步 分析分析:先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。第第 2 2 步步 数据组织数据组织:定义为两个变量,分别是x年龄、y远视率,输入数据并保存。第第 3 3 步步 作散点图初步判定变量的分布趋势作散点图初步判定变量的分布趋势:第第4 4步步 进行曲线估计进行曲线估计:依次选择菜单分析回归曲线估计,将所有模型全部选上,看哪种模型拟合效果更好,其所有模型的拟合优度R2如下表所示。模型汇总和参数估计值模型汇总和参数估计值因变量:远视率模型汇总方程线性对数倒数二次三次R 方.758.851.912.953.956F28.18251.22193.29181.44850.638df111123Df299987Sig.000.000.000.000.000常数88.198180.617-48.486214.566271.869参数估计值b1-6.265-68.560679.341-31.311-48.735b2b38.08.07 74.44.41 12.22.27 72.02.09 91.01.02 22.52.51 13.13.12 22.92.98 86 64 45 55 51.1382.804-.05012 / 14.复合幂S.925.934.901110.422127.84882.301111999.000.000.000834.164232454.999-1.963.658-4.35140.901增长指数Logistic.925.925.925110.422110.422110.422111999.000.000.0006.726834.164.001-.419-.4191.520自变量为年龄。从决定系数R方即R2来看,三次曲线效果最好因为其R2 值最大,并且方差分析的显著性水平Sig.为 0。故重新进行上面的过程,只选三次曲线Cubic一种模型。模型汇总模型汇总R.978自变量为年龄。R 方.956调整 R 方估计值的标准误.9375.987复相关系数R = 0.978,R2 = 0.956, 经校正后的R平方值为0.937。故可判断远视率与年龄之间有较显著的三次曲线关系ANOVAANOVA回归残差总计平方和5444.791250.8875695.678Df3710均方1814.93035.841F50.638Sig.000自变量为年龄。相伴概率Sig.=0.000说明模型具有显著的统计学意义。系数系数未标准化系数标准化系数tSig.13 / 14.年龄年龄 * 2年龄 * 3常数B-48.7352.804-.050271.869标准误26.6812.522.07689.633Beta-6.7738.642-2.749-1.8271.112-.6633.033.111.303.529.019从表中可知因变量与自变量的三次回归模型为:y=x+2.804x2-0.050x3y=x+2.804x2-0.050x3从图形上看出其拟合效果非常好。8.8. 谈谈你对数理统计和统计软件课程的学习心得和想法谈谈你对数理统计和统计软件课程的学习心得和想法, ,有何收获有何收获, ,有何建议等有何建议等。首先首先, ,能开统计软件这门课我感到十分的开心能开统计软件这门课我感到十分的开心 , ,因为这个软件的用途非常广泛因为这个软件的用途非常广泛, ,尤其是应用于尤其是应用于数模竞赛数模竞赛。相比较于相比较于 SASSAS 和和 Stata,SPSSStata,SPSS 比较容易使用比较容易使用, ,上手也相对较快些上手也相对较快些, ,自然也比较适合自然也比较适合我们这类新手来学习我们这类新手来学习。关于数理统计关于数理统计, ,我想仅仅一个我想仅仅一个 难难 字是无法来形容这门课的复杂多变字是无法来形容这门课的复杂多变, ,相对于上学期的概率论相对于上学期的概率论, ,这学期学的数理统计不仅需要扎实的概率论基础这学期学的数理统计不仅需要扎实的概率论基础, ,而且要记得住各种而且要记得住各种类型的分析类型的分析。着实把我唬到了着实把我唬到了!关于收获关于收获, ,用句简单的话来概括用句简单的话来概括:学以致用学以致用, ,快乐无敌快乐无敌!至于建议嘛至于建议嘛, ,希望老师能形象的讲授数理统计知识希望老师能形象的讲授数理统计知识 , ,因为真的不是那么好理解因为真的不是那么好理解。统计软件嘛统计软件嘛, ,只能靠多练练手来提高自己的能力了只能靠多练练手来提高自己的能力了, ,毕竟师傅领进门毕竟师傅领进门, ,修行在个人修行在个人。14 / 14
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号