资源预览内容
第1页 / 共136页
第2页 / 共136页
第3页 / 共136页
第4页 / 共136页
第5页 / 共136页
第6页 / 共136页
第7页 / 共136页
第8页 / 共136页
第9页 / 共136页
第10页 / 共136页
亲,该文档总共136页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
统计学上机实验课统计学上机实验课实验一:数据整理中的统计计算实验二:数据筛选与数据排序实验三:数据的整理与显示实验四:抽样推断中的统计计算实验五:相关与回归分析中的统计计算实验六:描述统计工具的综合使用课程安排课程安排一一、实验要求、实验要求1、已学习教材相关内容,理解数据整理中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。2、准备好一个统计分组问题及相应数据(可用本实验导引所提供问题与数据)。3、以Excel文件形式提交实验报告(含:实验过程记录、疑难问题发现与解决记录(可选)。此条为所有实验所要求,恕不赘述。实验一:实验一:数据整理中的统计计算数据整理中的统计计算数据录入与数据清单的建立数据录入与数据清单的建立操作步骤:操作步骤:输入相关的文字与数据,建立如下的数据清单。进行文字的基本修饰选择“对齐”选项卡,在“文本控制”栏选中“合并单元格”复选框。再选择“字体”选项卡,选择“字体”为“黑体”,“字形”为“加粗”,“字号”为“14”,颜色为“蓝色”。单击“确定”。接着选中 A2:E9 区域,按照上面的方法,设置“字号”为“10”,字体保持“宋体”不变。最后分别选择A2:E2、A3:A9、B9:E9区域,将该区域内的“字形”设置为“加粗”。修饰后的结果如下图:步骤:步骤:在单元格D3中输入公式“=B3-C3”,按“Enter”键。将光标移到D3 单元格的右下角,使得光标由“白十字”变成“黑十字”,按住鼠标(注意:未加特别说明,均指按住鼠标左键)不放,向下拖动到D8单元格,将单元格D3 的公式复制到D4:D8单元格区域。步骤:步骤:在单元格E3中输入公式“=D3/B3”,按“Enter”键。将光标移到E3 单元格的右下角,使得光标由“白十字”变成“黑十字”,按住鼠标不放,向下拖动到E8 单元格,将单元格E3的公式复制到E4:E8单元格区域。统计一些常用函数统计一些常用函数样本容量 COUNT算数平均数 AVERAGE中位数 MEDIAN众数 MODE标准差 STDEV方差 VAR四分位数 QUARTILE偏度系数 SKEW峰度系数 KURT最大值 MAX最小值 MIN总和 SUM步骤:步骤:单击D9 单元格,选择菜单“插入|函数”,弹出“插入函数”对话框。在“统计”函数类别中选择统计函数“AVERAGE”。单击“确定”。在“AVERAGE”函数的“函数参数”对话框中输入需要计算平均数的区域D3:D8,单击“确定”,得到最终结果。注意:注意:在Excel 中对单元格进行操作往往有多种方法。常见情形下可以分为菜单操作、命令按钮操作、鼠标右键的快捷方式等等,后面将进一步说明。比如此例中利润率一般用百分数表示,此时可以选择单元格区域E3:E8,单击鼠标右键,在右键菜单中选择“设置单元格格式”,弹出“单元格格式”选项卡,在“分类”下选择“百分比”,单击“确定”。即可以将“利润率”用百分数来表示。二二、实验内容和操作步骤、实验内容和操作步骤(一)问题与数据(一)问题与数据在一批灯泡中随机抽取50只,测试其使用寿命,原始数据如下(单位:小时):进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、曲线图)。700716728719685709691684705718706715712722691708690692707701708729694681695685706661735665668710693697674658698666696698706692691747699682698700710722(二)使用(二)使用FREQUENCYFREQUENCY函数绘制频数分布表函数绘制频数分布表操作步骤:操作步骤:1、在单元区域A2E11中输入原始数据。2、并计算原始数据的最大值(在单元格B12中)与最小值(在单元格D12中)。3、根据Sturges经验公式计算经验组距(在单元格B13中)和经验组数(在单元格D13中)。4、根据步骤3的计算结果,计算并确定各组上限、下限(在单元区域F2G8中)。步骤14如图1-1所示。图1-1 组数和组距的确定5、绘制频数分布表框架,如图1-2所示。图1-2 频数分布表框架6、计算各组频数:(1)选定B20B26作为存放计算结果的区域。(2)从“插入”菜单中选择“函数”项(或“单击常用工具栏”中的“插入函数”按钮)。(3)在弹出的“插入函数”对话框中选择“统计”函数FREQUENCY。步骤(1)(3)如图1-3所示。图1-3 选择FREQUENCY函数(4)单击“插入函数”对话框中的“确定”按钮,弹出“FREQUENCY”对话框。(5)确定FREQUENCY函数的两个参数的值。其中:Data-array:原始数据或其所在单元格区域(A2E11)Bins-array:分组各组的上限值或其所在的单元格区域(G2G7)。步骤(4)(5)如图1-4所示。图1-4 确定FREQUENCY函数的参数(6)按按Shift+Ctrl+EnterShift+Ctrl+Enter组合键组合键,结果图1-5所示。图1-5 FREQUENCY函数计算结果4、用各种公式计算表中其它各项,结果如图1-6所示。图1-6 频数分布表中的其他计算5、作频数分布图使用EXCEL的“图表向导”工具即可(操作步骤略),结果如图1-71-9所示。图1-7 频数分布直方图图1-8 频数分布折线图图1-9 频数分布曲线图作业作业一人在十字路口统计考察通过该路口的行人人数,经过连续天的观察,统计结果如下:26 53 32 37 48 60 35 37 41 26 39 48 25 33 43 47 40 50 40 26 32 37 42 46 33 33 22 58 63 45 28 61 37 29 44 42 47 25 38 43 39 51进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、曲线图)。一、数据筛选一、数据筛选数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。下面举例说明Excel进行数据筛选的过程。实验二:数据筛选与数据排序实验二:数据筛选与数据排序表表2-1 82-1 8名学生的考试成绩数据名学生的考试成绩数据单位:分单位:分表2-1是八名学生四门课程的考试成绩数据,使用Excel“筛选”命令分别找出统计成绩等于75分的学生;英语成绩前三名的学生;数学成绩大于80小于90的学生;统计成绩和数学成绩大于80分,或者英语成绩大于90分的学生。Excel提供了两种筛选命令:“自动筛选”(适用于简单的条件)和“高级筛选”(适用于复杂的条件)。接下先来介绍“自动筛选”的使用。首先,将表格中的数据区域选定或者只需确保活动单元格处于数据区域既可(如表2-1所示,活动单元格为活动单元格为B3B3)。选择“数据”菜单,并选择“自动筛选”命令。如图2-1所示。图2-1 从“数据”菜单中选择“筛选自动”这时会在第一行(列标题)出现下拉箭头,用鼠标点击箭头会出现如下结果,如图2-2所示。图2-2 “自动筛选”命令要筛选出统计学成绩为75分的学生,可选择75,得到下图2-3的结果:要筛选出英语成绩最高的前三名学生,可在英语成绩下拉箭头选项中选择“前10个”,并在对话框中输入“3”,得到如下图2-4所示结果:图2-3 统计成绩75分的学生图2-4英语成绩前三名的学生要筛选出数学成绩大于80小于90的学生,可在数学成绩下拉箭头的选项中选择“自定义”。在弹出的对话框中,进行相应的设置,如下图2-5所示:图2-5 数学成绩大于80小于90的学生下面用“高级筛选”命令筛选出“统计成绩和数学成绩大于80分,或者英语成绩大于90分”的学生。第一步:建立条件区域,即在工作表的顶端插入若干新行来放置条件。具体到本例至少需要插入四行来放置条件(注意:数据区域与条件区域必须有一注意:数据区域与条件区域必须有一行间隔行间隔)。如下图2-6所示:图2-6 条件区域的建立第二步:选择“高级筛选”命令,在弹出的对话框中进行相应的设置。如下图2-7所示:图2-7 “高级筛选”命令的使用在本例在“数据区域(L)”输入A5:E13,在“条件区域(C)”输入A1:C3,回车确定即可。结果见下表2-2:表2-2 筛选结果二、数据排序二、数据排序数据排序是按一定的顺序将数据排列,以便研究者通过排序后数据的特征或趋势,找出解决问题的线索。对于数值型数据的排序,即递增和递减排序,在Excel“数据”菜单中的“排序”命令可以很方便的实现这一功能,由于篇幅所限这里不再介绍。下面介绍如何利用Excel的“排位和百分比排位”分析工具来进行分析,此工具可以产生次序排位和百分比排位。以表2-3为例,步骤如下:表2-3 8名学生的考试成绩数据单位:分第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“排位和百分比排位”,回车打开其对话框。图2-8 “排位和百分比排位”命令图2-9 “排位和百分比排位”命令对话框第二步:(以统计学成绩单列数据为例)对命令对话框进行相应设置。本例统计学成绩数据区域为“B1:B9”,“输入区域(I)”输入“B1:B9”。“分组方式”要求指出输入区域中的数据是按行还是按列排列,在本例中选择默认设置“列”。如果“输入区域(I)”的第一行包含了标志项,则需单击选中“标志位于第一行(L)”复选框,本例显然要选中此项。在输出选项中,按照需要相应选择,本例因输出结果比较多,所以选择“新工作表组(P)”。设置完毕,回车确定,结果见下表2-4。结果包括四列:第一列“点”为数据原来的排列顺序;后三列依次为数据值、数据值排序和百分比排序。百分比排序的数值指的是“好于多少的”数据,如统计学成绩87分的百分比排序值为85.7%,指的是其成绩好于85.7%的其它数据。表2-4 排位和百分比排位结果显示1 1、筛选出统计学成绩在大于、筛选出统计学成绩在大于8080分且小于分且小于9090分的学生,将筛选结果另分的学生,将筛选结果另存为存为“第二次作业第二次作业-1-1” ”的的. .xlsxls文件;文件;2 2、筛选出财务会计和统计学成绩均在平均分以上的男生,或者体育、筛选出财务会计和统计学成绩均在平均分以上的男生,或者体育成绩在成绩在8585分分( (包含包含8585分分) )以上的女生,将结果另存为以上的女生,将结果另存为“第二次作业第二次作业-2-2” ”的的. .xlsxls文件;文件;3 3、排列统计学成绩的数据,显示排位和百分比排位的结果,将结果、排列统计学成绩的数据,显示排位和百分比排位的结果,将结果另存为另存为“第二次作业第二次作业-3-3” ”的的. .xlsxls文件。文件。第二次实验作业第二次实验作业一、使用Excel制作定类数据的频数分布例:表3-1是一家市场调查公司为研究不同品牌饮料的市场占有率,调查员某天对50名顾客购买饮料品牌记录的原始数据。具体做法是:如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌记录一次。实验三实验三:数据数据的整理与显示的整理与显示表3-1 顾客购买饮料品牌的记录本例对各种品牌饮料指定的代码是:1. 可口可乐 2. 旭日升冰茶 3. 百事可乐 4. 汇源果汁 5.露露将品牌代码输入到Excel工作表中的B2:B51,这样就将定类数据转化为数值型数据。Excel还要求将每个品牌的代码作为分类标志单独输入到任何一列,这里将代码输入到工作表的C4:C8(见表3-2)。表3-2 代码输入情况第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“直方图”,回车打开其对话框(如图3-1,图3-2所示)。用用ExcelExcel产生频数分布表和图形的产生频数分布表和图形的步骤步骤图3-1 从对话框“分析工具”列表中选择“直方图” 图3-2 对话框的设置第二步:对命令对话框进行相应设置。本例“输入区域(I)”为B2:B51;“接受区域(B)”为C4:C8,即分类标志的区域。在输出选项中可根据自己的需要确定,本例选择“输出区域(O)”并键入E1(意思是结果从本工作表E1位置开始输出结果)。选择“累积百分率(M)”(若不需要时,此项可不选)和“图表输出(C)”,然后回车确定,结果见表3-3。表3-3 频数分布结果将频数分布表中的“接收”用描述性标题“饮料品牌”来代替,将“频率”改为“频数”(输出输出结果的频率实际上频数结果的频率实际上频数),将品牌的代码1,2,3,4,5用相应品牌的名称可口可乐、旭日升冰茶、百事可乐、汇源果汁、露露来代替。并将“其他”行(Excel的一个固定输出形式)去掉,换以相应的“合计”内容,结果见表3-4表3-4 不同品牌饮料的频数分布二、数值型数据的分组与图示例:表3-5是某生产车间50名工人日加工零件数(单位:个),采用等距分组的形式制作频数分布表和分布图。表3-5 生产车间50名工人加工零件数按Sturges公式来确定组数K:K=1+ 其中,n为数据的个数,对结果用四舍五入的办法取整即为组数。本例假定根据上述方法分为五组,组距为10:100-110;110-120;120-130;130-140;140-150。由于Excel不能识别非数值型字符,所以不能把100-110,110-120,120-130,130-140,140-150输入一列作为“接受区域”,程序规定只能把上组程序规定只能把上组限值作为分组标志,即限值作为分组标志,即110110,120120,130130,140140,150150。由于相邻两组的上下组限重叠,为了避免重复,通常采用“上组限不在内”的原则。由于Excel无法识别这一原则,但为了与通常的做法相一致,需要将上组限都减去1,即分组标志变为:分组标志变为:109109,119119,129129,139139,149149假定已将样本数据和分组标志输入到相应的位置(如表3-6所示),步骤同第三节品质数据的频数分布制作相同表3-6 生产车间50名工人加工零件数和分组标志单位:个第一步:在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“直方图”,回车打开其对话框。第二步:在“直方图”对话框的“输入区域(I)”输入A1:A51,“接受区域(B)”输入C2:C7,这时还需要单击选定“标志(L)”复选框(请读者自己思考为什么?)。第三步:在输出选项中,本例在“输出区域(O)”中键入D1,同时单击“累积百分率(M)”和“图表输出(C)”复选框。回车确定即可,结果输出见表3-7表3-7 频数分布输出结果为了把输出结果转化为易读的形式,应进一步修改表格和修饰图形。如下表3-8所示,把分组标志转换为标准、易懂的形式。表3-8 日产零件的频数分布二、多变量数据的显示(雷达图)雷达图具体的做法是:先做一个圆,然后将圆P等分(要绘制P个变量的雷达图),得到P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。下面以2000年我国城乡居民家庭人均各项生活消费支出比重数据为例,绘制雷达图。如表3-9所示。表3-9 2000年城乡居民家庭人均生活消费支出比重(%)第一步;选中数据所在的区域,本例为A1:C9。单击工具栏上的“图表向导”按钮,或者从“插入”菜单中选择“图表”选项。 第二步:在弹出的对话框(图表向导4步骤之1图表类型)中,选择雷达图。如图3-3所示。图3-3 图表类型第三步:点击下一步,在弹出的对话框(图表向导4步骤之2数据来源)中,按默认设置(因为在第一步中,我们已经选中数据区域)点击下一步,在弹出的对话框(图表向导4步骤之3图表选项)中进行相应设置。图表选项设置是我们制图过程中的关键步骤,可以在其中加图表标题,设置网格线、图例和数据标志。如图3-4所示(读者可自行体会)。图3-4 图表选项 第四步:点击下一步,在弹出的对话框(图表向导4步骤之4图表位置)中,点击完成即可。结果如图3-5所示。图3-5 雷达图输出使用Excel 的有效性检查防止数据输入中的错误Excel 提供了一个“有效性”检查的功能,可以在我们输入数据时实时检查录入的数据是否符合要求。如果输入的数据量很小,这种有效性检查并非必要,但如果你要输入成千上万条数据,“有效性”检查可以帮助我们避免许多录入错误。简单的例子来说明“有效性”检查功能的使用方法步骤步骤我们先在Excel 数据表的第一行输入四个变量名:编号,性别,班级,考试成绩。(1)、“编号”的取值我们借助Excel 的自动填充功能来实现:先在单元格A2、A3中输入1,2。用鼠标选中区域A2:A3,把鼠标移至该区域右下角的填充柄(其形状为黑色的小方块),鼠标指针变为一个实心的黑色十字(图2-1)。按住鼠标左键向下拖动至A9 单元格,完成数据的自动填充。步骤步骤(2)、对于班级变量,我们用1 表示统计班,2 表示经济班,3 表示金融班,4 表示会计班(同时在另一个工作表中记录这一编码规则,以免日后遗忘)。班级的取值只有1、2、3、4,其他取值都是错误输入,我们可以利用Excel 的“有效性”检查对输入的数据进行限定。操作步骤操作步骤具体操作步骤如下:先选中列B,然后选择菜单栏中的“数据” “有效性”,会弹出图2-2 的对话框。单击“允许”下面的下拉箭头,选择“整数”,再在新的对话框中把最小值设为1,最大值设为4。然后我们在“出错警告”选项卡的错误信息中输入“请输入1-4之间的整数”,这样在输入了1-4 以外的数值时,Excel 会弹出出错信息,并提示“请输入1-4 之间的整数”。(3)、对于取值非常有限的数据,我们还可以为变量的取值定义一个序列,如果输入的数据不在这个序列中,即为非法输入。下面我们用性别变量(0 表示男性,1 表示女性)加以说明。选中列C,然后选择菜单栏中的“数据” “有效性”,在图2-2 的对话框中选择序列,在“来源”对话框中输入“1,2”(数值用英文状态下的逗号隔开)(图2-3),单击确定按钮。这时,在列C 的单元格中输入数据时,Excel 会提供一个下拉箭头使我们能够从事先确定的序列中选择数值(当然我们也可以直接输入)(图2-4)。在输入大量数据时,使用下拉箭头输入数据会大大影响输入速度。其他其他(4)、对于考试成绩这一变量,我们只要使用“有效性”把数据限定为0-100 之间的整数就可以了。注意数据的有效性检查并不能帮助我们避免其它类型的录入错误:如果你把“60”错输成了“90”,Excel 不会给你任何警告。作业作业1 1下表是一家市场调查公司为研究不同水果在学校的喜爱程度,调查员某天对某大学50名同学最喜爱水果记录的原始数据。请使用Excel制作定类数据的频数分布本题各种水果制定的代码为:1 1 苹果苹果 2 2 香蕉香蕉 3 3 梨梨 4 4 西瓜西瓜 5 5 桔子桔子作业作业2 2分成五组利用利用EXCELEXCEL绘制散点图绘制散点图散点图是观察两个变量之间关系程度最为直观的工具之一,利用EXCEL的图标向导,可以非常方便的创建并且改进一个散点图,也可以在一个图表中同时显示两个以上变量之间的散点图。操作步骤操作步骤步骤步骤可按如下步骤建立变量 x-y,x-z 的散点图:1拖动鼠标选定数值区域A2:C12,不包括数据上面的标志项。2选择“插入”菜单的“图表”子菜单,进入图表向导。3选择“图表类型”为“散点图”,然后单击“下一步”。4确定用于制作图表的数据区。Excel 将自动把你前面所选定的数据区的地址放入图表数据区的内。步骤步骤5. 在此例之中,需要建立两个系列的散点图,一个是x-y 系列的散点图,一个是x-z 系列的散点图,因此,必须单击“系列”标签,确认系列1 的“X 值”方框与“数值方框”分别输入了x,y 数值的范围,在系列2 的“X 值”方框与“数值方框”分别输入了x,z 数值的范围。在此例中,这些都是Excel 已经默认的范围,所以,可忽略第5 步,直接单击“下一步”即可。6. 填写图表标题为“X-Y 与X-Z 散点图”,X 轴坐标名称为“X”与Y 轴坐标名称“Y/Z”,单击“下一步”。7. 选择图表输出的位置,然后单击“完成”按扭即生成图附-4 的图表。结果结果结果说明:如图附-4 所示,Excel 中可同时生成两个序列的散点图,并分为两种颜色显示。通过散点图可观察出两个变量的关系,为变量之间的建立模型作准备。一一、实验要求、实验要求1、已学习教材相关内容,理解抽样推断中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。2、准备好一个或几个抽样推断问题及相应数据(可用本实验导引所提供问题与数据)。实验四:实验四:抽样推断中的统计计算抽样推断中的统计计算统计学应用:描述统计和推断统计描述统计和推断统计描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。推断统计推断统计是研究如何利用样本数据来推断总体特征的统计方法。 背景知识背景知识区间估计:区间估计:参数估计的一种形式。通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。用数轴上的一段经历或一个数据区间,表示总体参数的可能范围.这一段距离或数据区间称为区间估计的置信区间。二二、实验内容和操作步骤、实验内容和操作步骤(一)使用(一)使用EXCELEXCEL中的概率分布函数进行参数估计中的概率分布函数进行参数估计1 1、问题与数据、问题与数据某厂用某机床加工某种零件,假设零件长度服从正态分布。现从一批该种中随机抽取10件,测得其长度如下(单位:cm):6.1 5.7 6.5 6.0 6.3 5.8 6.3 6.1 5.9 6.4以以95%95%的可靠性程度估计该零件的长度。的可靠性程度估计该零件的长度。2 2、操作步骤(如图、操作步骤(如图4-14-1所示)所示)(1)输入样本数据。(2)绘制计算表。(3)在计算表中用各种公式和函数计算。图4-1 区间估计图4-1中E列各单元格由以下各公式计算:样本容量 COUNT(A2A11)样本均值 AVERAGE(AA11)样本标准差 STDEV(A2A11)抽样误差 E4/SQRT(E2)置信度 0.95自由度 E2 - 1t临界值 TINV(1 E6),E7)误差范围 E8*E5估计下限 E3E9估计上限 E3 + E9(二)用(二)用“数据分析数据分析”工具进行假设检验工具进行假设检验1 1、问题与数据、问题与数据在漂白工艺中,为研究温度对针织品断裂强力的影响,在70和80下各重复试验10次,测得其断裂强力(单位:千克)如下:70下:20.5 18.5 19.8 20.9 21.5 19.5 21 21.2 20.3 20.680下:17.7 20.3 20 18.8 19 20.1 20.2 19.1 19.2 18.6要求在要求在0.050.05的显著性水平下判断在两种温度下针织品断的显著性水平下判断在两种温度下针织品断裂强力的方差有无明显不同。裂强力的方差有无明显不同。2 2、操作步骤、操作步骤(1)输入样本数据,根据问题绘制“假设检验表”,如图4-2所示。图4-2 样本数据与假设检验表(2)从“工具”菜单中选择“数据分析”项;在所弹出的“数据分析”对话框的“分析工具”列表中选择“F-检验:双样本方差”工具,如图4-3所示图4-3 “数据分析”对话框(3)单击“数据分析”对话框的“确定”按钮,弹出“F-检验:双样本方差”对话框。(4)确定对话框中各选项(a=0.025a=0.025),如图4-4所示。图4-4 确定“F-检验:双样本方差”对话框各选项(a=0.025)(5)单击“F-检验:双样本方差”对话框的“确定”按钮。(6)重复以上(2),(3),(4),(5)四步,在第(4)步中各选项的确定如图4-5所示。图4-5 确定“F-检验:双样本方差”对话框各选项(a=0.975)(7)将计算结果填入假设检验表中,得到结论,如图4-6所示。图4-6 假设检验结果:接受原假设作业作业1 1食品质量和食品安全问题是关系到每个人日常生活的重要问题。尤其是婴幼儿配方奶粉,直接关系到孩子的健康成长和身体发育。有一段时间,一些不法分子,人为地在原奶中添加某种对人体有害的化学物质,导致许多孩子患上了肾结石或者出现肾脏功能减退等症状。相关部门随机抽查了某企业一定时间段八个批次的产品,测得这些产品中该种化学物质的含量如下(mg/kg)。23.1 24.8 35.9 41.3 8.2 5.3 40.1 23.1 24.8 35.9 41.3 8.2 5.3 40.1 50.450.4在95%的置信水平下,推断该企业全部产品该种化学物质含量的置信区间。作业作业2 2统计学原理上机实验(统计学原理上机实验(ExcelExcel)实验五:相关与回归分析实验五:相关与回归分析一、实验目的一、实验目的已学习教材相关内容,理解相关与回归分析中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。相关关系是社会经济现象中普遍存在的一种相互依存关系。通过本次实验掌握两组变量之间线性相关关系的测度方法,重点掌握利用散点图法、函数法和分析工具法计算Pearson积矩线性相关系数,并能对计算结果进行分析与解释,从中鉴别相关方向与相关程度。实验内容实验内容1、Pearson积矩线性相关系数的计算(散点图、函数、分析工具)2、一元线性回归分析例题分析例题分析设某公司在全国20个市场同时推销产品,下表是该公司在各个市场所派出的推销员数量、所支出的广告及推销费用和产品年销售量的资料,假定各市场的其他条件相同试分析产品年销售量和所支出的广告及推销费用的线性相关关系的相关程度的大小以及相关方向。可以采用散点图、相关函数和相关关系分析工具三种方法来研究二者的相关关系。散点图步骤散点图步骤打开工作表。选择菜单“插入|图表”,选中“XY 散点图”,在“子图表类型”中选择“平滑线散点图”,单击“下一步”按钮。单击“ “数据区域”选项卡,在“数据区域”对话框中选定单元格区域“=相关散点图!$B$2:$C$21”,其他选项保持默认状态,单击“下一步”按钮。单击标题”选项卡, 在“图表标题”中输入“销售量和推销费用的相关关系图”,“数值(X)轴”输入“推销费用”,“数值(Y)轴”输入“销售量”。单击“网格线”选项卡,单击“数值(Y)轴”栏的“主要网格线”复选框,去掉前面的对钩。单击“图例”选项卡,单击“显示图例”复选框,去掉前面的对钩。直接单击“完成”按钮统计一些常用函数统计一些常用函数算数平均数 AVERAGE中位数 MEDIAN众数 MODE标准差 STDEV方差 VAR相关系数CORREL偏度系数 SKEW峰度系数 KURT协方差COVAR相关函数法相关函数法打开工作表。在单元格E8 中插入函数“=STDEVP(B2:B21)”,用于计算 广告费用的标准差(注意:这里采用的是总体标准差函数STDEVP)。在单元格F8 中插入函数“=STDEVP(C2:C21)”,用于计算标准差。单击单元格E4,选择菜单“插入|函数”,在“统计”类别下的列表中选择协方差函数“COVAR”,单击“确定”。弹出“函数参数”对话框。该函数主要用于计算两个数组区域的协方差。在“Array1”对话框中输入单元格区域“B2:B21”,在“Array2”对话框中输入单元格区域“C2:C21”,单击“确定”。计算出两组数据的协方差。相关函数法相关函数法在单元格E11 中输入相关系数的计算公式“=E10/(F8*H8)”,计算得线性相关系数。也可以直接利用相关系数函数计算线性相关系数。选中单元格F11,选择菜单“插入|函数”,在“统计”类别中选择“CORREL”函数,单击“确定”,弹出“函数参数”对话框。CORREL 函数用于计算两个数组区域的相关系数,它有两个参数:Array1 和Array2。在“Array1”对话框中输入单元格区域“B2:B21”,在“Array2”对话框中输入单元格区域“C2:C21”,单击“确定”。直接计算出两组数据的相关系数。相关函数法相关函数法分析工具法分析工具法打开工作表。在“工具”菜单中选择“数据分析”工具。在“数据分析”对话框的“分析工具”列表中选中“相关系数”,单击“确定”按钮。弹出“相关系数”工具。相关系数工具的包括“输入”与“输出”两栏。在“输入区域”对话框中选中数据区域“$B$1:$C$21”。钩中“标志位于第一行”复选框。单击“输出区域”命令按钮,在对话框中选择单元格“$E$1”。单击“确定”。最终的输出结果如下。可以看出这一结果与函数法计算的结果完全一致。 回归分析回归分析广告推销费用对消费量有着重要影响。试根据这些数据建立以广告推销费用为自变量,消费量为因变量的简单线性回归模型,并对模型结果进行解释。操作步骤操作步骤打开工作表。选择“工具”菜单中的“数据分析”工具,弹出“数据分析”对话框。在“分析工具”列表中选中“回归”,单击“确定”按钮,弹出“回归”工具对话框。本例中,“Y 值输入区域”中输入被解释变量消费量 的数据区域“C1:C21”,“X 值输入区域”中输入解释变量广告推销费用。 所引用的数据区域“B1:B21”,选中“标志”复选框。在“输出选项”栏单击“输出区域”命令按钮,在后面的对话框中输入“B23”输出区域。 。其他保持默认状态,单击“确定”。得到回归分析结果,我们把它分成三个部分进行分析。得到回归分析结果,我们把它分成三个部分进行分析。这一部分称之为摘要输出部分。显示的是回归统计的结果,其中的R平方(R Square)称之为判定系数,也就是被解释变量可以用解释变量来进行解释的程度(回归偏差占总偏差的比率)。一般情况下,R2值越大,说明解释变量对被解释变量的解释能力越强。调整的R平方值(Adjusted R Square)进一步考虑了自由度的问题。回归系数的检验回归系数的检验回归系数的检验 从总体中随机抽取一个样本,由于受到抽样误差的影响,它所确定的变量之间的线性关系是否显著。若系数等于0,总体回归线是一条水平线,变量之间无线性关系,违背了一元线性回归方程的基本假设;若系数不等于0,即变量之间存在线性关系。这就一般采用t检验。原假设是系数等于0,我们所要得出的t值就是要拒绝原假设,那就需要t值大于临界值。线性回归方程的显著性检验线性回归方程的显著性检验依据这个方程用给定自变量x去估计因变量y是否有效,必须通过显著性检验才可以得出结论可以用方差分析方法进行检验判定,通常使用F检验。检验的零假设是H0方程不显著。故生成的F值应该明显大于临界值才会拒绝不显著的假设,接受备择假设H1方程显著。方差分析部分的结果与方差分析表的内容基本一致,这里的F值主要用来说明整个回归方程的拟合效果,本例中的F值显然远远大于临界值,说明整个回归方程拟合效果较好。这一部分输出的是回归方程系数的估计及其检验。从结果来看,无论是截距项(Intercept)还是解释变量广告推销费用的t统计量(t Stat)的值都比较大,而且P值(P-value)也远远小于5%,所以两个系数都通过了显著性检验,非常显著的不为0。MS 均方:一组数平方的平均值。P-value就是拒绝原假设的最小显著性水平。若P值小于显著性水平,则拒绝原假设。若P值大于显著性水平,则接受原假设。这里的原假设是HO方程不显著。从上图可以看出P值远大于0.05.故拒绝原假设。方程显著。根据本例的数据可以得消费量与广告推销费用之间的简单线性回归方程: Y=14.0149+8.7999X (3.12) (20.38)括号内为t检验值。方程的R2=0.9584,估计标准误=9.66。作业作业为了解某市工业总产值与税利总额的关系,以便能从工业总产值去预测下年度的税收总额,今收集了1988-1999年12年间的数据如下表1:绘制散点图,并且画出趋势线来考察两变量的关系。2:请用相关函数法和分析工具法来描述两变量的关系3:工业总产值对税利总额有着重要影响。试根据这些数据建立以工业总产值为自变量,税利总额为因变量的简单线性回归模型,并对模型结果进行解释。实验六:实验六:描述统计工具的描述统计工具的综合综合使用使用一一、实验目的、实验目的 学会使用Excel计算各种数字特征,能以此方式独立完成相关作业。二二、实验要求、实验要求1、已学习教材相关内容,理解数字特征中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。2、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。三三、实验内容和操作步骤、实验内容和操作步骤(一)实验内容一:用Excel中的工作表函数计算分组资料的数字特征1、问题与数据某地区农民家庭按人均收入分组的分组数据资料如下:计算家庭人均收入的中位数,均值,标准差。收入(元)频率(%)01001002002003003004004005005006006007002.313.719.715.215.120142 2、操作步骤(如图、操作步骤(如图6-16-1所示)所示)(1)绘制计算表框架,且输入分组数据:分组,频率,组限。(2)用各种常用公式或函数在计算表中计算其他各栏。公式如下:组中值:=(D4D10+E4E10)/2组距:= E4E10 - D4D10x xi if fi i:=(F4F10*B4B10)/100x xi i2 2f fi i:=(POWER(F4F10,2)*B4B10)/1003.计算中位数,均值,标准差。公式如下:中位数:=D7+(B11/2-C6)/B7*G7均值:SUM(H4H10)标准差:SQRT(I11-POWER(H11,2)图6-1 分组资料数字特征计算(二)实验内容二:(二)实验内容二: 用用“描述统计描述统计”工具处理原工具处理原始资料始资料1 1、问题与数据、问题与数据从某校所有参加一次英语考试的学生中,随机抽取30名学生记录其考试成绩,结果如下:89 88 76 99 74 87 73 67 82 6092 67 56 87 74 64 54 64 74 8772 67 81 66 73 82 76 73 77 89试用“描述统计”工具计算该样本的各描述统计特征。2 2、操作步骤:、操作步骤:(1)于A1A30单元格区域中输入样本数据。(2)从“工具”菜单中选择“数据分析”项;在所弹出的“数据分析”对话框的“分析工具”列表中选择“描述统计”工具(如图6-2所示)图6-2 “数据分析”对话框(3)单击“数据分析”对话框的“确定”按钮,弹出“描述统计”对话框。(4)确定对话框中各选项(如图6-3所示)。(5)单击“描述统计”对话框的“确定”按钮,结果如图6-4所示。图6-3 “描述统计”对话框图6-4 “描述统计”计算结果标准误差:各测量值误差的平方和的平均值的平方根,故又称为均方误差的平方根。标准误差不是测量值的实际误差,也不是误差范围,它只是对一组测量数据可靠性的估计。标准误差小,测量的可靠性大一些,反之,测量就不大可靠。标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小 ,是量度结果精密度的指标。峰度:又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了尾部的厚度。峰度以bk表示,Yi是样本测定值,Ybar是样本n次测定值的平均值,s为样本标准差。正态分布的峰度为3。bk3称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。 简单来讲,峰度是描述分布形态的陡缓程度。峰度为3表示与正态分布相同,峰度大于3表示比正态分布陡峭,小于3表示比正态分布平坦。偏度:是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。 偏度以bs表示,正态分布的偏度为0,两侧尾部长度对称。bs0称分布具有正偏离,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长; 而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数中位数众数,左偏时相反,即众数中位数平均数。正态分布三者相等。 置信度:所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度.概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 计算公式:一、我国某城市按家庭人均每月消费分组及其频率的数据资料如下:计算家庭人均消费的中位数,均值,标准差。作业作业二、通过抽样调查我国某城市工薪阶层的收入水平,随机抽取30个人,其收入状况如右:试用“描述统计”工具计算该样本的各 描述统计特征。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号