资源预览内容
第1页 / 共145页
第2页 / 共145页
第3页 / 共145页
第4页 / 共145页
第5页 / 共145页
第6页 / 共145页
第7页 / 共145页
第8页 / 共145页
第9页 / 共145页
第10页 / 共145页
亲,该文档总共145页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
统计学,主编:费宇,石磊,第2章 数据的描述,2.1 数据的计量与分类 2.2 数据的收集 2.3 数据的整理 2.4 集中趋势的度量 2.5 离散程度的度量 2.6 分布偏态与峰度 2.7 统计表,【引例2.0】统计数据,2009年7月9日随机抽查了某大学50名任课教师的年龄,原始数据(周岁)如下: 33 39 45 27 24 35 30 44 52 47 45 42 40 46 68 48 47 46 39 60 46 47 51 29 59 47 29 50 43 29 35 30 29 34 33 45 64 46 44 67 30 27 29 44 53 31 55 41 43 47 这一大堆数据可能使你眼花缭乱,也许你并不能够一下就记住所有数据。 假如我们感兴趣的是教师年龄的分布,那么,你认为对上述数据应该怎样分组才能显示教师年龄的分布特征?教师年龄的集中趋势如何?离散程度怎样?分布的偏态及峰度又应该如何测定呢?,2.1 数据的计量与分类,数据的计量尺度 数据的类型,按照对现象计量程度的不同,可以将数据计量尺度分为四种,即:定类尺度、定序尺度、定距尺度、定比尺度。 定类尺度(nominal scale)也称类别尺度或列名尺度,它是把事物按属性或类别分组。其计量的结果只是表现为某种类别,而对各类间的其它差别却无法测度。 例如:人口按性别分为男、女两组。,数据的计量尺度,定序尺度,定序尺度(ordinal scale) 也叫顺序尺度,它是对事物之间等级差或顺序差别的测度,具有定类尺度的所有性能。 例如:学生的考试成绩分为优、良、中、及格、不及格五组。,定距尺度(interval scale)(也叫间隔尺度),是对事物间的类别或次序间的间距的测度,其计量结果表现为数值。 例如:三名学生考试成绩分别为60分、80分、90分。,定距尺度,定比尺度,定比尺度(ratio scale)(也叫比率尺度),它与定距尺度属于同一层次,其计量结果也表现为数值。 例如:3个工人的月收入分别为2000元、3000元、4000元。,四种尺度计量结果,形成三种数据: 分类数据、顺序数据和数值型数据。 分类数据(categorical data)是定类尺度对现象计量的结果。 例如人口按性别分类,则“男”、“女”即为分类数据。,数据的类型,顺序数据,顺序数据(rank data)是定序尺度对现象计量的结果。 例如:人口按受教育程度分为“小学”、“初中”、“高中”、“大学及以上”组,则这里的“小学”、“初中”、“高中”、“大学及以上”即为顺序数据。 分类数据和顺序数据合称为定性数据。,数值型数据,数值型数据(metric data)是定距尺度和定比尺度对现象计量结果。 例如学生的考试成绩70分、工人的月收入2000元均为数值型数据。 数值型数据通常称为定量数据。,问题讨论,前面例子中涉及的“性别”、“经济类型”、“受教育水平”、“考试成绩”、“月收入”能看作数据吗? 如果它们不能看作数据,那么应该怎样正确理解这些概念?,2.2 数据的收集,2.2.1 数据的间接来源 2.2.2 数据的直接来源,2.2.1 数据的间接来源,间接来源的数据我们称之为第二手数据。 可从各种公开出版物(如统计年鉴等) 、报纸、杂志、图书、网络、新闻媒体等获取。,2.2.2 数据的直接来源,直接来源的数据我们称为第一手数据,主要依赖统计调查得到。,统计调查的分类,统计调查按调查对象所包括的范围不同,分为全面调查与非全面调查。 统计调查按登记事物的连续性不同,分为经常性调查和一次性调查。 统计调查还可按组织方式不同分为统计报表和专门调查(专门包括普查、抽样调查、重点调查、典型调查),常用的统计调查方式,统计报表(statistical report forms)是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。 统计报表目前是一种搜集数据的重要方式,但已不是主要方式。,普查,普查(census):是为特定目的而专门组织的一次性全面调查。普查所搜集的是那种经常的、定期的统计报表所不能提供的更为详细的资料,主要是表明现象在某一时点上的情况,时间性要求很强。,普查的特点,(1)需要规定统一的标准时间(资料所属时间),以避免调查数据的重复或遗漏; (2)通常是一次性或周期性的; (3)普查的数据一般较为准确,规范化程度较高; (4)普查适用的对象比较狭窄,只能调查一些最基本、最一般及特定的现象。,抽样调查,抽样调查(sampling survey):是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。 抽样调查的特点:经济性好、实效性强、适应面广、准确性高。,2.3 数据的整理,2.3.1 分类数据和顺序数据的整理 2.3.2 数值型数据的整理,2.3.1分类数据和顺序数据的整理,对分类数据和顺序数据,我们可以计算出每一类别出现的频数或频率,通过频数分布表和图形来展示。,1.用频数分布表展示分类数据 和顺序数据,用表格的形式将分类数据或顺序数据各分组极其相应的频(次)数全部罗列出来,就是频数分布表(或次数分布表)。 分布在各组的单位数称为频数(frequency),也叫次数,各组次数与总次数之比称为频率,也叫比重(例)(proportion)。一组资料中,各组频率之和等于100%(或1)。,【例2.1】 频数分布表的编制,(数据文件为example2.1) 对某高校经济系30名教师性别及职称登记结果,如表2.1所示,试用SPSS分别编制教师性别及职称的频数分布表。,【例2.1】 频数分布表的编制,表2.1 某高校30名教师性别及职称情况统计表,原始数据:,【例2.1】 频数分布表的编制,解:首先将教师性别用代码0、1表示;将教师职称用代码2、3、4、5表示,然后在数据文件的Varible View窗口Values栏定义变量值标签: 0表示女性,1表示男性;2表示助教,3表示讲师,4表示副教授,5表示教授。,【例2.1】 频数分布表的编制,SPSS操作步骤:FileopenDataexample2.1AnalyzeDescriptiveStatisticsFrequencies将“性别”选入Variable框OK。输出结果如表2.2及表2.3所示:,表2.2 某高校30名教师性别分组频数分布表,表2.3 某高校30名教师职称分组频数分布表,表2.2及表2.3中,Frequency为频数,Percent为各组频数占总数的百分比,Valid Percent为各组频数占总数的有效百分比,Cumulative Percent为各组频数占总数的累积百分比。,【例2.1】 频数分布表的编制,2.用图形展示分类数据 和顺序数据,适合分类数据和顺序数据的图形有条形图、饼图等。 条形图:是用条形高度来表示数据多少的图形。 饼图:又称圆图,它是以整个圆代表总体,按总体各部分占总体比重的大小将圆面积分割成若干扇形,从而用圆内扇形面积来直观反映各部分在总体中的比例。,【例2.2】 条形图的绘制,(数据文件为example2.2)根据表2.3资料, 用SPSS绘制条形图。 解:SPSS操作步骤: FileopenDataexample2.2GraphsBar选中Simple,选中Summaries for groups of cases单击Define选中Other Summary function将“人数”选入Variable(纵轴),将“职称分类”选入Category Axis(横轴)OK。输出结果如图2.1所示:,【例2.2】 条形图的绘制,输出结果:,图2.1 30名教师职称分布条形图,【例2.3】 饼图的绘制,(数据文件为example2.2)根据表2.3资料, 用SPSS绘制饼图。 解: SPSS操作步骤:FileopenDataexample2.2GraphsPie选中Values of individual cases单击Define将“人数”选入 Slices Represent栏,将“职称分类”选入Variable栏OK。输出结果如图2.2所示:,【例2.3】 饼图的绘制,输出结果:,图2.2 30名教师职称分布饼图,2.3.2 数值型数据的整理,用频数分布表(变量数列)展示数值型数据 用图示展示数值型数据 频数分布的类型,1.用频数分布表(变量数列)展示 数值型数据,将数值型数据进行统计分组,就可以形成频数分布表(变量数列)。 制作频数分布表时可用单变量值分组,也可用组距分组。 单变量值分组通常适用于离散变量,且变量值变动幅度不大时;组距分组通常适用于变量值较多、且变动范围较大的离散型或连续型变量。,【例2.4】 单变量值分组,某班学生按年龄(周岁)分组的结果如表2.4所示:,表2.4 某班学生按年龄(周岁)分组情况表,组距分组中的几个基本概念,组限:每个组两端的数值。分为上限和下限。 组距:一个组的上限与下限两端的距离。 全距:所有变量值中最大值与最小值之差 。 组中值:每个组的上限与下限的中点值。,组距分组的步骤,第一,确定组数。 可以按斯特格斯的经验公式确定组数 : 第二,确定各组的组距 。 实际中先确定组数或先确定组距均可: 第三,整理成频数分布表。,【例2.5】 组距分组,2009年7月9日随机抽查了某大学50名任课教师的年龄,原始数据(周岁)如下: 33 39 45 27 24 35 30 44 52 47 45 42 40 46 68 48 47 46 39 60 46 47 51 29 59 47 29 50 43 29 35 30 29 34 33 45 64 46 44 67 30 27 29 44 53 31 55 41 43 47 试对数据进行组距分组。,【例2.5】 组距分组,解: 此处采用先确定组距的方式。根据本例的数据水平及全距大小,组距拟定为10。 确定组数: 组数全距/组距 =( 68 - 24) 10=4.4 5(组) 对原始数据分组,整理成频数分布表如表2.5所示:,【例2.5】 组距分组,分组结果:,表2.5 50名教师年龄分组频数分布表,【例2.5】 组距分组,本例还可采用间断式组距形式分组,如表2.6所示:,表2.6 50名教师年龄分组频数分布表,【例2.5】 组距分组,本例还可采用开口组形式分组,如表2.7所示:,表2.7 50名教师年龄分组频数分布表,累计次数与累计频率,有时为了研究次数分布的状况,需要计算累计次数或累计频率,方法有两种: 向上累计(积),也称较小制累计(积)或以下累计(积),即把各组次数或频率由变量值小的组向变量值大的组顺序逐组累计(积),截至各组的累计(积)次数或累计(积)频率表示小于该组变量值上限的次数或频率合计有多少。,累计次数与累计频率,向下累计(积),也称较大制累计(积)或以上累计(积),即把各组次数或频率由变量值大的组向变量值小的组顺序逐组累计(积),截至各组的累计(积)次数或累计(积)频率表示大于该组变量值下限的次数或频率合计有多少。,累计次数与累计频率,如对表2.5计算累计次数或累计频率,可得累计频数(频率)分布表如表2.8所示:,表2.8 50名教师年龄分组累计频数(频率)分布表,【例2.6】 SPSS制作频数分布表,(数据文件为example2.3) 2007年我国各地区农村居民家庭人均纯收入资料如表2.9所示,试用SPSS制作频数分布表。,【例2.6】 SPSS制作频数分布表,原始数据:,表2.9 2007年我国各地区农村居民家庭人均纯收入,【例2.6】 SPSS制作频数分布表,解: 首先将农村居民家庭人均纯收入用代码1、2、3、4、5表示,然后在数据文件的Varible View窗口Values栏定义变量值标签。 操作步骤:Fil
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号