资源预览内容
第1页 / 共60页
第2页 / 共60页
第3页 / 共60页
第4页 / 共60页
第5页 / 共60页
第6页 / 共60页
第7页 / 共60页
第8页 / 共60页
第9页 / 共60页
第10页 / 共60页
亲,该文档总共60页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
模块三 统计数据的整理与显示,3.1 统计整理的内容 3.2 品质数据的整理与显示 3.3 数量 数据的整理与显示,3.1统计数据整理的内容,1 统计数据整理的意义 统计整理是根据统计研究的任务,对统计调查阶段所搜集到的大量原始资料进行加工汇总,使其系统化、条理化、科学化,以得出反映事物总体特征的资料的工作过程。 在统计工作中起到承前启后的作用。 由于统计采集到的数据来源不同,因而统计数据整理的具体对象有两类: 一是对原始资料的整理 二是对次级资料的整理,2 统计数据整理的内容,包括 数据审核和筛选: 查找并纠正数据中的错误,找出符合需要的数据; 数据的分组及汇总: 将数据按需要分门别类,并进行汇总; 数据的显示: 将数据以图表形式展示出来,以便找出数据的初步特征,或者方便别人看懂数据所要表达的问题。,数据整理的图示,审核原始资料,分组, 分布数列,汇总,统计表,设计汇总方案,一、数据的预处理,数据的审核 检查数据中的错误 数据的筛选 找出符合条件的数据 数据排序 升序和降序 寻找数据的基本特征,数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括:,完整性审核 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 准确性审核 检查数据是否真实反映客观实际情况,内容是否符合实际 检查数据是否有错误,计算是否正确等,原始数据审核的内容,(一)数据审核: )对直接调查的原始数据审核。 )对二手数据的审核,审核数据准确性的方法 逻辑检查 从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象 主要用于:对分类和顺序据的审核 计算检查 检查调查表中的各项数据在计算结果和计算方法上有无错误 主要用于:对数值型数据的审核,二手数据的审核,适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定数据是否符合自己分析研究的需要 时效性审核 尽可能使用最新的数据 确认是否必要做进一步的加工整理,(二)数据筛选,当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选 数据筛选的内容包括 将某些不符合要求的数据或有明显错误的数据予以剔除 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔,用Excel进行数据筛选,8名学生的考试成绩数据,数据筛选 (data filter),(三)数据排序,按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据 在某些场合,排序本身就是分析的目的之一 排序可借助于计算机完成,排序方法: 1.定类数据: 字母型 升序 降序 汉字型 2.定距、定比数据: 递增 递减,二、 统计分组,(一)统计分组的概念与原则,统计分组就是根据统计研究的目的,将统计总体按照一定的标志区分为若干个不同类型或性质的组成部份的一种统计方法。,分组前,分 组 后,25,33,42,统计分组,分组的原则,1.穷尽原则 2.互斥原则 3.必须坚持各组内统计资料的同质性和组与组之间资料的差异性,这是统计分组的一个基本原则,问题:某商场的服装分为男装、女装、童装三类,是否符合互斥原则?,。,统计分组的关键,统计整理的关键在于统计分组。 统计分组的关键问题在于 选择分组标志和划分各组界限。 思考:上万个职工如何分类?,分组标志选择的原则 (1)根据统计研究的目的与任务选择分组标志 (2)要选择能够反映事物本质或主要特征的标志 (3)要结合历史条件及经济条件来选择,统计分组的关键,统计整理的关键在于统计分组。 而统计分组的关键问题在于选择分组标志和划分各组界限。 思考:上万个职工如何分类?,统计分组的方法,按分组标志可分为四类 (1)品质标志分组: 它是选择反映事物本质差异的标志作为分 组标志。 (2)数量标志分组: 它是选择反映事物数量差异的标志作为分组标志。 包括: 单项式 组距式 (3)空间标志分组: 空间标志反映的是事物的位置差异,按调查资料所属地理位置或区域范围进行分组。 (4)时间标志分组: 它是根据调查资料的连续性或所属时间先后顺序进行分组。,品质标志分组,某班学生的性别构成情况,品质标志分组和数量标志分组,品质标志分组,数量标志分组,2.数量标志分组,按数量标志分组,应注意如下两个问题:,其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。,首先,分组时各组数量界限的确定必须能反映事物质的差别。,简单分组,统计分组的形式: 简单分组 复合分组 分组体系,对同一总体选择两个或两个以上标志进行重叠分组,就叫复合分组。多个复合分组组成的体系就是复合分组体系。,国民收入使用额 积累 生产性积累 农业 轻工业 重工业 非生产性积累 居民住宅 文化服务设施 消费 居民消费 社会集团消费,复合分组,知识要点: 1、统计分组的概念 2、统计分组的作用 3、分组的原则 4、分组标志的选择 5、统计分组的方法 6、统计分组的形式 7、统计资料的再分组,再 见,第三节 分配数列,一、分配数列的概念、构成和种类 1、分配数列: 在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的颁布,称为次数分配或分配数列。 分布在各组的个体单位数叫次数,又称频数; 各组次数与总次数之比叫比率,又称频率。 2、构成要素 分组 绝对次数f 次数(各组的次数) 相对比重 f/f,3、分配数列的种类 根据分组标志的不同,分配数列可以分为两种:,(1)按品质标志分组形成为品质数列。如下表:,总体单位数,各组变量值,下限,上限,(2)、按数量标志分组形成为变量数列 变量数列分为 单项数列 组距数列,二、品质数据的整理与显示-品质数列,(一)定类数据的整理与显示 定类数据本身就是对事物的一种分类,因此,在整理进除了要列出所分的类别外,还要计算出每一类别的频数、频率或比例,同时选择适当的图形进行显示,以便对数据及其特征有一个初步的了解。 、频数与频数分布 1)频数:也称次数,是落在各类别中的数据个数。我们把各个类别及其相应的频数全部列出来就是频数分布或称次数分布。 将频数分布用表格的形式表现出来就是频数分布表。 2)比例:是一个总体中各个部分的数量占总体数量的比重,通常用于反映总体的构成结构。 3)百分比:将比例乘以100就是百分比或百分数,它是将对比的基数抽象化为100而计算出来的,用%表示,它表示每100个分母中拥有多少个分子。 4)频率:也称比率,是各不同类别的数量的比值。它可以是一个总体中各不同部分的数量对比。,例:为研究广告市场的状况,一家广告公司在某城市随机抽取 人就广告问题做了邮寄问卷调查,其中的一个问题是:“你比较关心下列哪一类广告?” 商品广告; 服务广告; 金融广告; 房地产广告;招生招聘广告;其他广告。,某城市居民关注广告类型的频数分布表:,2、定类数据的图示: (1)条形图: 可以横置或纵置,纵置时也称为柱形图。 条形图有单式、复式等形式 例:根据上表数据绘制的条形图:,(2)圆形图:也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。 例:根据上表数据绘制的圆形图如下:,(二)定序数据的整理与显示 例:在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” (1)非常不满意;(2)不满意; (3)一般; (4)满意; (5)非常满意,甲城市家庭对住房状况的评价,乙城市家庭对住房状况的评价,整理:还可计算: 1、累计频数和累计频率或百分比 2、图示: 1)累计频数分布图 根据表数据绘制的累计频数分布图如下图:,2)环形图: 环形图与圆形图类似,但又有区别,其中间有一具“空洞”,总体中的每一部分数据用环中的一段表示。圆形图只能显示一个总体各部分所占的比例,而环形图可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可显示多个总体各部分所占的相应比例,从而有利于进行比较研究。 例如据上两个表数据绘制两个城市家庭对住房状况评价的环形图。如下图:,三、数值型数据的整理与显示变量数列,(一)变量数列的涵义、 要素、 种类 1. 涵义 变量数列按数量标志分组,形成的总体单位数(即频数)在各组之间分布的统计表叫变量分布数列,简称变量数列 。 2. 要素 各组的变量值 x 绝对次数f 各组的次数 相对比重 f/f,3、种类 单项数列. 数值变幅小 离散型 变量数列 数值变幅大 等距数列 组距数列 连续型 异距数列,A、单项数列: 总体按单项式分组而形成的变量数列,每个变量值是一个组,按顺序排列。如:,总体单位数,各组变量值,下限,上限,B、组距数列 总体按组距式分组而形成的变量数列,每个组是由若干个变量值形成的区间表示,在变量个数较多、变动幅度较大时采用。如:,(二)变量数列编制步骤:,(1)按顺序排列。 确定max、min、全距(极差)R (2)确定组数和组距 K*i=R 注意: A必须把原资料全部变量值都包括在所分各组内,不能有任何遗漏。 B组距尽可能取整数,不要小数。 C各组的组距尽可能相等,少用不等距分组,因为等距分组便于作统计分析 (3)划分组限,上组限、下组限、组中值 (4)汇总、显示整理结果,组距数列的种类: 等距数列:各组的组距相等。 不等距数列:各组的组距不完全相等。 异距数列常用于以下场合, (1)社会经济现象的分布存在明显不均衡特征;如人口年龄结构80以下以10为组距,而80以上只作为一组; (2)为了服从研究目的的需要,保证同质性。 连续分组数列:就是以同一个变量值为前后两组的上下限。 不连续分组数列:是分别以两个变量值为前后两组的上下限。 开口数列:数列中有缺上限或缺下限的组。 闭口数列:上下限都完整的数列。 注意:开口组的组距等于临近组的组距。 组距分组的原则:不重复、不遗漏;上组限不在内。,组限和组中值 组限:开口组、闭口组。 常用的组限的表示方法为: (1)连续变量分组可采用重叠组限,通常按“上组限不在内”原则确定相邻两组的实际界限。 (2)离散变量分组时可采用断开组限,也可采用重叠组限。 组中值:为各组变量范围的中间数值,可按以下公式计算: 对于开口组,采用估计方法进行 如企业按完成净产值(万元)分组如下: 10以下,1020,2030,3040,4070,70以上。,例:变量数列的编制程序 1. 排序 107、123、108、123、108、124、110、124、112、124、112、 125、113、 125、114、126、115、 126、117、127、117、 127、117、 127、118、128、118、 128、118、 129、119、 130、120、131、120、133、121、133、122、134、122、134、122、135、122、137、123、139、123、139 2.确定组数 H.A .Sturgesg公式: (1+3.322*lg50) 6.65 3.组距,组距R/ 组数 4.确定组限: 离散型变量 间断 连续型变量 重叠 5.计算总体单位数,变量数列的表示方法 1.表的形式 次数分布表 累计次数分布表,2、图的形式,分布图,直 方 图,折 线 图,曲 线 图,四、次数分布的主要类型,正态分布的特征是“两头小,中间大
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号