资源预览内容
第1页 / 共48页
第2页 / 共48页
第3页 / 共48页
第4页 / 共48页
第5页 / 共48页
第6页 / 共48页
第7页 / 共48页
第8页 / 共48页
第9页 / 共48页
第10页 / 共48页
亲,该文档总共48页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第四章第四章 数据分布特征的数据分布特征的测度度学学习目的目的w掌握众数、中位数的概念、特点及其计算方法;w了解四分位数概念;w掌握算术平均数、调和平均数、几何平均数的概念、特点及计算方法;w了解异众比率、四分位差、全距、方差及规范差的概念、及计算方法;w了解偏度和峰度的意义;w可以区分各种目的的运用场所,根据不同数据类型运用不同测度目的。主要内容主要内容:集中趋势的测度集中趋势的测度1离散程度的测度离散程度的测度 2 偏态与峰度的测度偏态与峰度的测度 3众数四分位数中位数平均数偏度峰度方差和规范差全距异众比率四分位差离散系数数据的特征和测度集中趋势离散程度分布的外形第一节 集中趋势的测度 众数中位数四分位数平均数 概念概念 在次数分布数列中,就是出在次数分布数列中,就是出现次数最次数最多的多的变量量值, 用用 表示。表示。 主要用于主要用于测度定度定类数据的集中数据的集中趋势,当然也适用于作当然也适用于作为定序数据以及定距和定序数据以及定距和定比数据集中定比数据集中趋势的的测度度值。 一、众数一、众数 计算众数的方法算众数的方法1单项分配数列的众数分配数列的众数计算方法算方法 出出现次数最多的那一次数最多的那一组变量量值就是众数就是众数 某商某商场某日延某日延续销售售15双皮鞋的尺双皮鞋的尺码组成情况如下:成情况如下: 38,37,38,40,40,41,40,42,44,40,41,39,40,40,43出出现次数最多的数是次数最多的数是40,40就是某商就是某商场某日某日销售皮鞋尺售皮鞋尺码的众数。的众数。2组距分配数列的众数计算方法 第一步:根据分配数列次数最多的组 确定为众数所在组。 第二步:根据该组与前后相邻两组 分配次数的关系推算众数。 众数与相邻两组的关系表示图众数与相邻两组的关系表示图 ,众数组的组中值即为众数的值。 ,众数会向其前一组靠,众数小于其组中值 ,众数会向其后一组靠,众数大于其组中值 MoMoMof fff-1f-1f-1f+1f+1f+1MoMoMoMoMoMo其中,L,U分别表示众数所在组的下限值和上限值,i表示众数组的组距。 w根据上述关系,可以利用类似三角形推导出组距分配数列的众数的计算公式如下:下限公式: 上限公式: w某乡3000农户按人均年纯收入分组的资料如下表,试计算其众数。 人均年纯收入(元)农户数2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030合计3000w从表中可以看出,众数所在的组为4000-5000,出现的最多次数为1050。按下限公式计算众数: 按上限公式计算众数: 众数的众数的优缺陷缺陷优点点 容易了解,容易了解, 不受极不受极值影响影响 缺陷缺陷 灵敏度和灵敏度和计算功能差算功能差 稳定性差定性差 具有不独一性具有不独一性二、中位数和四分位数二、中位数和四分位数一中位数一中位数 概念概念 是指是指对样本数据由小到大排序后,本数据由小到大排序后,处于于中中间位置上的位置上的变量量值,用,用 表示。表示。 是一个位置代表是一个位置代表值,它主要用于,它主要用于测度定度定序数据的集中序数据的集中趋势,当然也适用于定距,当然也适用于定距数据和定比数据的集中数据和定比数据的集中趋势,但不适用,但不适用于定于定类数据。数据。 计算中位数的方法 1变量值未分组情况下: 总体单位数n是奇数,中间位置的变 量值是中位数。 总体单位数n是偶数,中间位置的两个变量值的算术平均数为中位数。 2变量值分组情况下: 下限公式: 上限公式: w某乡人均年纯收入中位数计算表如下:某乡人均年纯收入中位数计算表如下:年人均纯收入(元)农户数向上累计向下累计2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000w按下限公式计算中位数:w按上限公式计算中位数: 优缺陷缺陷 优点点 容易了解,容易了解, 不受极不受极值影响影响 适宜于开口适宜于开口组资料和些不能用数料和些不能用数字字测定的事物定的事物缺陷缺陷 灵敏度和灵敏度和计算功能差算功能差 延延续数数Me二四分位数二四分位数 中位数是从中间点将全部数据分为两部分。中位数是从中间点将全部数据分为两部分。与中位数类似的还有四分位数、非常位数、与中位数类似的还有四分位数、非常位数、百分位数、四分位数就是对数据集合四等分百分位数、四分位数就是对数据集合四等分的三个数值,其中的第二个四分位数即为中的三个数值,其中的第二个四分位数即为中位数。例如某数据集合有位数。例如某数据集合有101项数据,那么项数据,那么第第26项、项、51项、项、76项三个数据可以把数据项三个数据可以把数据集合分为数目相等的四个等分,这三个数就集合分为数目相等的四个等分,这三个数就分别是第一、第二、第三四分位数,其中第分别是第一、第二、第三四分位数,其中第一个四分位数称为上四分位数,第三个四分一个四分位数称为上四分位数,第三个四分位数称为下四分位数,第二个四分位数就为位数称为下四分位数,第二个四分位数就为中位数。中位数。三、数三、数值平均数:算平均数:算术平均数、平均数、调和平和平均数、几何平均数均数、几何平均数 算算术平均数平均数主要适用于定居数据和定比数据,但不适用于定类数据和定序数据 1、简单算术平均数2、加权算术平均数原始数据被分为k组,各组的组中值为各组变量值出现的频数分别为 w某中学100名高中一年级男生身高单位:厘米的频数分布如下表。求该校高一男生的平均身高。w 身高155160 160165 165170 170175 175180 180185人数 2 8 28 36 18 8当我当我们掌握的不是各掌握的不是各组变量量值出出现的的频数,而是数,而是频率率时,也可直接根据上式,也可直接根据上式计算均算均值 请留意! 调和平均数和平均数该式与加权算术平均数公式的计算结果完全一致。实践上,上式只是加权算术平均数的另一种表现方式。 由此可由此可见,调和平均数和平均数实践上是算践上是算术平均数的一种平均数的一种变形,二者在本形,二者在本质上是一致的,独一的区上是一致的,独一的区别就是就是计算算时运用了不同的数据。运用了不同的数据。 只适用于定比数据,不适用于定距数据 几何平均数几何平均数 是是n项变量量值连乘乘积的的n次方根。次方根。 适宜于适宜于计算景象的平均比率或平均速度,算景象的平均比率或平均速度,反响景象增反响景象增长率的平均程度。率的平均程度。 因此,凡是景象的因此,凡是景象的变量量值的的连乘乘积等于等于总比率或比率或总速度,都可以运用几何平均速度,都可以运用几何平均数来数来计算平均比率或平均速度。算平均比率或平均速度。1、简单几何平均数几何平均数 适用于适用于计算未分算未分组数列的平均比率或平均速度数列的平均比率或平均速度 。1994-20191994-2019年我国工年我国工业品的品的产量分量分别是上年的是上年的107.6%107.6%、102.5%102.5%、100.6%100.6%、102.7%102.7%、102.2%102.2%,计算算这5 5年的平均开展速度。年的平均开展速度。 2、加、加权几何平均数几何平均数 对于分于分组数列,数列,应该采用加采用加权几何平均数几何平均数计算其平均算其平均比率或平均速度比率或平均速度 。某投某投资银行行2525年的年利率分年的年利率分别是:是:1 1年年3%3%,4 4年年5%5%,8 8年年8%8%,1010年年10%10%,2 2年年15%15%,求平均年利率。,求平均年利率。 第二节第二节 离散程度的测度离散程度的测度离散系数离散系数异众比率异众比率四分位差四分位差全距全距方差和规范差方差和规范差一、异众比率一、异众比率 是非众数的次数与全部个案数目的比率是非众数的次数与全部个案数目的比率 ,用,用 表示。表示。异众比率是对众数的补充,异众比率越小,阐明众数的代表性越好;反之,异众比率越大,那么阐明众数的代表性越差。为众数的频数,为变量值的总频数。二、四分位差二、四分位差 概念概念 也称也称为内距或四分内距或四分间距,它是上四分位数与下四距,它是上四分位数与下四分位数之差,是分位数之差,是对定序及定序以上丈量尺度的定序及定序以上丈量尺度的变量离散程度的丈量目的。量离散程度的丈量目的。 计算方法算方法 求出上四分位数和下四分位数的位置求出上四分位数和下四分位数的位置 计算算这两个四分位数之差两个四分位数之差 对原始原始资料料调查1111位同窗的年位同窗的年龄如下:如下:1717岁、1818岁、1818岁、1919岁、1919岁、2020岁、2020岁、2121岁、2121岁、2222岁、2222岁。 首先,求出Q1和Q3的位置:Q1的位置= Q3的位置= 其次,从数序中找出Q1=18,Q3=21那么四分位差Q= Q3Q1=2118=3 对单值分分组资料料 如下表所示的学生学如下表所示的学生学业成果:成果: 等级 学生人数 向下累计 向上累计甲乙丙丁 5 5 80 20 25 75 30 55 55 25 80 25总数 80 - -Q1位置= Q3位置= 从累从累积次数分布表中,很易看到在次数分布表中,很易看到在这两个位置上的两个位置上的值分分别是丁是丁级和乙和乙级,所以:四分位差,所以:四分位差Q=乙乙丁丁=两个等两个等级。 对组距分距分组资料料 Q1和和Q3的的计算公式算公式为: 其中,其中,L1L1为为Q1Q1属组之真实下限;属组之真实下限;L3L3为为Q3Q3属组之真实下限;属组之真实下限;f1f1为为Q1Q1属组之次数;属组之次数;f3f3为为 Q3Q3属组之次数;属组之次数;cf1cf1为低于为低于Q1Q1属组下限之累积次数;属组下限之累积次数;cf3cf3为低于为低于Q3Q3属组下限之累积次数;属组下限之累积次数;w1w1为为Q1Q1属组之组距;属组之组距;w3w3为为Q3Q3属组之组距;属组之组距;n n为全部个案数。为全部个案数。某企某企业100100名名职工收入的分布如下:工收入的分布如下: 收入(元)收入(元) 职工数(人)工数(人) 累累计频数数 组中中值 Xf Xf X f X f 100199 10 10 150 1500100199 10 10 150 1500200299 10 20 250 2500200299 10 20 250 2500300399 40 60 350 14000300399 40 60 350 14000400499 20 80 450 9000400499 20 80 450 9000500599 20 100 550 11000500599 20 100 550 11000 合合计 100 100 由上表知:Q1位置= ,所以Q1在300399组内; Q3位置= ,所以Q3在400499组内。 所以四分位差所以四分位差Q=Q3-Q1=162.5三、全距三、全距全距又称极差,它是一组数据中最大值与最小值之差。 全距是对定序及以上尺度的变量离散程度的丈量。极差越小,阐明资料越集中,集中趋势统计量的代表性越高。普通公式为:普通公式为: 某校某校3 3个系各个系各选5 5名同窗,参与智力名同窗,参与智力竞赛,他,他们的成果分的成果分别如下:如下:中文系:中文系:7878、7979、8080、8181、8282数学系:数学系:6565、7272、8080、8888、9595 英英语系:系:3535、7878、8989、9898、100100那么三个代表队的全距分别为:中文系:那么三个代表队的全距分别为:中文系:82-78=4分数学系:分数学系:95-65=30分英语系:分英语系:100-35=65分分 对于于组距分距分组数据,全距也可以近似表示数据,全距也可以近似表示为:四、方差及四、方差及规范差范差方差和方差和规范差是衡量范差是衡量变异程度最常用的目的,方差通常用异程度最常用的目的,方差通常用表示。表示。规范差又称均方差,方差的平方根即范差又称均方差,方差的平方根即为规范差,通常用范差,通常用表示,分析定距表示,分析定距变量的离散情况,最常用的方法是量的离散情况,最常用的方法是规范差。范差。 对于未分于未分组数据,公式数据,公式为:对于于组距分距分组数据,公式数据,公式为:2019年度品牌飞利浦索尼东芝松下LG长虹创维海尔康佳TCL费用24292054168416111607143014301355126911752019年度品牌飞利浦东芝索尼TCLLG松下创维海尔康佳海信费用3415192918181688144013631234108010751023根据下表中根据下表中20192019年度和年度和20192019年度年度电视机广告前机广告前1010名品牌广告名品牌广告费用用统计情况,情况,计算两个年度广告算两个年度广告费用的用的规范差。范差。根据上表可以根据上表可以计算出算出2019年度和年度和2019年度的平均广告年度的平均广告费用用额分分别为:1604.4万元,万元,1606.5万元。万元。 2019年度的年度的规范差范差为:=361.7万元 同理可以同理可以计算算2019年度的年度的规范差范差为674.7万元。万元。五、离散系数五、离散系数离散系数是离散系数是规范差与平均数的比范差与平均数的比值,用百分比表示。,用百分比表示。记离散系数离散系数为V,那么公式,那么公式为:离散系数是一种相对的离散量数统计量,它使我们可以对同一总体中的两种不同的离散量数统计量进展比较,或者对两个不同总体中的同一离散量数统计量进展比较。一一项调查的的结果如下,某市人均月收入果如下,某市人均月收入为9292元,元,规范差范差为1717元,人均住房面元,人均住房面积7 75 5平方米,平方米,规范差范差为1 18 8平方米。平方米。试比比较该市人均收入和人均住房情况哪一个差市人均收入和人均住房情况哪一个差别程度比程度比较大。大。 由题中数据得:人均收入的离散系数为 人均住房面积的离散系数为 可见人均住房面积的差别情况比人均收入的差别情况要大。可见人均住房面积的差别情况比人均收入的差别情况要大。第三节 偏态与峰度的测度w一一. 偏偏态及其及其测度度w二二. 峰度及其峰度及其测度度偏态与峰度分布的外形偏态与峰度分布的外形扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏偏偏偏态态峰度峰度峰度峰度左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与与与与规规范正范正范正范正态态分布比分布比分布比分布比较较! 偏偏态w1. 数据分布偏斜程度的数据分布偏斜程度的测度,用度,用 表示。表示。w2. 偏偏态系数系数=0为对称分布称分布w3. 偏偏态系数系数 0为右偏分布右偏分布w4. 偏偏态系数系数030(对称分布称分布)正偏正偏态分布右分布右负偏偏态分布分布(左左 w偏度值普通在-3 3之间。w3为极度右偏斜w-3为极度左偏斜w绝大多数变量分布偏斜程度在-1 1之间某某某某管管管管理理理理局局局局所所所所属属属属30303030个个个个企企企企业业2019201920192019年年年年3 3 3 3月月月月份份份份利利利利润润额额统统计计资资料料料料如如如如右右右右侧侧表表表表所所所所示示示示,要求要求要求要求计计算算算算该变该变量数列的偏斜情况。量数列的偏斜情况。量数列的偏斜情况。量数列的偏斜情况。 利润额(万元)企业数f组中值x103030505070709021013520406080231219604683380-78608-274402808878802672672384160168482284880合 计308120-153605358560根据上表数据根据上表数据根据上表数据根据上表数据计计算得算得算得算得计算结果阐明该管理局所属企业利润额的分布情况呈细微负偏分布。 峰度峰度w1. 数据分布扁平程度的数据分布扁平程度的测度,用度,用 表示。表示。w2. 峰度系数峰度系数=3为扁平程度适中扁平程度适中w3. 峰度系数峰度系数3为尖峰分布尖峰分布w5. 计算公式算公式为f(X)根根根根据据据据偏偏偏偏度度度度例例例例题题:某某某某管管管管理理理理局局局局所所所所属属属属30303030个个个个企企企企业业2019201920192019年年年年3 3 3 3月月月月份份份份利利利利润润额额统统计计资资料料料料如右如右如右如右侧侧表所示,要求表所示,要求表所示,要求表所示,要求计计算算算算该变该变量数列的峰度。量数列的峰度。量数列的峰度。量数列的峰度。 利润额(万元)企业数f组中值x103030505070709021013520406080231219604683380-78608-274402808878802672672384160168482284880合 计308120-153605358560根据表中有关数据计算峰度系数如下:计算结果阐明,上述企业间利润额的分布呈平顶峰度,各变量值分布较为均匀。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号