第三章变量分布特征的描述.pdf-

1 “统计学具有处理复杂问题的非凡能力，当科学的探索者在前进的过程中荆棘载途时，惟有统计学可以帮助他们打开一条通道。 ” “很难理解为什么统计学家通常限制自己的调查于平均数，而不着迷于更广泛的考虑。对于变化的魅力，他们的灵魂看来如同平坦的英格兰国家之一的当地人的一样迟钝，那些当地人关于瑞士的回顾是，如果可以将它的山脉扔进它的湖泊，那么两种讨厌的东西将立即去除。 ” F.高尔顿第三章变量分布特征的描述本章介绍如何对变量分布的特征进行描述，内容包括集中趋势与平均指标、离中趋势与离散指标、分布形状与形状指标三大方面。本章内容对于以后各章的学习非常重要，具体要求：理解变量分布三大特征即集中趋势、离中趋势和分布形状的的含义；理解平均指标、离散指标和形状指标的意义与作用；熟练掌握各种平均数的计算方法并加以正确的应用，科学理解加权平均数中权数的意义，正确认识算术平均数与调和平均数之间的应用关系，以及算术平均数、中位数和众数三者之间的数量关系；熟练掌握各种离散指标的计算方法并加以正确的应用，尤其是要深刻理解方差、标准差和离散系数的内涵；熟练掌握偏度系数和峰度系数的计算方法并加以正确的应用，尤其是要了解动差的含义。第一节第一节集中趋势的描述集中趋势的描述变量分布特征可以从以下三个方面加以描述：一是变量分布的集中趋势，反映变量分布中各变量值向中心值靠拢或聚集的程度；二是变量分布的离中趋势，反映变量分布中各变量值远离中心值的程度；三是变量分布的形状，反映变量分布的偏斜程度和尖陡程度。一、集中趋势与平均指标一、集中趋势与平均指标集中趋势亦称为趋中性，是指变量分布以某一数值为中心的倾向。作为中心的数值就称为中心值，它反映变量分布中心点的位置所在。对集中趋势的描述，就是要寻找变量分布的中心值或代表值，以反映某变量数值的一般水平。对于绝大多数统计变量来说，总是接近中心值的变量值居多，远离中心值的变量值较少，使得变量分布呈现出向中心值靠拢或聚集的态势，这种态势就是变量分布的集中趋势。变量分布的集中趋势要用平均指标来反映。平均指标是将变量的各变量值差异抽象化、以反映变量值一般水平或平均水平的指标，也就是反映变量分布中心值或代表值的指标。平均指标的具体表现称为平均数，平均数因计算方法不同可分为数值平均数和位置平均数两类。数值平均数是指根据变量的所有数据计算而 2得的平均数，主要有算术平均数、调和平均数和几何平均数等几种。位置平均数是指根据变量分布特征直接观察或根据变量数列部分处于特殊位置的变量值来确定的平均数，主要有中位数和众数等。平均指标在统计研究中应用很广，其作用主要有以下几个方面：（1）通过反映变量分布的一般水平，帮助人们对研究现象的一般数量特征有一个客观的认识。例如，要想了解某城市居民的收入水平，一一列出每家每户每人的收入显然是不可能、也不必要的，只要计算平均指标就可以了解该城市居民收入高低的基本状况。（2）利用平均指标可以对不同空间的发展水平进行比较，消除因总体规模不同而不能直接比较的因素，以反映他们之间总体水平上存在的差距，进而分析产生差距的原因。（3）利用平均指标可以对某一现象总体在不同时间上的发展水平进行比较，以说明这种现象发展变化的趋势或规律性。（4）利用平均指标可以分析现象之间的依存关系或进行数量上的推算。例如将某城市样本居民按收入分组，计算出各组居民的平均收入与平均消费支出，就可以观察居民消费支出与收入之间的依存关系，还可以以样本居民的平均收入、平均消费支出去推算（估计）该城市居民的平均收入、平均消费支出。（5）平均指标还可以作为研究和评价事物的一种数量标准或参考。在比较、评价不同总体的水平时，不能以各总体某一个体的水平为依据，而要看总体平均水平；在研究、评价个体事物在同类事物中的水平时，也必须以总体的平均水平为依据。在各项管理工作中，各种定额多是以实际平均数为基础来制定的。二、数值平均数二、数值平均数（一）算术平均数（一）算术平均数算术平均数也称为均值，是变量的所有取值的总和除以变量值个数的结果。算术平均数是统计中最为常用的用以描述集中趋势的平均数，因为它的计算方法客观上符合许多现象个体与总体之间存在的数量关系，即总体中每个个体标志值的算术和（即变量的各个变量值的算术和）等于总体标志总量（即变量值总和），把总体标志总量除以总个体数（即总体容量）就可以消除个体标志值之间的差异而体现出总体的一般水平。例如，某公司职工的工资总额是每个职工工资额的加总，职工的平均工资就等于职工工资总额除以公司职工人数。由于掌握的资料不同，算术平均数可以分为简单算术平均数和加权算术平均数两种。 1.简单算术平均数简单算术平均数简单算术平均数是根据未分组数据计算的，即直接将变量的每个变量值相加，除以变量值的个数。若以x表示变量，以ix 表示第i个变量值（i=1，2，n），以x表示算术平均数，以n表示变量值个数，则简单算术平均数的计算公式为： x12nxxxn+L1niixn= （可简记为ixxn=）（3-1）【例【例 3-1】某高校学生男子篮球队 10 名队员的身高（单位：厘米）分别为 185，181，188，182，182，186，183，183，186，189，则该校学生男子篮球队队员的平均身高为： 3ixxn=185 181 188 182 182 186 183 183 186 18910+184.5（厘米） 2.加权算术平均数加权算术平均数加权算术平均数是根据变量数列计算的，即以各组变量值（或组中值）乘以相应的频数求出各组标志总量，加总各组标志总量得出总体标志总量，再用总体标志总量除以总频数。若以ix表示第i组的变量值（或组中值）（i=1，2，k），以if表示第i组的频数（i=1，2，k），以k表示分组数，则加权算术平均数的计算公式为： x12121121kiikkikkiix fxxfffxffff=+=+LL （可简记为iiix fxf=）（3-2）【例【例 3-2】某进出口公司28位业务员某年完成出口额的分组数据如表3-1所示，要求计算平均每人完成的年出口额。表表 3-1 某进出口公司某进出口公司 28 位业务员完成出口额频数数列位业务员完成出口额频数数列年出口额（万元）业务员人数 300 2 310 4 320 6 330 10 340 5 350 1 合计 28 根据表3-1数据可计算该进出口公司平均每人完成的年出口额为： iiix fxf=300 2310 4320 6330 10340 5350 128 + + + + 325.36（万元）计算加权算术平均数时，有两个问题需要加以说明：（1）关于权数问题。从公式可以看出，x的大小不仅受变量值ix大小的影响，而且受各组频数if大小的影响。不难发现，频数大的组的变量值对平均数的影响大，频数小的组的变量值对平均数的影响就小。当较大变量值出现的频数较大时，平均数就接近于变量值大的一端，而当较小变量值出现的频数较大时，平均数就接近于变量值小的一端。显然，各组频数对加权算术平均数的高低起着一种权衡轻重的作用，所以把if称为权数。可见，加权算术平均数是考虑了权数作用的算 4术平均数。权数的选择必须考虑其与变量值之间的联系关系，即必须使iix f是计算算术平均数的真实的总体标志总量，符合实际意义。加权算术平均数的权数除了用绝对数形式的频数if表示外，直接体现权数实质的是相对数形式的频率if/1kiif=，即权数系数，因为相对数形式的权数有一个重要的性质，那就是各组权数之和等于1。因此，如果已知各组的频率，我们可以直接利用权数系数来求加权算术平均数，即加权算术平均数等于各组变量值与其权数系数乘积的总和： x11kiiikiix ff=11kiikiiifxf= （可简记为iiifxxf=）（3-3）【例【例 3-3】根据例3-2的表3-1数据，可计算各组的频率如表32所示。表表 3-2 某进出口公司某进出口公司 28 位业务员完成出口额频率数列位业务员完成出口额频率数列年出口额（万元）业务员人数比重 300 0.0714 310 0.1429 320 0.2143 330 0.3571 340 0.1786 350 0.0357 合计 1.00000 根据表3-2数据可计算加权算术平均数为： iiifxxf= =3000.0714+3100.1429+3200.2143+3300.3571+3400.1786+3500.0357 =325.36（万元）计算结果完全相同。（2）关于按组距式数列计算加权算术平均数的问题。在组距式数列中，需要先计算各组的组中值作为各组的变量值，再按加权算术平均数的公式进行计算。应当指出的是，由于组中值是以假定各组的变量值均匀分布为前提的，因此利用组中值计算的加权算术平均数只是平均数的近似值。一般地，组距越小，计算结果越接近实际的平均数。【例【例 3-4】根据表2-3数据计算某年年底某高校在职教师平均年龄。根据表2-3数据可得平均年龄的计算表如表3-3所示。 5表表 3-3 某年年底某高校在职教师平均年龄计算表某年年底某高校在职教师平均年龄计算表教师按年龄分组组中值x 人数（人）fxf 频率ff fxf 30 岁以下 3040 岁 4050 岁 5060 岁 60 岁以上 25 35 45 55 65 201 317 366 151 15 5025 11095 16470 8305 975 0.1914 0.3019 0.3486 0.1438 0.0143 4.7850 10.5665 15.6870 7.9090 0.9295 合计 1050 41870 1.0000 39.8800 平均年龄为： iiix fxf=418701050=39.88（岁）或 iiifxxf=39.88（岁）这是一个近似结果。 3.算术平均数的数学性质算术平均数的数学性质为了更好地理解和运用平均数，有必要了解算术平均数以下两条重要性质： 1.各变量值与算术平均数的离差之和等于零，即： ()ixx0（对于简单算术平均数）（3-4）或 ()iix fx0（对于加权算术平均数）（3-5） 2.各变量值与算术平均数的离差平方之和为最小值，即： 2() xxi最小值（3-6）或 2()xxi20()ixx （3-7）只有当0xx=时，等号成立。 4.算术平均数的优缺点算术平均数的优缺点算术平均数具有以下几个优点：一是可以利用算术平均数来推算总体标志总量，因为算术平均数与变量值个数之乘积等于总体标志总量（变量值总和）；二是由算术平均数的两个数学性质可知，算术平均数在数理上具有无偏性与有效性（方差最小性）的特点，这使得算术平均数在统计推断中得到了极为广泛的应用。三是算术平均数具有良好的代数运算功能，即分组算术平均数的算术平均数等于总体算术平均数。例如，某大学某年级某专业有两个班级，分别有38人和42人，某学期期末数学考试的算术平均成绩分别为82分和85分，则可计算该大学该年 6级该专业某学期期末数学考试的总算术平均成绩为（3882+4285）80=83.575分。正因为如此，在实际中算术平均数比其他平均数得到更为广泛的应用。但算术平均数也有其局限性，主要表现在以下两个方面：一是算术平均数易受特殊值（特大或特小值）的影响，当变量存在少数几个甚至一个特别大或特别小的变量值时，就会导致算术平均数迅速增大或迅速变小，从而影响对变量值一般水平的代表性。例如，某个体经营户户主的月收入为30000元，四位帮工的月收入分别为1000元、1000元、1200元和1400元，计算四位帮工的平均月收入为1150元，如果加上户主计算五位的平均月收入则为6920元，一下增加了5770元。很显然，6920元这个平均数对于帮工和户主都不具有代表性，因为他们的实际月收入与该平均数的距离都非常大，原因就在于户主与帮工不具有同质性。所以，在计算算术平均数时如果遇到极端值，应该分析其原因，必要时（对于非同质的变量值）应该加以剔除。二是根据组距数列计算算术平均数时，由于组中值具有假定性而使得计算结果只是一个近似值，尤其是当组距数列存在开口组时，算术平均数的准确性会更差。（二）调和平均数（二）调和平均数调和平均数是平均数的一种。从数学形式上看，调和平均数具有独立的形式，它是变量值的倒数的算术平均数的倒数，也称为倒数平均数。但在实际应用中，它则是更多地作算术平均数的变形而存在。在计算平均数时，当我们不知道变量值个数（即总体总频数），而只知道各组变量值与各组标志总量（即各组变量总值）时，就要先以各组标志总量除以各组变量值求出各组频数；然后再以各组标志总量之和除以各组频数之和，这样所计算的平均数就叫做调和平均数。调和平均数也有简单调和平均数和加权调和平均数两种。 1.简单调和平均数简单调和平均数当各组的标志总量相等时，所计算的调和平均数称为简单调和平均数。设总体分为k个组，每个组的标志总量都为m，则总体标志总量为km。现仍以x表示各组变量值，以H表示调和平均数，则简单调和平均数的计算公式为： 1211kkiikmkHmmmxxxx=+L （可简记为1ikHx=）（3-8）【例【例 3-5】市场上某种蔬菜的价格是早市每公斤1.25元，午市每公斤1.20元，晚市每公斤1.10元。若早、中、晚各买10元钱的蔬菜，问所购买蔬菜的平均价格是多少？蔬菜的平均价格是总购买金额除以总购买数量。该例中有3个组，各组标志总量（购买金额）都为10元，各组变量值（蔬菜价值）分别为1.25元，1.20元和1.10元，但不知道所购买蔬菜的数量，所以要先分别计算出各组的蔬菜购买数量，即101.25、101.20和101.10公斤，最后可计算出所购买蔬菜的平均价格为： H1ikx301010101.251.201.10+3025.42=1.180（元/公斤）如果采用简单算术平均数计算，则所购买蔬菜的平均每公斤价格为： 7xixn1.25 1.20 1.103+1.183（元/公斤）结果为什么不一样（虽然很接近）？因为本例实际上是花了30元钱购买了25.42公斤蔬菜，而不是花了3.55元买了3公斤蔬菜，所以简单算术平均数的结果1.183元/公斤是错误的。 2.加权调和平均数加权调和平均数当各组的标志总量不相等时，所计算的调和平均数要以各组的标志总量为权数，其结果即为加权调和平均数。若以im表示各组标志总量，则加权调和平均数的计算公式为： 12112121kikikkikiimmmmHmmmmxxxx=+=+LL （可简记为iiimHmx=）（3-9）【例【例 3-6】市场上某种蔬菜的价格是早市每公斤1.25元，午市每公斤1.20元，晚市每公斤1.10元。现若早、中、晚分别购买15元、12元和10元钱的蔬菜，问所购买蔬菜的平均价格是多少？与例3-5相比，早、中、晚购买蔬菜的金额不一样了，不再都是10元，此时平均价格会发生什么变化呢？不难计算，此时所购买蔬菜的平均价格为： iiimHmx=15 12 101512101.251.201.10+=3731.09=1.19（元/公斤）计算结果显示，平均价格比例3-5上升了0.01元/公斤。为什么蔬菜价格未变，平均价格却上升了？原因就在于早、中、晚购买的金额不同，早市的价格最高且购买的金额最多，午市的价格次高且购买金额次多，晚市的价格最低且购买金额最少，所以与例3-5的简单调和平均数相比，平均价格就偏向于高的一端了。显然，购买金额就起到了权数的作用。更一般地说，加权调和平均数的权数作用是通过各组的标志总量m来体现的。对于组距式数列，要先以各组的组中值作为各组的变量值x，然后按照上述计算公式和步骤计算加权算术平均数。加权调和平均数与加权算术平均数的区别就在于计算过程中应用数据条件的不同。前者以各组标志总量（iiifmx=）为权数，后者以各组频数（if）为权数。但他们都符合于总体标志总量与总体总频数的对比关系。事实上，两者是可以相互变通的，即： iiimmxiiiiifxfxxiiifxf （3-10）所以对于同一现象，计算加权调和平均数与计算加权算术平均数的结果是相等的，无非是因数据条件不同而采用了不同的计算形式。 83.由相对数或平均数计算平均数由相对数或平均数计算平均数有时，我们需要根据相对数或平均数来计算平均数。例如，根据各零售分店的计划完成程度来计算全公司的计划完成程度；根据各企业的职工平均工资来计算全公司的职工平均工资等。这时总体平均数的计算要依所掌握的权数资料不同采取不同的方法。如果所掌握的权数资料是相对数或平均数的母项数值，要用加权算术平均数；如果所掌握的权数资料是相对数或平均数的子项数值，则要用加权调和平均数。需要强调的是，在以相对数或平均数计算平均数时，不论是用加权算术平均数公式还是用加权调和平均数公式，都要从相对数或平均数指标本身的经济含义出发来计算，这是一个很重要的原则。（1）由相对数计算平均数）由相对数计算平均数我们通过具体例子来加以说明。【例【例 3-7】某市某商业零售公司所属的20家分店的销售计划完成情况及计划销售额如表3-4所示，要求计算全公司的平均计划完成程度。表表 3-4 某市某零售公司某市某零售公司 20 家分店销售计划完成情况家分店销售计划完成情况计划完成程度（）商店数（个）计划销售额（万元） 8090 90100 100110 110120 120130 2 3 8 4 3 100 105 480 260 200 合计 1145 计算计划完成程度的基本公式是：计划完成程度100实际完成数计划数因此，在计算平均销售计划完成程度时不能以商店数为权数。由于我们所掌握的资料是相对数的母项数值即计划销售额，所以，应该以计划销售额为权数，采用加权算术平均数公式来计算销售计划平均完成程度。在计算出每组计划完成程度的组中值后，即可计算出全公司的平均计划完成程度。计算数据如表3-5所示。表表 3-5 某市某零售公司平均销售计划完成程度计算数据某市某零售公司平均销售计划完成程度计算数据计划完成程度（）组中值（） ix 商店数（个）计划销售额（万元）if 实际销售额（万元）ixif 8090 90100 100110 110120 120130 85 95 105 115 125 2 3 8 4 3 100 105 480 260 200 85.00 99.75 504.00 299.00 250.00 合计 1145 1237.75 9全公司平均计划完成程度xiiifxf1237.75100108.101145 如果只知道各组的实际销售额数据，而无计划销售额数据，那么我们所掌握的是计划完成程度相对数的子项数值，这时就应该以实际销售额为权数，采用加权调和平均数的公式来计算全公司的平均计划完成程度。原始数据及计算数据如表3-6所示。表表 3-6 某市某零售公司各分店销售计划完成情况及计算数据某市某零售公司各分店销售计划完成情况及计算数据计划完成程度（）组中值（） ix 商店数（个）实际销售额（万元）im 计划销售额（万元）iimx 8090 90100 100110 110120 120130 85 95 105 115 125 2 3 8 4 3 85.00 99.75 504.00 299.00 250.00 100 105 480 260 200 合计 1237.75 1145 全公司平均计划完成程度Hiiimmx1237.75100108.101145 需要补充说明的是，全公司的平均计划完成程度实际上就是该公司总的计划完成程度，所以由相对数所计算的平均数实际上就是总的相对数。（2）由平均数计算平均数）由平均数计算平均数我们仍然通过具体例子来加以说明。【例【例3-8】某车间各班组工人的平均劳动生产率和实际工时数据如表3-7所示，要求计算车间平均劳动生产率。表表 3-7 某车间各班组平均劳动生产率数据某车间各班组平均劳动生产率数据班组平均劳动生产率（件/工时）实际工时（小时） 1 2 3 4 12 16 20 28 200 320 300 190 合计 1010 平均劳动生产率的计算公式为：平均劳动生产率100%实际产品总量实际工时由于我们掌握的资料是平均数的母项数值即实际工时数，因而应该以实际工 10时数为权数，采用加权算术平均数的形式来计算平均劳动生产率。计算数据如表3-8所示。表表 3-8 某车间平均劳动生产率计算数据某车间平均劳动生产率计算数据班组平均劳动生产率（件/工时）ix 实际工时 if 实际产品总量（件） ixif 1 2 3 4 12 16 20 28 200 320 300 190 2400 5120 6000 5320 合计 1010 18840 车间平均劳动生产率xiiifxf1884018.651010（件/工时）如果已知实际产品产量数据，而无实际工时数据，那么我们所掌握的是平均数的子项数值，这时就应该以实际产品产量为权数，采用加权调和平均数的形式来计算车间平均劳动生产率。原始数据和计算数据如表3-9所示。表表 3-9 某车间各班组平均劳动生产率及计算数据某车间各班组平均劳动生产率及计算数据班组平均劳动生产率（件/工时）ix 实际产品总量（件） im 实际工时（小时）iimx 1 2 3 4 12 16 20 28 2400 5120 6000 5320 200 320 300 190 合计 18840 1010 车间平均劳动生产率Hiiimmx1884018.651010（件/工时）同样需要补充说明的是，车间的平均劳动生产率实际上就是该车间总的平均劳动生产率，所以由平均数所计算的平均数实际上就是总的平均数。（三）几何平均数（三）几何平均数几何平均数是计算平均比率或平均速度常用的一种方法，例如用于计算水平法的平均发展速度、流水作业生产的产品平均合格率、复利法的平均利率等。根据所掌握的数据条件不同，几何平均数也可以分为简单几何平均数和加权几何平均数两种。 1.简单几何平均数简单几何平均数简单几何平均数就是变量的n个变量值连乘积的n次方根。若以ix表示变量的第i个变量值（i=1，2，3，n），以G表示几何平均数，则简单几何平均数的 11计算公式为： 1231. . .nnnniiGxx x xx=K （可简记为niGx=）（3-11）【例【例3-9】某机械厂五个流水作业车间的合格品率分别为96、94、95、95和96%，则五个车间合格品率的平均数（即全厂的平均生产合格率）为：全厂平均合格品率G596% 94% 95% 95% 96%=95.20% 但要注意的是，该厂总的合格率为96% 94% 95% 95% 96%=78.18%，两者相差甚大。 2.加权几何平均数加权几何平均数当计算几何平均数的各种变量值出现的次数不等，即数据经过了统计分组时，则应采用加权几何平均数。若以ix表示第i组的变量值（i=1，2，k），以if表示第i组的频数（i=1，2，k），以k表示分组数，则加权几何平均数的计算公式为： 131211231.kkiiiikifkffffffkiiGxxxxx=L （可简记为G=1kiiiffix=）（3-12）【例【例3-10】某企业最近10年销售收入的年发展速度如表3-10所示，求年平均发展速度。表表 3-10 某企业最近某企业最近 10 年销售收入年发展速度数据年销售收入年发展速度数据年发展速度（）ix 105 106 107 108 109 年数（频数）if 3 3 2 1 1 该企业最近10年销售收入的年平均发展速度为： G=1kiiiffix=10332105%106%107%108% 109%=106.39% （四）算术平均数、调和平均数和几何平均数的数学关系（四）算术平均数、调和平均数和几何平均数的数学关系从数学上看，算术平均数、调和平均数和几何平均数都是幂平均数的一种。幂平均数的定义是： tttxxn= （3-13）当t=1时，幂平均数就是算术平均数；当t=-1时，幂平均数就是调和平均数；当t趋向于0时，幂平均数的极限形式就是几何平均数。由于幂平均函数是单调递增函数，所以t值越大幂平均数就越大，因此单从数学意义上看，算术平均数、调和平均数和几何平均数三者的大小关系是： HGx （3-14）但在实际应用中这样的比较往往没有意义，因为对于任何一个计算对象一般都只适合采用一种方法来计算平均数，也就是说不同的平均数计算方法适合于不 12同的计算条件，必须加以正确的选择。三、位置平均数三、位置平均数（一）中位数与分位数（一）中位数与分位数 1.中位数中位数中位数是变量的所有变量值按定序尺度排序后，处于中间位置的变量值。由于它居于数列的中间位置，所以在某些情况下可以用来代表变量值的一般水平。中位数既可用以测定定量变量的集中趋势，也可用以测定定序变量的集中趋势，但不适用于定类变量。中位数的确定，因所掌握的数据条件不同而分为两种情况：一是根据变量未经分组的原始数据来确定；二是根据变量分布数列来确定。（1）根据未经分组的原始数据来确定）根据未经分组的原始数据来确定在变量数据未经分组的情况下，先将变量的n个数据按大小、强弱等顺序排列，确定中位数的位置12n+，然后确定中位数。假设变量的n个数据按大小、强弱等顺序排列后的结果为：(1)x，(2)x，(3)x，，( )nx，以em表示中位数，则 em= 1()2()(1)22,1,2nnnxnxxn+为奇数为偶数（3-15）【例【例3-11】7名体育竞技专家对某运动员协调性的评级依次为：B，A，A，A，A，+A，+A，问该运动员协调性评级的中位数是多少？本例中，n=7，中位数位置是4，所以中位数是em=A。【例【例3-12】根据例3-1数据确定该校学生男子篮球队员身高的中位数。本例中，n=10，中位数位置为5.5，所以中位数是身高排序后第5、第6两名队员身高的平均数。 10名队员的身高（单位：厘米）由低到高排序为：181，182，182，183，183，185，186，186，188，189。第5、第6两名队员的身高分别为183和185厘米，所以该校学生男子篮球队员身高的中位数是： 183 1851842em+=（厘米）（2）根据变量分布数列确定中位数）根据变量分布数列确定中位数在单项式数列中，先按（if+1）/2来确定中位数位置，然后对数列中的各组频数进行向上累计或向下累计，当某一组的累计频数大于或等于（if+1）/2 13时，该组的变量值就是中位数。【例【例3-13】某车间150名工人的日装配量如表3-11所示，要求确定工人日装配量的中位数。表表 3-11 某车间某车间 150 名工人日装配量及累计频数名工人日装配量及累计频数日装配量（件）工人数（频数）向上累计频数向下累计频数 22 23 24 25 26 27 10 10 40 50 30 10 10 20 60 110 140 150 150 140 130 90 40 10 合计 150 根据所给数据可以计算中位数位置1150 175.522if +=。在表3-11中对各组频数进行向上累计或向下累计，向上累计至第四组（累计频数110）或向下累计至第三组（累计频数90），累计频数大于75.5，所以工人日装配量的中位数就是em =25（件）。按组距数列计算中位数，首先要计算各组的累计频数，并按2if确定中位数的位置。然后找出中位数所在的位置，即累计次数大于或等于f/2的组。最后，再用插值法按比例计算中位数的近似值。具体计算有下限和上限公式两种，结果是一样的。中位数公式示意图如图3-1所示。 /2if 1meS mef 1meS+ x d L em U 图图 3-1 中位数公式示意图中位数公式示意图下限公式为： 12imeemefSLdmf=+ （3-16） 14式中L为中位数所在组的下限，mef为中位数所在组的频数，1meS为向上累计至中位数所在组下一组止的累计频数，d为中位数所在组的组距。上限公式为： 12imeemefSUdmf+= （317）式中U为中位数所在组的上限，1meS+为向下累计至中位数所在组上一组的累计频数。【例【例3-14】根据表2-3数据计算某年年底某高校在职教师年龄的中位数。由表中数据可以计算中位数位置为if/21050/2525。根据表2-4可知，向上累计至第3组的累计频数（884）或向下累计至第3组的累计数（532）大于525，因而中位数所在组为4050岁这一组，L=40，U=50，d=10。由下限公式得： 10505182401040.19366em=+=（岁）由上限公式得： 10501662501040.19366em=（岁）（3）中位数的应用特点）中位数的应用特点中位数将按顺序排列的变量值分为了两部分，使得至少一半数值不比它大，至少一半数值不比它小。中位数具有以下一些优点：一是中位数作为一种位置平均数，概念较为清晰，只要排列数据顺序，就可比较容易地加以确定；二是中位数不受变量数列中特殊值的影响，遇有特大值或特小值时，用中位数来表示现象的一般水平更具有代表性；三是组距数列出现开口组时，对中位数无影响；四是当某些变量不能表现为数值但可以定序时，不能计算数值平均数而可以确定中位数。当然中位数也有局限性，一是中位数不能如算术平均数那样可以进行代数运算；二是除了变量数列的中间部分数值外，其他数值的变化都不对中位数产生影响，因此中位数的灵敏度较低。 2.分位数分位数分位数是将变量的数值按大小顺序排列并等分为若干部分后，处于等分点位置的数值。常用的分位数有四分位数、十分位数和百分位数，他们分别是将数值序列4等分、10等分和100等分的3个点、9个点和99个点上的数值。其中四分位数第2点的数值、十分位数第5个点的数值和百分位数第50个点的数值，就是中位数。所以，中位数就是一个特殊的分位数。以四分位数为例，设LQ，MQ和UQ分别表示第一个、第二个和第三个四分位 15数，则他们的位置分别为：14n+，2(1)4n+和3(1)4n+，根据位置即可确定各个四分位数。【例【例3-15】根据例3-11确定运动员协调性评级的第一个和第三个四分位数。由于n=7，所以第一个和第三个四分位数的位置分别是2和6，由此可以确定第一个和第三个四分位数分别为LQ =A和UQ =+A。【例【例3-16】根据例3-1数据确定该校学生男子篮球队员身高的第一个和第三个四分位数。由于n=10，所以第一个和第三个四分位数的位置分别是2.75和8.25，由此可以确定：第一个四分位数为LQ =1820.75+1820.25=182（厘米）第三个四分位数为UQ =1860.25+1880.75=187.5（厘米）同理，也可根据单项式数列和组距式数列确定第一个和第三个四分位数。例如，根据表3-11可以确定工人日装配量的第一个和第三个四分位数分别为LQ =24（件）和UQ =26（件）。根据表2-3和表2-4，参照中位数公式可以确定某年年底某高校在职教师年龄的第一个和第三个四分位数分别为LQ =31.94（岁）和UQ =47.36（岁）。请读者自己加以验证。确定各个四分位数后可以绘制如第二章所介绍的箱形图，当n为偶数时可据以观察变量分布中间2n或22n+个变量值（不含第一、第三分位数本身，下同）的分布范围、中心位置和对称程度，当n为奇数时可据以观察变量分布中间12n或12n+个变量值的分布范围、中心位置和对称程度。例如，例 3-15 的结果表明处于A与+A之间的变量值有3个，例3-16的结果表明处于182厘米与187.5厘米之间的变量值有6个（注意：数值序列中第二、第三个数值都是182，但前者处于第一个四分位数以下，后者处于第一个、第三个四分位数之间）。当n或f很大时，我们可以说数值序列或变量数列中间约 50%的变量值在LQ与UQ之间，例如工人日装配量的例子中，我们可以说日装配量居中的约50%工人的日装配量在2426件之间（同样要注意：日装配量24件有40人，其中17人在第一个四分位数以下，23人在第一个四分位数以上；日装配量26件有30人，其中3人在第三个四分位数以下，27人在第三个四分位数以上，日装配量处于第一个、第三个四分位数之间的工人有76人）；某高校在职教师年龄的例子中，我们可以说年龄居中的约50%教师的年龄在31.9447.36岁之间。（二）众数（二）众数 16众数是变量数列中出现次数最多、频率最高的变量值。在某些场合，众数可以用来反映现象的一般水平。例如城市居民家庭中，三口之家所占的比重明显高于其他家庭，因此3人就是城市居民家庭人数的众数，可以用它来表示城市居民家庭人数的一般水平。众数通常用om来表示。众数可用以测定任何种类变量的集中趋势，包括定类变量和定序变量。例如，某班级要搞一次暑期社会实践活动，有A、B、C、D、E五种备选方案，经同学投票B方案得票明显高于其他方案，则B方案就是众数。再如，根据表2-2某年年底某高校在职教师职称分布数列可以看出，副教授职称的人数最多（382人，占36.38%），所以职称的众数就是副教授。众数的确定方法因所掌握的数据条件不同而有所不同。根据单项式数列确定众数比较容易，只要找出出现频数最多或出现频率最高的变量值即可。例如，根据表3-11数据可以确定工人日装配量的众数是25件。如果根据组距式数列来确定众数，则先要找出频数最多的一组作为众数组，然后运用公式来确定众数。众数公式示意图如图3-2所示。 if L om U 图图 3-2 众数公式示意图众数公式示意图下限公式为： 1012Ldm=+ （3-18）式中1为众数组频数与下一组频数之差，2为众数组频数与上一组频数之差；L、d的含义与中位数公式的相同。上限公式： 1012Udm=+ （3-19）式中U的含义与中位数公式的相同。 1 2 x 17【例【例3-17】根据表2-3数据计算某年年底某高校在职教师年龄的众数。根据表中数据可知：众数组为4050岁这一组。L40，U50，149，2215，d10。由下限公式得： 1012Ldm=+40+4949215+1041.86（岁）由上限公式得： 1012Udm=+5021549215+1041.86（岁）众数具有以下一些特点：一是众数也不受变量数列中特殊值的影响，用它来表示某些现象的一般水平会有较好的代表性；二是众数具有较广的应用面，可用于测定任何变量的集中趋势；三是众数只有在总频数充分多且某一组的频数明显高于其他组时才有意义，若各组的频数相差不多，则不能确定众数；四是有时一个变量数列会有两个组的频数明显最多，这就会有两个众数，该数列属于双众数数列。例如，英语专业与非英语专业的大学二年级学生参加同一英语水平测试，就可能出现双众数现象；再如现在一些高校招生，有的专业在第一批录取，有的专业在第二批次录取，那么全校新生的成绩分布也可能是双众数分布。五是众数也不能象算术平均数那样进行代数运算。（三）中位数、众数和算术平均数的关系（三）中位数、众数和算术平均数的关系中位数、众数、算术平均数三者在不同条件下均可代表变量的平均水平，均可用以反映变量分布的集中趋势。如果把三者结合起来，通过比较他们之间的数量关系，可以帮助我们更好地认识变量分布的特征。 1.在变量分布完全对称（即正态分布）时，中位数、众数和算术平均数三者完全相等，即0exmm=，如图3-3所示。 ( )f x 0 0exmm= x 图图 3-3 正态分布时中位数、众数和算术平均数的关系正态分布时中位数、众数和算术平均数的关系 2.在变量分布不对称（即偏态分布）时，中位数、众数和算术平均数三者之间存在着差异。当算术平均数受极大标志值一端的影响较大时，变量分布向右偏，三者之间的关系为：0exmm，如图3-4所示。当算术平均数受极小标志值一端的影响较大时，变量分布向左偏，三者之间的关系为：0exmm0时，表示变量分布是正偏；当3m 0，表示变量分布正偏；若(3)kS0，表示变量分布负偏；若(3)kS0，表示变量分布两边对称，无偏。(3)kS的绝对值越接近0，表示变量分布的偏度越轻微；(3)kS的绝对值越大于0，表示变量分布的偏度越严重；【例【例3-22】某企业职工月收入情况如表3-15所示，求职工月收入分布的动差法偏度系数。表表 3-15 某企业职工月收入情况表某企业职工月收入情况表职工月收入（元）职工人数 900 以下 9001000 10001100 11001200 12001300 13001400 14001500 1500 以上 24 48 60 105 27 21 12 3 合计 300 根据表3-15数据可得到动差法偏度系数计算表如表3-16所示。表表 3-16 某企业职工月收入动差法偏度系数计算表某企业职工月收入动差法偏度系数计算表职工月收入（元） ix if iifx ixx2()ixx2()iixfx 3()iixfx 28 900 以下 9001000 10001100 11001200 12001300 13001400 14001500 1500 以上 850 950 10501150125013501450155024 48 60 105 27 21 12 3 20400 45600 63000 120750 33750 28350 17400 4650 -263 -163 -63 +37 +137 +237 +337 +437 69169 26569 3969 1369 18769 56169 113569 190969 1660056 1275312 238140 143745 506763 1179549 1362828 572907 -436594728-207875856-15002820 5318565 69426531279553113459273036250360359合计 300 333900 6939300 404458200 根据表3-16数据可得： 3339001113300iiifxxf=（元） s2()iiixfxf6939300152.09300=（元） 33()iiixfxmf=4044582003001348194（元） (3)33kmSs=313481940.38(152.09)= 结果表明，该企业职工月收入的分布为正偏分布，但偏度不大。三、峰度系数三、峰度系数峰度的概念首先由统计学家皮尔逊于1905年提出，是对变量分布扁平性或尖陡性的测度，通常是指钟型分布的顶峰与标准正态分布相比偏扁平或偏尖陡的程度。它通常分为三种情况：标准正态峰度、尖顶峰度和平顶峰度，如图3-6所示。尖顶峰度标准正态峰度平顶峰度 x 3-6 变量分布不同峰度示意图变量分布不同峰度示意图如果变量分布的频数比较集中于众数附近，分布曲线比较尖陡，使分布曲线的顶部较标准正态曲线更为突起，则变量分布的峰度属于尖顶峰度；如果变量分布各组的频数比较接近，分布曲线比较扁平，使分布曲线的顶部低于标准正态曲线，则变量分布的峰度属于平顶峰度。峰度的测定是通过计算峰度系数来实现的，通常用K来表示。峰度系数的计 29算主要采用动差法，是4阶中心动差4m与标准差4次方4s相比的结果，即： 44mKs= （3-39）峰度系数的标准值为3。当K3时，变量分布的峰度为标准正态峰度；当K 3时，变量分布的峰度为尖顶峰度。更进一步，当K值接近于1.8时，变量分布曲线就趋向于一条水平线，表示各组分配的频数接近于相同。当K值小于1.8时，则变量分布曲线为“U”型曲线，表示变量分布的频数分配是“中间少，两头多” 。【例【例3-23】根据例3-22的表3-15数据计算职工月收入的峰度系数。根据例3-22的有关计算结果可得： 44()iiixfxmf=1632660517（元） 4s535043161（元） 44mKs=3.05 结果表明，该企业职工月收入分布的峰度为轻微的尖顶峰度。本章小结本章小结 1.变量分布特征的描述有以下三个方面：一是变量分布的集中趋势，反映变量分布中各变量值向中心值靠拢或聚集的程度；二是变量分布的离中趋势，反映变量分布中各变量值远离中心值的程度；三是变量分布的形状，反映变量分布的偏斜程度和尖陡程度。 2.集中趋势亦称为趋中性，是指变量分布以某一数值为中心的倾向。作为中心的数值就称为中心值，它反映变量分布中心点的位置所在。变量分布的集中趋势要用平均指标来反映。平均指标是将变量的各变量值差异抽象化、以反映变量值一般水平或平均水平的指标，也就是反映变量分布中心值或代表值的指标。平均指标的具体表现称为平均数，平均数因计算方法不同可分为数值平均数和位置平均数两类。数值平均数主要包括算术平均数、调和平均数和几何平均数，位置平均数主要包括中位数和众数。在实际中，平均指标具有重要的作用。 3.算术平均数也称为均值，是变量的所有取值的总和除以变量值个数的结果。根据数据的条件不同，有简单算术平均数与加权算术平均数之分。权数既表现为各组的频数，更表现为各组的频率。根据组距式数列计算的加权算术平均数是一个近似值。算术平均数具有两个重要的数学性质：各变量值与算术平均数的离差之和等于零，各变量值与算术平均数的离差平方之和为最小值。算术平均数易受极端值的影响。 4.调和平均数从数学形式上看具有独立的形式，它是变量值的倒数的算术平均数的倒数，也称为倒数平均数。但在实际应用中，它更多地作算术平均数的变形而存在。调和平均数也有简单与加权之分，加权调和平均数的权数是各组的标志总量或各组标志总量占总体标志总量的比重。在以相对数或平均数计算平均数时，要能正确选择该使用加权算术平均数还是该使用加权调和平均数。 305.几何平均数是变量值的连乘积的相应次方根，是计算平均比率或平均速度的常用方法，例如用于计算水平法的平均发展速度、流水作业生产的产品平均合格率、复利法的平均利率等。它也有简单几何平均数和加权几何平均数两种。 6.从数学上看，算术平均数、调和平均数和几何平均数都是幂平均数的一种。 7.中位数是变量的所有变量值按定序尺度排序后，处于中间位置的变量值，是一种位置平均数。中位数既可用以测定定量变量的集中趋势，也可用以测定定序变量的集中趋势，但不适用于定类变量。分位数是将变量的数值按大小顺序排列并等分为若干部分后，处于等分点位置的数值。常用的分位数有四分位数、十分位数和百分位数。中位数就是一个特殊的分位数。 8.众数是变量数列中出现次数最多、频率最高的变量值，也是一种位置平均数。众数可用以测定任何种类变量的集中趋势。众数与中位数一样，都不受变量数列中极端值的影响。 9.利用算术平均数、众数、中位数三者之间的数量大小关系，可以判断变量分布是否对称以及偏斜的方向。在轻微偏斜时，可以根据已知的两个平均数去近似地估计第三个平均数。 10.所谓离中趋势，就是变量分布中各变量值背离中心值的倾向。变量分布的离中趋势要用离散指标来反映。离散指标就是反映变量值变动范围和差异程度的指标，即反映变量分布中各变量值远离中心值或代表值程度的指标，亦称为变异指标或标志变动度指标。离散指标具有重要的作用。常用的离散指标主要有：全距（亦称极差）、四分位差、异众比率、平均差、标准差、离散系数等，他们分别具有不同的特点与用途。方差和标准差具有若干重要的性质。 11.分布形状不同，表明变量分布的内在结构也不同。变量分布的形状要用形状指标来反映。形状指标就是反映变量分布具体形状，即左右是否对称、偏斜程度与陡峭程度如何的指标。形状指标有两个方面：一是反映变量分布偏斜程度的指标，称为偏度系数；二是反映变量分布陡峭程度的指标，称为峰度系数。计算偏度系数与峰度系数的主要方法是动差法。练习与思考练习与思考一、判断题 1.对于定性变量，不能确定平均数。 2.根据组距式数列计算的平均数、标准差等，都是近似值。 3.任何平均数都受变量数列中的极端值的影响。 4.中位数把变量数列分成了两半，一半数值比它大，另一半数值比它小。 5.任何变量数列都存在众数。 6.如果0exmm，则变量分布为右偏。 7.若比较两个变量分布平均数代表性的高低，则方差或标准差大者平均数的代表性差。 8.只要变量分布具有相同的标准差，就会有相同的分布形状。 9.变量分布的集中趋势就是众数组的频数占总频数的比重，离中趋势则是非众数组的频数占总频数的比重。 10.在实际应用中，调和平均数与算术平均数的计算形式虽然不同，但计算结果及其意义是一样的。二、单项选择题 1.由相对数计算平均数时，如果已知该相对数的子项数值，则应该采用（）。 31A.算术平均数 B.调和平均数 C.几何平均数 D.位置平均数 2.如果计算算术平均数的所有变量值都增加 100，则方差（）。 A.增加 100 B.增加 10000 C.不变 D.不能确定如何变化 3.如果计算加权算术平均数的各组频数都减少为原来的 4/5，则算术平均数（）。 A.减少 4/5 B.减少为原来的 4/5 C.不变 D.不能确定如何变化 4.某企业有 A、B 两个车间，去年 A 车间人均产量 3.6 万件，B 车间人均产量3.5 万件。今年 A 车间生产人数增加 6%，B 车间生产人数增加 8%。如果两个车间的人均产量都保持不变，则该企业今年总的人均产量与去年相比（） A.上升 B.下降 C.不变 D.不能确定如何变化 5.已知某变量分布属于钟型分布且0900m =，930em =，则（） A.x900 B.900x930 C.x930 D.x=915 6.对某一变量数列计算数学意义上的数值平均数，得x=390，则（）。 A.390,390HG B.390,390GH C.390,390GH D.390,GHG 7.若两个变量数列的标准差相等且计量单位相同，但平均数不相等，则（） A.平均数大者代表性强 B.平均数小者代表性强 C.两个平均数的代表性一样 D.无法判断哪个平均数的代表性强 8.离散指标中受极端值影响最大的是（） A.平均差 B.标准差 C.全距 D.方差 9.统计学中最重要的离散指标是（） A.平均差 B.全距 C.标准差 D.变异系数 10.假如学生的考试成绩用优秀、良好、中等、及格和不及格来表示，那么全班考试成绩的水平高低应该用什么平均数来说明？（） A.可以用算术平均数 B.只能用众数 C.可以用众数或中位数 D.只能用中位数 11.根据动差的定义，方差属于（） A.一阶原点动差 B.二阶原点动差 C.一阶中心动差 D.二阶中心动差 12.动差法峰度系数关于尖顶还是平顶的判断值是（） A.0 B.1 C.1.8 D.3 三、简答题 1.什么是变量分布的集中趋势、离中趋势和分布形状？ 2.什么是平均指标？有什么作用？常用的平均数有哪些？ 3.如何理解加权平均数中权数的意义？试举例说明。 4.在实际应用中，调和平均数与算术平均数有什么联系？ 5.从数学上看，算术平均数、几何平均数和调和平均数三者有什么关系？ 6.什么是中位数？有什么特点？试举例说明其应用。 7.什么是众数？有什么特点？试举例说明其应用。 8.算术平均数、中位数和众数三者的数量关系说明什么样的变量分布特征？ 9.什么是离散指标？有什么作用？常用的离散指标有哪些？ 3210.什么是方差和标准差？有哪些性质？ 11.如何反映变量分布的形状？四、计算题 1.某司机开车从 A 地到 B 地的时速是 100 公里，从 B 地返回 A 地的时速是 120公里，问平均时速是多少？ 2.菜场上某鱼摊大鲫鱼每条约重 0.4 公斤，售价为每公斤 20 元，小鲫鱼每条约重 0.25 公斤，售价为每公斤 12 元。某顾客向摊主提出大、小鲫鱼各买一条，一起称重，价格为每公斤 16 元。摊主应允，问这次买卖谁占了便宜？为什么？ 3.某公司下属 27 家企业的资金利润率分组数据和各组年利润额数据如下表所示：按资金利润率分组（%）企业数年利润额（万元） 8 以下 812 1216 1620 20 以上 2 6 12 5 2 300 1000 2600 1200 400 合计 27 5500 请计算：（1）平均每个企业的利润额；（2）全公司的平均资金利润率（分别用绝对数权数和相对数权数）。 4.某年某企业 3 个车间的产品生产情况如下表所示：车间合格率（%）合格品产量（辆）年生产工时数（小时） A B C 98 95 99 19600 18620 18434 6800 7200 8000 合计 56654 22000 问：（1）若 3 个车间依次完成整辆产品某一工序的加工装配任务，全厂总的合格率、平均合格率和平均废品率分别是多少？（2）若 3 个车间分别独自完成整辆产品的生产加工过程，则全厂总的合格率、平均合格率和平均废品率分别是多少？（3）若 3 个车间生产的产品不同（使用价值不同），则全厂总的合格率、平均合格率和平均废品率又分别是多少？ 5.甲班某次数学考试成绩如下表所示：考试成绩（分）学生人数 60 以下 6070 7080 8090 90 以上 2 8 22 10 4 合计 46 要求：（1）计算算术平均数，四分位数和众数； 33（2）计算全距，平均差，四分位差，异众比率，方差和标准差；（3）计算偏度系数(1)kS，(2)kS和(3)kS；（4）计算峰度系数；（5）如果乙班的算术平均成绩为 80 分，标准差为 10 分，问哪个班级的平均成绩更有代表性？ 6.某中学欲为初一 800 名新男生每人定制校服一套，小号、中号和大号三款分别适合身高 162cm以下，162-168cm和 168cm以上的同学。根据以往数据知，初一男生的平均身高为 165cm，标准差为 3cm，问各款校服大概应分别准备多少套？ 7.在定类变量中有一种叫两分类变量或是非变量，它只有两种结果，例如性别变量只有男或女两种结果。如果是非变量的两种结果分别用 1 和 0 来表示，那么该如何计算是非变量的平均数、方差、标准差和离散系数？请给出相关公式。 8.某班级 A、B、C 三门课程期末考试的平均成绩分别为 80 分、85 分和 88 分，标准差分别为 8 分、 4 分和 7 分。甲、乙、丙三位同学该三门课程的考试成绩如下：课程同学 A B C 甲 77 91 89 乙 89 86 82 丙 69 93 95 问：这三位同学的总分虽然都是 257 分，但实际上谁更具有竞争优势？人物介绍人物介绍弗朗西斯.高尔顿（Francis Galton,1822-1911）：英国著名生物学家、统计学家，达尔文的近亲表弟。早年在剑桥大学学医，但医生职业对他并无吸引力。22 岁那年他获得一笔可观的遗产，决定弃医。1850 年至 1852 年，他与友人远赴非洲进行科学考察，1853 年被选为英国皇家地理学会会员，1856 年又被选为英国皇家学会会员。高尔顿研究涉猎范围包括地理、天文、气象、物理、机械、人类学、民族学、社会学、统计学、教育学、医学、生理学、心理学、遗传学、优生学、指纹学、照像术、登山术、音乐、美术、宗教等，是一位百科全书式的学者。主要著作有气象测量，遗传的天才，自然的遗传，指纹等 15 种，撰写各种学术论文 220 篇。高尔顿主张“无论何时，能算就算” ，对统计学的最大贡献是相关性概念的提出和回归分析方法的建立。高尔顿的生物统计学思想经过他的学生皮尔逊、韦尔登的参与和发挥，在英国形成了一个颇有影响的生物统计学派。1901 年，高尔顿、皮尔逊、韦尔登创办生物统计杂志，成为生物统计学派的一面旗帜。1909 年，被英国王室授予勋爵称号。