资源预览内容
第1页 / 共102页
第2页 / 共102页
第3页 / 共102页
第4页 / 共102页
第5页 / 共102页
第6页 / 共102页
第7页 / 共102页
第8页 / 共102页
第9页 / 共102页
第10页 / 共102页
亲,该文档总共102页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第五章 离散趋势测量法本章主要内容:本章主要内容:离散趋势的测定方法(重、难点)离散趋势的测定方法(重、难点)各种离散趋势测量指标的比较各种离散趋势测量指标的比较第一节 变异指标相关概念一、变异指标含义一、变异指标含义一、变异指标含义一、变异指标含义平均指标是统计总体中各单位某一数量标志的平均指标是统计总体中各单位某一数量标志的平均指标是统计总体中各单位某一数量标志的平均指标是统计总体中各单位某一数量标志的一般水平,反映了总体分布的集中趋势。集中一般水平,反映了总体分布的集中趋势。集中一般水平,反映了总体分布的集中趋势。集中一般水平,反映了总体分布的集中趋势。集中趋势只是数据分布的一个特征,它所反映的是趋势只是数据分布的一个特征,它所反映的是趋势只是数据分布的一个特征,它所反映的是趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。而这种聚集各变量值向其中心值聚集的程度。而这种聚集各变量值向其中心值聚集的程度。而这种聚集各变量值向其中心值聚集的程度。而这种聚集的程度显然有强弱之分,这与各变量值的差异的程度显然有强弱之分,这与各变量值的差异的程度显然有强弱之分,这与各变量值的差异的程度显然有强弱之分,这与各变量值的差异有着密切的联系。变量值的差异越大,数值的有着密切的联系。变量值的差异越大,数值的有着密切的联系。变量值的差异越大,数值的有着密切的联系。变量值的差异越大,数值的集中趋势越弱,变量值的差异越小,数据的集集中趋势越弱,变量值的差异越小,数据的集集中趋势越弱,变量值的差异越小,数据的集集中趋势越弱,变量值的差异越小,数据的集中趋势越强。因此,要全面描述数据的分布特中趋势越强。因此,要全面描述数据的分布特中趋势越强。因此,要全面描述数据的分布特中趋势越强。因此,要全面描述数据的分布特征,除了要对数据集中趋势加以度量外,还要征,除了要对数据集中趋势加以度量外,还要征,除了要对数据集中趋势加以度量外,还要征,除了要对数据集中趋势加以度量外,还要对数据的差异程度进行度量。数据的差异程度对数据的差异程度进行度量。数据的差异程度对数据的差异程度进行度量。数据的差异程度对数据的差异程度进行度量。数据的差异程度就是各变量值远离其中心值的程度,因此也称就是各变量值远离其中心值的程度,因此也称就是各变量值远离其中心值的程度,因此也称就是各变量值远离其中心值的程度,因此也称为离中趋势。为离中趋势。为离中趋势。为离中趋势。二、变异指标的概念二、变异指标的概念在统计研究中,通常把一组数值之间的差在统计研究中,通常把一组数值之间的差异程度叫做标志变动度。测定标志变动度异程度叫做标志变动度。测定标志变动度大小的指标叫做标志变异指标。标志变动大小的指标叫做标志变异指标。标志变动度与标志变异指标在数值上成正比。如果度与标志变异指标在数值上成正比。如果说平均指标说明总体分布的集中趋势的话,说平均指标说明总体分布的集中趋势的话,标志变异指标则说明总体分布的离中趋势。标志变异指标则说明总体分布的离中趋势。三、变异指标的作用三、变异指标的作用变异指标是描述数据分布的一个很重要的变异指标是描述数据分布的一个很重要的特征值,因此,它在统计分析、统计推断特征值,因此,它在统计分析、统计推断中具有很重要的作用。具体可以概括为以中具有很重要的作用。具体可以概括为以下几点:下几点: 1.反映总体各单位变量值分布的均衡性反映总体各单位变量值分布的均衡性一般来说,标志变异指标数值越大,总体一般来说,标志变异指标数值越大,总体各单位变量值分布的离散趋势越高、均衡各单位变量值分布的离散趋势越高、均衡性越低,反之,变量值分布的的离散趋势性越低,反之,变量值分布的的离散趋势越低、均衡性就越高。越低、均衡性就越高。 2.2.判断平均指标对总体各单位变量值代表性的高判断平均指标对总体各单位变量值代表性的高判断平均指标对总体各单位变量值代表性的高判断平均指标对总体各单位变量值代表性的高低低低低平均指标作为总体各单位某一数量标志的代表值,平均指标作为总体各单位某一数量标志的代表值,平均指标作为总体各单位某一数量标志的代表值,平均指标作为总体各单位某一数量标志的代表值,其代表性的高低与总体差异程度有直接关系:总其代表性的高低与总体差异程度有直接关系:总其代表性的高低与总体差异程度有直接关系:总其代表性的高低与总体差异程度有直接关系:总体的标志变异指标值愈大,平均数的代表性愈低;体的标志变异指标值愈大,平均数的代表性愈低;体的标志变异指标值愈大,平均数的代表性愈低;体的标志变异指标值愈大,平均数的代表性愈低;反之,标志变异指标值愈小,平均数代表性愈高。反之,标志变异指标值愈小,平均数代表性愈高。反之,标志变异指标值愈小,平均数代表性愈高。反之,标志变异指标值愈小,平均数代表性愈高。另一方面,平均指标代表性的高低同总体各单位另一方面,平均指标代表性的高低同总体各单位另一方面,平均指标代表性的高低同总体各单位另一方面,平均指标代表性的高低同总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性越高,平均指标代表性就越变量值分布的均衡性越高,平均指标代表性就越变量值分布的均衡性越高,平均指标代表性就越变量值分布的均衡性越高,平均指标代表性就越高;反之,总体各单位变量值分布的均衡性越低高;反之,总体各单位变量值分布的均衡性越低高;反之,总体各单位变量值分布的均衡性越低高;反之,总体各单位变量值分布的均衡性越低, , 平均指标代表性就越低。平均指标代表性就越低。平均指标代表性就越低。平均指标代表性就越低。3.在实际工作中,借助标志变异指标还可以在实际工作中,借助标志变异指标还可以对社会经济活动过程的节奏性和均衡性进对社会经济活动过程的节奏性和均衡性进行评价行评价4.标志变异指标是衡量风险大小的重要指标。标志变异指标是衡量风险大小的重要指标。四、变异指标的分类四、变异指标的分类变异指标按数量关系来分有以下两类:变异指标按数量关系来分有以下两类:凡用绝对数来表达的变异指标,统称绝对凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、离势,主要有极差、平均差、四分位差、标准差等。标准差等。凡用相对数来表达的变异指标,统称相对凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。均差系数和一些常用的偏态系数。第二节、全距与四分位差第二节、全距与四分位差一、全距一、全距一、全距一、全距1 1、未分组资料计算公式、未分组资料计算公式、未分组资料计算公式、未分组资料计算公式全距又称极差,是一组数据的最大值与最小值之全距又称极差,是一组数据的最大值与最小值之全距又称极差,是一组数据的最大值与最小值之全距又称极差,是一组数据的最大值与最小值之差,用表示。计算公式为:差,用表示。计算公式为:差,用表示。计算公式为:差,用表示。计算公式为: 式中,式中,式中,式中, 、 分别表示为一组数据的最大值与分别表示为一组数据的最大值与分别表示为一组数据的最大值与分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表最小值。由于全距是根据一组数据的两个极值表最小值。由于全距是根据一组数据的两个极值表最小值。由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。示的,所以全距表明了一组数据数值的变动范围。示的,所以全距表明了一组数据数值的变动范围。示的,所以全距表明了一组数据数值的变动范围。越大,表明数值变动的范围越大,即数列中各变越大,表明数值变动的范围越大,即数列中各变越大,表明数值变动的范围越大,即数列中各变越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围量值差异大,反之,越小,表明数值变动的范围量值差异大,反之,越小,表明数值变动的范围量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。越小,即数列中各变量值差异小。越小,即数列中各变量值差异小。越小,即数列中各变量值差异小。例3.12 例3.1给出的40个同学统计学的考试成绩,其最高成绩为99分,最低成绩为36,则全距为: (分)2、分组资料计算公式、分组资料计算公式R=最高组上限最高组上限 - 最低组下限最低组下限R=最高组组中组最高组组中组-最低组组中值最低组组中值R=最高组组中组最高组组中组-最低组下限最低组下限R=最高组上限最高组上限-最低组组中值最低组组中值如果资料经过整理,并形成组距分配数列,如果资料经过整理,并形成组距分配数列,全距可近似表示为:全距可近似表示为: R最高组上限值最低组下限值最高组上限值最低组下限值3、优缺点:、优缺点:优点:计算简单,易于理解。优点:计算简单,易于理解。缺点:缺点: (1)受极端值影响大,遇含开口组的资料时)受极端值影响大,遇含开口组的资料时无法计算;无法计算; (2)数据利用率低,信息丧失严重;)数据利用率低,信息丧失严重; (3)受抽样变动影响大(一般大样本的全距会)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。比小样本的全距大)。二、四分位差(二、四分位差(inter-quartile range)上四分位数与下四分位数之差的平均数,称上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。为四分位差,亦称为内距或四分间距。四分位差的计算方法:四分位差的计算方法:QD=(Q3-Q1) /2四分位差反映了中间四分位差反映了中间50%数据的离散程度,数据的离散程度,其数值越小,说明中间的数据越集中;数其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。此外,值越大,说明中间的数据越分散。此外,由于中位数处于数据的中间位置,因此,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。位数对一组数据的代表程度。例3.2在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。解: ,即QL在第2个数值(780)和第3个数值(850)之间0.5的位置上,因此QL(780850)2815(元) ,即QU在第7个数值(1500)和第8个数值(1630)之间0.5的位置上,因此QU(15001630)21565(元)QL和QU之间包含了50%的数据,因此,我们可以说有一半的家庭人均月收入在8151565元之间。根据例3.2资料计算上下四分位数,那么家庭人均月收入的四分位差为:QUQL=?上四分位数上四分位数 下四分位数下四分位数: 数值型分组数据的四分位数(计算公式)四分位差主要用于测度顺序数据的离散程四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。分位差,但不适合于分类数据。优缺点:主要是避免了全距受极端值影响优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。低,信息丧失严重;受抽样变动影响大。第三节、平均差(Mean deviation)平均差是各变量值与其算术平均数离差绝平均差是各变量值与其算术平均数离差绝对值的平均数,用对值的平均数,用A.D表示。根据掌握资料表示。根据掌握资料的不同,平均差有以下两种计算方法:的不同,平均差有以下两种计算方法:1. 简单平均法简单平均法对于未分组资料,采用简单平均法。其计对于未分组资料,采用简单平均法。其计算公式为:算公式为:例3.13 某厂甲、乙两组工人生产某种产品的产量资料如表3.8所示。从计算结果看,甲、乙两组平均生产件数从计算结果看,甲、乙两组平均生产件数相等,但由于甲组的平均差(相等,但由于甲组的平均差(1.2件)小于件)小于乙组的平均差(乙组的平均差(16件),因而其平均数的件),因而其平均数的代表性比乙组大。代表性比乙组大。2. 加权平均法加权平均法在资料分组的情况下,应采用加权平均式:在资料分组的情况下,应采用加权平均式:平均差计算简便,意义明确,而且平均差平均差计算简便,意义明确,而且平均差是根据所有变量值计算的,每个数据均参是根据所有变量值计算的,每个数据均参与了计算,因此它能够准确地、全面地反与了计算,因此它能够准确地、全面地反映一组数值的变异程度。但是,由于平均映一组数值的变异程度。但是,由于平均差是用绝对值进行运算的,它不适宜于代差是用绝对值进行运算的,它不适宜于代数形式处理,所以在实际应用上受到很大数形式处理,所以在实际应用上受到很大的限制。的限制。第四节、方差和标准差第四节、方差和标准差(Variance 、Standard deviation)一、概念要点一、概念要点一、概念要点一、概念要点方差和标准差同平均差一样,也是根据全部数据方差和标准差同平均差一样,也是根据全部数据方差和标准差同平均差一样,也是根据全部数据方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均计算的,反映每个数据与其算术平均数相比平均计算的,反映每个数据与其算术平均数相比平均计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异相差的数值,因此它能准确地反映出数据的差异相差的数值,因此它能准确地反映出数据的差异相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方程度。但与平均差不同之处是在计算时的处理方程度。但与平均差不同之处是在计算时的处理方程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,法不同,平均差是取离差的绝对值消除正负号,法不同,平均差是取离差的绝对值消除正负号,法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这而方差、标准差是取离差的平方消除正负号,这而方差、标准差是取离差的平方消除正负号,这而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实更便于数学上的处理。因此,方差、标准差是实更便于数学上的处理。因此,方差、标准差是实更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的际中应用最广泛的离中程度度量值。由于总体的际中应用最广泛的离中程度度量值。由于总体的际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有方差、标准差与样本的方差、标准差在计算上有方差、标准差与样本的方差、标准差在计算上有方差、标准差与样本的方差、标准差在计算上有所区别,因此下面分别加以介绍。所区别,因此下面分别加以介绍。所区别,因此下面分别加以介绍。所区别,因此下面分别加以介绍。1 1、方差是个变量值与其均值离差平方的平均数,、方差是个变量值与其均值离差平方的平均数,、方差是个变量值与其均值离差平方的平均数,、方差是个变量值与其均值离差平方的平均数,标准差是方差的开方。标准差是方差的开方。标准差是方差的开方。标准差是方差的开方。 2 2、离散程度的测度值之一。、离散程度的测度值之一。、离散程度的测度值之一。、离散程度的测度值之一。 3 3、最常用的测度值。、最常用的测度值。、最常用的测度值。、最常用的测度值。 4 4、反映了数据的分布。、反映了数据的分布。、反映了数据的分布。、反映了数据的分布。5 5、反映了各变量值与均值的平均差异。、反映了各变量值与均值的平均差异。、反映了各变量值与均值的平均差异。、反映了各变量值与均值的平均差异。6 6、根据总体数据计算的,称为总体方差或标准差。、根据总体数据计算的,称为总体方差或标准差。、根据总体数据计算的,称为总体方差或标准差。、根据总体数据计算的,称为总体方差或标准差。根据样本数据计算的,称为样本方差或标准差。根据样本数据计算的,称为样本方差或标准差。根据样本数据计算的,称为样本方差或标准差。根据样本数据计算的,称为样本方差或标准差。二、总体的方差和标准差二、总体的方差和标准差设总体的方差为,标准差为,设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准对于未分组整理的原始资料,方差和标准差的计算公式分别为:差的计算公式分别为:(二)样本的方差和标准差(二)样本的方差和标准差样本的方差、标准差与总体的方差、标准样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或各个离差平方平均时是用样本数据个数或总频数减总频数减1去除总离差平方和。去除总离差平方和。(三)是非标志的方差与标准差(三)是非标志的方差与标准差(三)是非标志的方差与标准差(三)是非标志的方差与标准差在实际生活中,有些事物或现象的特征只表现为在实际生活中,有些事物或现象的特征只表现为在实际生活中,有些事物或现象的特征只表现为在实际生活中,有些事物或现象的特征只表现为两种性质上的差异,例如,产品的质量表现为合两种性质上的差异,例如,产品的质量表现为合两种性质上的差异,例如,产品的质量表现为合两种性质上的差异,例如,产品的质量表现为合格或不合格,人的性别表现为男或女,人们对某格或不合格,人的性别表现为男或女,人们对某格或不合格,人的性别表现为男或女,人们对某格或不合格,人的性别表现为男或女,人们对某种意见表示为同意或不同意;对学生考试成绩分种意见表示为同意或不同意;对学生考试成绩分种意见表示为同意或不同意;对学生考试成绩分种意见表示为同意或不同意;对学生考试成绩分为及格和不及格,等等。这些只表现为是与否、为及格和不及格,等等。这些只表现为是与否、为及格和不及格,等等。这些只表现为是与否、为及格和不及格,等等。这些只表现为是与否、有或无的标志,称为是非标志,也称为交替标志。有或无的标志,称为是非标志,也称为交替标志。有或无的标志,称为是非标志,也称为交替标志。有或无的标志,称为是非标志,也称为交替标志。在进行抽样估计时,是非标志的方差或标准差具在进行抽样估计时,是非标志的方差或标准差具在进行抽样估计时,是非标志的方差或标准差具在进行抽样估计时,是非标志的方差或标准差具有很重要的意义。有很重要的意义。有很重要的意义。有很重要的意义。1. 1. 成数(比例)成数(比例)成数(比例)成数(比例)如前所述,是非标志只有两种表现,我们把总体如前所述,是非标志只有两种表现,我们把总体如前所述,是非标志只有两种表现,我们把总体如前所述,是非标志只有两种表现,我们把总体中或样本中具有某种表现或不具有某种表现的单中或样本中具有某种表现或不具有某种表现的单中或样本中具有某种表现或不具有某种表现的单中或样本中具有某种表现或不具有某种表现的单位数占全部单位数的比重称为成数,它反映了总位数占全部单位数的比重称为成数,它反映了总位数占全部单位数的比重称为成数,它反映了总位数占全部单位数的比重称为成数,它反映了总体或样本中体或样本中体或样本中体或样本中“ “是是是是” ”与与与与“ “非非非非” ”的构成,并且代表着的构成,并且代表着的构成,并且代表着的构成,并且代表着两种表现或性质各反复出现的程度,即频率。例两种表现或性质各反复出现的程度,即频率。例两种表现或性质各反复出现的程度,即频率。例两种表现或性质各反复出现的程度,即频率。例如,某一批产品,合格品占如,某一批产品,合格品占如,某一批产品,合格品占如,某一批产品,合格品占95%95%,不合格品占,不合格品占,不合格品占,不合格品占5%5%。在这里。在这里。在这里。在这里。95%95%和和和和5%5%均为成数。均为成数。均为成数。均为成数。 2. 是非标志的平均数是非标志的平均数是非标志是一种品质标志,其表现为文字。是非标志是一种品质标志,其表现为文字。因此,在计算平均数时,首先需要将文字因此,在计算平均数时,首先需要将文字表现进行数量化处理。用表现进行数量化处理。用“1”表示具有某表示具有某种表现,用种表现,用“0”表示不具有某种表现,然表示不具有某种表现,然后以后以“1”和和“0”作为变量值,计算加权作为变量值,计算加权算术平均数。现以总体为例予以说明。算术平均数。现以总体为例予以说明。3. 是非标志的方差与标准差是非标志的方差与标准差将经过量化处理的是非标志的表现将经过量化处理的是非标志的表现“1”和和“0”作为变量值代入总体的方差计算公式:作为变量值代入总体的方差计算公式:例3.17 从一批产品中随机抽取100件产品进行质量测试,测试的结果为96件合格,4件不合格,试计算成数的方差和标准差。是非标志的方差、标准差,当时取得最大是非标志的方差、标准差,当时取得最大值,方差最大值为值,方差最大值为0.25,标准差最大值为,标准差最大值为0.5,也就是说,此时是非标志的变异程度,也就是说,此时是非标志的变异程度最大。如某学生群体中男生数和女生数相最大。如某学生群体中男生数和女生数相等,即男女生的成数均为等,即男女生的成数均为0.5(50%),),说明该学生群体性别差异程度最大。是非说明该学生群体性别差异程度最大。是非标志的方差、标准差的最小值均为标志的方差、标准差的最小值均为0。4. 方差的数学性质方差的数学性质第五节、标准分(Standard score)相对位置的度量:标准分数相对位置的度量:标准分数有了均值和标准差之后,我们可以计算一有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,以测度每组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。用它来判断一组数据是否有离群值。1、定义。、定义。变量值与其平均数的离差除以标准差后的变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或值。值,称为标准分数,也称标准化值或值。标准分数也给出了一组数据中各数值的相标准分数也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数对位置。比如,如果某个数值的标准分数为为-2,我们就知道该数值低于均值,我们就知道该数值低于均值2倍的标倍的标准差。准差。 (.4.21) 式也就是我们常用的统式也就是我们常用的统计标准化公式,在对多个具有不同量纲的计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值变量进行处理时,常常需要对各变量数值进行标准化处理。进行标准化处理。【例3.18】根据例3.2的数据,计算每个家庭人均收入的标准分数。在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算每个家庭人均收入的标准分数。(3.40)实际上,实际上,z分数只是将原始数据进行了线性变分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为是将该组数据变为均值为0、标准差为、标准差为1。经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时约有约有约有约有68.27%68.27%的数据在平均数加减的数据在平均数加减的数据在平均数加减的数据在平均数加减1 1个标准个标准个标准个标准差的范围内差的范围内差的范围内差的范围内约有约有约有约有95.45%95.45%的数据在平均数加减的数据在平均数加减的数据在平均数加减的数据在平均数加减2 2个标准个标准个标准个标准差的范围内差的范围内差的范围内差的范围内约有约有约有约有99.73%99.73%的数据在平均数加减的数据在平均数加减的数据在平均数加减的数据在平均数加减3 3个标准个标准个标准个标准差的范围内。差的范围内。差的范围内。差的范围内。由此可见,一组数据中低于或高于平均数由此可见,一组数据中低于或高于平均数由此可见,一组数据中低于或高于平均数由此可见,一组数据中低于或高于平均数3 3个标准个标准个标准个标准差以上的数据很少。因此,在统计上,往往将平差以上的数据很少。因此,在统计上,往往将平差以上的数据很少。因此,在统计上,往往将平差以上的数据很少。因此,在统计上,往往将平均数均数均数均数3 3个标准差以外的数据称为异常值或离群值。个标准差以外的数据称为异常值或离群值。个标准差以外的数据称为异常值或离群值。个标准差以外的数据称为异常值或离群值。2 2、标准分的特性、标准分的特性、标准分的特性、标准分的特性(1 1)对于给定资料,由于算术平均数和标准差都是确定)对于给定资料,由于算术平均数和标准差都是确定)对于给定资料,由于算术平均数和标准差都是确定)对于给定资料,由于算术平均数和标准差都是确定值,所以值,所以值,所以值,所以z z是和是和是和是和X X一一对应的变量。一一对应的变量。一一对应的变量。一一对应的变量。(2 2)它没有单位,是一个不受原资料单位影响的相对数,)它没有单位,是一个不受原资料单位影响的相对数,)它没有单位,是一个不受原资料单位影响的相对数,)它没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较。因而也适用于不同单位资料的比较。因而也适用于不同单位资料的比较。因而也适用于不同单位资料的比较。(3 3)均值和方差不同的正态分布经)均值和方差不同的正态分布经)均值和方差不同的正态分布经)均值和方差不同的正态分布经Z Z分数标准化后,可以分数标准化后,可以分数标准化后,可以分数标准化后,可以转化为标准正态分布,所以转化为标准正态分布,所以转化为标准正态分布,所以转化为标准正态分布,所以Z Z又称标准正态变量。又称标准正态变量。又称标准正态变量。又称标准正态变量。(4 4)Z Z分数的数学特性:分数的数学特性:分数的数学特性:分数的数学特性:Z Z分数之和等于分数之和等于分数之和等于分数之和等于0 0;Z Z分数的算术平均数等于分数的算术平均数等于分数的算术平均数等于分数的算术平均数等于0 0;Z Z分数的标准差和方差均为分数的标准差和方差均为分数的标准差和方差均为分数的标准差和方差均为1 1。3 3、标准分的主要作用:、标准分的主要作用:、标准分的主要作用:、标准分的主要作用: 标准分数的作用主要在两个方面,一是可以表标准分数的作用主要在两个方面,一是可以表标准分数的作用主要在两个方面,一是可以表标准分数的作用主要在两个方面,一是可以表明原始数据在总体分布中的相对位置,二是可以明原始数据在总体分布中的相对位置,二是可以明原始数据在总体分布中的相对位置,二是可以明原始数据在总体分布中的相对位置,二是可以对不同分布的各原始数据进行比较。对不同分布的各原始数据进行比较。对不同分布的各原始数据进行比较。对不同分布的各原始数据进行比较。(1 1)确定原始数据在总体分布中的位置。)确定原始数据在总体分布中的位置。)确定原始数据在总体分布中的位置。)确定原始数据在总体分布中的位置。 如某县的年人均收入为如某县的年人均收入为如某县的年人均收入为如某县的年人均收入为286286元,标准差是元,标准差是元,标准差是元,标准差是6262元。元。元。元。该县某村的年人均收入为该县某村的年人均收入为该县某村的年人均收入为该县某村的年人均收入为348348元,那么该村在全元,那么该村在全元,那么该村在全元,那么该村在全县中的位置怎样?我们计算它的标准分数为县中的位置怎样?我们计算它的标准分数为县中的位置怎样?我们计算它的标准分数为县中的位置怎样?我们计算它的标准分数为1 1,我,我,我,我们将标准分数和书后所附的标准正态分布表联系们将标准分数和书后所附的标准正态分布表联系们将标准分数和书后所附的标准正态分布表联系们将标准分数和书后所附的标准正态分布表联系在一起,可以查出在一起,可以查出在一起,可以查出在一起,可以查出Z=1Z=1在总体中的相对位置是在总体中的相对位置是在总体中的相对位置是在总体中的相对位置是0.840.84,也就是说全县有,也就是说全县有,也就是说全县有,也就是说全县有84%84%的村子其年均收入低的村子其年均收入低的村子其年均收入低的村子其年均收入低于该村,有于该村,有于该村,有于该村,有16%16%的村子高于该村。这就是它的年的村子高于该村。这就是它的年的村子高于该村。这就是它的年的村子高于该村。这就是它的年人均收入在全县所所处的位置。人均收入在全县所所处的位置。人均收入在全县所所处的位置。人均收入在全县所所处的位置。(2)对不同分布的各原始数据进行比较。)对不同分布的各原始数据进行比较。如果是不同县的两个村,甲村的情况和上如果是不同县的两个村,甲村的情况和上例相同,乙村的年人均收入是例相同,乙村的年人均收入是275元,但元,但乙村所在的县其年均收入是乙村所在的县其年均收入是225元,标准元,标准差是差是25元。从绝对值看,甲村的收入高于元。从绝对值看,甲村的收入高于乙村,但通过标准正态分布表可以查出乙村,但通过标准正态分布表可以查出Z=2在总体中的相对位置是在总体中的相对位置是0.977。因为。因为Z乙乙=2Z甲甲=1,所以乙村在当地的先进程,所以乙村在当地的先进程度比甲村更高。度比甲村更高。标准分数能测定相同或不同总体内个案的相对位置,标准分数能测定相同或不同总体内个案的相对位置,标准分数能测定相同或不同总体内个案的相对位置,标准分数能测定相同或不同总体内个案的相对位置,并进行比较,所以是比较分析的有力工具。并进行比较,所以是比较分析的有力工具。并进行比较,所以是比较分析的有力工具。并进行比较,所以是比较分析的有力工具。 例例例例 假设某考生在高考中,语文得假设某考生在高考中,语文得假设某考生在高考中,语文得假设某考生在高考中,语文得110110110110分,数学得分,数学得分,数学得分,数学得125125125125分。如果所有考生的语文平均分为分。如果所有考生的语文平均分为分。如果所有考生的语文平均分为分。如果所有考生的语文平均分为90909090,标准差为,标准差为,标准差为,标准差为10101010;数学平均分为;数学平均分为;数学平均分为;数学平均分为100100100100,标准差为,标准差为,标准差为,标准差为15151515分。那么,相分。那么,相分。那么,相分。那么,相对而言这个考生哪方面能力更强?(如:广东省对而言这个考生哪方面能力更强?(如:广东省对而言这个考生哪方面能力更强?(如:广东省对而言这个考生哪方面能力更强?(如:广东省高考中各科分数用的是高考中各科分数用的是高考中各科分数用的是高考中各科分数用的是T=100Z+500T=100Z+500T=100Z+500T=100Z+500。而高考成绩。而高考成绩。而高考成绩。而高考成绩是各科标准分的平均分。是各科标准分的平均分。是各科标准分的平均分。是各科标准分的平均分。 )假设只考两门课)假设只考两门课)假设只考两门课)假设只考两门课A A A A语语语语文文文文120120120120分,数学分,数学分,数学分,数学0 0 0 0分;分;分;分;B B B B数学数学数学数学120120120120分,语文分,语文分,语文分,语文0 0 0 0分,按传分,按传分,按传分,按传统计分办法两名学生成绩相同,但按标准分计分统计分办法两名学生成绩相同,但按标准分计分统计分办法两名学生成绩相同,但按标准分计分统计分办法两名学生成绩相同,但按标准分计分A A A A的成绩就比的成绩就比的成绩就比的成绩就比B B B B好。好。好。好。第六节 离散系数相对离散程度:离散系数相对离散程度:离散系数相对离散程度:离散系数相对离散程度:离散系数前面介绍的全距、平均差、方差和标准差都是反前面介绍的全距、平均差、方差和标准差都是反前面介绍的全距、平均差、方差和标准差都是反前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小,映一组数值变异程度的绝对值,其数值的大小,映一组数值变异程度的绝对值,其数值的大小,映一组数值变异程度的绝对值,其数值的大小,不仅取决于数值的变异程度,而且还与变量值水不仅取决于数值的变异程度,而且还与变量值水不仅取决于数值的变异程度,而且还与变量值水不仅取决于数值的变异程度,而且还与变量值水平的高低、计量单位的不同有关。所以,不宜直平的高低、计量单位的不同有关。所以,不宜直平的高低、计量单位的不同有关。所以,不宜直平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位接利用上述变异指标对不同水平、不同计量单位接利用上述变异指标对不同水平、不同计量单位接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将的现象进行比较,应当先做无量纲化处理,即将的现象进行比较,应当先做无量纲化处理,即将的现象进行比较,应当先做无量纲化处理,即将上述的反映数据的绝对差异程度的变异指标转化上述的反映数据的绝对差异程度的变异指标转化上述的反映数据的绝对差异程度的变异指标转化上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后再进行对比。为反映相对差异程度的指标,然后再进行对比。为反映相对差异程度的指标,然后再进行对比。为反映相对差异程度的指标,然后再进行对比。 用离差的绝对指标除以平均指标来求离差用离差的绝对指标除以平均指标来求离差的相对指标,就可以在计量单位不同或平的相对指标,就可以在计量单位不同或平均水平不一的对象间进行直接比较。这种均水平不一的对象间进行直接比较。这种由绝对离差与其算术平均数的比值,叫变由绝对离差与其算术平均数的比值,叫变异系数。异系数。1 1、全距系数:全距与算术平均数之比。、全距系数:全距与算术平均数之比。、全距系数:全距与算术平均数之比。、全距系数:全距与算术平均数之比。2 2、平均差系数:平均差与算术平均数之比。、平均差系数:平均差与算术平均数之比。、平均差系数:平均差与算术平均数之比。、平均差系数:平均差与算术平均数之比。3 3、标准差系数(最重要和最常用的变异系数)、标准差系数(最重要和最常用的变异系数)、标准差系数(最重要和最常用的变异系数)、标准差系数(最重要和最常用的变异系数)(1 1)标准差与其相应的均值之比)标准差与其相应的均值之比)标准差与其相应的均值之比)标准差与其相应的均值之比(2 2)消除了数据水平高低和计量单位的影响)消除了数据水平高低和计量单位的影响)消除了数据水平高低和计量单位的影响)消除了数据水平高低和计量单位的影响(3 3)测度了数据的相对离散程度)测度了数据的相对离散程度)测度了数据的相对离散程度)测度了数据的相对离散程度(4 4)用于对不同组别数据离散程度的比较)用于对不同组别数据离散程度的比较)用于对不同组别数据离散程度的比较)用于对不同组别数据离散程度的比较计算公式:计算公式:离散系数是反映一组数据相对差异程度的离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用较不同数列的变异程度。离散系数通常用表示,常用的离散系数有平均差系数和标表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:准差系数,其计算公式分别为:例3.19 甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。两组工人工资水平离散系数计算如下:从标准差来看,乙组工人工资水平的标准从标准差来看,乙组工人工资水平的标准差比甲组大,但不能断言,乙组平均工资差比甲组大,但不能断言,乙组平均工资的代表性小。这是因为两组工人的工资水的代表性小。这是因为两组工人的工资水平处在不同的水平上,所以不能直接根据平处在不同的水平上,所以不能直接根据标准差的大小作结论。而正确的方法要用标准差的大小作结论。而正确的方法要用消除了数列水平的离散系数比较。消除了数列水平的离散系数比较。从两组的离散系数可以看出,甲组相对的从两组的离散系数可以看出,甲组相对的变异程度大于乙组,因而乙组平均工资的变异程度大于乙组,因而乙组平均工资的代表性要大。代表性要大。某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)X1销售利润(万元)销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例例例】某某某某管管管管理理理理局局局局抽抽抽抽查查查查了了了了所所所所属属属属的的的的8 8家家家家企企企企业业业业,其其其其产产产产品品品品销销销销售售售售数数数数据据据据如表,试比较产品销售额与销售利润的离散程度如表,试比较产品销售额与销售利润的离散程度如表,试比较产品销售额与销售利润的离散程度如表,试比较产品销售额与销售利润的离散程度X X1 1= =536.25536.25(万元)(万元)S S1 1= =309.19309.19(万元)(万元)V V1 1= =536.25536.25309.19309.19= =0.5770.577S S2 2= =23.0923.09(万元)(万元)V V2 2= =32.521532.521523.0923.09= =0.7100.710X X2 2= =32.521532.5215(万元)(万元)结结结结论论论论: 计计算算结结果果表表明明,V V1 1 3=3.43,说说明明我我国国农农村村居居民民家家庭庭纯纯收收入入的的分分布布为为尖尖峰峰分分布布,说说明明低低收收入入家家庭庭占占有有较较大大的比重。的比重。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号