资源预览内容
第1页 / 共115页
第2页 / 共115页
第3页 / 共115页
第4页 / 共115页
第5页 / 共115页
第6页 / 共115页
第7页 / 共115页
第8页 / 共115页
第9页 / 共115页
第10页 / 共115页
亲,该文档总共115页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据的集中趋势、分散趋势、偏数据的集中趋势、分散趋势、偏度与峰度度与峰度数据的概括性度量数据的概括性度量p2.2 分布集中趋势的测度p2.3 分布离散程度的测度p2.4 分布偏态与峰度的测度数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 ( (位置位置位置位置) )偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 ( (分散程度分散程度分散程度分散程度) )集中趋势的度量集中趋势的度量p分类数据:众数分类数据:众数p顺序数据:中位数顺序数据:中位数p数值型数据:平均数数值型数据:平均数p众数、中位数和平均数比较众数、中位数和平均数比较集中趋势(central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2. 2.测度集中趋势就是寻找数据一般水平的代表值测度集中趋势就是寻找数据一般水平的代表值/ /中心值中心值3. 3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4. 4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据分类数据:众数分类数据:众数众数众数(mode)1.一组数据中出现次数最多的变量值2.分布最高峰点所对应的数值即众数3.一种位置代表值,不受极端值的影响,应用场合有限,4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据众数众数(不惟一性不惟一性)无众数无众数原始数据: 10 5 9 12 6 8一个众数一个众数原始数据: 6 5 9 8 5 5多于一个众数多于一个众数原始数据: 25 28 28 36 42 42分类数据的众数分类数据的众数 (例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解解解解:这这里里的的变变量量为为“ “饮饮料料品品牌牌” ”,这这是是个个分分类类变变量量,不不同同类类型型的的饮饮料料就是变量值就是变量值 所所调调查查的的5050人人中中,购购买买可可口口可可乐乐的的人人数数最最多多,为为1515人人,占占被被调调查查总总人人数数的的30%30%,因因此此众众数数为为“ “可可口口可可乐乐” ”这这一一品品牌牌,即即 MMo o可口可乐可口可乐可口可乐可口可乐顺序数据的众数顺序数据的众数 (例题分析例题分析)解解解解:这这里里的的数数据据为为顺顺序序数数据据。变变量量为为“ “回回答类别答类别” ” 甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“ “不不满满意意” ”这这一类别,即一类别,即 MMo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲甲城市城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0统计函数统计函数统计函数统计函数MODEMODE数值型数据的众数数值型数据的众数 (步骤步骤)p下限公式:下限公式:p上限公式:上限公式:数值型数据的众数数值型数据的众数 (例题分析例题分析)月工资人数350元以下 10350-45050450-550120550-650180650-75040750以上30合计430顺序数据:中位数和分位数顺序数据:中位数和分位数中位数中位数(median)1.排序后处于中间位置上的数据1,4,7,11,13(113)1,4,7,11,13,19MMe e50%50%2.不受极端值的影响,具有稳健(稳定)性特点不受极端值的影响,具有稳健(稳定)性特点不受极端值的影响,具有稳健(稳定)性特点不受极端值的影响,具有稳健(稳定)性特点3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据用于分类数据用于分类数据中位数中位数(未分组资料未分组资料)位置确定位置确定数值确定数值确定数值型数据的中位数数值型数据的中位数 (9个数据的算例个数据的算例)p【例例】 9个家庭的人均月收入数据p原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630p排排 序序: 750 780 850 960 1080 1250 1500 1630 2000p位位 置置: 1 2 3 4 5 6 7 8 9中位数中位数 1080数值型数据的中位数数值型数据的中位数 (10个数据的算例个数据的算例)p【例例】:10个家庭的人均月收入数据p排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000p位位 置置: 1 2 3 4 5 6 7 8 9 10 统计函数统计函数统计函数统计函数MEDIANMEDIAN顺序数据的中位数顺序数据的中位数 (例题分析例题分析)解:解:解:解:中位数的位置为中位数的位置为 (300+1)/2(300+1)/2150.5150.5 从从累累计计频频数数看看,中中位位数数在在“ “一一般般” ”这这一组别中一组别中 中位数为中位数为 Me=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲甲城市城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的中位数数值型数据的中位数数值型数据的中位数数值型数据的中位数 (例题分析例题分析)p中位数位置:月工资人数 向上累积向下累积350元以下 1010430350-4505060420450-550120180370550-650180360250650-7504040070750以上3043030合计430-中位数的性质中位数的性质pp如果数据大量重复某一数值,此时中位数未必准确,在解释时要特别小心pp各变量值与中位数的离差绝对值之和最小,即四分位数四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QQL LQQMMQQU U25%25%25%25%四分位数四分位数(位置的确定位置的确定)方法方法2:较准确算法:较准确算法方法方法1:定义算法:定义算法四分位数四分位数(位置的确定位置的确定)p方法方法3:p p p 其中 表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上p方法方法4: Excel给出的四分位数位置的确定方法p p 如果位置不是整数,则按比例分摊位置两侧数值的差值顺序数据的四分位数顺序数据的四分位数 (例题分析例题分析)解:解:解:解:Q QL L位置位置= = (300)/4 (300)/4 = =7575 Q QU U位置位置 = =(3300)/4(3300)/4 = =225225 从从累累计计频频数数看看, Q QL L在在“ “不不满意满意” ”这一组别中;这一组别中; Q QU U在在“ “一般一般” ”这一组别中这一组别中 四分位数为四分位数为 Q QL L = = 不满意不满意不满意不满意 QQU U = = 一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲甲城市城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的四分位数数值型数据的四分位数 (9个数据的算例个数据的算例)p【例例】:9个家庭的人均月收入数据(4种方法计算)p原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630p排排 序序: 750 780 850 960 1080 1250 1500 1630 2000p位位 置置: 1 2 3 4 5 6 7 8 9方法方法方法方法1 1数值型数据的四分位数数值型数据的四分位数 (9个数据的算例个数据的算例)p【例例】:9个家庭的人均月收入数据p原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630p排排 序序: 750 780 850 960 1080 1250 1500 1630 2000p位位 置置: 1 2 3 4 5 6 7 8 9方法方法方法方法2 2数值型数据的四分位数数值型数据的四分位数 (9个数据的算例个数据的算例)p【例例】:9个家庭的人均月收入数据p原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630p排排 序序: 750 780 850 960 1080 1250 1500 1630 2000p位位 置置: 1 2 3 4 5 6 7 8 9方法方法方法方法3 3数值型数据的四分位数数值型数据的四分位数 (9个数据的算例个数据的算例)p【例例】:9个家庭的人均月收入数据p原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630p排排 序序: 750 780 850 960 1080 1250 1500 1630 2000p位位 置置: 1 2 3 4 5 6 7 8 9方法方法方法方法4 4统计函数统计函数统计函数统计函数QUARTILEQUARTILE数值型数据:平均数数值型数据:平均数算术平均数算术平均数(mean)1.也称为均值2.集中趋势的最常用、最重要的测度值3.分子分母必须属于同一总体5.易受极端值的影响6.有简单平均数和加权平均数之分 x xhttp:/www.faceresearch.org/demos/average简单算术平均数简单算术平均数(Simple mean)设设一组数据为:一组数据为:x x1 1 ,x x2 2 , ,x xn n ( (总体数据总体数据x xN N) ) 简单算术平均数简单算术平均数简单算术平均数简单算术平均数(未分组资料)(未分组资料)(未分组资料)(未分组资料)例例:设有一组大学生的月生活费支出为:150,200,240,300,350,500(单位:元)。则平均月生活费支出=150+200+240+300+350+500=290加权平均数加权平均数例:例:有一班级的大学生月生活费支出如下表: 月生活费(元)月生活费(元)x 人数(人)人数(人)f 频率(频率(%) 150 3 5.36 200 5 8.93 240 7 12.50 300 24 42.85 350 16 28.57 500 1 1.79 合 计 56 100.00则平均生活费支出?=(150*3+200*5+240*7+300*24+350*16+500*1)/56=293.39(为什么由分组资料计算平均指标不能将各组的标志值简单平均?)加权平均数加权平均数 (Weighted mean)设设各组的标志值为:各组的标志值为: x x1 1 ,x x2 2 , ,x xk k 相应的频数为:相应的频数为: f f1 1 , f f2 2 , ,f fk k加权平均加权平均加权平均数加权平均数(权数对均值的影响权数对均值的影响)p甲乙两组各有10名学生,考试成绩及其分布数据如下p 甲组:甲组: 考试成绩(考试成绩(x ): 0 20 100p 人数分布(人数分布(f ):):1 1 8p 乙组:乙组: 考试成绩(考试成绩(x): 0 20 100p 人数分布(人数分布(f ):):8 1 1统计函数统计函数统计函数统计函数AVERAGEAVERAGE加权平均数加权平均数(权数对均值的影响权数对均值的影响)p 平均数的大小不仅取决于各组标志值 x的大小,同时还受各组次数f多少的影响。p各组标志值次数的多少在平均数的计算中具有权衡轻重的作用,因而把各组的次数又称为权数,用各组的次数去乘以各组的标志值,就是对各组的标志值进行加权。所以,用这种方法计算的算术平均数,称为加权算术平均数。p如果各组次数完全相同,结果会怎样?p实务中给定的权数资料,既可以是绝对数,也可以是相对实务中给定的权数资料,既可以是绝对数,也可以是相对数,即频率或称权数系数。数,即频率或称权数系数。p p p 加权平均数加权平均数(权数为相对数权数为相对数) 月生活费(元)月生活费(元) 人数(人数(%) 150 5.36 200 8.93 240 12.50 300 42.85 350 28.57 500 1.79 合 计 100.00加权平均数加权平均数 (组距数列组距数列)设设各组的组中值为:各组的组中值为: MM1 1 ,MM2 2 , ,MMk k 相应的频数为:相应的频数为: f f1 1 , f f2 2 , ,f fk k加权平均加权平均加权平均加权平均加权平均数加权平均数 ( (例题分析例题分析) )某某电脑电脑公司公司销销售量数据分售量数据分组组表表按按销销售量分售量分组组组组中中值值(Mi)频频数数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合合计计12022200组中值组中值p用组中值代表各组实际数据p假定u各组数据在组中均匀分布u各数据与组中值的误差可以相互抵消平均数平均数(数学性质数学性质)1.各变量值与平均数的离差之和等于零 2. 各变量值与平均数的离差平方和最小 3. 均值是统计分布的均衡点中位数和平均数数学性质的验证中位数和平均数数学性质的验证几何平均数几何平均数(geometric mean)1. n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率、平均发展速度4.计算公式为5. 5. 可看作是平均数的一种变形可看作是平均数的一种变形几何平均数(例题)几何平均数(例题)年份 19981999200020012002GDP 78345.2 82067.5 89468.1 97314.8 104790.6年份1999200020012002GDP发展速度 104.75 709.02 108.77 107.68表2.13 我国1998-2002年的gdp表2.14 我国1998-2002年的gdp发展速度几何平均数几何平均数 (例题分析例题分析)p 【例例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%几何平均数几何平均数 (例题分析例题分析)p 【例例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 ?算术平均:?算术平均:?算术平均:?算术平均: 几何平均:几何平均:几何平均:几何平均:统计函数统计函数统计函数统计函数GEOMEANGEOMEAN切尾均值切尾均值(trimmed Mean)1. 去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为n n 表示观察值的个数;表示观察值的个数; 表示切尾系数,表示切尾系数, 切尾均值切尾均值 (例题分析例题分析)【例例】谋次比赛共有11名评委,对某位歌手的给分分别是: 经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取1/111/11 切尾均值(切尾均值(trimmed mean)p=0,切尾均值就是算数平均数p1/2,切尾均值就是中位数p改变的值可以选择集中趋势的测度值p切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个有点而形成的新型统计量众数、中位数和均值的关系众数、中位数和均值的关系众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数和平均数的关系众数、中位数和平均数的关系p取决于次数分布状况p对称分布时,中位数、众数和算术平均数合而为一,即: Me =M0= Xp在非对称分布的情况下,中位数、众数和算术平均数之间存在一定的差别。 p右偏,则三者之间的关系是 : M0 Me X;p左偏,则三者之间的关系是: M0 Me X。p无论是右偏还是左偏,中位数总是介于算术平均数和众数之间。 众数、中位数和平均数的关系众数、中位数和平均数的关系n适度偏态时,X-Me的距离是X-M0的1/3。n如果X-Me0,说明右偏n如果X-Me0,说明左偏n如果X-Me较大,说明偏态较严重,反之,较轻众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.众数u优点:不受极端值影响u缺点:具有不惟一性u偏态分布且有明显峰值时应用比均值好2.中位数u优点:不受极端值影响u数据偏态分布时应用比均值好3.平均数u优点:数学性质优良u缺点:易受极端值影响u数据对称分布或接近对称分布时应用数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值众数众数中位数中位数平均数平均数众数众数众数众数中位数中位数分布离散程度的测度分布离散程度的测度p集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值聚集的程度。而各变量值之间的离散和差异状况如何,均值的代表性有多大,这就需要用离中程度对其进行考察。案例案例1p案例有两组男生身高分别为:p甲组(cm):168,172,172,173,175,190p乙组(cm):168,172,175,175,178,182p两组平均身高均为175cm,它们的代表性一样吗?案例案例2p案例有男、女两组身高:p男组(cm): 168,172,172,173,175,190p女组(cm):163,164,165,165,167,171p 男组平均身高175cm;p女组平均身高165.83cm。p思考:两组平均身高的代表性如何评价?离散程度离散程度1.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度( (离散程度离散程度) )3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.变变量量值值变变异异大大,离离散散程程度度就就大大,均均值值的的代代表表性性就就小。反之亦然。小。反之亦然。离散程度p分类数据:异众比率分类数据:异众比率p顺序数据:四分位差顺序数据:四分位差p数值型数据:方差和标准差数值型数据:方差和标准差p相对位置度量:离散系数相对位置度量:离散系数异众比率异众比率(variation ratio)1.对分类数据离散程度的测度2.非众数组的频数占总频数的比例3.计算公式为 4. 用于衡量众数的代表性异众比率异众比率 (例题分析例题分析)解:解:解:解: 在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“ “可可口口可可乐乐” ”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其代表性不是很好其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100内距(内距(inter-quartile range,IQR)p也称四分位差,是两个四分位数之差p内距=上四分位数-下四分位数=Q3-Q1p极差容易受极端值影响,内距基本不受极端值影响p内距反映的是中间50%数值大小的差异,四分位差四分位差 (例题分析例题分析)解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2, 2, 一一般般为为3, 3, 满满意意为为 4, 4, 非非常常满满意为意为5 5 。 已知已知 Q QL L = = 不满意不满意 = = 2 2 Q QU U = = 一般一般 = = 3 3四分位差为四分位差为 Q Qd d = = Q QU U - - Q QL L = = 3 2 3 2 = = 1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲甲城市城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300极差极差(range)1.又称全距。一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布 R = max(xi) - min(xi)5.计算公式为计算公式为平均差平均差(mean deviation)1.各变量值与其平均数离差绝对值的平均数2.能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少4.计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据平均差平均差 (例题分析例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计1202040平均差平均差 (例题分析例题分析) 含义:含义:每一天的销售量同平均数相比, 平均相差17台统计函数统计函数统计函数统计函数AVEDEVAVEDEV方差和标准差方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s)标准差与平均差标准差与平均差n标准差与平均差虽都是变量值与均值的平均离差,但不同的是平均差所平均的是离差绝对值,而标准差平均的是离差平方。n标准差彻底解决了正负离差不能相加的问题。它在抽样调查、相关分析中应用较多,所以标准差是应用较为广泛的一种离中趋势的测度值。总体方差和标准差总体方差和标准差 (Population variance and Standard deviation)p未分组数据组距分组数据组距分组数据未分组数据未分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式样本方差和标准差样本方差和标准差 (simple variance and standard deviation)p未分组数据组距分组数据组距分组数据未分组数据未分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除! !自由度自由度 (degree of freedom)1.自由度是指附加给独立的观测值的约束或限制的个数2.从字面涵义来看,自由度是指一组数据中可以自由取值的个数3.当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值4.按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k自由度自由度 (degree of freedom)1.样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值2.为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 3.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量样本标准差样本标准差 (例题分析例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计12055400样本标准差样本标准差 (例题分析例题分析) 含义:含义:每一天的销售量与平均数相比, 平均相差21.58台统计函数统计函数统计函数统计函数STDEVSTDEV方差的数学性质方差的数学性质p变量的方差等于变量平方的平均数减去变量平均数的平方 。p变量对算术平均数的方差,小于对任意常数的方差。相对离散程度相对离散程度p平均差和标准差其数值大小,不仅决定于各标志值的差异程度,还决定于数列平均水平的高低,同时它们具有与标志值相同的名数。p对于具有不同平均水平和不同计量单位的数列,就不能直接利用标准差等来比较其标志变动程度的大小,而需要用变异系数,以消除不同数列水平的影响。离散系数离散系数(coefficient of variation)1. 又称变异系数。标准差(或平均差)与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为离散系数离散系数 (例题分析例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x212345678170220390430480650950 1000 8.112.518.022.026.540.064.069.0【 例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数离散系数 (例题分析例题分析)结结论论: 计算结果表明,v1=DX/2 或P|X-EX|=1-DX/2 1.如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数4.在任何数据集中,与平均数超过K倍标准差的数据占的比例至多是1/K2。 的切比雪夫不等式切比雪夫不等式(Chebyshevs inequality )p对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落在平均数加减4个标准差的范围之内u若一班有36个学生,而在一次考试中,平均分是80分,标准差是10分,我们便可得出结论:少於50分(与平均相差3个标准差以上)的人,数目不多於4个(=36*1/9箱线图箱线图 (box plot)1.用于显示未分组的原始数据的分布2.由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.绘制方法u首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me和两个四四分分位位数数(下四分位数QL和上四分位数QU)u连接两个四分位数画出箱子,再将两个极值点与箱子相连接u该箱线图也称为该箱线图也称为Median/Quart./Range箱线图箱线图 未分组数据未分组数据单批数据箱线图单批数据箱线图(箱线图的构成箱线图的构成)中位数中位数4 46 68 810101212QQU UUQQL LLX X最大值最大值最大值X X最小值最小值最小值Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图未分组数据未分组数据单批数据箱线图单批数据箱线图(例题分析例题分析)最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.25170.25170.25上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图分布的形状与箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析)【例例例例】 从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人 , 对对 8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如右右表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特征特征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据未分组数据多批数据箱线图多批数据箱线图(例题分析例题分析Median/Quart./Range)8 8门课程考试成绩的门课程考试成绩的门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图1111名学生名学生名学生名学生8 8门课程考试成绩的门课程考试成绩的门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析Median/Quart./Range) 分布偏态与峰度的测度分布偏态与峰度的测度偏态与峰态分布的形状偏态与峰态分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!偏态偏态(skewness)1.统计学家Pearson于1895年首次提出 2.数据分布偏斜方向和程度的测度3.偏态系数的计算方式4.皮尔逊系数法5.动差法偏态系数偏态系数皮尔逊偏态系数法皮尔逊偏态系数法pPearson偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的 p以平均值与中位数之差对标准差之比率来衡量偏斜的程度,p偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。p偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。p偏态系数的变动范围为-3SK+3。当SK=0时,表示对称分布;当SK=3时,表示极右偏态;当SK=-3时,表示极左偏态。偏态系数偏态系数中心矩偏态测度法中心矩偏态测度法u中心矩指各个变量值与平均数的离差的K次方的平均值,也称中心动差。其计算公式为:p pk代表中心动差的阶数uK=1,一阶中心矩,mk=0uK=2,二阶中心矩,mk=方差uK=3,三阶中心矩,uK=4,四阶中心矩,偏态系数偏态系数 (coefficient of skewness)n统计上常以三阶中心矩作为测定偏态的一个重要指标。并且常用三阶中心矩m3除以标准差的三次方3 作为偏态系数,以测定数据分布的相对偏斜程度。 p 偏态系数:u当分布对称时, 3 3 =0;u当分布不对称时,则形成了正或负的偏态系数。u当3 30时,说明分布为右偏,并且值越大,说明右偏斜的程度越高;u当3 3 0时,说明分布为左偏,值越小,左偏程度越高。 偏态系数偏态系数 (例题分析例题分析) 某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台) 组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计合计120540000 70100000 偏态系数偏态系数 (例题分析例题分析)结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数数占据多数,而销售量较多的天数则占少数统计函数统计函数统计函数统计函数SKEWSKEW偏态偏态(从直方图上观察从直方图上观察)销售量销售量销售量销售量销售量销售量( (台台台台台台) )结论结论结论结论:1. 1. 为右偏分布为右偏分布 2. 2. 峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数( (天天天天天天) )25252020151510105 53030220220 230230240240峰度峰度(kurtosis)1.统计学家统计学家Pearson于于1905年首次提出年首次提出2.2.是对数据分布平峰或尖峰程度的测度是对数据分布平峰或尖峰程度的测度3.3.峰度峰度是频数分布的另一特征。它是频数是频数分布的另一特征。它是频数分布曲线与正态分布相比较,顶端的尖分布曲线与正态分布相比较,顶端的尖峭程度。峭程度。4.4.统计上常用四阶中心矩统计上常用四阶中心矩m m4 4测定峰度。测定峰度。峰度系数峰度系数 (coefficient of kurtosis)u经验证明,当的数值接近与1.8时,频数分布曲线趋向一条水平线;当的数值在1.8以下时,频数分布曲线是“U”型分布。因此,钟型分布的峰度指标的值在1.8以上。u当=3时,分布曲线为正态曲线;u当3时,分布曲线为尖峰分布。峰态系数峰态系数 (例题分析例题分析)结论:结论:结论:结论:与与3 3的差异不大,说明电脑销售量为轻微扁的差异不大,说明电脑销售量为轻微扁平分布平分布统计函数统计函数统计函数统计函数KURTKURT用用Excel计算描述统计量计算描述统计量用用Excel计算描述统计量计算描述统计量p将120个销售量的数据输入到Excel工作表中,然后按下列步骤操作p第第1步:步:选择【工具工具】下拉菜单p第第2步:步:选择【数据分析数据分析】选项p第第3步步:在分析工具中选择【描描述述统统计计】,然后选择【确确定定】p第第4步:步:当对话框出现时p 在【输入区域输入区域】方框内键入数据区域p 在【输出选项输出选项】中选择输出区域p 选择【汇总统计汇总统计】p 选择【确定确定】p 实实例例计计算算Excel中的统计函数中的统计函数pMODE计算众数pMEDIAN计算中位数pQUARTILE计算四分位数pAVERAGE计算平均数pHARMEAN计算简单调和平均数pGEOMEAN计算几何平均数pAVEDEV计算平均差pSTDEV计算样本标准差pSTDEVP计算总体标准差pSKEW计算偏态系数pKURT计算峰态系数pTRIMMEAN计算切尾均值数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征数据分布特征集中趋势集中趋势离散程度离散程度分布形状分布形状中位数中位数中位数中位数平均数平均数平均数平均数异众比率异众比率异众比率异众比率四分位差四分位差四分位差四分位差极差极差极差极差偏态系数偏态系数偏态系数偏态系数平均差平均差平均差平均差方差或标准差方差或标准差方差或标准差方差或标准差峰态系数峰态系数峰态系数峰态系数众数众数众数众数离散系数离散系数离散系数离散系数本章小节本章小节1. 数据水平的概括性度量数据水平的概括性度量2. 数据离散程度的概括性度量数据离散程度的概括性度量3.数据分布形状的度量数据分布形状的度量4.用用Excel计算描述统计量计算描述统计量作业作业p作业:p 某公司下属三个企业生产同种产品,单价为80元,甲企业有工人数200人,乙企业有工人数300人,丙企业工人数350人,有关资料如下:p 企业 人均产量(件) 单位产品成本(元/件)p 甲 900 50 p 乙 1200 58p 丙 1250 54p要求(1)计算该公司的人均产量和单位产品成本。p (2)若各企业的人均产量都与丙企业相同,公司可增加多少产量和产值?p (3)若各企业的单位产品成本都达到甲企业的水平,则公司可节约多少资金?结结 束束
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号