资源预览内容
第1页 / 共77页
第2页 / 共77页
第3页 / 共77页
第4页 / 共77页
第5页 / 共77页
第6页 / 共77页
第7页 / 共77页
第8页 / 共77页
第9页 / 共77页
第10页 / 共77页
亲,该文档总共77页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二章第二章 描述性统计描述性统计描述描述性统计性统计(descriptive statistics)是一套用)是一套用來整理和來整理和慨括数据慨括数据的方法,的方法,它可以很快地显示它可以很快地显示出数据的基本倾向性,揭示你在什么地方值得出数据的基本倾向性,揭示你在什么地方值得使用统计推断的方法去更详细地考察数据。使用统计推断的方法去更详细地考察数据。总体与样本总体(population):研究的全部对象。分为无限总体(infinitepopulation)和有限总体(finitepopulation)。个体(individual):构成总体的每个成员。样本(sample):总体的一部分。样本的含量(samplesize):样本内包含的个体数目。抽样抽样(sample):从总体中获得样本的过程。目的:通过对样本的研究推断其总体随机抽样(randomsample)抽签、抓阄等。使用随机数字表。放回式抽样(samplingwithreplacement)非放回式抽样(samplingwithoutreplacement)42.1 数据预处理的原因 正确性(Correctness)一致性(Consistency)完整性(Completeness) 可靠性(Reliability) 数据质量的含义数据质量的含义 现实世界的数据不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出6数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力8数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果数据预处理的形式小结现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。2.2 描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。描述性统计数值指标包括:(1)集中位置的指标,用以描述观察值的平均水平。如算术均数、几何均数、中位数、众数、百分位数等。(2)资料变异的指标,用以描述观察值间参差不齐的程度,即离散度或称变异度。如全距、标准差、方差、变异系数、四分位数间距等。数据类型及频数(率)分布连续型数据(continuousdata):又称度量数据(measurementdata)离散型数据(discretedata):又称为计数数据(countdata)变量的方法(methodofvariable):对连续型数据进行分析的方法。属性的方法(methodofattribute):对离散型数据进行分析的方法。频数(率)表和频数(率)图离散型数据组值(classvalue):一般用组值编制频数(率)表(frequencytable)。柱形图(columndiagram):一般用柱形图绘制频数(率)图。连续型数据组限(classlimit):一般用组限编制频数(率)表。直方图(histogram)、多边形图(polygon)和累积频数图(cumulativefrequencygraph):一般用直方图、多边形图和累积频数图绘制频数(率)图。组界(classboundary):中值(midvalue):每一组的两个组限的平均值。频数分布(frequencydistribution)(百分率分布percentagedistribution)把频数或频率按顺序排列起来。第一节第一节 概述概述 描述性统计的表、图形式包括:(1)频数分布表(2)条形图、直方图、茎叶图、盒形图设原始观察值共n例,为X1,X2,,Xn 。和(SUM):XX1X2Xn。平方和,SS(SUMOFSQUARE):X2X12X22Xn2平方和又记为USS(UNCORRECTEDSUMOFSQUARE)离均差平方和,记为CSS(CORRECTEDSUMOFSQUARE):第二节第二节 频数分布表频数分布表频数表的编制频数表的编制 编制步骤: 1. 1. 求极差(即全距)求极差(即全距)R R; 2. 2. 确定组数确定组数n n、组距、组距i i,并写出组段;,并写出组段; 3. 3. 列表划记。列表划记。某市1995年110名7岁男童的身高资料(cm)114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8本例资料,最大值为本例资料,最大值为134.5cm134.5cm,最小值为,最小值为110.2cm110.2cm,故极差故极差 R=134.5-110.2=24.3cmR=134.5-110.2=24.3cm组数不宜太多,也不宜太少。一般根据样本量的多组数不宜太多,也不宜太少。一般根据样本量的多少分成少分成8-158-15组。组。 本例假设分成本例假设分成1010组。组。 理论上组距等于极差除以组数。但不拘泥于计算理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相结果,而常常取一个比较好处理的数。组距可以相等,也可以不等。等,也可以不等。 本例,组距本例,组距=24.3/10=2.43=24.3/10=2.43,我们取为,我们取为2cm2cm。 组段:上限、下限组段:上限、下限列表划记列表划记某市1995年110名7岁男童身高的频数分布表身高组段频数频率(%)累计频数累计频率(%)11010.9110.9111232.7343.6411498.181311.8211698.182220.001181513.643733.641201816.365550.001222119.097669.091241412.739081.82126109.0910090.9112843.6410494.5513032.7310797.2713221.8210999.0913413610.91110100.00合计110100.00频数表的用途频数表的用途 根据频数表,进而可以绘制频数图。根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型;揭示资料的分布特征和分布类型; 资料的分布范围、峰(单峰或多峰)和离资料的分布范围、峰(单峰或多峰)和离散情况。散情况。 对于单峰分布资料,对于单峰分布资料, 对称分布,其中一种特殊的分布叫做正态分布;对称分布,其中一种特殊的分布叫做正态分布; 非对称分布,又称偏态分布。非对称分布,又称偏态分布。便于发现可疑值;便于发现可疑值;便于进一步计算指标和统计分析处理。便于进一步计算指标和统计分析处理。第三节集中位置的度量 一、算术平均数一、算术平均数(Arithmetic Mean)简称为均数(Mean),总体均数用希腊字母表示,样本均数用表示。x=nxxxn+L21=鍈nx/适用于服从正态分布的资料。一、算术平均数一、算术平均数=120一、算术平均数一、算术平均数x为每个组段的组中值,f为相应组段的频数。原理:将落在某一组段内的观察值都视为组中值。本例:=(4.04+4.25+5.83)/120=595.8/120=4.965如用原始观察值计算有=(5.195+5.070+5.010)/120=4.959二、几何均数二、几何均数(Geometric Mean) 几何均数用G表示,为观察值的总乘积开n次方根,有常用对数计算,公式如下:LogG=logX/n再查反对数得出G。列成频数表时计算公式如下:LogG=flogX/f适用条件:1.成倍数关系的资料。2.明显正偏态分布的资料。二、几何均数二、几何均数(Geometric Mean)二、几何均数二、几何均数(Geometric Mean)例例3.3 6例钩端螺旋体病人的潜伏期分别为7,10,12,14,18,20天,求其平均潜伏期。 解:解:或者lgG=(lg7+lg10+lg20)/6=1.1045查反对数得G=12.7(天)二、几何均数二、几何均数(Geometric Mean)当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25,1:50,1:50,1:100,1:100,可先取其倒数,25,50,50,100,100,再求取几何均数为57.43,则平均抗体滴度为1:57。三中位数三中位数(Median)中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值。计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。三中位数三中位数(Median)如求数列7,10,12,14,18,20的中位数。n=6,为偶数,取中间两个数的平均数,则M=(12+14)/2=13(天)如求数列7,10,12,14,15,18,20的中位数。n=7,为奇数,取中间那个数为中位数。则M=14(天)三中位数三中位数(Median)适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响,因此它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。四众数四众数(Mode)频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。集中趋势的测度五百分位数五百分位数(Percentile)第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px,(100-x)%个观察值大于Px。用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25,P50,P75,P95,可以描述总体或样本的分布特征,如集中位置、变异度等。百分位数70%下侧30%上侧第70个百分位数值四分之一分位数=25%四分之二分位数=50%五百分位数五百分位数(Percentile)2.确定医学正常值范围。P25称为第1四分位数;记为Q1。P50称为第2四分位数;记为Q2,就是中位数MP75称为第3四分位数;记为Q3。计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。五百分位数五百分位数(Percentile)例:例:用直接法计算例3.2资料共120例的第5百分位数,用频数表法计算第95百分位数,解解:将原始观察值由小到大排列,得3.980,4.065,4.070,4.070,4.2150,4.250,4.260,4.290, 5.850,5.875先确定第x百分位数在第几位。用公式:(n+1)x%五百分位数五百分位数(Percentile)本例(120+1)5%=6.05,第5百分位数在第6.05位,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2=4.255(1012/L)。五百分位数五百分位数(Percentile)五百分位数五百分位数(Percentile)计算P951.列出频数分布表,计算累计频数。2.计算nx%,12095%=1143.对照累计频数栏与nx%确定PX应落在哪一个组段中。114将在组限为5.5的组中,该组段下限为L,组距为i,频数为f,上一组累积频数为fl。PX=L+i(nx%-fl)/f,P95=5.5+0.2(114-108)/9=5.633(1012/L)第三节第三节 离散程度的指标离散程度的指标1.全距全距(Range)是最大与最小观察值之差。全距计算方便,但仅利用最大与最小二个数据来代表全部数据的离散程度,信息利用差。全距受特大与特小值影响大,不稳定。2.四分位数间距四分位数间距(Interquartile Range)第三节第三节 离散程度的指标离散程度的指标四分位数间距是第3四分位数与第1四分位数之差,即P75-P25。四分位数间距受特大值或特小值影响小,较稳定。中位数和四分位数间距相结合常用于表示非正态分布资料的平均水平和离散程度。第三节第三节 离散程度的指标离散程度的指标3.标准差与方差标准差与方差(Standard Deviation and Variance)总体的标准差,方差符号为,2,样本的标准差,方差符号为S,S2。第三节第三节 离散程度的指标离散程度的指标当为频数表资料时,公式如下:方差S2是标准差S的平方值。标准差(或方差)越大,表示观察值的分布越分散,反之,标准差(或方差)越小,表示观察值的分布越集中。实际应用时常以均数标准差的写法综合观察值的集中和离散特征。 第三节第三节 离散程度的指标离散程度的指标4.变异系数变异系数(Coefficient of Variation)简记为CV,它是标准差与均数之比,用百分数表达。由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。第三节第三节 离散程度的指标离散程度的指标偏态系数偏态系数(skewness):评价正态分布对称性的指标。对称:skewness=0;正偏态:skewness0;个别数据特别大。负偏态:skewness0;个别数据特别小。峰态系数(峰态系数(kurtosis):评价正态分布正态峰的指标。正态峰:kurtosis=0;尖峭峰:kurtosis0;平阔峰:kurtosis0;第四节第四节 统计表与统计图统计表与统计图 统计图表都是将已整理好的资料用简明的统计图表都是将已整理好的资料用简明的格式或图形表达出来,因此是表达和分析统计格式或图形表达出来,因此是表达和分析统计资料的重要工具。资料的重要工具。 统计表可以代替冗长的文字叙述,便于计统计表可以代替冗长的文字叙述,便于计算、分析和对比。统计图则具有问题突出,简算、分析和对比。统计图则具有问题突出,简单明了,形象化等优点,能使人一目了然。单明了,形象化等优点,能使人一目了然。 但统计表不形象,统计图对数字的反映不但统计表不形象,统计图对数字的反映不精确。因此在实际工作中,往往同时使用统计精确。因此在实际工作中,往往同时使用统计表和统计图。表和统计图。统计表统计表 统计表(统计表(statistical table)是以表格)是以表格的形式,表达被研究对象的特征、内部构的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。成及研究项目分组之间的数量关系。统计表的结构统计表的结构从外形看从外形看标题:标题: 说明表的名称说明表的名称横标目:说明各横行数字的涵义横标目:说明各横行数字的涵义纵标目:说明各纵栏数字的涵义纵标目:说明各纵栏数字的涵义总标目总标目表表1 1 某年某地消费者对有机食品的态度某年某地消费者对有机食品的态度性别性别对有机食品的态度对有机食品的态度合计合计喜欢()喜欢()不喜欢()不喜欢()男男30(20.0)120(80.0)150女女80(40.0)120(60.0)200合计合计110(31.4)240(68.6)350从内容看从内容看主语:指研究的对象,通常列在表的左侧主语:指研究的对象,通常列在表的左侧谓语:说明主语的各项指标,通常列在表谓语:说明主语的各项指标,通常列在表的右侧的右侧 主语和谓语连起来能读成一句完整而通顺主语和谓语连起来能读成一句完整而通顺的话。的话。统计表的种类统计表的种类简单表简单表:按一个研究特征:按一个研究特征/标志标志/标识分组标识分组复合复合/ /组合表组合表:按二个或二个以上研究特:按二个或二个以上研究特征征/标志标志/标识分组标识分组表表 某大学某年的学生分布某大学某年的学生分布学院学院专业专业年级年级合计合计一一二二三三四四Aa1a2小计小计Bb1b2b3小计小计合计合计绘制统计表的原则绘制统计表的原则重点突出,简单明了重点突出,简单明了主谓分明,层次清楚主谓分明,层次清楚绘制统计表的要求绘制统计表的要求标题标题标目标目线条线条数字数字备注备注统计图统计图 统计图(统计图(statistical graph)是用点的位)是用点的位置、线段的升降、直条的长短或者面积的大置、线段的升降、直条的长短或者面积的大小等形式来表达统计资料之间的数量关系。小等形式来表达统计资料之间的数量关系。 统计图形象、直观,便于对比分析,但统计图形象、直观,便于对比分析,但对数量的表达比较粗糙,不够精确。对数量的表达比较粗糙,不够精确。绘图的基本要求绘图的基本要求根据资料的性质和分析目的,正确选择根据资料的性质和分析目的,正确选择合适的图形;合适的图形;每图应有标题;每图应有标题;直角坐标系中绘图时,纵横轴都应有标直角坐标系中绘图时,纵横轴都应有标目,并注明单位;纵:横一般以目,并注明单位;纵:横一般以5:7为为宜;纵轴尺度一般应从宜;纵轴尺度一般应从“0”开始。开始。比较不同对象时,用不同的线条或颜色比较不同对象时,用不同的线条或颜色表示,并要附图例说明。图例写在图的表示,并要附图例说明。图例写在图的下面或图的右上角。下面或图的右上角。几种常用的统计图几种常用的统计图直条图直条图(bar graph) 直条图用等宽直条的长短来表示相互独直条图用等宽直条的长短来表示相互独立的各指标的数值大小。立的各指标的数值大小。 适用于相互独立的、无连续关系的间断适用于相互独立的、无连续关系的间断性资料的比较。性资料的比较。 种类:单式直条图和复式直条图种类:单式直条图和复式直条图直条图的绘制要点直条图的绘制要点纵轴应从纵轴应从“0”开始,中间不能折断,否开始,中间不能折断,否则不能正确反映比较指标之间的相对比则不能正确反映比较指标之间的相对比例;例;各直条的宽度应当相等。单式直条图直各直条的宽度应当相等。单式直条图直条之间要有间隔,间隔以直条的宽度或条之间要有间隔,间隔以直条的宽度或直条宽度的一半为宜。复式直条图同一直条宽度的一半为宜。复式直条图同一指标之间不要有间隔;指标之间不要有间隔;复式直条图中不同系列之间要用不同的复式直条图中不同系列之间要用不同的图案或颜色相区别,并用图例说明;图案或颜色相区别,并用图例说明;直条按某一系列中的长短顺序从大到小直条按某一系列中的长短顺序从大到小或者从小到大排列,以便比较。或者从小到大排列,以便比较。圆图和百分条图圆图和百分条图 都适用于构成比资料。都适用于构成比资料。圆图圆图(pie graph):又称饼图):又称饼图 以圆面积为以圆面积为100,圆内各扇形面积为各,圆内各扇形面积为各部分所占的百分比,用来表示全体中各部分所占的百分比,用来表示全体中各部分的构成。部分的构成。绘制圆图的要点绘制圆图的要点:v每每3.60为为1;v从相当于时钟从相当于时钟12点或者点或者9点的位置开始顺点的位置开始顺时针方向绘图;时针方向绘图;v各部分用不同的图案或者颜色表示,或各部分用不同的图案或者颜色表示,或在图上标出各部分的百分比和名称,或在图上标出各部分的百分比和名称,或以图例说明;以图例说明;v同一组资料,按百分比大小顺序排列;同一组资料,按百分比大小顺序排列;v比较不同组资料,画两个或多个等圆,比较不同组资料,画两个或多个等圆,在每一个圆的下面注明组别,按固定顺在每一个圆的下面注明组别,按固定顺序排列各组成部分,用相同的图例。序排列各组成部分,用相同的图例。百分条图百分条图(percent bar graph) 以一个直条的面积为以一个直条的面积为100表示事物的全部,表示事物的全部,以各段的面积表示各部分所占的百分比。以各段的面积表示各部分所占的百分比。绘制百分条图的要点绘制百分条图的要点:v一定要有标尺,画在图的上方或下方,一定要有标尺,画在图的上方或下方,起始的位置与总长度和百分条图一致,起始的位置与总长度和百分条图一致,并和百分条图平行。全长为并和百分条图平行。全长为100,不能,不能带箭头;带箭头;v按各部分所占百分比的大小顺序排列,按各部分所占百分比的大小顺序排列,并标出具体的百分比;并标出具体的百分比;v要有图例说明;要有图例说明;v多组资料比较时,画几个平行且相等长多组资料比较时,画几个平行且相等长宽的百分条图,按一固定的顺序排列,宽的百分条图,按一固定的顺序排列,使用相同的图例。使用相同的图例。普通线图和半对数线图普通线图和半对数线图 用线段的上升和下降来表示某事物在时间上的发展变用线段的上升和下降来表示某事物在时间上的发展变化或者某现象随另一现象变迁的情况。化或者某现象随另一现象变迁的情况。 适用于连续性资料。适用于连续性资料。普通线图普通线图:纵横坐标轴均为算术尺度:纵横坐标轴均为算术尺度 反映的是绝对速度反映的是绝对速度v纵轴可以不从纵轴可以不从“0”开始,但看图时一定要注意纵轴开始,但看图时一定要注意纵轴的起点;的起点;v数据点画在组段中间,相邻的点用直线连接。无数据数据点画在组段中间,相邻的点用直线连接。无数据的组段用虚线连接。不能任意外延。的组段用虚线连接。不能任意外延。v不要在一张图上画太多的曲线。有两条或更多条曲线不要在一张图上画太多的曲线。有两条或更多条曲线时,要用不同的颜色或线型相区别,并附图例说明。时,要用不同的颜色或线型相区别,并附图例说明。半对数线图半对数线图:横轴是算术尺度,纵轴为:横轴是算术尺度,纵轴为对数尺度对数尺度v因纵轴是对数尺度,所以不能为因纵轴是对数尺度,所以不能为0和负数和负数v反映的是相对速度,特别适用于绝对值反映的是相对速度,特别适用于绝对值相差悬殊的资料间比较。相差悬殊的资料间比较。直方图直方图(histogram) 常用于表示连续性资料的频数分布,故又称常用于表示连续性资料的频数分布,故又称频数图。用矩形的面积表示频数分布数列中频数图。用矩形的面积表示频数分布数列中各组频数的多少,面积总和相当于各组频数各组频数的多少,面积总和相当于各组频数的总和。的总和。绘图要点绘图要点:v横轴代表频数分布数列的变量值,纵轴代表横轴代表频数分布数列的变量值,纵轴代表各变量值相应的频率。纵轴从各变量值相应的频率。纵轴从“0”开始;开始;v组距相等的资料可以直接用频数或频率作图;组距相等的资料可以直接用频数或频率作图;而组距不等的必须先转换;而组距不等的必须先转换;v各矩形间不留空隙,形成一封闭的图形。各矩形间不留空隙,形成一封闭的图形。散点图散点图(scatter plot) 用点的密集程度和趋势表示两种现象间用点的密集程度和趋势表示两种现象间的关系。的关系。 适用于双变量资料,且变量均为连续性适用于双变量资料,且变量均为连续性变量。变量。描述性统计的描述性统计的SASSAS程序程序 进入SAS系统实际操作
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号