资源预览内容
第1页 / 共95页
第2页 / 共95页
第3页 / 共95页
第4页 / 共95页
第5页 / 共95页
第6页 / 共95页
第7页 / 共95页
第8页 / 共95页
第9页 / 共95页
第10页 / 共95页
亲,该文档总共95页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1-1描述统计学及其应用描述统计学及其应用描述统计学及其应用描述统计学及其应用统计统计学学 E-MAIL:E-MAIL: 1-2目录目录目录目录第一第一第一第一 :导论:导论:导论:导论 第二第二第二第二 :数据的概括性度量:均值和标准差:数据的概括性度量:均值和标准差:数据的概括性度量:均值和标准差:数据的概括性度量:均值和标准差 第三第三第三第三 : : : : 统计学的应用:统计学的应用:统计学的应用:统计学的应用:相关分析与回归分析相关分析与回归分析相关分析与回归分析相关分析与回归分析1-31111导论导论导论导论1.11.1 统计及其应用领域统计及其应用领域统计及其应用领域统计及其应用领域1.2 1.2 统计数据的类型统计数据的类型统计数据的类型统计数据的类型1.3 1.3 统计中的几个基本概念统计中的几个基本概念统计中的几个基本概念统计中的几个基本概念1-4引言:什么是统计引言:什么是统计引言:什么是统计引言:什么是统计 搜集、整理、分析数据的科学就是统计,统计的核心问题就是关于搜集、整理、分析数据的科学就是统计,统计的核心问题就是关于数据数据数据数据的问题的问题 统计是从数据统计是从数据统计是从数据统计是从数据 中找出信息,并且做出结论。我们用的工具是图表和计算,加上中找出信息,并且做出结论。我们用的工具是图表和计算,加上中找出信息,并且做出结论。我们用的工具是图表和计算,加上中找出信息,并且做出结论。我们用的工具是图表和计算,加上常识判断常识判断常识判断常识判断。 统计结论是对一群个体统计结论是对一群个体统计结论是对一群个体统计结论是对一群个体“ “平均来说平均来说平均来说平均来说” ”(on the averageon the average)的结论。但对于任何)的结论。但对于任何)的结论。但对于任何)的结论。但对于任何特定的个体,可就没说什么。特定的个体,可就没说什么。特定的个体,可就没说什么。特定的个体,可就没说什么。 结论并不是百分之百的结论并不是百分之百的数学定律不能百分百确实的用在现实生活里,能百分数学定律不能百分百确实的用在现实生活里,能百分百确实地用数学定律描述的,就不是现实生活。百确实地用数学定律描述的,就不是现实生活。1-5什么是统计学什么是统计学什么是统计学什么是统计学? ? (statistics)(statistics)1.1.统计学是收集、分析、表述和解释数据的科学统计学是收集、分析、表述和解释数据的科学( (不列颠百科全书不列颠百科全书) )2.2.统计是一门收集、分析、解释和提供数据的科学统计是一门收集、分析、解释和提供数据的科学( (韦伯斯特国际辞典第韦伯斯特国际辞典第3 3版版) )3.3.统统计计指指的的是是一一组组方方法法,用用来来设设计计实实验验、获获得得数数据据,然然后后在在这这些些数数据据的的基基础础上上组组织织、概概括、演示、分析、解释和得出结论括、演示、分析、解释和得出结论(MarioF.Triola,(MarioF.Triola,初级统计学初级统计学) )1-6统计研究的过程统计研究的过程统计研究的过程统计研究的过程收集数据收集数据( (取得数据取得数据取得数据取得数据) )整理数据整理数据( (处理数据处理数据处理数据处理数据) )解释数据解释数据( (结果说明结果说明结果说明结果说明) )分析数据分析数据( (研究数据研究数据研究数据研究数据) )实际问题实际问题实际问题实际问题1-7统计方法统计方法统计方法统计方法统计方法统计方法统计方法统计方法描述统计描述统计描述统计描述统计推断统计推断统计推断统计推断统计参数估计参数估计参数估计参数估计假设检验假设检验假设检验假设检验1-8描述统计描述统计描述统计描述统计(descriptive statistics)(descriptive statistics)1.1.研究数据收集、整理和描述的统计学分支研究数据收集、整理和描述的统计学分支 2.2.内容内容n n收集数据收集数据n n整理数据整理数据n n展示数据展示数据n n描述性分析描述性分析3.3. 目的目的n n描述数据特征描述数据特征n n找出数据的基本规律找出数据的基本规律0 00252525505050Q QQ1 11Q QQ2 22Q QQ3 33Q QQ4 44¥x xx = 30 = 30 = 30 s ss2 22 = 105 = 105 = 1051-9推断统计推断统计推断统计推断统计 (inferential statistics)(inferential statistics)1.1.研究如何利用样本数据来推断总体特征研究如何利用样本数据来推断总体特征的统计学分支的统计学分支2.2.内容内容 参数参数估计估计 假设检验假设检验3.3.目的目的 对总体特征作出推断对总体特征作出推断样样本本总体总体1-10描述统计与推断统计的关系描述统计与推断统计的关系描述统计与推断统计的关系描述统计与推断统计的关系反映客观现象反映客观现象反映客观现象反映客观现象的数据的数据的数据的数据总体内在的数量总体内在的数量总体内在的数量总体内在的数量规律性规律性规律性规律性推断统计推断统计推断统计推断统计( (利用样本信息和概率论利用样本信息和概率论利用样本信息和概率论利用样本信息和概率论对总体的数量特征进行对总体的数量特征进行对总体的数量特征进行对总体的数量特征进行估计和检验等估计和检验等估计和检验等估计和检验等) )概率论概率论概率论概率论( (分布理论、大数定律和中分布理论、大数定律和中分布理论、大数定律和中分布理论、大数定律和中心极限定理等心极限定理等心极限定理等心极限定理等) )描述统计描述统计描述统计描述统计( (数据的收集、整理、显数据的收集、整理、显数据的收集、整理、显数据的收集、整理、显示和分析等示和分析等示和分析等示和分析等) )总体数据总体数据样本数据样本数据1-11统计的应用领域统计的应用领域统计的应用领域统计的应用领域经济学经济学经济学经济学管理学管理学管理学管理学医学医学医学医学工程学工程学工程学工程学社会学社会学社会学社会学 统计学统计学统计学统计学1-121-131-141-151.2 1.2 统计数据的类型统计数据的类型统计数据的类型统计数据的类型1.2.1 1.2.1 分类数据、顺序数据、数值型数据分类数据、顺序数据、数值型数据分类数据、顺序数据、数值型数据分类数据、顺序数据、数值型数据1.2.2 1.2.2 观测数据和实验数据观测数据和实验数据观测数据和实验数据观测数据和实验数据1.2.3 1.2.3 截面数据和时间序列数据截面数据和时间序列数据截面数据和时间序列数据截面数据和时间序列数据1-16统计数据的分类统计数据的分类统计数据的分类统计数据的分类统计数据的分类统计数据的分类统计数据的分类统计数据的分类按计量层次按计量层次按计量层次按计量层次分类分类分类分类的数的数的数的数据据据据顺序顺序顺序顺序的数的数的数的数据据据据数值数值数值数值型数型数型数型数据据据据按时间状况按时间状况按时间状况按时间状况截截截截面面面面的的的的数数数数据据据据时序时序时序时序的数的数的数的数据据据据按收集方法按收集方法按收集方法按收集方法观察观察观察观察的数的数的数的数据据据据试验试验试验试验的数的数的数的数据据据据1-17统计数据的分类统计数据的分类统计数据的分类统计数据的分类 ( (按计量尺度分按计量尺度分按计量尺度分按计量尺度分) )1.1.分类数据分类数据分类数据分类数据(categorical data)(categorical data)n n只能归于某一类别的非数字型数据只能归于某一类别的非数字型数据只能归于某一类别的非数字型数据只能归于某一类别的非数字型数据n n对事物进行分类的结果,数据表现为类别,用文字来表述对事物进行分类的结果,数据表现为类别,用文字来表述对事物进行分类的结果,数据表现为类别,用文字来表述对事物进行分类的结果,数据表现为类别,用文字来表述n n例如,人口按性别分为男、女两类例如,人口按性别分为男、女两类例如,人口按性别分为男、女两类例如,人口按性别分为男、女两类 2. 2. 顺序数据顺序数据顺序数据顺序数据(rank data)(rank data) 只能归于某一有序类别的非数字型数据只能归于某一有序类别的非数字型数据只能归于某一有序类别的非数字型数据只能归于某一有序类别的非数字型数据n n对事物类别顺序的测度,数据表现为类别,用文字来表述对事物类别顺序的测度,数据表现为类别,用文字来表述对事物类别顺序的测度,数据表现为类别,用文字来表述对事物类别顺序的测度,数据表现为类别,用文字来表述n n例如,产品分为一等品、二等品、三等品、次品等例如,产品分为一等品、二等品、三等品、次品等例如,产品分为一等品、二等品、三等品、次品等例如,产品分为一等品、二等品、三等品、次品等 3. 3. 数值型数据数值型数据数值型数据数值型数据(metric data)(metric data) n n按数字尺度测量的观察值按数字尺度测量的观察值按数字尺度测量的观察值按数字尺度测量的观察值n n结果表现为具体的数值,对事物的精确测度结果表现为具体的数值,对事物的精确测度结果表现为具体的数值,对事物的精确测度结果表现为具体的数值,对事物的精确测度n n例如:身高为例如:身高为例如:身高为例如:身高为175cm175cm、168cm168cm、183cm183cm1-18统计数据的分类统计数据的分类统计数据的分类统计数据的分类( (按收集方法分按收集方法分按收集方法分按收集方法分) )1. 1.1.观测的数据观测的数据观测的数据观测的数据观测的数据观测的数据(observational data)(observational data)(observational data) n nn通过调查或观测而收集到的数据通过调查或观测而收集到的数据通过调查或观测而收集到的数据n nn在没有对事物人为控制的条件下而得到的在没有对事物人为控制的条件下而得到的在没有对事物人为控制的条件下而得到的n nn有关社会经济现象的统计数据几乎都是观测数据有关社会经济现象的统计数据几乎都是观测数据有关社会经济现象的统计数据几乎都是观测数据2. 2.2.试验的数据试验的数据试验的数据试验的数据试验的数据试验的数据(experimental data)(experimental data)(experimental data) n nn在试验中控制试验对象而收集到的数据在试验中控制试验对象而收集到的数据在试验中控制试验对象而收集到的数据n nn比如,对一种新药疗效的试验,对一种新的农作物品种的试验等比如,对一种新药疗效的试验,对一种新的农作物品种的试验等比如,对一种新药疗效的试验,对一种新的农作物品种的试验等n nn自然科学领域的数据大多数都为试验数据自然科学领域的数据大多数都为试验数据自然科学领域的数据大多数都为试验数据1-19统计数据的分类统计数据的分类统计数据的分类统计数据的分类( (按时间状况分按时间状况分按时间状况分按时间状况分) )1.1.截面数据截面数据(cross-sectional data)(cross-sectional data) n n在相同或近似相同的时间点上收集的数据在相同或近似相同的时间点上收集的数据n n描述现象在某一时刻的变化情况描述现象在某一时刻的变化情况n n比如,比如,20052005年我国各地区的国内生产总值数据年我国各地区的国内生产总值数据2.2.时间序列数据时间序列数据(time series data)(time series data) n n在不同时间上收集到的数据在不同时间上收集到的数据n n描述现象随时间变化的情况描述现象随时间变化的情况n n比如,比如,20002000年至年至20052005年国内生产总值数据年国内生产总值数据1-201.3 1.3 统计中的几个基本概念统计中的几个基本概念统计中的几个基本概念统计中的几个基本概念1.3.1 1.3.1 总体和样本总体和样本总体和样本总体和样本1.3.2 1.3.2 参数和统计量参数和统计量参数和统计量参数和统计量1.3.3 1.3.3 变量变量变量变量1-21总体和样本总体和样本总体和样本总体和样本总体总体总体总体(population)(population)n n所研究的全部个体所研究的全部个体( (数据数据) )的集合,其中的每一个个体也称为元素的集合,其中的每一个个体也称为元素n n分为有限总体和无限总体分为有限总体和无限总体l l有限总体的范围能够明确确定,且元素的数目是有限的有限总体的范围能够明确确定,且元素的数目是有限的l l无限总体所包括的元素是无限的,不可数的无限总体所包括的元素是无限的,不可数的样本样本样本样本 (sample)(sample)n n从总体中抽取的一部分元素的集合从总体中抽取的一部分元素的集合n n构成样本的元素的数目称为样本容量或样本量构成样本的元素的数目称为样本容量或样本量 (samplesize)(samplesize)1-22参数和统计量参数和统计量参数和统计量参数和统计量参数参数参数参数(parameter)(parameter)n n描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值n n所关心的参数主要有总体均值所关心的参数主要有总体均值( ( ) )、标准差、标准差( ( ) )、总体比例、总体比例( ( ) )等等n n总体参数通常用希腊字母表示总体参数通常用希腊字母表示 统计量统计量统计量统计量(statistic)(statistic)n n用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数量,是样本的函数n n所关心的样本统计量有样本均值所关心的样本统计量有样本均值( ( x x) )、样本标准差、样本标准差( (s s) )、样本比例、样本比例( (p p) )等等n n样本统计量通常用小写英文字母来表示样本统计量通常用小写英文字母来表示 1-23变变变变量量量量(variable)(variable) 1.1.说明现象某种特征的概念说明现象某种特征的概念n n如商品销售额、受教育程度、产品的质量等级等如商品销售额、受教育程度、产品的质量等级等n n变量的具体表现称为变量值,即数据变量的具体表现称为变量值,即数据2.2.变量可以分为变量可以分为n n分类变量分类变量( (categorical variablecategorical variable) ) :说明事物类别的名称:说明事物类别的名称n n顺序变量顺序变量(rank variable(rank variable) ):说明事物有序类别的名称:说明事物有序类别的名称n n数值型变量数值型变量(metric variable(metric variable) ) :说明事物数字特征的名称:说明事物数字特征的名称 l l离散变量:取有限个值离散变量:取有限个值 l l连续变量:可以取无穷多个值连续变量:可以取无穷多个值 1-24变变变变量量量量( (其他分其他分其他分其他分类类) ) 1.1.随机变量和非随机变量随机变量和非随机变量2.2.经验变量经验变量(empiricalvariables)(empiricalvariables)和理论变量和理论变量(theoreticalvariables)(theoreticalvariables)n n经验变量所描述的是我们周围可以观察到的事物经验变量所描述的是我们周围可以观察到的事物n n理理论论变变量量则则是是由由统统计计学学家家用用数数学学方方法法所所构构造造出出来来的的一一些些变变量量,比比如如,z z 统统计计量量、t t 统计量、统计量、 2 2统计量、统计量、F F 统计量等统计量等1-25变量及其类型变量及其类型变量及其类型变量及其类型变量变量变量变量基本分类基本分类其他分类其他分类分类变量分类变量顺序变量顺序变量数字变量数字变量随机变量随机变量非随机变量非随机变量经验变量经验变量理论变量理论变量1-26统计中的几个基本概念统计中的几个基本概念统计中的几个基本概念统计中的几个基本概念平均数平均数平均数平均数标准差标准差标准差标准差比比比比 例例例例参数参数 统计量统计量 x x s s p p总体总体总体总体样本样本样本样本1-27几种常用的统计软件几种常用的统计软件几种常用的统计软件几种常用的统计软件(software)(software)典型的统计软件典型的统计软件典型的统计软件典型的统计软件n nSASSASn nSPSSSPSSn nMINITABMINITABn nSTATISTICASTATISTICAn nExcelExcelMINITABMINITABSTATISTICASTATISTICAExcelExcelSASSASSPSSSPSS1-282 2 2 2、数据的概括性度量、数据的概括性度量、数据的概括性度量、数据的概括性度量2.12.1集中趋势的度量集中趋势的度量2.22.2离散程度的度量离散程度的度量2.32.3偏态与峰态偏态与峰态1-29数据分布的特征数据分布的特征数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 ( (位置位置位置位置) )偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 ( (分散程度分散程度分散程度分散程度) )1-302.12.1集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量2.1.1 2.1.1 2.1.1 2.1.1 分类数据:众数分类数据:众数分类数据:众数分类数据:众数2.1.2 2.1.2 2.1.2 2.1.2 顺序数据:中位数和分位数顺序数据:中位数和分位数顺序数据:中位数和分位数顺序数据:中位数和分位数2.1.3 2.1.3 2.1.3 2.1.3 数值型数据:平均数数值型数据:平均数数值型数据:平均数数值型数据:平均数2.1.4 2.1.4 2.1.4 2.1.4 众数、中位数和平均数的比较众数、中位数和平均数的比较众数、中位数和平均数的比较众数、中位数和平均数的比较1-31集中趋势集中趋势集中趋势集中趋势(central tendency)(central tendency)众数众数众数众数( (modemode) )中位数中位数中位数中位数( (medianmedian) )平均数平均数平均数平均数 ( (meanmean) )1-32众数众数众数众数( (modemode) )1.1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.2.适合于数据量较多时使用适合于数据量较多时使用3.3.不受极端值的影响不受极端值的影响4.4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.5.主要用于分类数据,也可用于顺序数据和数值型数据主要用于分类数据,也可用于顺序数据和数值型数据1-33中位数中位数中位数中位数( (medianmedian) )1.1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%50%50%2.2.不受极端值的影响不受极端值的影响3.3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据主要用于顺序数据,也可用数值型数据,但不能用于分类数据4.4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即1-34中位数中位数中位数中位数( (位置和数值的确定位置和数值的确定位置和数值的确定位置和数值的确定) )位置确定位置确定位置确定位置确定数值确定数值确定数值确定数值确定1-35平均数平均数平均数平均数( (meanmean) )1.1.也称为均值也称为均值2.2.集中趋势的最常用测度值集中趋势的最常用测度值3.3.一组数据的均衡点所在一组数据的均衡点所在4.4.体现了数据的必然性特征体现了数据的必然性特征5.5.易受极端值的影响易受极端值的影响6.6.有简单平均数和加权平均数之分有简单平均数和加权平均数之分7.7. 根根据据总总体体数数据据计计算算的的,称称为为平平均均数数,记记为为 ;根根据据样样本本数数据据计计算算的的,称称为为样样本本平平均均数数,记记为为 x x x x1-36简单平均数简单平均数简单平均数简单平均数(Simple mean)(Simple mean)设一组数据为:设一组数据为:x x11,x x22,x xn n ( (总体数据总体数据x xN N) )样本平均数样本平均数样本平均数样本平均数总体平均数总体平均数总体平均数总体平均数1-37加权平均数加权平均数加权平均数加权平均数 (Weighted mean)(Weighted mean)设各组的组中值为:设各组的组中值为:MM11,MM22,MMk k 相应的频数为:相应的频数为:f f11, f f22,f fk k样本样本样本样本加权平均加权平均总体总体总体总体加权平均加权平均1-38加权平均数加权平均数加权平均数加权平均数 ( (例题分析例题分析例题分析例题分析) )某电脑公司销售量数据分组表某电脑公司销售量数据分组表某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计120222001-39加权平均数加权平均数加权平均数加权平均数( (权数对均值的影响权数对均值的影响权数对均值的影响权数对均值的影响) )甲乙两组各有甲乙两组各有1010名学生,他们的考试成绩及其分布数据如下名学生,他们的考试成绩及其分布数据如下 甲组:甲组:甲组:甲组: 考试成绩(考试成绩(考试成绩(考试成绩(x x ): : 0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f ):):):):1 1 81 1 8 乙组:乙组:乙组:乙组: 考试成绩(考试成绩(考试成绩(考试成绩(x x): : 0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f ):):):):8 1 18 1 1统计函数统计函数统计函数统计函数AVERAGEAVERAGE1-40平均数平均数平均数平均数( (数学性质数学性质数学性质数学性质) )1.1.各变量值与平均数的离差之和等于零各变量值与平均数的离差之和等于零2.2.各变量值与平均数的离差平方和最小各变量值与平均数的离差平方和最小1-41几何平均数几何平均数几何平均数几何平均数( (geometric meangeometric mean) )1.1. n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均3.3.主要用于计算平均增长率主要用于计算平均增长率4.4.计算公式为计算公式为5.5.可看作是平均数的一种变形可看作是平均数的一种变形1-42几何平均数几何平均数几何平均数几何平均数 ( (例题分析例题分析例题分析例题分析) ) 【例例例例】某某水水泥泥生生产产企企业业19991999年年的的水水泥泥产产量量为为100100万万吨吨,20002000年年与与19991999年年相相比比增增长长率率为为9%9%,20012001年年与与20002000年年相相比比增增长长率率为为16%16%,20022002年年与与20012001年年相相比比增增长长率率为为20%20%。求求各各年年的年平均增长率的年平均增长率年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%1-43几何平均数几何平均数几何平均数几何平均数 ( (例题分析例题分析例题分析例题分析) ) 【例例例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在20002000、20012001、20022002和和20032003年年收收益益率率分分别别为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均: 几何平均:几何平均:几何平均:几何平均:统计函数统计函数统计函数统计函数GEOMEANGEOMEAN1-44众数、中位数和平均数的关系众数、中位数和平均数的关系众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数= = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值1-45众数、中位数、平均数的众数、中位数、平均数的众数、中位数、平均数的众数、中位数、平均数的特点和应用特点和应用特点和应用特点和应用1.1.众数众数n n不受极端值影响不受极端值影响n n具有不惟一性具有不惟一性n n数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用2.2.中位数中位数n n不受极端值影响不受极端值影响n n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3.平均数平均数n n易受极端值影响易受极端值影响n n数学性质优良数学性质优良n n数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用1-462.2 2.2 离散程度的度量离散程度的度量离散程度的度量离散程度的度量2.2.1 2.2.1 2.2.1 2.2.1 分类数据:异众比率分类数据:异众比率分类数据:异众比率分类数据:异众比率2.2.2 2.2.2 2.2.2 2.2.2 顺序数据:四分位差顺序数据:四分位差顺序数据:四分位差顺序数据:四分位差2.2.3 2.2.3 2.2.3 2.2.3 数值型数据:方差和标准差数值型数据:方差和标准差数值型数据:方差和标准差数值型数据:方差和标准差2.2.4 2.2.4 2.2.4 2.2.4 相对离散程度:离散系数相对离散程度:离散系数相对离散程度:离散系数相对离散程度:离散系数1-47离中趋势离中趋势离中趋势离中趋势1.1.数据分布的另一个重要特征数据分布的另一个重要特征2.2.反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度( (离散程度离散程度) )3.3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值1-48极差极差极差极差( (rangerange) )1.1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.2.离散程度的最简单测度值离散程度的最简单测度值3.3.易受极端值影响易受极端值影响4.4.未考虑数据的分布未考虑数据的分布 R R =max(=max(x xi i)-min()-min(x xi i) )5.5.计算公式为计算公式为1-49平均差平均差平均差平均差( (mean deviationmean deviation) )1.1.各变量值与其平均数离差绝对值的平均数各变量值与其平均数离差绝对值的平均数2.2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.4.计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据1-50平均差平均差平均差平均差 ( (例题分析例题分析例题分析例题分析) )某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计12020401-51平均差平均差平均差平均差 ( (例题分析例题分析例题分析例题分析) ) 含义:含义:含义:含义:每一天的销售量平均数相比,每一天的销售量平均数相比,平均相差平均相差1717台台统计函数统计函数统计函数统计函数AVEDEVAVEDEV1-52方差和标准差方差和标准差方差和标准差方差和标准差( (variancevariance and and standard deviationstandard deviation) )1.1.数据离散程度的最常用测度值数据离散程度的最常用测度值2.2.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异3.3.根据总体数据计算的,称为总体方差或标准差,记为根据总体数据计算的,称为总体方差或标准差,记为 2 2( ( ) );根据样本数据计算的,;根据样本数据计算的,称为样本方差或标准差,记为称为样本方差或标准差,记为s s2 2(s)(s)1-53样本方差和标准差样本方差和标准差样本方差和标准差样本方差和标准差 (simple (simple variancevariance and and standard deviationstandard deviation) )未分组数据未分组数据组距分组数据组距分组数据未分组数据未分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除! !1-54样本标准差样本标准差样本标准差样本标准差 ( (例题分析例题分析例题分析例题分析) )某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计120554001-55样本标准差样本标准差样本标准差样本标准差 ( (例题分析例题分析例题分析例题分析) ) 含义:含义:含义:含义:每一天的销售量与平均数相比,每一天的销售量与平均数相比,平均相差平均相差21.5821.58台台统计函数统计函数统计函数统计函数STDEVSTDEV1-56总体方差和标准差总体方差和标准差总体方差和标准差总体方差和标准差 (Population (Population variancevariance and and Standard deviationStandard deviation) )未分组数据未分组数据组距分组数据组距分组数据未分组数据未分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式1-57相对位置的度量:标准分数相对位置的度量:标准分数相对位置的度量:标准分数相对位置的度量:标准分数1-58标准分数标准分数标准分数标准分数( (standard scorestandard score) )1.1.也称标准化值也称标准化值2.2.对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量3.3.可用于判断一组数据是否有离群点可用于判断一组数据是否有离群点(outlier)(outlier)4.4.用于对变量的标准化处理用于对变量的标准化处理5.5.计算公式为计算公式为1-59标准分数标准分数标准分数标准分数( (性性性性质质) )1.1.均值等于均值等于0 02.2.方差等于方差等于1 11-60标准分数标准分数标准分数标准分数( (性性性性质质) ) z z分分数数只只是是将将原原始始数数据据进进行行了了线线性性变变换换,它它并并没没有有改改变变一一个个数数据据在在改改组组数数据据中中的的位位置置,也也没有改变该组数分布的形状,而只是将该组数据变为均值为没有改变该组数分布的形状,而只是将该组数据变为均值为0 0,标准差为,标准差为1 1 1-61标准分数标准分数标准分数标准分数 ( (例题分析例题分析例题分析例题分析) )9 9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元) 标准化值标准化值 z 1234567891500 750 7801080 850 960200012501630 0.695-1.042-0.973-0.278-0.811-0.556 1.853 0.116 0.9961-62切比雪夫不等式切比雪夫不等式切比雪夫不等式切比雪夫不等式( (Chebyshevs inequalityChebyshevs inequality ) )对于对于k k= =2 2,3 3,4 4,该不等式的含义是,该不等式的含义是1.1.至少有至少有75%75%的数据落在平均数加减的数据落在平均数加减2 2个标准差的范围之内个标准差的范围之内2.2.至少有至少有89%89%的数据落在平均数加减的数据落在平均数加减3 3个标准差的范围之内个标准差的范围之内3.3.至少有至少有94%94%的数据落在平均数加减的数据落在平均数加减4 4个标准差的范围之内个标准差的范围之内1-63思考题思考题思考题思考题一家公司在招聘收职员时,首先要通过两项能力测试。在一家公司在招聘收职员时,首先要通过两项能力测试。在A A项测试中,其平均分数是项测试中,其平均分数是100100分,标准差是分,标准差是1515分;在分;在B B项测试中,其平均分数是项测试中,其平均分数是400400分,标准差是分,标准差是5050分。分。一位应试者在一位应试者在A A项测试中得了项测试中得了115115分,在分,在B B项测试中得了项测试中得了425425分。与平均分数相比,分。与平均分数相比,该位应试者哪一项测试更为理想?该位应试者哪一项测试更为理想?1-642.3 2.3 偏态与峰态的度量偏态与峰态的度量偏态与峰态的度量偏态与峰态的度量2.3.1 2.3.1 偏态及其测度偏态及其测度偏态及其测度偏态及其测度2.3.2 2.3.2 峰态及其测度峰态及其测度峰态及其测度峰态及其测度1-65偏态与峰态分布的形状偏态与峰态分布的形状偏态与峰态分布的形状偏态与峰态分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态分与标准正态分与标准正态分与标准正态分布比较!布比较!布比较!布比较!1-66数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征和描述统计量数据数据分布分布特征特征集中集中趋势趋势离散离散程度程度分布分布形状形状中位中位数数平均平均数数异众异众比率比率四分四分位差位差极差极差偏态偏态系数系数平均平均差差方差方差或标或标准差准差峰态峰态系数系数众数众数离散系数离散系数1-673 3、统计学的应用:相关与回归分析、统计学的应用:相关与回归分析、统计学的应用:相关与回归分析、统计学的应用:相关与回归分析3.1 3.1 相关分析相关分析3.2 3.2 回归分析回归分析1-683.13.1变量间关系的度量变量间关系的度量变量间关系的度量变量间关系的度量3.1.1 3.1.1 变量间的关系变量间的关系变量间的关系变量间的关系3.1.2 3.1.2 相关关系的描述与测度相关关系的描述与测度相关关系的描述与测度相关关系的描述与测度3.1.3 3.1.3 相关系数的显著性检验相关系数的显著性检验相关系数的显著性检验相关系数的显著性检验1-69变量间的关系变量间的关系变量间的关系变量间的关系1-70函数关系函数关系函数关系函数关系1.1.是一一是一一对应的确定关系对应的确定关系2.2.设设有有两两个个变变量量 x x 和和 y y ,变变量量 y y 随随变变量量 x x 一一起起变变化化,并并完完全全依依赖赖于于 x x ,当当变变量量 x x 取取某某个个数数值值时时, y y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y y 是是 x x 的的函函数数,记记为为 y y = = f f ( (x x) ),其中,其中 x x 称为自变量,称为自变量,y y 称为因变量称为因变量3.3.各各观测点落在一条线上观测点落在一条线上 x xy y1-71相关关系相关关系相关关系相关关系( (correlationcorrelation) )1.1.变量间关系不能用函数关系精确表达变量间关系不能用函数关系精确表达2.2.一个变量的取值不能由另一个变量唯一确定一个变量的取值不能由另一个变量唯一确定3.3.当变量当变量 x x 取某个值时,变量取某个值时,变量 y y 的取值可能有几个的取值可能有几个4.4.各观测各观测点分布在直线周围点分布在直线周围 x xy y1-72相关关系相关关系相关关系相关关系( (几个例子几个例子几个例子几个例子) )n n父亲身高父亲身高y y与子女身高与子女身高x x之间的关系之间的关系n n收入水平收入水平y y与受教育程度与受教育程度x x之间的关系之间的关系n n粮食单位面积产量粮食单位面积产量y y与施肥量与施肥量x x1 1 、降雨量、降雨量x x2 2 、温度、温度x x3 3之间的关系之间的关系n n商品的消费量商品的消费量y y与居民收入与居民收入x x之间的关系之间的关系n n商品销售额商品销售额y y与广告费支出与广告费支出x x之间的关系之间的关系1-73相关关系相关关系相关关系相关关系( (类型类型类型类型) )1-74相关关系的描述与测度相关关系的描述与测度相关关系的描述与测度相关关系的描述与测度( (散点图散点图散点图散点图) )1-75散点图散点图散点图散点图(scatter diagram)(scatter diagram)不相关不相关不相关不相关不相关不相关负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关1-76相关分析及其假定相关分析及其假定相关分析及其假定相关分析及其假定1.1.相关分析要解决的问题相关分析要解决的问题相关分析要解决的问题相关分析要解决的问题n n变量之间是否存在关系?变量之间是否存在关系?变量之间是否存在关系?变量之间是否存在关系?n n如果存在关系,它们之间是什么样的关系?如果存在关系,它们之间是什么样的关系?如果存在关系,它们之间是什么样的关系?如果存在关系,它们之间是什么样的关系?n n变量之间的关系强度如何?变量之间的关系强度如何?变量之间的关系强度如何?变量之间的关系强度如何?n n样本所反映的变量之间的关系能否代表总体变量之间的关系?样本所反映的变量之间的关系能否代表总体变量之间的关系?样本所反映的变量之间的关系能否代表总体变量之间的关系?样本所反映的变量之间的关系能否代表总体变量之间的关系?2.2.为解决这些问题,在进行相关分析时,对总体有以下两个主要假定为解决这些问题,在进行相关分析时,对总体有以下两个主要假定为解决这些问题,在进行相关分析时,对总体有以下两个主要假定为解决这些问题,在进行相关分析时,对总体有以下两个主要假定n n两个变量之间是线性关系两个变量之间是线性关系两个变量之间是线性关系两个变量之间是线性关系n n两个变量都是随机变量两个变量都是随机变量两个变量都是随机变量两个变量都是随机变量1-77散点图散点图散点图散点图( (例题分析例题分析例题分析例题分析) )【例例例例】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的增增长长,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清不不良良贷贷款款形形成成的的原原因因,管管理理者者希希望望利利用用银银行行业业务务的的有有关关数数据据进进行行定定量量分分析析,以以便便找找出出控控制不良贷款的办法。下面是该银行所属的制不良贷款的办法。下面是该银行所属的2525家分行家分行20022002年的有关业务数据年的有关业务数据 1-78散点图散点图散点图散点图( (例题分析例题分析例题分析例题分析) )1-79散点图散点图散点图散点图( (不良贷款对其他变量的散点图不良贷款对其他变量的散点图不良贷款对其他变量的散点图不良贷款对其他变量的散点图) )1-80协方差:变量协方差:变量协方差:变量协方差:变量x x与与与与y y之间关系密切程度之间关系密切程度之间关系密切程度之间关系密切程度1-81协方差统计含义的图示:协方差统计含义的图示:协方差统计含义的图示:协方差统计含义的图示:1-82相关系数相关系数相关系数相关系数(correlation coefficient)(correlation coefficient)1.1.度量变量之间关系强度的一个统计量度量变量之间关系强度的一个统计量2.2.对两个变量之间线性相关强度的度量称为简单相关系数对两个变量之间线性相关强度的度量称为简单相关系数3.3.若相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为是根据总体全部数据计算的,称为总体相关系数,记为 4.4.若相关系数若相关系数是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r rn n也称为线性相关系数也称为线性相关系数(linearcorrelationcoefficient)(linearcorrelationcoefficient)n n或称为或称为PearsonPearson相关系数相关系数 (Pearsonscorrelationcoefficient)(Pearsonscorrelationcoefficient) 1-83相关系数相关系数相关系数相关系数 ( (计算公式计算公式计算公式计算公式) ) 样本相关系数的计算公式样本相关系数的计算公式或化简为或化简为1-84相关系数的性质相关系数的性质相关系数的性质相关系数的性质r r 的取值范围的取值范围是是 -1,1-1,1n n | |r r|=|=1 1,为完全相关为完全相关l lr r = =1 1,为完全正相关,为完全正相关l lr r = =-1-1,为完全负正相关,为完全负正相关n n r r = 0= 0,不存在不存在线性线性线性线性相关关系相关关系n n -1-1 r r 0 0,为负相关为负相关n n0 0 r r 1 1,为正相关为正相关n n| |r r| |越趋于越趋于1 1表示表示关系越强;关系越强;| |r r| |越趋于越趋于0 0表示关系越弱表示关系越弱1-85相关系数的性质相关系数的性质相关系数的性质相关系数的性质( (取值及其意义的图解取值及其意义的图解取值及其意义的图解取值及其意义的图解) )-1.0-1.0+1.0+1.00 0-0.5-0.5+0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r r正相关程度增加正相关程度增加正相关程度增加正相关程度增加1-86相关系数的经验解释相关系数的经验解释相关系数的经验解释相关系数的经验解释1.1. | |r r| | 0.80.8时,可视为两个变量之间高度相关时,可视为两个变量之间高度相关2.2.0.50.5 | |r r| |0.80.8时,可视为中度相关时,可视为中度相关3.3.0.30.3 | |r r| |0.50.5时,视为低度相关时,视为低度相关4. 4.| |r r| |0.30.3时,说明两个变量之间的相关程度极弱,可视为不相关时,说明两个变量之间的相关程度极弱,可视为不相关5.5.上述解释必须建立在对相关系数的显著性进行检验的基础之上上述解释必须建立在对相关系数的显著性进行检验的基础之上1-87回归分析回归分析回归分析回归分析1-88自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。1 1 1 1、定义:、定义:、定义:、定义: 1 1 1 1):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;注注注注对具有相关关系的两个变量进行统计分析的方法叫回归分析。对具有相关关系的两个变量进行统计分析的方法叫回归分析。对具有相关关系的两个变量进行统计分析的方法叫回归分析。对具有相关关系的两个变量进行统计分析的方法叫回归分析。2 2 2 2):):):):1-892 2、现实生活中存在着大量的相关关系。、现实生活中存在着大量的相关关系。 如:人的身高与年龄;如:人的身高与年龄;如:人的身高与年龄;如:人的身高与年龄; 产品的成本与生产数量;产品的成本与生产数量;产品的成本与生产数量;产品的成本与生产数量; 商品的销售额与广告费;商品的销售额与广告费;商品的销售额与广告费;商品的销售额与广告费; 家庭的支出与收入。等等家庭的支出与收入。等等家庭的支出与收入。等等家庭的支出与收入。等等探索:水稻产量探索:水稻产量探索:水稻产量探索:水稻产量y y y y与施肥量与施肥量与施肥量与施肥量x x x x之间大致有何规律?之间大致有何规律?之间大致有何规律?之间大致有何规律?1-9010 20 30 40 5010 20 30 40 5010 20 30 40 5010 20 30 40 50500500500500450450450450400400400400350350350350300300300300 发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索:在这些点附近可画直线不止一条,探索:在这些点附近可画直线不止一条,探索:在这些点附近可画直线不止一条,探索:在这些点附近可画直线不止一条, 哪条直线最能代表哪条直线最能代表哪条直线最能代表哪条直线最能代表x x x x与与与与y y y y之间的关系呢?之间的关系呢?之间的关系呢?之间的关系呢?x x x xy y y y施化肥量施化肥量施化肥量施化肥量水稻产量水稻产量水稻产量水稻产量施化肥量施化肥量施化肥量施化肥量x 15 20 25 30 35 40 45x 15 20 25 30 35 40 45x 15 20 25 30 35 40 45x 15 20 25 30 35 40 45水稻产量水稻产量水稻产量水稻产量y 330 345 365 405 445 450 455y 330 345 365 405 445 450 455y 330 345 365 405 445 450 455y 330 345 365 405 445 450 455散点图散点图散点图散点图1-91KarlGaussKarlGauss的最小化图的最小化图x xy y( (x xn n , , y yn n) )( (x x1 1 , , y y1 1) )( (x x2 2 , , y y2 2) )( (x xi i , , y yi i) )e ei i = = y yi i- -y yi i1-92统计结论是对一群个体统计结论是对一群个体统计结论是对一群个体统计结论是对一群个体“ “平均来说平均来说平均来说平均来说” ”(on the averageon the average)的结论。但对于任何特定的)的结论。但对于任何特定的)的结论。但对于任何特定的)的结论。但对于任何特定的个体,可就没说什么。个体,可就没说什么。个体,可就没说什么。个体,可就没说什么。 - - 爱因斯坦爱因斯坦爱因斯坦爱因斯坦1-93本讲重点本讲重点本讲重点本讲重点 1 1、数据及变量的分类;、数据及变量的分类; 2 2、变量、变量 分布集中趋势及离散程度的度量指标:期望和方差、标准差分布集中趋势及离散程度的度量指标:期望和方差、标准差 3 3、相关分析及回归分析、相关分析及回归分析1-94预习预习预习预习 常用概率分布:正态分布、标准正态分布、常用概率分布:正态分布、标准正态分布、t t分布、卡方分布、分布、卡方分布、F F分布的定义。分布的定义。1-95结结结结束束束束
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号