资源预览内容
第1页 / 共381页
第2页 / 共381页
第3页 / 共381页
第4页 / 共381页
第5页 / 共381页
第6页 / 共381页
第7页 / 共381页
第8页 / 共381页
第9页 / 共381页
第10页 / 共381页
亲,该文档总共381页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
管理定量分析方法管理定量分析方法本科生课程本科生课程第一讲第一讲:管理定量分析的性质与管理定量分析的性质与运用运用本讲主要内容本讲主要内容1课程性质与内容课程性质与内容2课程学习方法课程学习方法3管理学研究和定量分析管理学研究和定量分析4定量分析在管理实务中的应用定量分析在管理实务中的应用5本课程的日程安排本课程的日程安排6本课程的考试方法本课程的考试方法7课外作业课外作业1 课程性质与内容管理定量分析是一门工具性课程工具性课程,主要讲授广泛应用于管理研究与管理实务中的各种定量分析工具,是一门应用性应用性很强的课程。管理定量分析主要包括两个领域:优化方优化方法法(或系统工程)与应用统计学应用统计学。由于学时和大家数学基础所限,本课程主要讲授应用统计学中的基础统计学基础统计学。2 2 课程学习方法课程学习方法1)不要试图去证明相关的定理,而是要懂得这些要懂得这些定理后面的逻辑或原理定理后面的逻辑或原理。2)不要死记相关的计算公式和方法,而要懂得这要懂得这些方法和公式后面的逻辑和适用条件些方法和公式后面的逻辑和适用条件。 3)也不要去手工计算,要学会用计算机去完成相关的计算工作。你的精力要集中在计算结果的解要集中在计算结果的解释,以及就结果对你研究的问题的意义进行判断释,以及就结果对你研究的问题的意义进行判断。(注:为了熟悉原理而进行的简单计算例外注:为了熟悉原理而进行的简单计算例外) “把证明留给数学家,把计算留给计算机,把原把证明留给数学家,把计算留给计算机,把原理与逻辑留给自己理与逻辑留给自己”3 管理学研究与定量分析31 梅奥的霍桑实验梅奥的霍桑实验3-2 定量分析在管理学研究中的地位31 梅奥的霍桑实验梅奥的霍桑实验梅奥的霍桑实验梅奥的霍桑实验(Hawthorne Experiments)中)中有关非正式组织的有关非正式组织的研究。研究。George Elton Mayo,18801949目的是要证实目的是要证实在工人当中存在着一种非正式在工人当中存在着一种非正式的组织的组织,而且这种,而且这种非正式的组织对工人的非正式的组织对工人的态度有着极其重要的影响态度有着极其重要的影响实验条件实验条件:(1)人员:人员:14名男职工,其中名男职工,其中9名名绕线工,绕线工,3名是焊接工,名是焊接工,2名检验工;名检验工;(2)计计件工作制度。件工作制度。实验结果:工人每天只完成了实验结果:工人每天只完成了60006600个焊接点(标准每个工人应该完成个焊接点(标准每个工人应该完成7312个个焊接点),且天天如此。焊接点),且天天如此。为什么?为什么?解释解释1:可能是这些工人的智力或者动作协调性:可能是这些工人的智力或者动作协调性有问题。研究测试结果否定了这一解释。有问题。研究测试结果否定了这一解释。合理的解释:合理的解释:工人们自动限制产量的理由是,如果他们过分工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以群或者公司会制定出更高的生产定额来。所以群体会迫使其中的个体进行一致限产。体会迫使其中的个体进行一致限产。也就是工也就是工人会受到非正式组织的影响。人会受到非正式组织的影响。让我们总结一下该研究的研究过程不支持支持提出假设数数据据分分析析假设成为一种假说,进而为理论数据支持假设么?理论研究(产生方式)理论研究(产生方式)2通过实验或其他方式收集数据3-2 定量分析在管理学研究中的地位定量分析在管理学研究中的地位管理学研究的一般程序管理学研究的一般程序 (1)提出和形成问题)提出和形成问题 (2)文献综述)文献综述 (3)假设的提出)假设的提出 (4)概念定义及其变量操作化)概念定义及其变量操作化 (5)数据收集)数据收集 (6)数据分析)数据分析 (7)结论及其分析)结论及其分析 (8)研究报告写作)研究报告写作从上面可以看到,在(从上面可以看到,在(6)中定量分析具有重要)中定量分析具有重要的地位,它是数据分析的主要方法的地位,它是数据分析的主要方法4定量分析在管理实务中的应用定量分析在管理实务中的应用估计出租车数量(第二讲估计出租车数量(第二讲 数据收集、描述性统计与数据收集、描述性统计与SPSS简单应用简单应用 )估计某中濒危动物的数量(第三讲中的概率知识)估计某中濒危动物的数量(第三讲中的概率知识)假设你是劳动人事局的项目评估人员假设你是劳动人事局的项目评估人员,要对一项针对下要对一项针对下岗职工的就业培训项目进行评估岗职工的就业培训项目进行评估,你发现参加了这个培你发现参加了这个培训项目的下岗职工中有训项目的下岗职工中有60%找到了工作找到了工作,而没参加这个而没参加这个项目的下岗职工中只有项目的下岗职工中只有45%找到了工作找到了工作.你如何对这项你如何对这项目的有效性加以评估目的有效性加以评估?(第三讲第三讲,假设检验假设检验)如何判断几个政府部门的绩效是否确实存在差异如何判断几个政府部门的绩效是否确实存在差异(第四第四讲方差分析讲方差分析)如何估计盗窃数量?如何估计盗窃数量?(第五讲第五讲 回归分析回归分析)其他:其他:聚类:社会阶层的划分,经济区域的划分聚类:社会阶层的划分,经济区域的划分.红学中的作者研究红学中的作者研究主成分分析:地区生产率的排序主成分分析:地区生产率的排序.制衣业中制衣业中规格的确定规格的确定判别分析:信用等级判定,是否偷税漏税判别分析:信用等级判定,是否偷税漏税?企业是否会破产?企业是否会破产?5 课外作业课外作业课外作业1)随机找)随机找N个同学,让他们在个同学,让他们在O/V两个字母中任两个字母中任选一个(不要思考),并用纸笔记录下每个人的选一个(不要思考),并用纸笔记录下每个人的选择。选择。2)随机找)随机找N个同学,让他们从个同学,让他们从110十个数字任十个数字任意选择一个数字(不要思考),并用纸笔记录下意选择一个数字(不要思考),并用纸笔记录下每个人的选择。每个人的选择。第二讲第二讲 数据获取、描述性统计数据获取、描述性统计与与SPSS简单应用简单应用本讲内容本讲内容1 统计学的主要思想统计学的主要思想2 数据获取数据获取3. 单变量描述性统计单变量描述性统计1 统计学的主要思想统计学的主要思想11 随机性中的规律性随机性中的规律性12 规律性中的随机性规律性中的随机性13 概率概率(probability)14 变量变量(Random Variable)15 总体与样本总体与样本(Population and Sample)11 随机性中的规律性随机性中的规律性1)随机性是指不能预测某一特定事件的结)随机性是指不能预测某一特定事件的结果。果。2)规律性是指我们从许多随机事件中收集)规律性是指我们从许多随机事件中收集数据时发现的模式。数据时发现的模式。统计可以看着是对统计可以看着是对随机中的规律随机中的规律进行研究进行研究的学科。的学科。12 规律性中的随机性规律性中的随机性1)在进行统计观察的时候,大部分时候我们都)在进行统计观察的时候,大部分时候我们都得不到完全一模一样的观察结果。所以得不到完全一模一样的观察结果。所以规律也表规律也表现出某中随机性现出某中随机性,这是统计的一个重要的本质特,这是统计的一个重要的本质特征。征。2)所以任何两次数据收集过程中,得到的结果)所以任何两次数据收集过程中,得到的结果一般都有差异。关键是这种差异是可以用数据本一般都有差异。关键是这种差异是可以用数据本身的随机性进行解释,还是差异达到了无法用随身的随机性进行解释,还是差异达到了无法用随机性进行解释?机性进行解释?当两种规律的差异超出了随机性当两种规律的差异超出了随机性本身的范围的时候,变化趋势就发生了。本身的范围的时候,变化趋势就发生了。所以统计也是对所以统计也是对数据中的偏差问题数据中的偏差问题进行研究的学进行研究的学科。统计把单独的、随机事件置于规律中,并科。统计把单独的、随机事件置于规律中,并揭示出其变化的趋势。研究随机性和规律性的例子研究随机性和规律性的例子20世纪世纪50年代,小儿麻痹症育苗的研究。年代,小儿麻痹症育苗的研究。实验组实验组(疫苗)(疫苗)20万56对对照照组组(安慰(安慰剂剂)20万138问题是:56和和138之间的差别是否超过了随机之间的差别是否超过了随机性所能解释的范围。性所能解释的范围。思考题思考题拧松水龙头,让其刚好到只有水滴下来,拧松水龙头,让其刚好到只有水滴下来,计算并记录计算并记录15分钟内每个分钟内每个20秒里的水滴数。秒里的水滴数。利用你的数据,请说出该水滴在什么方面利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?是随机的?什么方面又是有规律的?13 概率概率(Probability)在讨论随机性的时候,统计学的大部分内在讨论随机性的时候,统计学的大部分内容根基于一个很重要的概念容根基于一个很重要的概念概率。概率。概率是一个取值介于概率是一个取值介于0到到1之间的数,告诉之间的数,告诉我们某一特定的事件以多大的机会发生。我们某一特定的事件以多大的机会发生。对于两个数字的差别是否超出了随机性本对于两个数字的差别是否超出了随机性本身所能解释的范围,我们可能永远无法肯身所能解释的范围,我们可能永远无法肯定。但是我们可以确定,这种差别超出随定。但是我们可以确定,这种差别超出随机性能解释的范围发生的概率是大还是小。机性能解释的范围发生的概率是大还是小。14 变量(变量(variable)统计的又一块较大的基石是变量。统计的又一块较大的基石是变量。变量简单变量简单的说就是事物的特征或者属性。的说就是事物的特征或者属性。研究者在研究项目开始的时候,就要确定他研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。们所要研究的变量是什么。变量的值(变量的值(value)通常是对某一个特定单通常是对某一个特定单位的度量,这种单位常常被视为位的度量,这种单位常常被视为一个个体一个个体(element)。什么是个体取决于你的研究。什么是个体取决于你的研究问题。问题。思考题:指出下面研究中的变量、变量的值、思考题:指出下面研究中的变量、变量的值、个体是什么?个体是什么?1)研究淮海工学院男生的身高和体重之间)研究淮海工学院男生的身高和体重之间的关系。的关系。2)研究连云港市居民对打的加收燃油税这)研究连云港市居民对打的加收燃油税这项政策的满意程度。项政策的满意程度。3)统计江苏省个县市的工业生产总值。)统计江苏省个县市的工业生产总值。1 15 5 总体与样本总体与样本参 数:统计量思考题:请判别下面研究问题中的总体与个思考题:请判别下面研究问题中的总体与个体是什么?体是什么?(1)如果你对淮海工学院女生的身高感兴趣,)如果你对淮海工学院女生的身高感兴趣,想研究下其分布。想研究下其分布。 (2)如果你想研究连云港市的高新技术企业)如果你想研究连云港市的高新技术企业的盈利情况。的盈利情况。总结一下总结一下1)随机性随机性和和规律性规律性是统计学的两个重要概念。是统计学的两个重要概念。规律规律性本身包含着随机性性本身包含着随机性。统计可以定义为在随机性中。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。本身的影响(或者解释范围),变化趋势就发生了。2)概率为我们从数据中得出结论提供了基础,)概率为我们从数据中得出结论提供了基础,统计统计学家利用概率判断数据间的差异是否超出了随机性学家利用概率判断数据间的差异是否超出了随机性本身的影响本身的影响。3)变量可定义为一个特征或属性,)变量可定义为一个特征或属性,我们的数据收集我们的数据收集都是针对一个个变量进行的都是针对一个个变量进行的。4)统计很少对总体进行直接的研究,都是通过对具)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的信息进行推断。有代表性的样本的研究,来对总体的信息进行推断。2 数据收集数据收集21 定义变量定义变量22 变量的测量层次变量的测量层次23 观察数据观察数据抽样调查:问题和可能性抽样调查:问题和可能性24 问卷设计中常出现的问题问卷设计中常出现的问题25 数据文件的格式数据文件的格式2 21 1 定义变量定义变量 数据收集的第一个工作,就是要清楚测量和数据收集的第一个工作,就是要清楚测量和收集什么。收集什么。你要将你的研究问题转化为用变你要将你的研究问题转化为用变量的语言来描述量的语言来描述,并且要对变量进行,并且要对变量进行清楚的清楚的定义定义。例如:思考一下,假设你想了解一个家庭孩例如:思考一下,假设你想了解一个家庭孩子的数量,你设计的问题为:子的数量,你设计的问题为:“在你家庭中在你家庭中有多少个孩子?有多少个孩子?”,该问题存在什么问题?,该问题存在什么问题?(C)至少存在以下问题:至少存在以下问题:(1)孩子是否应该小于)孩子是否应该小于18周岁?周岁?(2)孩子是仅仅指亲生子女,还是包括养子养)孩子是仅仅指亲生子女,还是包括养子养女?过继的算不算?对于不和亲生父母生活在女?过继的算不算?对于不和亲生父母生活在一起的孩子算不算?父母离了婚而共同抚养的一起的孩子算不算?父母离了婚而共同抚养的孩子怎么算?孩子怎么算?所以要对所以要对“孩子孩子”这个变量做清楚的界定这个变量做清楚的界定。思考:思考:这个调查问题存在什么问题:这个调查问题存在什么问题:“请问贵企业的销售收入是多少?请问贵企业的销售收入是多少?_”22 变量的测量层次变量的测量层次1)思考题:)思考题:请回答以下收集到的数据,可以进行请回答以下收集到的数据,可以进行“”,“、” ,“,”中的哪些运算?中的哪些运算? (1)五个人的性别:)五个人的性别:1,0,0,1,1(1:男性;:男性;0:女性):女性) (2)五个人的身高:)五个人的身高:170,173,165,180,161(单位:厘米)(单位:厘米) (3)七天的气温(摄氏温度)七天的气温(摄氏温度):):15,24,27,18,34,30,19。 (4)五个人对一项政策满意程度的评分:)五个人对一项政策满意程度的评分: 5,3,3,4,2 (1:十分不满意;:十分不满意;2:不满意;:不满意;3:一般或中立;:一般或中立;4:满意;满意;5:十分满意):十分满意)2)按照数据适合的运算规则,统计学将数据)按照数据适合的运算规则,统计学将数据(或变量)划分为四个层次:(或变量)划分为四个层次:(1)定类数据)定类数据(nominal sale)(变量)。(变量)。 它仅仅是一种标志,取数值仅仅是用以区分它仅仅是一种标志,取数值仅仅是用以区分变量中的类型名称。变量中的类型名称。不适合任何四则运算和大小不适合任何四则运算和大小运算。运算。(2)定序数据)定序数据(ordinal scale)。 定序数据值定序数据值能够比较大小能够比较大小,不能够不能够做加减乘做加减乘除运算,它表示一种次序。除运算,它表示一种次序。(3)定距数据)定距数据(interval scale)。 这类数据可以做大小比较以及加减运算加减运算,不能做乘除运算不能做乘除运算。数据之间的距离是相等的。其根本特征是,数据中的数据中的0不是物理客观存不是物理客观存在的,而是人为设定的在的,而是人为设定的。例如:温度测量值就是定距。(4)定比数据)定比数据(ratio scale)。 定比数据是数据中最高层次的测度等级。这类数据可以做大小比较和加减运算外,还还可以做乘除运算可以做乘除运算。这时的0值不是人为确定值不是人为确定的,而是物理客观存在的,而是物理客观存在的。例如:人的身高数据、体重数据。思考题:思考题: 1)我们用一个量表测量人们对一项法律的态度,)我们用一个量表测量人们对一项法律的态度,如果如果1表示不赞成,表示不赞成,2表示无所谓,表示无所谓,3表示赞成,对表示赞成,对于于3个人我们测得的值分别为:个人我们测得的值分别为:3、1、2,这些数据,这些数据为为_数据。数据。 2)测量)测量10个大学生所在的年级,如果用个大学生所在的年级,如果用1表示表示大一、大一、2表示大二、表示大二、3表示大三、表示大三、4表示大四、表示大四、5表示表示其他。测量的值为:其他。测量的值为:1、3、4、1、2、3、2、1、1、4,这些数据为,这些数据为_数据。数据。 3)测得)测得5个人的第一次结婚年龄(单位:周岁)个人的第一次结婚年龄(单位:周岁)为:为:20、22、24、30和和26,这些数据为,这些数据为_数据。数据。 注意三点:注意三点:1)SPSS中将定距数据和定比数据合并为中将定距数据和定比数据合并为一类,叫刻度级数据一类,叫刻度级数据。所以。所以SPSS的数据测量的数据测量层次只有三种。层次只有三种。2)一项统计方法适合低级别的数据,也适一项统计方法适合低级别的数据,也适用于高级别的数据。但反过来不成立。用于高级别的数据。但反过来不成立。例例如我们可以计算身高数据的均值,但不能如我们可以计算身高数据的均值,但不能计算五个人性别的均值。计算五个人性别的均值。3)在社会科学研究对定序数据的处理有)在社会科学研究对定序数据的处理有两种方式:一是将其作为定类数据看待;两种方式:一是将其作为定类数据看待;另一是将其作为刻度级数据看待。另一是将其作为刻度级数据看待。23 观察数据观察数据抽样调查抽样调查定义:定义:凡是在获得数据的过程中,凡是在获得数据的过程中,不对被调不对被调查对象数据产生的条件施加任何控制查对象数据产生的条件施加任何控制所得到所得到的数据,称为观察数据的数据,称为观察数据。两种方式:普查与抽样调查。两种方式:普查与抽样调查。普查普查(Census) :就是收集总体中的所有个体:就是收集总体中的所有个体的数据。的数据。抽样调查(抽样调查(Sampling):是在总体中选择出):是在总体中选择出一个样本,然后对样本中的个体进行调查,一个样本,然后对样本中的个体进行调查,从所了解的样本数据来推断总体情况。从所了解的样本数据来推断总体情况。抽样调查的优点抽样调查的优点:(1)经济性。)经济性。(2)时效性强。抽样调查可以迅速、及时地)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。获取到所需要的信息。(3)准确性高。)准确性高。抽样调查的一个原则:抽样调查的一个原则: “确信锅里的汤被确信锅里的汤被搅拌均匀搅拌均匀”。抽样调查的方法抽样调查的方法:概率抽样:概率抽样(Probability sampling)非概率抽样非概率抽样(Nonprobability sampling)概率抽样概率抽样(Probability sampling)(1)简单随机抽样简单随机抽样(simple random sampling): 就是等概率抽样,每个个体以相同的概率被抽中。就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复抽样两种形式。这也可以分为重复抽样和不重复抽样两种形式。(2)分层抽样分层抽样(Stratified sampling): 在抽样之前将总体划分为不同的层(群),然后在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。在各个层中抽取一定数量的元素组成样本。 分层抽样的时候应该是各个层内之间的元素的差异分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。根据研究者的判断和研究目的。(3)等距离抽样等距离抽样(systematic sampling,系统抽样)系统抽样): 首先将总体中的个体按照某种顺序排列起来,然后首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满隔抽取一个元素,直到抽满n个元素形成一个样本为止。个元素形成一个样本为止。(4)整群抽样整群抽样(Cluster sampling): 就是首先将总体划分为若干个群,然后以这些群为就是首先将总体划分为若干个群,然后以这些群为抽样单位从中抽出部分群,在对抽选出的群中的所有元抽样单位从中抽出部分群,在对抽选出的群中的所有元素进行观察。素进行观察。思考题:假如你要调查连云港市市区内的居民月收入,假思考题:假如你要调查连云港市市区内的居民月收入,假设抽样容量为设抽样容量为1000。你如何展开抽样?。你如何展开抽样?非概率抽样非概率抽样(Nonprobability sampling)(1)便利抽样便利抽样(Convenience sampling):研究:研究者出于收集数据的便利,而不考虑抽样的概者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如:街头访谈、电话率,所进行的抽样。例如:街头访谈、电话访谈、向自己的亲朋好友收集数据。访谈、向自己的亲朋好友收集数据。 这种样本数据收集过程都加入了某中人这种样本数据收集过程都加入了某中人为的干扰和选择,为的干扰和选择,所以从方便样本中得出的所以从方便样本中得出的结果对于总体信息的推论程度是有限的结果对于总体信息的推论程度是有限的。思考题:思考题: 有时候杂志要求读者回答某些问题并寄有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。回答案,从而构成一个样本。 请问这个样本请问这个样本能不能代表读者群总体?为什么?能不能代表读者群总体?为什么?(2)判断抽样判断抽样(Judgment sampling):是指:是指经过专家考虑后,以适当的方式进行抽样。经过专家考虑后,以适当的方式进行抽样。例如:研究青少年吸毒问题。例如:研究青少年吸毒问题。24收集观察数据过程中常出现的误差收集观察数据过程中常出现的误差 两大类两大类: (1)未响应误差()未响应误差(nonresponse error)。没办法,现在的响应率确实太低了。据估计:没办法,现在的响应率确实太低了。据估计:一次好的电话调查,响应率一次好的电话调查,响应率8590;一;一次邮寄调查的响应率很少有达到次邮寄调查的响应率很少有达到50的;即的;即使是名声比较好的调查组织的响应率也经常使是名声比较好的调查组织的响应率也经常不超过不超过60。(2)响应误差()响应误差(response error)。)。即使所有的问题都即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是它们实际上做的、感觉的或所想的。影响的,而未必是它们实际上做的、感觉的或所想的。影响响应误差的因素很多,常常有:响应误差的因素很多,常常有:(A)问卷的长度。)问卷的长度。(B)问题的措词。要通俗易懂;要准确而不笼统;)问题的措词。要通俗易懂;要准确而不笼统; 避免双重否定形式的提问避免双重否定形式的提问。 1992 Roper协会做的调查:协会做的调查: “在你看来,在你看来,纳粹纳粹对犹太人的灭绝从未发生过对犹太人的灭绝从未发生过是可能的还是不可能的是可能的还是不可能的” (22怀疑)怀疑) 1994 “在你看来,在你看来,纳粹对犹太人的灭绝从未发生纳粹对犹太人的灭绝从未发生过过可能吗?还是你确信它发生过?可能吗?还是你确信它发生过?” (1)避免诱导性提问避免诱导性提问一方面的观点一方面的观点你是否同意下述观点:联邦政府应该确保你是否同意下述观点:联邦政府应该确保所有的人民都有足够的住房。所有的人民都有足够的住房。同意:政府有责任同意:政府有责任不同意:政府无责不同意:政府无责任任55%45%两种观点,政府负责观点在前两种观点,政府负责观点在前有些人认为联邦政府应该确保所有的人民有些人认为联邦政府应该确保所有的人民都有足够的住房都有足够的住房,而另一些人认为每,而另一些人认为每个人应该自己解决住房问题。你认为个人应该自己解决住房问题。你认为哪一种意见与你的看法最接近?哪一种意见与你的看法最接近?政府有责任政府有责任政府无责任政府无责任44.6%55.4%两种观点,政府负责观点在后两种观点,政府负责观点在后有些人认为每个人应该自己解决住房问题有些人认为每个人应该自己解决住房问题,而另一些人认为联邦政府应该确保所而另一些人认为联邦政府应该确保所有的人民都有足够的住房。你认为哪有的人民都有足够的住房。你认为哪一种意见与你的看法最接近?一种意见与你的看法最接近?政府有责任政府有责任政府无责任政府无责任29.5%70.5%(C)问题所在的位置。不要将敏感性问题放)问题所在的位置。不要将敏感性问题放在问卷的前面,要结束调查时的问题要短且简在问卷的前面,要结束调查时的问题要短且简单。单。(D)调查员的影响。调查设计者要尽量让调)调查员的影响。调查设计者要尽量让调查员和被调查者在人口统计特征上相近,如:查员和被调查者在人口统计特征上相近,如:年龄、性别、种族等。特别是在调查一些敏感年龄、性别、种族等。特别是在调查一些敏感问题时尤其如此。例如你要调查女性对化妆品问题时尤其如此。例如你要调查女性对化妆品的看法,找男性去就不合适。的看法,找男性去就不合适。最后要提醒大家的是:最后要提醒大家的是:(1)任何一种抽样程序的一个普遍困难是,)任何一种抽样程序的一个普遍困难是,很少有一份完全包括属于总体的所有个体很少有一份完全包括属于总体的所有个体的名单的名单。即使存在这份名单,这份名单也。即使存在这份名单,这份名单也往往是不完全的。往往是不完全的。(2)要总是对你的数据采取一种怀疑态度,要总是对你的数据采取一种怀疑态度,这样收集到的数据才可能尽量可靠这样收集到的数据才可能尽量可靠(3)仅仅使用观察数据来进行因果关系的判)仅仅使用观察数据来进行因果关系的判断是十分困难的。断是十分困难的。25 数据文件的格式数据文件的格式个体个体编编号号年年龄龄性性别别年收入年收入(万元)(万元)态态度度1200332271623381533.描述性统计描述性统计31样本数据的基本特征:频次和频率样本数据的基本特征:频次和频率32刻度级数据的数据结构:茎叶图和直方图刻度级数据的数据结构:茎叶图和直方图33 数据中心描述数据中心描述34离散趋势描述:点描述和区间描述。离散趋势描述:点描述和区间描述。35 综合表述:箱形图综合表述:箱形图31样本数据的基本特征:样本数据的基本特征:频次频次(Frequency)和频率和频率(Percentage)所谓频次所谓频次就是一个特定数据值在整个数据集合中出现就是一个特定数据值在整个数据集合中出现的次数。的次数。频率频率就是某个特定数据值出现的频次与数据集合的数就是某个特定数据值出现的频次与数据集合的数据总数之比。据总数之比。一个延伸的概念是一个延伸的概念是累积频率累积频率,当数据的测量层次在定,当数据的测量层次在定序级以上时,序级以上时,设设x1 x2 xm ,是样本数据集合,是样本数据集合中的不重复的样本值中的不重复的样本值(mn样本个数样本个数)。 若把样本值若把样本值小小于等于某个样本数据于等于某个样本数据xi 的频率值,都累加起来,就得的频率值,都累加起来,就得到到“小于等于小于等于xi”的累积频率的累积频率思考题:思考题:累积频率适合于何种测量层次的数据?累积频率适合于何种测量层次的数据?条形图(Bar Chart)女性结婚年龄30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30, 33,30,31,26,29,25,24,31,46,23,26,24, 25,60,23,19, 34,25,27,25经济经济10%管理管理25%会计会计65%饼状图饼状图 Pie Chart1. 表示出总量的分表示出总量的分类类2. 是表示相对差异是表示相对差异的有效办法的有效办法3. 角度大小角度大小360(百分数百分数) 专业专业 (360) (10%) = 36360123453-2 直 方 图Histogram频数频数频率频率百分数百分数01525354555下界下界柱条接触柱条接触计数计数类别类别频数频数15 25325 35535 452直方图的注意点直方图的注意点对于直方图的形状我们关心对于直方图的形状我们关心:(:(1)是否为单峰是否为单峰(unimodal)?如果是单峰的,则说明观测中只如果是单峰的,则说明观测中只有一组是主要的;否则呢?(有一组是主要的;否则呢?(2)是否对称是否对称(symmetric)?值得注意的是,值得注意的是,有时由于人为的构造,对同一个有时由于人为的构造,对同一个数据集的直方图会让人产生错觉。(数据集的直方图会让人产生错觉。(1)区间的)区间的划分数目可能产生差别;(划分数目可能产生差别;(2)纵轴的刻度选择。)纵轴的刻度选择。一般来说,区间划分数为一般来说,区间划分数为510个比较好个比较好33 数据中心描述数据中心描述常用的有三个:常用的有三个:“样本中位数样本中位数(Median)”、“样本众数样本众数(Mode)”和和“样本均值样本均值(Mean)”。中位数:就是将中位数:就是将资料排序(从大到小,从小资料排序(从大到小,从小到大都可)后到大都可)后,居于,居于中间位置中间位置的那个数称为的那个数称为中位数。用中位数。用 表示。表示。当当n为奇数的时候:为奇数的时候:当当n为偶数的时候为偶数的时候:众数、中位数与均值之间的区别:众数、中位数与均值之间的区别:1)一般来说,一般来说,众数适合于定类数据;中位数适众数适合于定类数据;中位数适合于定序数据及其以上的数据;均值适合于样本合于定序数据及其以上的数据;均值适合于样本均值均值;2)中位数只与位置有关,它只利用了数据集中中位数只与位置有关,它只利用了数据集中的少数几个数据(最多两个数据)的信息,对极的少数几个数据(最多两个数据)的信息,对极端值不敏感。端值不敏感。而均值则利用了数据集中所有数据而均值则利用了数据集中所有数据的信息,极容易受到极端值的影响。的信息,极容易受到极端值的影响。3)对于刻度级数据,很少用众数来代表其集中)对于刻度级数据,很少用众数来代表其集中趋势的;趋势的;如果存在极端值的时候,要用中位数来如果存在极端值的时候,要用中位数来代表数据集的集中趋势代表数据集的集中趋势。思考思考题题1:一般来:一般来说说,最适合代表定,最适合代表定类类数据的集数据的集中中趋势趋势的是:的是:_.(A)中位数;中位数;( B)众数;众数; (C)平均数;平均数; (D)方差。方差。 2)6个人的身高数据为:个人的身高数据为:173cm、173cm、178cm、176cm、171cm和和226cm,请你选择代,请你选择代表这个数据集集中趋势,最适合的是:表这个数据集集中趋势,最适合的是:_.A、中位数;、中位数; B、众数;、众数; C、平均数;、平均数; D、方差。、方差。 案例:估计一个城市的出租车数量某城市的出租车数量少,某位统计学家等了几辆某城市的出租车数量少,某位统计学家等了几辆车,发现都是满载的。这位统计学家就怀疑这城车,发现都是满载的。这位统计学家就怀疑这城市到底有多少出租车,以至于不够用。如何进行市到底有多少出租车,以至于不够用。如何进行估计?估计?他开始记下满载的出租车号,依次为:他开始记下满载的出租车号,依次为:405, 280, 73, 440, 179 。你如何根据这些资料推断这个城。你如何根据这些资料推断这个城市的出租车数量?市的出租车数量?上车一问该城市一共上车一问该城市一共 550辆出租车。辆出租车。图图1:平均差距法:平均差距法 相对误差为相对误差为|550 527| /550 = 0.04 图2:中位数法(M+1)/2=280 也就是说 M=559,相对误差为:| 559 550| /550 = 0.02思考题:思考题:1)你还能想出其它方法吗?)你还能想出其它方法吗?2)我们这样做的时候有什么假设)我们这样做的时候有什么假设其他方法:其他方法:利用均值:利用均值:(M+1)/2 = (73+179+280+405+440)/5=275也就是说也就是说 M=549,相对误差为:,相对误差为:| 549 550| /550 = 1/550 0.002。34(1)离散趋势点描述)离散趋势点描述(1)极值极值两个极值:最大值(两个极值:最大值(Maximum)和最小值)和最小值(Minimum)适合于定序级以上的数据适合于定序级以上的数据(2)下四分点(下四分点(lower quartile)与上四分点)与上四分点(upper quartile)Q1下四分点把排序后的样本数据集合分成了左右两部分,下四分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了使其左边部分包含了25%的样本总个数,使其右边部的样本总个数,使其右边部分包含了分包含了75%的样本总个数。上四分点则刚好相反。的样本总个数。上四分点则刚好相反。(3)上下十分位点()上下十分位点(percentile)Q3下十分点把排序后的样本数据集合分成了左右两部分,下十分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了使其左边部分包含了10%的样本总个数,使其右边部的样本总个数,使其右边部分包含了分包含了90%的样本总个数。上十分点则相反。的样本总个数。上十分点则相反。44(2)离散趋势区间描述)离散趋势区间描述1)极差(极差(Range,也称为全距,也称为全距) 极差极大值极小值,用极差极大值极小值,用Rn表示表示它反映了样本数据在数轴上的分布范围。它反映了样本数据在数轴上的分布范围。2.)四分位距()四分位距(Interquartile range) 四分位距(四分位距(Iqr)Q3Q1 它反映了样本数据集合中样本值处于中间大它反映了样本数据集合中样本值处于中间大小的小的1/2的数据的分布范围。的数据的分布范围。 全距和四份位距的适用范围全距和四份位距的适用范围。思考题:请问下列两个数据集用全距来代表该思考题:请问下列两个数据集用全距来代表该数据集的离散趋势,适不适合?为什么?数据集的离散趋势,适不适合?为什么?A)72,70,68,74,75,65,69,71,73,74 Rn7565B)96, 70,68,74,75,65,69,71,73,74 Rn9665313) 样本离差样本离差(Deviations)与离差平方和与离差平方和(Sum of squared deviations)样样本本离离差差被定义为每个样样本本与样样本本均均值值之差:xi ,i1, 2, , n样本离差又称为样本中心化中心化数据。反反映映数数据据集集对对均均值值的的总总偏偏差差指指标标:离离差差平平方方和。离差平方和和。离差平方和被定义为: 4 )离散状况的统计值描述:样本方差)离散状况的统计值描述:样本方差(Sample variance) s2=为什么用离差平方和离差平方和除以,而不是除以样本个数。 样本标准差标准差(Standard Deviation)的定义是 S=注意:注意:1)对于)对于单峰对称分布单峰对称分布的变量,有经验法则:的变量,有经验法则:A)大约有大约有68的数据在均值的正负的数据在均值的正负1个标准个标准差的范围之内;差的范围之内;B)大约有大约有95的数据在均值的正负的数据在均值的正负2个标准个标准差的范围之内。差的范围之内。(至少(至少75)C) 大约有大约有99的数据在均值的正负的数据在均值的正负3个标个标准差的范围之内。准差的范围之内。(至少(至少89) (正负(正负4,至少,至少94)所以观察值的极差大致上等于所以观察值的极差大致上等于4个标准差个标准差。5) 变异系数变异系数(CV, Coefficient of variation)方差的缺点:受度量单位的影响。方差的缺点:受度量单位的影响。所以定义样本变异系数定义为:所以定义样本变异系数定义为:样本标准差样本标准差与与样本均值样本均值之比:之比:CV经常作为金融研究中的投资风险度量指标。经常作为金融研究中的投资风险度量指标。另外,另外,CV还可以用于比较不同事物之间的离还可以用于比较不同事物之间的离散程度比较。散程度比较。例:两种投资组合:甲、乙,表中是例:两种投资组合:甲、乙,表中是9笔过去半笔过去半年期投资报酬率,请问哪种投资组合的风险大年期投资报酬率,请问哪种投资组合的风险大?甲()甲()9172619104138乙()乙()61531163282注意,两者的标准差相同:注意,两者的标准差相同:0.05696。但是。但是CV甲甲58.25%CV乙乙91.45%所以乙的风险较大。所以乙的风险较大。6)标准得分(Standardized Score)30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30, 33,30,31,26,29,25,24,31,46,23,26,24, 25,60,23,19, 34,25,27,25定义:一个原始值的标准得分,表示原始得分与定义:一个原始值的标准得分,表示原始得分与均值的距离的新得分,这个得分用标准差为单位均值的距离的新得分,这个得分用标准差为单位来衡量。来衡量。(30-19)/9=11/9=1.22-1.2221391901-1假设男性结婚年龄的均值为假设男性结婚年龄的均值为32.4,标准差为,标准差为11.2;同样可以求得,;同样可以求得,17岁的新郎的标准岁的新郎的标准分为分为-1.38。所以,新郎的结婚年龄更反常。所以,新郎的结婚年龄更反常。思考题:思考题:如果变量的观测值是单峰对称分如果变量的观测值是单峰对称分布,那么标准得分的值大部分(布,那么标准得分的值大部分(95)在)在那个区间范围内?那个区间范围内?35 综合表述:箱形图综合表述:箱形图(Box Plots)箱形图法是综合表达数据的中心特征和离箱形图法是综合表达数据的中心特征和离散特征的图形方法。散特征的图形方法。极大值极大值极小值极小值下四份位点下四份位点上四份位点上四份位点中位数中位数刻度尺刻度尺第三讲第三讲 概率论基础知识回顾概率论基础知识回顾本讲内容本讲内容1 概率论发展简史概率论发展简史 2 概率论专有名词概率论专有名词3 概率的含义概率的含义4 获得概率的基本获得概率的基本方法方法5 概率的加法法则概率的加法法则6 联合概率、条件概联合概率、条件概率和独立事件率和独立事件7 贝叶斯公式贝叶斯公式8 相关的概念相关的概念优优势势9 离散变量的概率分离散变量的概率分布布10 连续变量的随机分连续变量的随机分布布1 概率论发展简史概率论发展简史1 11 1 概率论的起源概率论的起源Pascal(16231662) Fermat, (16011665) 1654年,赌年,赌金分配问题金分配问题 赌金分配问题赌金分配问题 梅雷说:有一次他与某赌友梅雷说:有一次他与某赌友(代称为代称为A先生先生)掷骰子时,各押掷骰子时,各押32个金币为赌注,双方约定个金币为赌注,双方约定如果谁先赢得如果谁先赢得3局,就可以把赌金全部拿走,局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得中断。此时梅雷已经赢得2局,而局,而A先生只赢先生只赢1局,局,如何公平分配赌金?如何公平分配赌金? 起点起点费马费马:情况情况1234胜者胜者梅雷、梅雷 梅雷、A A、梅雷A、A帕斯卡尔:帕斯卡尔:1655年,荷兰数学家惠更斯年,荷兰数学家惠更斯 (Christopher Huygens) 访问巴黎时,了解到帕斯卡尔与费访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,马的通信研究,对这类问题产生兴趣,后来,他撰写骰子游戏他撰写骰子游戏(Dice Game, 1657) 来探来探讨机率问题的原理,其中包含许多习题,被许讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。多人认为是机率史上第一本教科书。提出了期提出了期望的概念望的概念。1713年,瑞士数学家伯努利(年,瑞士数学家伯努利(Jacob Bernoulli,1654 1705)出版了猜度术)出版了猜度术一书,一书,提出了大数定理提出了大数定理 。1765年,法国数学家棣莫弗年,法国数学家棣莫弗(A.DeMoivre,16671754)的机会的学)的机会的学说一书出版,说一书出版,1733年就发现了正态曲线年就发现了正态曲线,以及论述了不存在运气。以及论述了不存在运气。蒲丰蒲丰(, 17071788)于于1777年提出了投针问年提出了投针问题的几何概率题的几何概率:h/n=(2r/).-1933年,俄罗斯数学家科尔莫戈罗夫年,俄罗斯数学家科尔莫戈罗夫(19031987)以德文出版的经典性著作概率论基)以德文出版的经典性著作概率论基础,标志着概率论的公理化完成,这就是我础,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。们现在看到的概率论的情形。2 概率论专有名词概率论专有名词随机实验:满足如下三个条件就可以称之为随机随机实验:满足如下三个条件就可以称之为随机实验:(实验:(1)在同一条件下可无限次重复;()在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(实验结果有多个,且不确定;(3)事前不知实)事前不知实验结果(验结果(outcome)。抛硬币)。抛硬币 基本事件:一次随机实验的可能结果,称为基本基本事件:一次随机实验的可能结果,称为基本事件或者基本随机事件。事件或者基本随机事件。 若随机实验若随机实验E是是“抛两次硬币抛两次硬币”,其基本事,其基本事件就是件就是“+、”,“+、+”,“,”,“,+”。样本空间:所有基本事件所组成的集合,称为样样本空间:所有基本事件所组成的集合,称为样本空间或基本空间。本空间或基本空间。 接上例,其样本空间就是集合接上例,其样本空间就是集合“+、”,“+、+”,“,”,“,+”。随机事件:随机事件: 简称事件,指一些由基本事件所组成的集合。简称事件,指一些由基本事件所组成的集合。 例如,接上例,事件例如,接上例,事件“两次出现相同面两次出现相同面”,就有两个基本事件组成:就有两个基本事件组成:+、+”,“,”。不相容事件:不相容事件: 在随机试验中,不能同时发生或其交集为空在随机试验中,不能同时发生或其交集为空集的几个事件,称为不相容事件。反之为相容集的几个事件,称为不相容事件。反之为相容事件事件 接上例,事件接上例,事件“两次同时出现正面两次同时出现正面”和和“两两次同时出现反面次同时出现反面” 就是不相容事件。就是不相容事件。“至少出至少出现一次正面现一次正面”和和“至少出现反面至少出现反面”就是两个相就是两个相容事件容事件3概率的含义概率的含义概率概率是一个是一个0 0到到1 1之间的数,描之间的数,描述了一个事件发生的经常程度述了一个事件发生的经常程度。小概率(接近于小概率(接近于0)的事件很)的事件很少发生,而大概率(接近于少发生,而大概率(接近于1)的事件则经常发生。)的事件则经常发生。概率对统计的意义。对于统计,概率对统计的意义。对于统计,概率告诉我们,概率告诉我们,在样本数据的在样本数据的基础上,如果试验重复多次,基础上,如果试验重复多次,各种结果发生的经常程度各种结果发生的经常程度是多大。.5 01不可能不可能必然必然4 获得概率的基本方法41 利用等可能性事件利用等可能性事件4 42 2 使用相对频率的方法使用相对频率的方法4 43 3 利用主观概率利用主观概率4 41 1 利用等可能性事件利用等可能性事件如果试验有如果试验有n种可能的结果,使某特定事件种可能的结果,使某特定事件出现的结果数量为出现的结果数量为k,那么(,那么(k/n)就是出)就是出现该事件的概率现该事件的概率。kn思考题思考题:一副扑克一副扑克52张(大、小王去掉),洗张(大、小王去掉),洗均匀,随机取一张牌,那么该张牌是梅花的概均匀,随机取一张牌,那么该张牌是梅花的概率是多少?率是多少? 要注意两点要注意两点: (1)分清楚你求解问题中什么是你的分清楚你求解问题中什么是你的n,什,什么是你的么是你的k。 如,得胜的同学是如,得胜的同学是A班男生班男生的概率的概率A班班男生得胜男生得胜的概率。的概率。(2) 其实我们在这样做的时候,就已经接其实我们在这样做的时候,就已经接受了受了两个前提假设两个前提假设:a)实验的可能结果)实验的可能结果是已知的;是已知的;b)由于对称性,每一个结果)由于对称性,每一个结果的可能性都是相同的。往往这两个前提的可能性都是相同的。往往这两个前提假设不一定满足假设不一定满足.4 42 2 使用相对频率的方法使用相对频率的方法基于基于大量重复大量重复实验中某个特定事件出现的次数的比实验中某个特定事件出现的次数的比例接近于该事件的概率真值。例接近于该事件的概率真值。此时,概率是一个长期的比率,是长期观察某一事此时,概率是一个长期的比率,是长期观察某一事件的结果,这种概率的准确数值我们是永远得不到件的结果,这种概率的准确数值我们是永远得不到的,但是大量观察值使估计概率的数值(即相对频的,但是大量观察值使估计概率的数值(即相对频率)无限接近于真值。率)无限接近于真值。试验者试验者抛掷次数抛掷次数正面向上的正面向上的次数次数正面出现的正面出现的频率频率D.Moivr204810610.5180L.Buffon404020480.5069K.person1200060190.5016K.person24000120120.5005Wiener30000149940.49984 43 3 利用主观概率利用主观概率一次性事件的概率叫主观概率(一次性事件的概率叫主观概率(subjective probability)主观概率是贝叶斯(主观概率是贝叶斯(Bayes)统计推断的基)统计推断的基础。础。5 概率的加法法则概率的加法法则51概率的加法公式概率的加法公式52 概率计算的工具概率计算的工具联列表联列表53 加法法则示例加法法则示例51 概率的加法公式概率的加法公式( Addition RuleAddition Rule )复合事件(复合事件( Compound Event )的概率)的概率2)P(A 或或 B)= P(A B) = P(A) + P(B) - P(A B)3)对于互斥事件)对于互斥事件:P(A 或或 B)= P(A B) = P(A) + P(B)ABA BAB事件事件事件事件B1B2总计总计A1P(A1 B1)P(A1 B2)P(A1)A2P(A2 B1)P(A2 B2)P(A2)总计总计P(B1)P(B2)152 概率计算的工具概率计算的工具联列表联列表联合事件Joint Probability边际 (简单) 概率Marginal (Simple) Probability53 加法法则示例复合事件: 抽一张牌. 注意种类, 颜色 颜色颜色类型类型红红黑黑总计总计A牌牌224非非A牌牌242448总计总计262652P(A牌 或者 黑色) = P(A牌)+ P(黑色) - P(A牌 黑色)6 联合概率、条件概率和独立事件联合概率、条件概率和独立事件61 联合概率、条件概率的定义联合概率、条件概率的定义62 用联列表表示条件概率用联列表表示条件概率63 用树形图表示条件概率用树形图表示条件概率64 乘法公式和事件的独立性乘法公式和事件的独立性65 事件独立性的应用事件独立性的应用61 联合概率、条件概率的定义联合概率、条件概率的定义联合概率就是两个事件联合概率就是两个事件A与与B同时发生的概率,同时发生的概率,记为记为P(AB)。条件概率:在条件概率:在B发生的条件下发生的条件下A发生的概率,发生的概率,就是就是B发生的条件下发生的条件下A发生的条件概率,记为发生的条件概率,记为P(A B)。 P(A B) =P(AB)/P(B)BA假定出现B,排除所有其他结果事件 (A 且 B)B颜色颜色类型类型红色红色黑色黑色总计总计A牌牌224非非A牌牌242448总计总计26265262 用列联表表示条件概率条件事件: 抽一张牌. 注意种类, 颜色 修正后的样本空间A牌 黑色 P(A牌 且 黑色)黑色63 树形图表示条件概率P(FA)P(FBA)P(FBFA)P(BFA)P(BA)P(A)FAABFBFBB(AB)(AFB)(FAB)(FAFB)例例1:条件事件:条件事件: 有有14支蓝笔和支蓝笔和6支红笔,从支红笔,从这这20支选出两支钢笔,不可替换支选出两支钢笔,不可替换.不独立不独立!蓝蓝红红蓝蓝红红蓝蓝红红P(红红) = 6/20P(红红|红红) = 5/19P(蓝蓝|红红) = 14/19P(蓝蓝) = 14/20P(红红|蓝蓝) = 6/19P(蓝蓝|蓝蓝) = 13/1964 乘法公式和事件的独立性乘法公式:设 P(B)0,有 P(AB)= P(AB) P(B)一个事件的发生不会影响另一个事件的发生,一个事件的发生不会影响另一个事件的发生,就称这两个时间相互独立。两个事件就称这两个时间相互独立。两个事件A A与与B B,如,如果果P(AP(AB)B)P(A)P(A),则,则A A与与B B为两个独立事件。为两个独立事件。此时此时P(AB)=P(A)P(B)P(AB)=P(A)P(B)。两个事件独立的测试条件:两个事件独立的测试条件:P(A | B) = P(A)P(A 且 B) = P(A)*P(B)65 事件独立性的应用事件独立性的应用问:问:1)抽烟与肺癌是否为独立事件?)抽烟与肺癌是否为独立事件?2)计算肺癌的概率,以及在抽烟的前提下肺癌的条)计算肺癌的概率,以及在抽烟的前提下肺癌的条件概率件概率是否患肺癌总数肺癌患者(C)非肺癌患者(FC)是否抽烟 抽烟(S)600200800不抽烟(FS)150450600总数7506501400p例例1:胸腔科医生根据:胸腔科医生根据1400名病患者资料,整名病患者资料,整理出了肺癌与抽烟的联列表资料:理出了肺癌与抽烟的联列表资料:P(SC)=600/1400 P(S)P(C)=800/1400*750/1400,所以,不是独立事件。P(C)=75/1400.53; P(CS)=P(SC)/P(S)= (600/1400)/(800/1400) 0.75。所以抽烟行为让你的肺癌概率大幅度提高。例例2(估计野生动物数量)(估计野生动物数量)。我们经我们经常听到有关野生动物数量的报道,比如海常听到有关野生动物数量的报道,比如海洋中的鲸鱼的数量,问题是:我们是如何洋中的鲸鱼的数量,问题是:我们是如何得到这些数字的?得到这些数字的?方法方法1 1(标记法)(标记法): 我们首先捕捉一批鲸鱼,假设我们首先捕捉一批鲸鱼,假设100头,做头,做上记号后放回去,过一段时间后我们再捕捉一批鲸鱼,假如上记号后放回去,过一段时间后我们再捕捉一批鲸鱼,假如有有1000头,其中这次的头,其中这次的1000头中有头中有10头是有记号的,也就说头是有记号的,也就说有有10头是前一次抓到的。头是前一次抓到的。第二次捕捉总数捕捉到(B)未捕捉到(FB)第一次捕捉捕捉到(A)1090100未捕捉到(FA)990总数1000N由于两次的捕捉是独立的,所以有:方法方法2 2(捕捉(捕捉捕捉法)捕捉法): 我们假设这一期捕捉了我们假设这一期捕捉了1000头鲸鱼,发现比头鲸鱼,发现比上一次捕捉到的数目少了上一次捕捉到的数目少了10,假定鲸鱼被捕捉假定鲸鱼被捕捉到的概率是固定的,同时两次捕捉期间没有鲸鱼到的概率是固定的,同时两次捕捉期间没有鲸鱼出生和死亡出生和死亡。 设前一期有 x条鲸,且鲸被捕的概率为 p,则这一期应有 (xxp)条鲸(不考虑自然死亡与新生的鲸),再由已知条件,得下列联立方程式已知条件,得下列联立方程式 这一期原有的鲸鱼数就为:那么,可求得如果要你估计连云港市流浪儿童的数目、如果要你估计连云港市流浪儿童的数目、连云港市吸毒人数的数目、犯罪人数。以连云港市吸毒人数的数目、犯罪人数。以上两种解法对你有何启示?上两种解法对你有何启示?7 贝叶斯定理(贝叶斯定理( Bayes Theorem )7-1 全概率公式全概率公式7-2 全概率公式的应用全概率公式的应用敏感问题的答案敏感问题的答案7-3 贝叶斯公式贝叶斯公式7-4 贝叶斯公式的应用贝叶斯公式的应用艾滋病普查艾滋病普查71 全概率公式全概率公式假设样本空间为假设样本空间为S,B1,B2,B3,-Bn为两两不相容的为两两不相容的事件,且有:事件,且有: B1 B2 B3 - Bn S则对于任意事件则对于任意事件A,有全概率公式:,有全概率公式:B1B2B3B5B4A7-2 全概率公式的应用全概率公式的应用敏感问题的答案敏感问题的答案1965年,年,Stanley L. Warner发现了一种应用全发现了一种应用全概率公式来得到敏感问题答案的方法。概率公式来得到敏感问题答案的方法。实验:请大家抛一次硬币,如果硬币国徽面朝上实验:请大家抛一次硬币,如果硬币国徽面朝上则回答问题则回答问题 a),如果是字面朝上则回答问题),如果是字面朝上则回答问题 b)。)。 问题问题a): 你学生证(或者学号)的最后一位数是奇数吗你学生证(或者学号)的最后一位数是奇数吗? 是不是是不是问题问题b): 成为华科学生后,你是否曾非法买或卖过自行车成为华科学生后,你是否曾非法买或卖过自行车?是不是定义下列事件:定义下列事件: A 回答回答“是是”的学生;的学生;E1 回答问题回答问题 a) 的的学生;学生;E2 回答问题回答问题 b) 的学生的学生我们还可以得出:我们还可以得出: P(E1)=0.5, P(E2)=0.5, 和和 P(A|E1)=0.5我们想要知道我们想要知道P(A|E2),即回答第二个问题的学,即回答第二个问题的学生中答生中答“是是”的概率。的概率。 因为事件因为事件E1和和E2为互斥完备事件组,所以为互斥完备事件组,所以 P(A) = P(E1A) + P(E2A) = P(A|E1)P(E1) + P(A|E2) P(E2) 0.5* 0.5+ P(A|E2) * 0.5我们如果知道了我们如果知道了P(A) ,当然就知道了,当然就知道了P(A|E2)73 贝叶斯公式贝叶斯公式新的信息新的信息修正后概率修正后概率应用应用贝叶斯定理贝叶斯定理先前的概率先前的概率特别的,当将样本空间划分为两个事件 和7-4贝叶斯公式的应用贝叶斯公式的应用艾滋病普查艾滋病普查确切的艾滋病病毒携带者的数目是不知道的,但确切的艾滋病病毒携带者的数目是不知道的,但是据估计为是据估计为10-6。假设艾滋病的检验方法假设艾滋病的检验方法血液试验(血液试验(ELISA,酶连酶连接免疫吸附测定)。其检验精度为:一个艾滋病接免疫吸附测定)。其检验精度为:一个艾滋病者,检验结果为阳性的概率为者,检验结果为阳性的概率为95,也就是说假,也就是说假阴性的概率为阴性的概率为5;一个非艾滋病者,检验结果;一个非艾滋病者,检验结果为阴性的概率为为阴性的概率为99,即假阳性的概率为,即假阳性的概率为1。假若某人做了血液实验且结果为阳性,他真正得假若某人做了血液实验且结果为阳性,他真正得了艾滋病的可能性有多大?了艾滋病的可能性有多大?假设事件HIV代表一个随机选择的中国人患有艾滋病 ,事件FHIV代表一个随机选择的中国人未患有艾滋病 ;RP代表测试的反应为阳性。(HIVRP)(HIVFRP)(FHIVFRP)(FHIVRP)HIVFHIVRPFRPRPFRPP(FHIV)=1106P(HIV)=106P(RP|HIV)0.95假阴性P(FRP|HIV)0.05假阳性P(RP|FHIV)0.01P(RP|FHIV)0.99如何改进?方法方法1:提高敏感度:提高敏感度 也就是降低假阴性的比率,希望真的有病的人实验结果呈阳性,就假设提高到1。效果不大!(HIVRP)(HIVFRP)(FHIVFRP)(FHIVRP)HIVFHIVRPFRPRPFRPP(FHIV)=1106P(HIV)=106P(RP|HIV)1假阴性P(FRP|HIV)0假阳性P(RP|FHIV)0.01P(RP|FHIV)0.99方法方法2:提高特异性:提高特异性。降低假阳性。假设将假阳性降低为0.001。 结果也会不理想!(HIVRP)(HIVFRP)(FHIVFRP)(FHIVRP)HIVFHIVRPFRPRPFRPP(FHIV)=1106P(HIV)=106P(RP|HIV)0.95假阴性P(FRP|HIV)0.05假阳性P(RP|FHIV)0.001P(RP|FHIV)0.999方法3:提高发生率。假设发生率提高为1100,则为48.97%!(HIVRP)(HIVFRP)(FHIVFRP)(FHIVRP)HIVFHIVRPFRPRPFRPP(FHIV)=1102P(HIV)=102P(RP|HIV)0.95假阴性P(FRP|HIV)0.05假阳性P(RP|FHIV)0.01P(RP|FHIV)0.99这就是为什么美国卫生官员在1986年3月,建议对处于感染艾滋病“高度危险”的美国人做重复的血液试验以决定他们是否感染上了这种病毒8 相关的概念相关的概念优势赔率优势赔率反对一个事件的优势是指,一个事件没发生的可能性与其发生的可能性的比较,它一般表示为整数之比。悉尼成功的概率9(49)0.69城市城市优势优势悉尼4:9北京5:2曼彻斯特10:3柏林16:1伊斯坦布尔 66:1巴西尼亚200:1赔率其实把优势反过来写。参参赛队赛队赔赔率率阿根廷2赔7法国2赔9巴西1赔7英格兰1赔7中国1赔200沙特1赔2509 离散变量的概率分布离散变量的概率分布91 二项分布二项分布92 Poisson分布分布91 二项分布二项分布(Binomial distribution)00111001100001 -抛抛100次硬币,观察正面朝上的结果,次硬币,观察正面朝上的结果,1国徽;国徽;0数字数字(1)一次试验的结果只有两种可能结果:成功)一次试验的结果只有两种可能结果:成功(1)和失败()和失败(0););(2)反复重复该试验)反复重复该试验n次;次;(3)每次实验之间相互独立;)每次实验之间相互独立;(4)每一次试验中的)每一次试验中的“成功成功”的概率皆相同,的概率皆相同,假设为假设为p。符合以上四个条件的随机试验就是二项试验。符合以上四个条件的随机试验就是二项试验。如果用如果用K表示表示n次试验中成功的次数,则我们称次试验中成功的次数,则我们称K为二项随机变量,记为:为二项随机变量,记为:二项试验二项试验(Binomial experiment):二项分布公式二项分布的运用举例二项分布的运用举例根据一项调查显示,我国大学生的近视的根据一项调查显示,我国大学生的近视的比例高达比例高达7成,如果这个比例是正确的话,成,如果这个比例是正确的话,则随机抽取则随机抽取10位大学生,问:位大学生,问:近视人数少于近视人数少于5人的概率是多少?人的概率是多少?首先检查是不是二项试验。是的!首先检查是不是二项试验。是的!假设用假设用X表示表示10人中近视的人数,则人中近视的人数,则XB(10,0.7)注意:当np5,且n(1-p)5时,二项分布近似服从正态分布。92 Poisson分布分布 如果我们要求解,如果我们要求解,在特定的时间或者特定在特定的时间或者特定的空间内,某一特定事件发生特定次数的空间内,某一特定事件发生特定次数的概率,的概率,我们就要借助于我们就要借助于Poisson分布分布Poisson分布举例早上8点9点,通过武汉长江大桥的车辆台数晚上7:30-8:00,超市顾客到柜台结帐的人数一个月内,武宜高速公路上发生车祸的人数晚上10:00-11:00,淮海工学院校园内上网的人数。楚天都市报一个版面中,错别字的个数纺织厂生产的一捆布中,线头打结的个数一桶哈根达斯冰淇淋,挖取一球,其中所含葡萄干的个数。我们用我们用 表示事件在特定的时间或者特定表示事件在特定的时间或者特定的空间内发生次数的均值,那么事件发生的空间内发生次数的均值,那么事件发生x次的概率可以用下面公式计算:次的概率可以用下面公式计算:Poisson分布应用举例分布应用举例依据过去一年的统计资料,资料显示连云依据过去一年的统计资料,资料显示连云港市电信局市内电话交换机在星期天晚间港市电信局市内电话交换机在星期天晚间8:008:05时间段内,转接电话的平均数时间段内,转接电话的平均数为为10线。今天又是星期天。线。今天又是星期天。(1)若用)若用X表示今天晚上表示今天晚上8:008:05时间时间段内交换机的转接电话线数,则段内交换机的转接电话线数,则X的概率函的概率函数形式是什么?数形式是什么?(2)上述时间内,电话少于)上述时间内,电话少于4线的概率线的概率例例2 物流管理问题物流管理问题某物流仓储管理中心,目前的设备只能处某物流仓储管理中心,目前的设备只能处理理4个货柜的到货量。如果一天的到货量超个货柜的到货量。如果一天的到货量超过过4个,就必须转至其他的仓储中心。根据个,就必须转至其他的仓储中心。根据统计资料显示,平均每天到达的货柜数为统计资料显示,平均每天到达的货柜数为3。(1)每个营业日,它必须将货柜转送到其)每个营业日,它必须将货柜转送到其它仓储中心的概率是多少?它仓储中心的概率是多少?(2)为了使这个仓储中心每天处理货柜的)为了使这个仓储中心每天处理货柜的服务率达到服务率达到98,需不需要增加设备?,需不需要增加设备?假设用假设用X表示每天到达的货柜数量表示每天到达的货柜数量(1)P(必须转送他处)(必须转送他处)P(X4)1P(X=4)0.1848100天中大概有天中大概有18天会面对转送的情况天会面对转送的情况(2)目前的服务率)目前的服务率P(X=4)10.1848=0.8152,所以达不到,所以达不到98。查表可以知道,必须扩充设备直到能处理查表可以知道,必须扩充设备直到能处理7个个货柜。货柜。问题问题3:求仓储中心每天处理的平均货柜数:求仓储中心每天处理的平均货柜数到达的到达的货货柜数柜数(X)处处理量理量(Y)X=0Y=0X=1Y=1X=2Y=2X=3Y=3X=4Y=4-Y=4Y01234P(Y) 0.04980.14940.22400.22400.3528E(Y)=2.6806设备的平均利用率为E(Y)/467.02%10 连续变量概率分布连续变量概率分布101 标准正态分布标准正态分布102 t-分布分布103 X2分布分布104 F分布分布101正态分布概率密度函数正态分布概率密度函数 Probability Density Functionf(X) =随机变量随机变量 X 的密度函数的密度函数 =3.14159; e = 2.71828 =总体的标准差总体的标准差 X=随机变量的值随机变量的值(- X ) =总体的均值总体的均值当当 =0, =1时,就是标准正态分布时,就是标准正态分布参数变化参数变化 ( 和和 )对分布图形的影响对分布图形的影响Xf(X)CAB正态分布概率正态分布概率Normal Distribution Probability概率为分布曲线以下区域的面积!cdXf(X)P cXdf X dxcd()()? Z = 0 z = 1Z正态分布的标准化正态分布的标准化Standardized Normal Distribution 一一 张张 表表 !正态分布正态分布标准正态分布标准正态分布X Z Z= 0 Z = 1.12标准化示例标准化示例 Standardizing Example正态分布正态分布标准正态分布标准正态分布X = 5 = 106.2标准正态分布图像0-1-2-3312标准正态z形象的理解标准正态分布11.211.251.70.7-0.42.360.21-0.070-1-2-3312计计 算算 概概 率率 Obtaining the Probability附表附表1标准正态分布表(部分)标准正态分布表(部分)阴影部分经过放大处理Z Z= 0 Z = 10.12Z010.0 .5000 .5040 .5080.5398 .54380.2 .5793 .5832 .58710.3 .6179 .6217 .62550.547820.1.5478概率 z = 0 Z = 1.30Z.21示示 例例P(7.1 X 8)正态分布正态分布.5832.6179 .0347标准正态分布标准正态分布阴影部分经过放大处理ZXZX7151021851030. = 5 = 1087.1X正态分布思考题正态分布思考题试想您在通用电器公司的质量控制部门工作。灯泡寿命服从正态分布= 2000 小时 = 200 小时。 灯泡寿命为以下值的概率为多少?A. 2000 2400小时?小时? B. 1470 小时以下?Z.000.20.0 .0000 .5040 .50800.1 .5398 .5438 .54780.2 .5793 .5832 .5871.6179.6255Z Z= 0 Z = 1.31根据左尾概率求Z值.6217.010.3.6217标准正态概率(部分)给定给定P(Z) = 0.6217求求Z?阴影部分经过放大处理Z Z= 0 Z = 1.31X = 5 = 10?已知概率求已知概率求X值值正态分布正态分布标准正态分布标准正态分布 .6217 .6217阴影部分经过放大处理标准正态分布的一个主要作用是,找到某标准正态分布的一个主要作用是,找到某一个特别的值以及比它更极端的一个特别的值以及比它更极端的z值的概率。值的概率。例如:假设我们要问一个例如:假设我们要问一个z=2.34,它是否属它是否属于一个不常见的集合?于一个不常见的集合?2.340-1-2-33120.00960.9904钟形对称尾部较大Zt102 t分布分布(学生学生) t 分布分布 Students t Distribution0t (df = 5)标准正态 t (df = 13)t分布不是一个单独分布,而是分布不是一个单独分布,而是一族一族分布分布1号桶2号桶3号桶50号桶标签编号等价于自由度标签编号等价于自由度右端尾部区域右端尾部区域df.75.90.9511.000 3.078 6.31420.817 1.886 2.92030.765 1.638 2.353t0附表附表3 学生的学生的 t 表表 Students t Table假设:df= 2 =0.05P=1- =0.952.920t 值p1.05103 X2分布自由度为3的卡方分布X2分布也是一一族族分布,桶的标签为自由度24681010-4 F-分布1234(1,9)(4,40)3,5号桶2, 50号桶自由度为4和40的F分布第四讲 置信区间估计Confidence Interval Estimation思考题思考题Thinking Challenge假定你对本班学生 (总体) 手头现金的平均数量感兴趣, 你会怎样求出它呢?如何估计人们打移动长途电话的平均通话时间?如何估计连云港市每个月的公费医疗支出平均额?如何估计淮海工学院拥有轿车的老师的比例?统计方法统计方法统计方法统计方法统计描述统计描述统计推断统计推断估计估计假设检验假设检验本讲主要内容本讲主要内容均值均值 未知未知置信区间置信区间比例比例 已知已知方差方差1 区间估计的基本概念1-1 估计过程1-2 样本统计量1-3 抽样分布1-4 区间估计的概念1-1 估计过程估计过程均值是未知的总体总体随机样本随机样本我有 95% 的把握认为 在40和60之间.均值 = 501-2样本统计量121 样本统计量的定义样本统计量的定义:简单的说,:简单的说,就是就是不含任何未知参数不含任何未知参数的样本的函数。的样本的函数。假设假设 是来自总体的一个样本,是来自总体的一个样本,如果函数如果函数 中不含任何未知参中不含任何未知参数,则称数,则称 就是一个统计量。就是一个统计量。另外,另外, 假设假设 是样本是样本 相应的相应的观察值,则称观察值,则称 为统计量为统计量 的观察值。的观察值。 注意:样本统计量是个变量!是一个随机注意:样本统计量是个变量!是一个随机变量变量(1)样本均值样本均值(2)样本标准差)样本标准差将作为估计用的样本统计量称为估计量将作为估计用的样本统计量称为估计量(estimator)。将作为假设检验用的样本)。将作为假设检验用的样本统计量称为检验量(统计量称为检验量(tester) 最常用的两个样本统计量样本统计量的示意表样本第1次抽样第2次抽样- 第100次抽样X1(x1)32(x1)49- (x1)46X2(x2)46(x2)38-(x2)47X3(x3)47(x3)45- (x3)43X4(x4)40(x4)42- (x4)38X5(x5)43(x5)41- (x5)4541.643 - 43.8S1=6.024S2=4.183- S100=3.563常见的总体参数和样本统计量常见的总体参数和样本统计量估计总体参数均值均值 比例比例p p ps方差方差 s2差异差异121 2相应样本统计量13 抽样分布 1-3-1 抽样分布的定义抽样分布的定义:样本统计量的概率分布样本统计量的概率分布就是我们所说的抽样分布。例如:样本均值 的概率分布,样本方差S2(或标准差S)的概率分布。思考题:假设一个瓶中装有5个小球,分别编号为:3,6,9,12,15。 计算: (1)球号的均值和方差假设从瓶中先后随机的抽取出3个球,每次取球后不放回,计算: (2)3个球号平均值的抽样分布,及其期望值与方差36912151515151515(3,6,9)(3,6,12)(3,6,15)(3,9,12)(3,9,15)(6,9,12)(6,9,15)(3,12,15)(6,12,15)(9,12,15)6789101112样本空间随机变量6789101112110 110 210 210 210 110 110可见:可见: 的统计性质的统计性质1 定理定理1 1:假设总体,为n个来自这个总体的随机样本,为这n个样本的样本平均数,则:(1)(2)定理定理1的适用条件有的适用条件有2个:个:(1)总体为无限总体;)总体为无限总体;(2)总体如果是有限总体,但抽样的方式要采用放回方式进)总体如果是有限总体,但抽样的方式要采用放回方式进行。行。定理2:有限总体,不放回抽样方式下定理1的修订:假设总体 ,共有N个元素, 为n个采取不放回方式抽取到的样本值(nN), 为这n个样本的样本平均数,则: (1) ; (2)定理定理3:中心极限定理:中心极限定理假设总体 , 为来自这 个总体的n个随机样本, 为这n个样本的样本平均数,当抽样数n足够大(30个就可以了)的时候,则: 为近似正态分布,且分布为 :14 区间估计的概念区间估计的概念141 置信区间的定义置信区间的定义 若总体分布含一个未知参数(例例如如总总体体期期望望),找出了2个依赖于样本X1,X2,, Xn的估估计计量量(例例如如样本均值)样本均值): 1 (X1,X2,, Xn) 2 (X1,X2,, Xn) 使 P(1 2) = 1 - 其中,(1-)称为置置信信水水平平;随随机机区区间间(1,2)为的(1-)的置信区间。置信区间。置信区间总体参数置信边界 (下界)1 (X1,X2,, Xn)置信边界 (上界) 2 (X1,X2,, Xn)随机区间覆盖总体参数的概率注意:注意:(1) 是我们事先给定的,是我们事先给定的,01,一般一般取取0.05或或0.01。(2)置信区间是一个随机区间,因为样本)置信区间是一个随机区间,因为样本统计量是个随机变量,但是一旦样本确定,统计量是个随机变量,但是一旦样本确定,它就是一个确定的区间。它就是一个确定的区间。(3)当我们确定了)当我们确定了(例如为(例如为0.05),如果如果要求取置信区间,我们一定要找到一个样要求取置信区间,我们一定要找到一个样本统计量的抽样分布。本统计量的抽样分布。2 已知情况下的均值估计已知情况下的均值估计均值均值 未知未知置信区间置信区间比例比例 已知已知方差方差 假设我们想研究连云港市新浦区2006年下岗职工家庭的月平均收入为多少,通过相关部门了解到,2006年该区有下岗职工家庭户12000户,其中月平均收入的方差为30。用简单随机不重复抽样的方法,抽取120户做调查,得知月平均收入为600元,方差为40元。问题:在95的置信水平下,估计全区下岗职工家庭户的月平均收入的置信区间。2 1 引例引例如何做?按照置信区间的定义P(1 30,所以依据t分布的正态近似,我们仍然可以认为:思考题移动电话公司为了制定国内长途分阶段定价的策略,当然要对人们的平均通话时间长度进行估计。假设随机抽取并记录了10个电话的通话时间(单位:秒),为:210,620,860,1120,1810,940,730,1190,1070,320。可以计算得到:样本均值 ,s=460.77。(2)估计每个电话的平均通话时间的95置信区间。4 总体比例总体比例 估计估计均值均值 未知未知置信区间置信区间比例比例方差方差 未知未知 10抽样寻找估计量估计量的抽样分布依据抽样分布和置信水平(1)计算出置信区间XBernoulli(p)x1,x2,-,xnn=30xi=x1+x2+-+xnE(X)=PD(X)=P(1-P) =pq例题某地区卫生局想估计该地区死于恶性肿瘤的人口比率,随机抽样了1500个死因病历,发现其中有670位死于恶性肿瘤。估计病人因恶性肿瘤死亡的比例的99置信区间。解:假设总体的比例为P,抽样步骤已经完成,下面的工作是找到统计量及其抽样分布。估计量为样本比例样本比例的抽样分布为思考题请你说出如何估计淮海工学院老师中拥有轿车的老师比例。假设随机抽取了200个老师,其中有90个老师说自己拥有轿车。请估计:拥有轿车的老师所占的比例的95的置信区间。5 区间估计注意(1) 选取样本的时候一定要是随机抽样,不能是自选样本(2 )如果我们的样本是整个总体(当然非常少见),就不需要求置信区间(3)样本容量的问题求样本容量(求样本容量(Sample Sizes)思考题思考题 Thinking Challenge你在某公司的人力资源部工作。你计划在员工中进行调查以求出他们的平均医疗支出。 你希望有 95% 置信度使得样本均值的误差在 RMB50 以内。初期研究表明 X 约为 RMB400。你将确定多大的样本容量?课外习题试着收集数据以估计淮海工学院本科生的95的置信区间:(1)每晚7点10点间上网的比例(2)月生活费(3)拥有自行车学生的比例第五讲 假设检验Hypothesis Testing 本讲主要内容1. 引例2.假设检验的基本步骤3.假设检验的基本概念4.单总体均值(含比例)的假设检验5.两个正态总体检验6.案例圣经里真有密码吗?1. 引例引例1.1 引例1假设有一个魔术师抛了10次硬币,每一次都是正面。我们要问这枚硬币是均匀的吗?判断步骤YN1.1.作出假设。作出假设。硬币是均匀的硬币是均匀的2.在在前前面面的的假假设设基基础础上上, ,收收集集数数据据计计算算概概率率p p。计计算算该该事事件件出现的概率出现的概率p=(12)10110240.0013.3.判判断断:p0.05p0.05吗?吗?4.24.2假设正确。假设正确。硬币是均匀的硬币是均匀的4.14.1假设错误。假设错误。硬币不均匀硬币不均匀1.2 美国越战征兵再回顾1183366305931/71/114/98/631/1210011073求解步骤YN1 1、作出假设、作出假设。假设抽签是随机的2 2、在在前前面面的的假假设设基基础础上上, ,收收集集数数据据计计算算概率概率p p。计算该事件出现的概率:P=0.00323 3、 判判 断断 :p0.05吗?4.24.2假设正确假设正确抽签是随机的4.14.1假设错误假设错误抽签不随机1.3 思考题假设一个办公室有10个员工,5男5女。现在公司高层想从中选4个人出来组成一个委员会,调查办公室中与性别有关的问题。当然员工希望委员会的人员是随机选取的。选取结果出来了:4人中全部是女性。问:公司高层的这种选择是随机的吗?YN1 1、作出假设、作出假设。假设选取是随机的2、在在前前面面的的假假设设基基础础上上, ,收收集集数数据据计计算算概概率率p p。计计算算该该事事件件出出现现的的概概率率:P=0.0238P=0.02383 3、 判判 断断 :p0.05p0.05吗?吗?4.24.2假设正确。假设正确。选取是随机的4.14.1假设错误。假设错误。选取非随机的1.4 稍显不同的例题X为产品质量的某种衡量指标,假设生产线的产出分布为XN(,0.04),公司产品的质量规格为40。质管人员想检验生产线的稳定性如何,从生产线上随机抽取了4个样品: 40.012, 39.915, 40.023, 39.926。问:生产线稳定吗?YN1 1、做出假设、做出假设。假假设设是是稳稳定定的的:403、在在前前面面的的假假设设基基础础上上, ,依依据据(样样本本)数数据据,计计算算出出一一个个概率概率p p。3 3、判判断断:p0.05p0.05吗吗?4.24.2假设正确。假设正确。4.14.1假设错误。假设错误。2、收收集集(样样本本)数数据:据:40.012,39.915,40.023,39.926N如何求出一个如何求出一个概率概率P呢?呢?求概率P2.假设检验的基本步骤假设检验的基本步骤YN1 1、做出假设、做出假设。3、在在前前面面的的假假设设基基础础上上, ,依依据据(样样本本)数数据据,计计算算出出一一个个概率概率p p。3 3判判断断:p0.05p30H1:p:接受零假设PP5,n(1-p)5)2. 使用使用Z统计量统计量 0为假设的总体比例。分母为样本比例的抽为假设的总体比例。分母为样本比例的抽样标准差,一般采用样标准差,一般采用0计算,也有人认为可计算,也有人认为可以用样本比例以用样本比例p计算。计算。【例例】某某研研究究者者估估计计本本市市居居民民家家庭庭的的电电脑脑拥拥有有率率为为30%。现现随随机机抽抽查查了了200个个家家庭庭,其其中中68个个家家庭庭拥拥有有电电脑脑。试试问问研研究究者者的的估估计计是是否否可信?可信? ( =0.05)解:解:已知:已知:0=0.3,n=200, 提出假设:提出假设:假定估计可信假定估计可信 H0: =0.3 H1: 0.3 =0.05双侧检验双侧检验 /2 /2=0.025 得临界值得临界值:Z0.025=1.96计算检验统计量值计算检验统计量值:Z值落入接受域,值落入接受域,在在 =0.05的水平上接受的水平上接受H0有证据表明研究者的估有证据表明研究者的估计可信计可信决策决策:结论结论结论结论: :Z Z0 01.961.96-1.96-1.960.0250.025拒绝拒绝拒绝拒绝 H H0 0拒绝拒绝拒绝拒绝 H H0 00.0250.025得两个拒绝域:得两个拒绝域:(-,-1.96)和和(1.96,)5两个正态总体两个正态总体检验独立样本均值差异检验。可以进一步分为:方差未知但方差相等(方差齐)方差未知且方差不等(非齐次方差)配对样本均值差异检验注意:所以,独立样本均值检验的时候首先要对首先要对两个总体的方差是否相同做检验。两个总体的方差是否相同做检验。SPSS把这个检验称之为Levene检验检验(Levene test for equality of variance)5-1 独立样本均值差异检验独立样本均值差异检验 1988年年7月月28日的纽约时报上刊登了一篇日的纽约时报上刊登了一篇有关人们地理知识的文章有关人们地理知识的文章. 这篇文章中描述了这篇文章中描述了一个研究结果一个研究结果. 研究者们从四个国家抽取研究者们从四个国家抽取许多许多成年人并请他们鉴别在一张地图上的成年人并请他们鉴别在一张地图上的16个地方个地方(包括包括13个国家、中非、波斯湾和太平洋个国家、中非、波斯湾和太平洋);然;然后把每个人答对的个数加起来后把每个人答对的个数加起来.四个国家的样本中答对的个数的均值如下:四个国家的样本中答对的个数的均值如下:美国美国 6.9 墨西哥墨西哥 8.2大不列颠大不列颠 9.0 法国法国 9.2平均来看,法国的回答者有可能在地图上找平均来看,法国的回答者有可能在地图上找到的地方比其他三个国家的人要多到的地方比其他三个国家的人要多.美国美国 6.9 墨西哥墨西哥 8.2大不列颠大不列颠 9.0 法国法国 9.2几国答对个几国答对个数的均值数的均值这篇文章称这篇文章称“从统计显著性方面考虑,得分从统计显著性方面考虑,得分相差至少应在相差至少应在0.6以上才算有差异以上才算有差异.”也就是说,样本均值的不同可能仅仅归于也就是说,样本均值的不同可能仅仅归于随机性随机性. 仅当两样本均值仅当两样本均值相差在相差在0.6以上以上才才认为两国均值是有差异的认为两国均值是有差异的.美国美国 6.9 墨西哥墨西哥 8.2大不列颠大不列颠 9.0 法国法国 9.2几国答对个几国答对个数的均值数的均值 我们来探讨墨西哥的总体均值是否等我们来探讨墨西哥的总体均值是否等于美国的总体均值于美国的总体均值.要检验的假设是:要检验的假设是:我们用我们用 表示墨西哥的总体均值,表示墨西哥的总体均值,用用 表示美国的总体均值表示美国的总体均值取检验统计量取检验统计量已知已知n1=1200, n2=1600,计算得计算得t 的实测值等于的实测值等于4.25.已知墨西哥的样本中有已知墨西哥的样本中有1200个观测,美国个观测,美国的样本中有的样本中有1600个观测个观测.计算检验的计算检验的p值值.用计算机上软件可求得用计算机上软件可求得p值值=P(|t |4.25)0.00001 于是我们认为墨西哥和美国两个总体于是我们认为墨西哥和美国两个总体均值差异不是均值差异不是0. 5-2 配对样本(Paired Sample)与简单t检验类似6. 6. 案例案例圣经里真有密码吗圣经里真有密码吗?6.1 引言推推背背图图推推背背图图6.2 论战起源1994年年8月,魏茨滕月,魏茨滕 、芮普斯及罗森博格在期刊、芮普斯及罗森博格在期刊Statistical Science中发表了一篇名为圣中发表了一篇名为圣经创世记里的等距字母序列的论文(以下简称经创世记里的等距字母序列的论文(以下简称魏文)。魏文)。“Equidistant Letter Sequences in the Book of Genesis”, Statistical Science, 429-438等距字母序列(ELS)早期的ELSSTSFGLOHAKEROLTOEIOPNOUAHEIVLSDOTNKEHALOMPHKEROFHARTRNYPMNALEONDDJGALF等距字母序列(ELS) (续)“创世纪”第三十一章第二十八节为例子And hast not suffered me to kiss my sons and my daughters?Thou hast now done foolishly in so doing.(又不容我与外孙和女儿告别,你所行的真是愚昧!)我们先把空格和标点符号去掉,合并成字符串:AndhastnotsufferedmetokissmysonsandmydaughtersThouhastnowdonefoolishlyinsodoing物理学家托马斯(David Thomas)以英王钦定版(King James Version) 等距字母序列(ELS) (續)AndhastnotsufferedmetokissmysonsandmydaughtersThouhastnowdonefoolishlyinsodoingROSWELL从 ”daughters” 的r 开始,跳过三个字母AndhastnotsufferedmetokissmysonsandmydaughtersThouhastnowdonefoolishlyinsodoingUFO6.2.1 提出假设思考题:魏文是想要证明创世纪思考题:魏文是想要证明创世纪中的三十二位拉比的名字与他们中的三十二位拉比的名字与他们出生死亡日期的出生死亡日期的ELS 的排列不是的排列不是偶然的。偶然的。那么魏茨滕那么魏茨滕 、芮普斯及、芮普斯及罗森博格应该如何设置他们的假罗森博格应该如何设置他们的假设?设?HO:三十二位教士的名字与他们出生死亡日期的 排列是偶然的H1:三十二位教士的名字与他们出生死亡日期的排列并不是偶然的魏文的魏文的拉比(Rabbi)实验 (A)选取样本n将希伯来文的创世纪排成无空隙将希伯来文的创世纪排成无空隙的一长串的一长串 L=78,064 字字 G=g1gL n从 Encyclopaedia of Great Men in Israel (9世纪至18世纪末)选出32位 Rabbi n定义:xi=名字;yi=出生、死亡日期魏文的魏文的拉比(Rabbi)实验 (B)定义距离设置检验统计量对一个二维度的字符串(xi , yi)定义一个距离c (xi , yi),目的在于将资料定量化魏文找到了一个距离,但是公式复杂、抽象,用一个类似的例子来说明假设现在有假设现在有8 8对夫妇共对夫妇共1616个人,我们姑且用数学上的数个人,我们姑且用数学上的数对符号(对符号(X1,Y1X1,Y1),(),(X2,Y2X2,Y2),(),(X3,Y3X3,Y3),),-, ,(X8,Y8X8,Y8)来称呼他们,亦即,)来称呼他们,亦即,X1 X1 和和Y1 Y1 是夫妇,是夫妇,X2 X2 和和Y2 Y2 是夫妇,以此类推,排成两排吃饭。其中第一排是夫妇,以此类推,排成两排吃饭。其中第一排坐先生,第二排坐太太,且假定先生的位置依次坐下,坐先生,第二排坐太太,且假定先生的位置依次坐下,而太太们的作为可以改变。假设他们的排列次序(而太太们的作为可以改变。假设他们的排列次序(P1P1)如下如下我们就可以定义这个特定排列P1的距离为:D(P1) | 1-7| + | 2-4| + |3-2| + |4-8| + |5-6| + |6 -3| + |7-5| + |8-1| = 2612345678X1X2X3X4X5X6X7X8Y7Y4Y2Y8Y6Y3Y5Y1固定共有共有 8! = 40320 种方法,距离的可能值为:种方法,距离的可能值为: 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32共有共有17种,种,这些距离值在这些距离值在 8! 中出现的次数分别为中出现的次数分别为1, 7, 33, 115, 327, 765, 1523, 2553, 3696, 4852, 5708, 5892, 5452, 4212, 2844, 764, 576 。所以可以算出得到某一距离值的频率,例如距所以可以算出得到某一距离值的频率,例如距离值为离值为 2 的频率是的频率是 7/40320 = 0.000173611,距离值为距离值为 32 的频率是的频率是 576/40320 = 0.0142857。也可以画出其分布图。也可以画出其分布图。分布图分布图魏文中拉比实验的距离试验(1)魏文一共选择了32位拉比,那么其排列方式就有 32! 种,32!1030。如果用世界上最快的计算机(每秒万亿次)来计算,需要年不可能完成,如何办?不可能完成,如何办?拉比实验的距离试验(2)利用统计学的抽样。利用统计学的抽样。利用电脑通过“简单随机抽样”方式进行,分别抽取2万,10万,100万个样本。将样本中的距离值用条形图的方式表示出来。就得到后面的三个图【图1】样本数为2万个的条形图,图中1%的位置为距离值252,5%的位置为距离值278,50%的位置为距离值342,95%的位置为距离值404,99%的位置为距离值428,99.95%的位置为距离值452 1%5%99.95%【图2】样本数为10万个的长条图,图中1%的位置为距离值252,5%的位置为距离值278,50%的位置为距离值342,95%的位置为距离值402,99%的位置为距离值426,99.95%的位置为距离值454。【图3】样本数为100万个的长条图,图中1%的位置为距离值252,5%的位置为距离值278,50%的位置为距离值342,95%的位置为距离值402,99%的位置为距离值426,99.95%的位置为距离值454。从【图1】至【图3】可以看出95%以上的距离小于 402,99%以上的距离小于 426,而距离超过 454的机率不会大于0.0005。魏茨滕等人的文章中说明,若以他们所定义魏茨滕等人的文章中说明,若以他们所定义的距离去计算那三十二位犹太教士,有关名的距离去计算那三十二位犹太教士,有关名字和生日的相关排列位置,其结果是应该拒字和生日的相关排列位置,其结果是应该拒绝绝 H H0 0,而且其而且其 P P 值均远低于值均远低于0.050.05(实际上为(实际上为0.000020.00002),),也就是说,那三十二位犹太教士的名字及生那三十二位犹太教士的名字及生日的排列,铁定是不寻常的日的排列,铁定是不寻常的。 战争与和平(War and Peace)对照实验实验结果不显著LeoTolstoy6.3 密码盛行1997年5月28日,The New York Times 全页广告The Bible Code (圣经密码)作者:Michael Drosnin (卓思宁)(前华盛顿邮报,华尔街日报记者)“根据密码显示,拉宾的名字和暗杀连在一起” (1994年9月给拉宾信,1995年11月拉宾死于刺客之下)期刊、数学家证明了密码的存在。(同行审核的)摩西五经(创世记、出埃及记、利未记、民数记、申命记)都发现藏有圣经密码6.4论战初起是有东西在,可是是密码吗?对立假设是什么呢?( H1:三十二位教士的名字与他们出生死亡日期的排列并不是偶然的)批评:(1)Rips 认为数学家的反应: F.P. Ramsey 定理-宴会问题,完全的无秩序是不可能的战争与和平、白鲸记用相同的方法也藏有密码6.4.1 批评(1)同门相残不能预测,有些有些“翻翻译译”的密码统计意义的密码统计意义不显著不显著6.4.2 数学家的反应Ramsey定理Frank Plumpton Ramsey(19031930)Paul Erds(1913-1996)Ramsey定理说 ,“世界上的事物不可能完全无序”。意思就是说,只要点数够多,我们就可以在里面“看出”你要的任何图像,所以你可以在夜空中看到各种星座;同理,叫一只猩猩在打字机上乱打,只要字母够长,你可以找到你要的任意有意义的句子,Drosnin用计算机做所谓等距密码,其实道理是一样的. 6.4.3 对照实验战争与和平、白鲸中的密码Michael Drosnin反驳道:“你只要在白鲸(Moby Dick) 中找到密码,I就服了U”澳大利亚国立大学的一位计算机教授-Brendan McKay,找到了印度总理甘地被刺的“信息”:O R W I T H A W H I T E P N A H A B Y O U N G M A NK L E S H I S G R A N D D D S Y E T I N G E N E R A T H E B L O O D Y D E E D E R M W H A L E S H E A DT T O I M P O S S I B L E IndianPrimeMinisterIndiraGandhiwaskilledonOct31,1984O R W I T H A W H I T E P N A H A B Y O U N G M A NK L E S H I S G R A N D D D S Y E T I N G E N E R A T H E B L O O D Y D E E D E R M W H A L E S H E A DT T O I M P O S S I B L E O R W I T H A W H I T E P N A H A B Y O U N G M A NK L E S H I S G R A N D D D S Y E T I N G E N E R A T H E B L O O D Y D E E D E R M W H A L E S H E A DT T O I M P O S S I B L E 美国林肯总统遇刺“信息”美国总统肯尼迪遇刺的“信息”以色列总理拉宾遇刺的“信息”4.5 正式反驳1999年 B. Mckay (数学,计算机)Australia National U., D. Bar-Natan (数学) Hebrew U., M. Bar-Hillel (理性研究中心) Hebrew U., G. Kalai (数学) Hebrew U.“Solving the Bible Code Puzzle”解决圣经密码的迷惑,Stat. Science,150-173。认为1994年的文章有严重的缺陷,特别是实验的设计与数据的收集都有问题6.4.1 试验设计与协议(protocol) Main Features (Clinical Trials by S.J. Pocock) 1. 背景与一般目的 (Background and general aims)2. 特殊目的 (Specific objectives)3. 患者的选取标准患者的选取标准 (Patient selection criteria)4. 疗程 (Treatment schedules)5. 评估患者的方法 (Methods of patient evaluation)6. 试验设计试验设计 (Trial design)7. 病患的注册与随机分配 (Registration and randomization of patients)8. 病患的同意 (Patient Consent)9. 研究所须患者的人数研究所须患者的人数 (Required size of study)10. 试验进展的监控 (Monitoring of trial progress)11. 表格与数据的处理 (Forms and data handling)12. 协议的偏离 (Protocol deviations)13. 统计分析的规划 (Plans for Statistical analysis)14. 行政责任 (Administrative responsibilities)议定书要严格执行的,否则结果不议定书要严格执行的,否则结果不一定有效!一定有效!双双盲盲试试验验方法:对一小部份的数据敏感数据:最严重的是Rabbi的称呼选择、拼法、缩写刘邦、刘季、阿季、无赖刘、汉高祖、汉王Prof. Havlin 替他们准备的;M. Cohen:“没有科学根据,完全是不一致、随意选择的结果”数据并非由实验规则严格定义,有很大伸缩的空间但是否因此就有足够的“自由”可以发挥?是,稍微自由一下,得到另一组数据,对“战争与和平”就有显著的结果有没有证据说原先方法“发挥过度”?有,测试了许多小变动,发现大部分的结果都变弱了,数据的选择偏向正面的结果,调动(tuning)存在直觉的统计期望:结果太好了,以致不认为是真的(Fisher对Mendel实验结果起疑)不允许抽样误差带来的噪音孟德尔的豌豆试验 特征显性隐性比率A Seed ShapeRound 5474Wrinkled 18500.338B Cotyledon Color Yellow 6022Green 2001 0.332C Seed Coat Color Grey-Brown 705White 2240.318D Pod ShapeSimply Inflated 882 Constricted 2990.339E Unripe Pod ColorGreen 428Yellow 1520.355F Flower Position Axial 651Terminal 207 0.318G Stem LengthLong 787Short 2770.352分離率:顯性比隱性為3:1=0.333不允許合理的誤差存在6.5 最后一击经过悠久历史的递传,各种修正都有可能,(“死海书卷”里的“创世纪”都不是完本)经文不可能有密码,从原先版本流传至今,跳跃(d)愈大,经文愈不易保存,容易受到删增的影响。(Rabbin 的d=4772)DeadSeaScrolls5.6结束语第六讲第六讲 方差分析方差分析Analysis of Variance (ANOVA) 研究定类变量和刻度级变量研究定类变量和刻度级变量之间的关系之间的关系本讲内容引例方差分析的基本概念方差分析的基本概念 方差分析的基本思想和原理方差分析的基本思想和原理 方差分析中的基本假定方差分析中的基本假定 单因素方差分析单因素方差分析 无重复试验的双因素方差分析重复的双因素方差分析1 引例(1)消费者对四个行业的投诉次数消费者对四个行业的投诉次数 行业行业观测值观测值零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业12345675766494034534468392945565131492134404451657758【 例例例例 】为了对几个行业的服务质量进行评价,消费者协会为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消在四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共费者对总共2323家企业投诉的次数如下表家企业投诉的次数如下表一个分类变量(2)如何进行假设检验呢如何进行假设检验呢 ?第一步:设置假设第一步:设置假设H0:u1=u2=u3=u4H1:H0不成立(4个ui不完全相等) (4-0-1)第二步:选用检验统计量第二步:选用检验统计量要检验各组的均值是否相等,我们自然会想到用前一章所讲的“两个独立样本的均值假设检验”这一方法,也就是多次(其实就是C42,6次)运用t检验。这样检验的法则就为,当6次t检验的结果皆为不拒绝H0时,(4-0-1)的检验结果才为“不拒绝H0”,否则便拒绝H0。问题在这一步就出现了。问题在这一步就出现了。初看起来这种替代方案不错。但是这种思路可行么?很不幸,答案是否定的,从下面的计算就可以知道(4-0-1)检验的显著性水平=P(4-0-1)式检验发生第一类型错误)=P(6个两两检验中任意一个(或以上)发生第一类型错误)=1-P(6个检验皆不发生第一类型错误)=1-(1- )6如果 =0.05,则上面式子的结果为1-(1-0.05)6 =0.23。这样的显著性水平显然无法让人接受。(4)方差分析的引入所以,用多次两两均值检验来代替 u1=u2=-=ui 的检验,显然不是一个可行的方案。必须从多个总体的整体角度来思考它的检验程序,以确保这个检验的第一类型错误被控制在某个事先给定的值以下。方差分析就是在这种需求下应运而生的。 2 方差分析的基本概念定义定义4-1检验多个总体均值是否相等的统计方检验多个总体均值是否相等的统计方法,称为方差分析(法,称为方差分析(Analysis of variance,简简写为写为ANOVA)。)。定义定义4-2在方差分析中,所要检验的对象称为在方差分析中,所要检验的对象称为因素或因子(因素或因子(factor)。就是关注的定类变量。)。就是关注的定类变量。定义定义4-3因素的不同表现称为水平或处理因素的不同表现称为水平或处理(treatment)。)。因素的每一个水平可以看作是一个总体。因素的每一个水平可以看作是一个总体。定义定义4-4每个因子水平下得到的样本数据称为每个因子水平下得到的样本数据称为观察值观察值定义定义4-5当我们只考察一个因素的方差分析当我们只考察一个因素的方差分析时,此时就是单因素方差分析(时,此时就是单因素方差分析( one-way ANOVA ););定义定义4-6双因素方差分析,是要检验两个因双因素方差分析,是要检验两个因素的变异对实验结果有无影响。素的变异对实验结果有无影响。定义定义4-7只考察两个因素各自变异对实验结只考察两个因素各自变异对实验结果的影响,就是无重复试验的双因素方差分析,果的影响,就是无重复试验的双因素方差分析,同时还要考察两个因素变异的交互作用对实验同时还要考察两个因素变异的交互作用对实验结果的影响,就是有重复试验的双因素方差分结果的影响,就是有重复试验的双因素方差分析。析。思考题:结合引例,说明这些概念的所指。3 方差分析的基本思想方差分析的实质是研究定类变量和刻度级变量之间的关系;无非是通过比较均值是否有显著差异来实现的;比较均值的时候,我们又要借助于方差。看引例。2.方差分析的基本思想和原理方差分析的基本思想和原理 零售业 旅游业 航空公司 家电制造但是仅仅从散点图上观察还不能提供充分的证据证明不同职能部门的得分之间有显著差异,因为这种差异完全可能是由于抽样的随机性所造成的。因此我们需要有更准确的方法来检验这种差异是否显著,也就是这种差异是由于抽样误差造成的还是系统误差造成的,这就需要进行方差分析。 方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有影响。因此,进行方差分析时,需要考察数据误差来源。 两类误差来源随机误差随机误差 注意到:在同一个行业(也就是同一个总体)下,样本的各个观察值是不同的。由于评分表的选择是随机抽取的,因此它们之间的差异可以看因此它们之间的差异可以看成随机误差成随机误差. 系统误差系统误差 在不同行业之间,各个观察值也是不同的。这种差异可能由于抽样的随机性造成的,也可能由于职能部门本身的不同所造成的,后者所形成后者所形成的误差是由系统因素造成的,我们称之为系统误的误差是由系统因素造成的,我们称之为系统误差差 组内误差和组间误差通过前面的分析有组内误差=随机误差组间误差=随机误差+系统误差我们想如果只有随机误差没有系统误差,那么(组间误差/组内误差)=1,否则就会大于1。如果显著的大于1,那么我们就说因素就有显著作用了,否则,就没有显著作用4 方差分析的基本假定(1)每个总体都服从正态分布。常用检验方法P-P图,Q-Q图(2)每个总体的方差必须相同。所以在进行方差分析的时候,要检查数据的方差齐性。Levene检验(3)观察值是独立的。一般都能做到方差分析中基本假定方差分析中基本假定如果原假设成立,即H0 : 1 = 2 = 3 = 4四个职能部门被投诉次数的均值都相等意味着每个样本都来自均值为、方差为 2的同一正态总体 X X Xf(X)f(X)f(X) 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 方差分析中基本假定方差分析中基本假定若备择假设成立,即若备择假设成立,即H H1 1 :j j ( (j j=1,2,3,4=1,2,3,4) )不全相等不全相等至少有一个总体的均值是不同的至少有一个总体的均值是不同的四个样本分别来自均值不同的四个正态总体四个样本分别来自均值不同的四个正态总体 X X Xf(X)f(X)f(X) 3 3 3 3 1 1 1 1 2 2 2 2 4 4 4 4 假设的一般提法假设的一般提法1.设因素有k个水平,每个水平的均值分别用 1 , 2, , k 表示2.要检验k个水平(总体)的均值是否相等,需要提出如下假设: H0 : 1 2 k H1 : 1 , 2 , , k 不全相等不全相等3.职能部门例子,提出的假设为H0 : 1 2 3 4 H1 : 1 , 2 , 3 , 4 不全相等不全相等5 单因素方差分析与SPSS应用5.1 数据结构数据结构5.2 分析步骤分析步骤5.3 多重比较多重比较5.4 关系强度的测量关系强度的测量5.5 方差分析使用条件检验方差分析使用条件检验5.6 用用SPSS进行方差分析进行方差分析5.1单因素方差分析的数据结构单因素方差分析的数据结构观察值观察值 ( i )因素因素(A) j 水平水平A1 水平水平A2 水平水平Ak12:n x11 x12 x1k x21 x22 x2k : : : : : : : : xn1xn2 xnk5.2.1 提出假设:1.一般提法H0 : 1 = 2 = k自变量对因变量没有显著影响 H1 : 1 ,2 , ,k不全相等自变量对因变量有显著影响 2.注意:拒拒绝绝原原假假设设,只只表表明明至至少少有有两两个个总总体体的的均均值值不不相相等等,并并不不意意味味着着所所有有的的均均值值都不相等都不相等 5.2 方差分布的基本步骤方差分布的基本步骤5.2.2 构造检验的统计量构造检验的统计量构造统计量需要计算水平的均值全部观察值的总均值误差平方和(SS)均方(MS) (计算水平的均值计算水平的均值)1.假定从第j个总体中抽取一个容量为ni的简单随机样本,第j个总体的样本均值为该样本的全部观察值总和除以观察值的个数2.计算公式为 式中:式中: n ni i为第为第 i i 个总体的样本观察值个数个总体的样本观察值个数x xij ij 为第为第 i i 个总体的第个总体的第 j j 个观察值个观察值 (计算全部观察值的总均值计算全部观察值的总均值)1.全部观察值的总和除以观察值的总个数2.计算公式为 (计算总误差平方和 SST : sum of squares for total)1.全部观察值与总平均值的离差平方和2.反映全部观察值的离散状况3.其计算公式为 前例的计算结果:前例的计算结果: SST SST = (57-47.869565)= (57-47.869565)2 2+ +(58-47.869565)(58-47.869565)2 2 =115.9295 =115.9295(计算水平项平方和计算水平项平方和 SSA)SSA :Sum of squares for factor A1.各组平均值 与总平均值 的离差平方和2.反映各总体的样样本本均均值值之之间间的的差差异异程程度度,又称组组间平方和间平方和3.该平方和既包括随机误差,也包括系统误差随机误差,也包括系统误差4.计算公式为 前例的计算结果:前例的计算结果:SSA SSA = 1456.608696= 1456.608696(计算误差项平方和计算误差项平方和 SSE)SSE :Sum of squares for error1.每个水平或组的各样本数据与其组平均值的离差平方和2.反映每个样本各观察值的离散状况,又称组组内内平平方和方和3.该平方和反映的是随机误差随机误差的大小4.计算公式为 前例的计算结果:前例的计算结果:SSE SSE = 2708= 2708(三个平方和的关系三个平方和的关系)总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系SST = SSA + SSE总离差平方和总离差平方和总离差平方和总离差平方和= =组间离差平方和组间离差平方和组间离差平方和组间离差平方和+ +组内离差平方和组内离差平方和组内离差平方和组内离差平方和 前例的计算结果:前例的计算结果: 4164.608696=1456.608696+2708 4164.608696=1456.608696+2708 三个平方和的作用三个平方和的作用1. SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随随机机误误差差和和系系统统误误差差的大小2.如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均均方方与组内平方和SSE除以自由度后的均均方方差异就不会太大;如果组组间间均均方方显著地大于组组内内均均方方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差3.判断因素的水平是否对其观察值有影响,实际上就是比较组组间间方方差差与组组内内方方差差之间差异的大小!(计算均方计算均方MS)1.各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方均方,也称为方差方差2.计算方法是用误差平方和除以相应的自由度3.三个平方和对应的自由度分别是SST 的自由度为n-1,其中n为全部观察值的个数SSA的自由度为k-1,其中k为因素水平(总体)的个数SSE 的自由度为n-k1. 组组间间方方差差:SSA的均方,记为MSA,计算公式为2. 组组内内方方差差:SSE的均方,记为MSE,计算公式为(计算检验统计量计算检验统计量 F )1.将MSA和MSE进行对比,即得到所需要的检验统计量F2.当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k 的F 分布,即记住记住F 分布曲线分布曲线5.2.3 根据根据P做决策做决策F分布与拒绝域分布与拒绝域如果均值相等,如果均值相等,如果均值相等,如果均值相等,如果均值相等,如果均值相等,F F F= = =MSAMSAMSA/ / /MSEMSEMSE1 1 1 F 分布分布F (k-1,n-k)0 0拒绝拒绝拒绝拒绝HH0 0不能拒绝不能拒绝不能拒绝不能拒绝H H H H0 0 0 0F F单因素方差分析表单因素方差分析表如果我们前面方差分析的结果是:拒如果我们前面方差分析的结果是:拒绝绝H0,接受,接受H1。表示总体均数不全相等,。表示总体均数不全相等,此时需要进一步作多重比较。此时需要进一步作多重比较。5.3 多重比较一般用:一般用:1)Bonferroni法;法;2)SNK法;法;3)Tukey法等方法法等方法控制累积控制累积类错误概率增大的方类错误概率增大的方法法当有当有k个均数需作两两比较时,比较的次数共个均数需作两两比较时,比较的次数共有:有:c= k(k-1)/2设每次检验所用设每次检验所用类错误的概率水准为类错误的概率水准为,累积,累积类错误的概率为类错误的概率为,则在对同一实验资料进行,则在对同一实验资料进行c次检次检验时,在样本彼此独立的条件下,根据概率乘法原理,验时,在样本彼此独立的条件下,根据概率乘法原理,其累积其累积类错误概率类错误概率与与c有下列关系:有下列关系:1(1)c累积累积类错误的概率类错误的概率方法:采用方法:采用/c作为下结论时所采用的作为下结论时所采用的检验水准。检验水准。c为两两比较次数,为两两比较次数, 为累积为累积I类错误的概率。类错误的概率。5.3.1 Bonferroni法法 设设/c0.05/6=0.0083,由此由此t的临的临界值为界值为t(0.0083/2,20)=2.9271前例 当当比较次数不多时比较次数不多时,Bonferroni法的效果法的效果较好。较好。 但当但当比较次数较多比较次数较多(例如在例如在10次以上次以上)时,时,则由于其检验水准选择得过低,结论偏于保则由于其检验水准选择得过低,结论偏于保守。守。Bonferroni法的适用性法的适用性SNK(student-Newman-Keuls)法又称q检验,是根据q值的抽样分布作出统计推论。1将各组的平均值按由大到小的顺序排列由大到小的顺序排列:顺序顺序(1)(2)(3)(4) 平均值平均值28.018.718.514.8 原组号原组号BCAD2.计算两个平均值之间的差值及组间跨度差值及组间跨度k,见表8-3第(2)、(3)两列。3.计算统计量计算统计量q值值4.根据计算的q值及查附表6得到的q界值(p286),作出统计统计推断推断。5.3.2 SNK法附表附表65.3.3 Tukey法法5.4 方差分析的假定条件方差分析的假定条件(1)每个总体都服从正态分布。直接做出直方图也可以进行初步判断;P-P图,Q-Q图(2)观察值是随机、独立的。一般都能做到(3)每个总体的方差必须相同。所以在进行方差分析的时候,要检查数据的方差齐性。Bartlett检验法Levene等最大方差与最小方差之比3,初步认为方差齐同。5.4.1 Bartlett检验法检验法前面讲过因为levene检验对原数据是否为正态不灵敏,所以比较稳健。目前均推荐采用LEVENE方差齐性检验5.5 SPSS方差分析步骤注意:1、要对数据的正态性和方差齐次性进行检验2、如果不满足假定条件要么对数据进行变换,要么放弃。改善数据的正态性或方差齐性。1平方根反正弦变换:适用于二项分布率(比例)数据。2平方根变换:适用于泊松分布的计数资料3对数变换适用于对数正态分布资料5.5.1 数据变换常用方法A 平方根反正弦变换: 适用于二项分布率(比例)数据。n如果资料的 p 值都在 0.3-0.7 之间,则因不同处理的误差均方差异不大,故不必作转换,即可直接进行方差分析。n但是如果 p 只要有大于 0.7 或小于 0.3 的,则宜将全部 p 值都转换,再作方差分析。B 平方根变换适用于泊松分布的计数资料处理原始资料(Y)转换资料XABCDEABCDE单位面积杂草数2876177184221191511465430261101311967117110321171351345.32.62.413.313.64.73.33.012.312.17.35.55.110.511.44.42.42.610.810.55.73.32.611.611.6平均数3113111381415.483.423.1411.7011.84均方191.095.571.5731.0746.01.291.521.251.301.30主要作用是减少极端大值对于均方的影响 C 对数正态分布 5.6 关系强度的测量关系强度的测量1.拒绝原假设表明因素(自变量)与观测值之间有关系2.组间平方和(SSA)度量了自变量(行业)对因变量(投诉次数)的影响效应只要组间平方和SSA不等于0,就表明两个变量之间有关系(只是是否显著的问题只是是否显著的问题) 当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱关系强度的测量关系强度的测量1.变量间关系的强度用自组间平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映2.自变量平方和占总平方和的比例记为R2 ,即3.其平方根R就可以用来测量两个变量之间的关系强度 第七讲第七讲 回归分析回归分析:简单线性:简单线性回归回归简单回归分析的基本内容基本假设资料收集与参数估计回归式的统计性质回归式的解释能力回归式的估计与检验预测1 简单回归分析的基本假设1)自变量X不被看着是随机变量。X是可控是可控的的。2)因变量Y的统计特性:当X取某一特定值x时,X=x,相对应的因变量Y服从一个正态服从一个正态分布。且这些正态分布的方差相同分布。且这些正态分布的方差相同3)假设 为线性关系。也就是: 所以有:4) 平均项(平均项( )误)误差项(差项( )5) ,XY,自变量和因变量之间的关系2 参数估计一元线性回归的参数估计工作主要有两项:1)一是估计平均项中的两个未知参数 , ;2)其次是估计误差项分布中的未知方差 。 YX21 参数参数 , 的估计的估计最小二乘法最小二乘法 1)假设我们最后估计出的样本回归线为:让残差平方和残差平方和SSE最小用最小二乘法找到的样本回归线称之为最小最小平方回归线平方回归线利用微积分的极值条件一阶导数为一阶导数为0,就可以解出:几何解释几何解释假设: 很容易证明:残差向量 e =Y ,等价于ey 。这表明向量e、y、 ,构成一个三角形。 由于估计方程系数时,是求 ,使Q = 最小,即让向量e的长度最小,的长度最小,也就是找到这样的 (=找到这样的 ),使 e垂直于垂直于x,即这个三角形是直角三角形: xey例题1XYX2XYee2202840056030-242844784123246-2422364847923424263867698842-4162442576100838416305290015605024x=150 y=240 x2=3820xy=6140e=0e2=4822误差项分布中的未知方差未知方差 估计估计1)最小平方回归线所产生的残差平方和e2是所有回归线中最小的,称之为最小残差平方和最小残差平方和。其自由度为样本数减去回归线的参数数目,对于简单回归线,就为(n-2)。2)未知方差 的估计量为最小残差平方和除最小残差平方和除以其自由度以其自由度,也就是最小残差均方和最小残差均方和。 例题:计算前面例题的最小残差平方和及MSE3 统计性质最小平方回归线的统计性质,包括三个方面(1)回归线的性质;(2)回归系数的统计性质;(3)回归分析平方和恒等式以及方差分析表 31 回归线的统计性质回归线的统计性质。 具有如下性质:(注意用几何来理解这些性质注意用几何来理解这些性质) (1)最小平方回归线通过数据的中心点(2)残差和等于残差和等于0,即?(3)残差与自残差与自变变量乘量乘积积的和等于的和等于0,即(4)残差与残差与拟拟合合值值乘乘积积的和等于的和等于0,即。32 回归系数的统计性质回归系数的统计性质33回归分析平方和恒等式以及ANOVA表先看下面有关观察值的分解图 观察值的分解所以有:平方和恒等式:平方和恒等式: 自由度恒等式 课外习题课外习题:请大家用前面的例题来验证平方和恒等式构成一元线性回归的ANOVA表方差来方差来源源平方和平方和自由自由度度均方和均方和F值值回归1MSR误差n2MSE总和n14 回归线的解释能力判定系数: 修正后的判定系数: 误差项的方差误差项的方差MSE因变量因变量Y的方差的方差计算前面例题回归线的判定系数和修正判定系数5 回归系数的假设检验假设检验与区间估区间估计计 51假设检验:H0: 两种检验方法:t检验和F检验。 1)t检验:2)F检验其实就是方差分析的思想,我们欲通过检验回归缩减的误差是否与残差具有显著的检验回归缩减的误差是否与残差具有显著的差异差异,来判别我们确立的回归线是否有意义。52 总体回归系数 的区间估计思考题:如何做?结果如下:6 预测预测分为两种情况:一种是预测 时的平均反应(mean response);另一种是预测 时的个别反应(individual response) 61预测时的平均反平均反应应(1)点估计)点估计直接将代入样本回归式就可以了 (2)区间估计)区间估计: 要借助的抽样分布 62预测时的个个别别反反应应个别反应 就是平均反应 加上个别差异,即 :需要利用到 的抽样分布, 也属于正态分布,其中期望和方差如下所示: 习题:假设:x: 1 2 3 4 ; y:3 2 5 6(1)计算y的总平方和;(2)估计样本回归线:(3)计算回归平方和;(4)计算出4个残差;并求出残差平方和;(5)计算出判定系数,并求出x与y的相关系数。答案:1 )10;2)y=1+1.2x3)7.24)残差平方和:2.85)判定系数:0.72;r=0.848
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号