资源预览内容
第1页 / 共97页
第2页 / 共97页
第3页 / 共97页
第4页 / 共97页
第5页 / 共97页
第6页 / 共97页
第7页 / 共97页
第8页 / 共97页
第9页 / 共97页
第10页 / 共97页
亲,该文档总共97页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
要点总结要点总结第六章第六章 概率分布概率分布科学研究的最终目的是通过样本数据的研 究,来推测全体的基本特征,并对推断 的正确性进行概率检验统计推断:从样本出发来推断总体分布的 过程。概率论是统计推断的数理基础。本章内容本章内容u第一节 概率的基本概念u第二节 二项分布u第三节 正态分布u第四节 样本分布第一节第一节 概率的基本概念概率的基本概念u一、什么是概率一、什么是概率u在日常生活中存在众多的随机现象;同样,在教育和心理研究中,也有很多的随机现象u随机现象随机现象:又称随机事件,即在一定条件 下可能出现也可能不出现的事件u概率概率(probability):表示随机事件出现可能 性大小的客观指标后验概率和先验概率后验概率和先验概率(一)后验概率随机事件A在n次实验中出现m次,m与n的比值就是随机事件A出现的频率。随着实验次数n的无限增多,随机事件A的频率稳定于一个常数P上,P就是随机事件A出现概率的估计值。以随机事件A在大量重复实验中出现的稳定频率作为随机事件A概率的估计值,这样求得的概率称为后验概率,由事件A出现的次数决定后验概率和先验概率后验概率和先验概率(二)先验概率通过古典概率模型加以定义,故又称古典概率条件: 1.实验的所有可能结果(基本事件)是有限的 2.每一个基本事件出现的可能性相等若基本事件的总数为n,事件A包括m个基本事件,则事件A的概率为先验概率是在特定条件下直接计算出来的,是随机事件的真实概率,不是由频率估计出来的二、概率的性质二、概率的性质确定性现象:在一定条件下一定会发生或一定不会发生的现象必然事件:在一定条件下必然会发生的事件不可能事件:在一定条件下必然不会发生的事件随机事件:在一定条件下可能发生也可能不发生的事件(一)概率的公理系统(一)概率的公理系统1.任何一个随机事件A的概率都是非负的2.必然事件的概率为13.不可能事件的概率为0随机事件概率的大小在0和1之间,即0P1P1:表示某事件发生的可能性越大P0:表示某事件发生的可能性越小P=1:表示事件必然发生P=0:表示事件不可能发生(二)、概率的加法定理互不相容互不相容事件:在一次实验中不可能同时出现的事件两个互不相容事件A、B之和的概率等于这两个事件概率之和 P(A+B)P(A)+P(B)推广:有限个互不相容事件之和的概率等于这些事件的概率之和 P(A1+A2+An)=P(A1)+P(A2)+P(An)总和的概率永远不会大于总和的概率永远不会大于1 1(三)概率的乘法定理独立事件:A事件出现的概率不影响B事件出现的概率,这两个事件为独立事件两个独立事件积的概率等于这两个事件概率的乘积P(AB)=P(A)P(B) 也可推广【例6-1】某一学生从5个试题中任意抽取一题进行口试,则抽到试题1或试题2的概率为?P(A+B)=1/5+1/5=2/5如果第一个学生抽取的试题放回后,第二个学生再抽,则两个学生都抽到试题1的概率为?P(AB)=1/51/5=1/25三、概率分布的类型概率分布(probability distribution)是指对随机变量取值的概率分布情况用数学方法(函数)进行描述只有了解随机变量的概率分布,才能使统计分析与推论有可能,为统计分析提供依据(一)离散分布与连续分布依随机变量是否具有连续性进行划分离散分布:取孤立数值的随机变量为离散随机变量,如计数数据,离散随机变量的概率分布为离散分布常见:二项分布,泊松分布(Poisson)连续分布:连续随机变量的概率分布,即测量数据的概率分布常见:正态分布(二)经验分布与理论分布依分布函数的来源而划分l经验型分布:根据观察或实验所获得的数据而编制的次数分布或相对频率分布l经验分布往往是总体的一个样本l理论性分布:l随机变量概率分布的函数数学模型l按某种数学模型计算出的总体的次数分布l随机变量概率分布的性质,由它的特征数来表达,在统计推论部分通常只用平均数和标准差(三)基本随机变量分布与抽样分布依概率分布所描述的数据特征而划分基本随机变量分布:描述构成总体的基本变量的分布,包括二项分布和正态分布抽样分布:样本统计量的理论分布样本统计量有:平均数,两平均数之差,方差,标准差,相关系数,回归系数,百分比率等这两类分布是应用于统计学上的理论分布,是统计推理的重要依据,只有对它们真正了解,才能明确各种统计方法的应用条件及注意问题,并对各种具体方法有较为深刻的理解第二节 二项分布二项分布(bionimal distribution)是一种 具有广泛用途的离散型随机变 量的概率分布,由贝努力创 始,又称贝努力分布。二项分 布是心理和教育统计学中常用 的一种基本随机变量分布一、二项实验与二项分布(一)二项实验(贝努力(一)二项实验(贝努力实验)实验)凡满足以下条件的实验称为二项实验1.任何一次实验恰好有两个结果,成功与失败2.共有n次实验,并且n是预先给定的任一整数3.每次试验各自独立,各次实验之间无相互影响4.某种结果出现的概率在任何一次试验中都是固定的(二)二项分布二项分布是指试验仅有两种不同性质结果的分布。这两个结果是对立的,因而二项分布又可说是两个对立事件的概率分布l如考试中的通过与不通过,l是非题的是与否二项分布可用n次方的二项展开式来表达每次试验某事件出现的概率都是p,某事件不出现的概率都是q(等于1-p)几个要点:1.展开式中共有n1项2.方次:p的方次,从0-n为升幂;每项p与q的方 次之和等于n3.系数:各项系数是成功事件次数的组合数二项展开式的各项系数可以用杨辉三角简捷地求出二项分布的具体定义:设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q(等于1-p),则对于某事件出现X次(0,1,2,.,n)的概率分布为:例例6-4 10个硬币掷一次,或一个硬币掷个硬币掷一次,或一个硬币掷10次。问五次。问五次正面向上的概率是多少?五次及五次以上的概率是次正面向上的概率是多少?五次及五次以上的概率是多少?多少?解:解:根据题意根据题意 n=10 , p = q=1/2, x=5二、二项分布的性质(一)二项分布是离散型分布,概率直方图是跃阶式 1.当pq时图形是对称的 2.当当pqpq时图形呈偏态时图形呈偏态p pq q与与p pq q的偏斜方向相反。的偏斜方向相反。如果如果n n很大很大, ,即使即使pq,pq,偏态逐渐降低偏态逐渐降低, ,最终成正态分布最终成正态分布, ,二项分布的二项分布的极限分布为正态分布。当极限分布为正态分布。当p pq q且且np5,np5,或或p pq q且且nq5nq5时时, , 二项分布接近正态分布二项分布接近正态分布 (二)二项分布的平均数与标准差当二项分布接近正态分布时(pq且np5,或pq且nq5),二项分布的概率可用正态分布的概率作为近似值。二项分布的平均数:=np二项分布的标准差: 式中 n 为试验次数 p为事件发生的概率 q=1-p随着试验次数 n 的增大 , 二项分布的均数与标准差也将随着增大三、二项分布的应用在心理和教育研究中,二项分布主要用于解决含有机遇性质问题。机遇性质问题:是指在实验或调查当中,其结果可能猜测而造成的。如:选择题的回答,完全有可能是猜测造成的。凡此类问题,欲区分由猜测造成的结果与真实结果之间的界限,就要应用二项分布来解决。例例6-6 有有10道正误题,答题者答对几道题才能认为道正误题,答题者答对几道题才能认为他是真会,或者说他答对几题才能认为不是出于猜测他是真会,或者说他答对几题才能认为不是出于猜测因素?因素?解:已知猜对于猜错的概率pq1/20.5,np=5,此二项分布接近正态分布,故:根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为:+1.6455+1.6451.587.68它的意义是完全凭猜测它的意义是完全凭猜测,10,10题题中做对中做对8 8题以下题以下的可能性为的可能性为95%, 95%, 猜对猜对8,9,108,9,10道题的概率只有道题的概率只有5%5%。因此可以推论说。因此可以推论说, ,答对答对8 8题以上者不是凭题以上者不是凭猜测猜测, ,表明答题者真的会表明答题者真的会答。答。但但做此结论做此结论, ,也仍然有犯错误的可能也仍然有犯错误的可能, ,即那些即那些完全靠猜测的人也有完全靠猜测的人也有5%5%的可能性答对的可能性答对8 8道题、道题、9 9道题或道题或1010道题。道题。 答:做题的人答对答:做题的人答对 8 8 题以上者不是凭猜测。题以上者不是凭猜测。此题也可用二项分布函数直接计算此题也可用二项分布函数直接计算解:解:已知概率已知概率p0.5,n=10,x8,此二项分,此二项分布接近正态分布,故:布接近正态分布,故:求和近似求和近似等于等于0.0547第三节第三节 正态分布正态分布正态分布(normal distribution)是一种连续型随机变量的概率分布,是一种应用极为广泛,及其重要的概率分布。在教育和心理的大量研究中,许多现象一般都呈正态分布,如学生的品德、学业成绩、身高、体重等。正态分布的条件正态分布的条件频数分布以均数频数分布以均数为中心为中心左右左右两侧两侧基本对称基本对称靠近靠近均数两侧的均数两侧的频数较多频数较多两侧两侧距均数较远时,频数距均数较远时,频数逐渐减少逐渐减少。(一)正态分布曲线函数正态分布曲线函数又称密度函数,其一般方程为:或写成标准正态分布的函数(6-1)(6-1)当样本均数等于总体均数时,方程可写成当标准差为1时在中央点的y值最高,即y的最大值为0.3989(二)正态分布的特征(二)正态分布的特征1.图形以均数为中心左右对称,且MMdMo,此点y值最大(0.3989)2.正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于1处但终不能与基线相交3.正态曲线下面积为1,以均数为中心,左右各0.504.正态分布是一族分布,图6.25.正态分布有两个重要参数0,1,写作N(0,1),根据Z分数的性质,很容易转换标准正态分布,查附表1即可6.正态分布曲线下,标准差与概率(面积)有一定的数量关系标准差与面积的数量关系士范围内占正态曲线下面积的 68.27,也就是说有68.27的变量值分布在此范围内。士l.96范围内占正态曲线下面积的 95.0,也就是说有95.0的变量值分布在此范围内。士2.58范围内占正态曲线下面积的 99.0,也就是说有99.0的变量值分布在此范围内。从图中可以看出正态分布总体有2个总体分布参数:均数和标准差,可记作N(,)。同理:我们可以观察范围以外的面积同理:我们可以观察范围以外的面积,对,对以以后的统计推断打下良好一个基础。后的统计推断打下良好一个基础。二、正态分布表的编制与使用(一)正态分布表的编制与结构正态分布表见附表1包括三栏:lZ分数栏l密度函数或比率数值(y)即正态曲线的高度l概率值(p)(面积)(二)正态分布表的使用1.依据Z分数求概率p(面积)(1)求Z0至某一Z值之间的面积,直接查表(2)求某一Z值以上或以下的概率(0.5p)当Z0时,其上概率为0.50p,其下概率为0.50p当Z MM Md d M M0 0 负偏态:M MM Md d M0时,分布属于正偏态;当SK700(三)累加次数曲线法 p168略四、正态分布理论在测验中的应用前提:研究资料属于正态分布(一)化等级评定为测量数据(二)确定测验题目的难易度(三)在能力分组或等级评定时确定人数(四)测验分数的正态化(一)化等级评定为测量数据在心理与教育评价中,对某些心理量常用等级评定法赋予一定的评价分数或等级分数,在最后处理结果时,常会遇到两类问题:1.不同评定者由于各自的标准不同,同一心理量进行评定时给的等级分数不等2.等级分数界线宽,又不一定时等距尺度,要比较不同被评定者心理量的差异此时,如何进行统计比较?解决方法:将等级评定转化为测量数据注意:首先要考虑被评定的心理量是否为正态分布注意:首先要考虑被评定的心理量是否为正态分布转化方法:用各等级中点的Z分数代表该等级分数步骤:1.根据各等级评定者的数目求各等级的人数比率2.求各等级比率值的中间值,作为该等级的中点3.求各等级中点以上(或以下)的累加比率4.用累加比率查正态分布表求Z值。5.求被评定者所得评定等级的测量数据的算术平均数,即为每个被评定者的综合评定分数【例6-2】表6-2对3位教师对100名学生的学习能力所作的等级评定的结果。表6-3时3名学生从3位老师那儿获得的等级评定,试将其转化为Z分数根据表6-2的资料,用上述方法将各教师的等级评定转化为Z分数(二)确定测验题目的难易度测验题目的难易度一般以通过率来确定,即答对者的百分数,但百分数不是等距尺度,有时要比较不同难易题目之间的难度距离,也要将难易百分数根据正态分布概率转换成难度分数步骤:1.计算各题目的通过率,在正态表中它代表的是曲线下的面积2.用0.5减去通过率,不计正负号,获得正态分布表中的概率值3.依照p值查正态分布表中的Z值,通过率大于50的Z值计为负值,小于50的计为正值4.将查表得到的Z分数加上5(假定正负5各标准差包括了全体)便可得到从0-10的十进制的难度分数值这样就有理由认为难度分数是等距分数,不同题目之间的难易差异就可直接比较(三)在能力分组或等级评定时确定人数(三)在能力分组或等级评定时确定人数问题?问题?假定能力是正态分布,这时若将能力分组,各组人数应是多少?或评定不同等级,各等级人数应是多少才能使分组或评定等级构成等距的尺度解决方法:依据正态分布理论确定各组或各等级的人数步骤:p 1721.将6个标准差(假定6个标准差包括了全体)除以分组的或等级的数目,做到Z分数等距2.查正态分布表,从Z求p3.将比率乘以欲分组的人数,便得到各等级或分组该有的人数注意:最后计算的各组人数分布,应与总数相等。当结果和总数的差异是由查表误差造成时,可将居中的那一组做适当的增加或减少【例例6-3 】 要把要把100人在某一能力上分成人在某一能力上分成5个等级,各个等级,各等级应该有多少人,才能使等级评定做到等距?等级应该有多少人,才能使等级评定做到等距?解解:651.2,要使各等级等距, 每一等级应占1.2个标准差的距离。确定各等级的Z 分数界限, 然后查表。具体计算见表 6-6 。(Z)(四)测验分数的正态化当总体分布已知为正态,而样本由于抽样误差或其他偶然因素的影响造成偏离正态分布时,需要将样本按其总体分布进行正态化这种将样本原始分数转换为正态分布,称作次数分布的正态化步骤:1.将原始分数的频数转化为相对累积频数,将之视为正态分布的概率2.查正态分布表,由概率值求相应的Z值,即达到正态化的目的正态化是建立正态标准分数的关键T T分数(分数(T scoresT scores)T分数是从Z分数经过转化而来的一种正态化的标准分数,心理与教育统计常用它来建立常模公式:T T10Z10Z5050优点:1.没有负数2.取值范围比较符合百分制的计分习惯,易被人们接受3.理论上为正态分布的测验分数,由于抽样误差等偶然因素导致原始分数偏态分布,那么,运用T分数迫使其称为正态步骤:步骤:1.将原始数据整理成次数分布表2.计算各分组上限以下的累加次数cf3.计算每组中点的累加次数,即前一组上限以下的累加次数加上该组次数的一半4.各组中点以下的累加次数除以总数求累积比率5.根据累积比率p查Z(0.5p)6.代入T10Z50,计算出正态化T分数例如:例如:某研究中随机抽取了某研究中随机抽取了180180名学生的某一能力测验分数名学生的某一能力测验分数, ,由于这由于这些能力分数不是正态些能力分数不是正态, ,需要将其正态化。已有研究表明学生的总体能力需要将其正态化。已有研究表明学生的总体能力分布为正态分布为正态, ,因此可以用正态化原理和因此可以用正态化原理和T T分数公式将其正态化。分数公式将其正态化。 P=0.9833-0.5=0.483 由附表1查出Z值Review概率公式(两个独立事件)lP(A+B)=P(A)+P(B) lP(AB)=P(A)P(B) 【例6-1】某一学生从5个试题中任意抽取一题进行口试,则抽到试题1或试题2的概率为?P(A+B)=1/5 + 1/5=2/5如果第一个学生抽取的试题放回后,第二个学生再抽,则两个学生都抽到试题1的概率为?P(AB)=1/51/5=1/25正态分布的条件正态分布的条件频数分布以均数频数分布以均数为中心为中心左右左右两侧两侧基本对称基本对称靠近靠近均数两侧的均数两侧的频数较多频数较多两侧两侧距均数较远时,频数距均数较远时,频数逐渐减少逐渐减少。(二)正态分布的特征(二)正态分布的特征1.图形以均数为中心左右对称,且MMdMo,此点y值最大(0.3989)2.正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于1处但终不能与基线相交3.正态曲线下面积为1,以均数为中心,左右各0.504.正态分布是一族分布,图6.25.正态分布有两个重要参数0,1,写作N(0,1),根据Z分数的性质,很容易转换标准正态分布,查附表1即可6.正态分布曲线下,标准差与概率(面积)有一定的数量关系T T分数(分数(T scoresT scores)T分数是从Z分数经过转化而来的一种正态化的标准分数,心理与教育统计常用它来建立常模公式:T T10Z10Z5050优点:1.没有负数2.取值范围比较符合百分制的计分习惯,易被人们接受3.理论上为正态分布的测验分数,由于抽样误差等偶然因素导致原始分数偏态分布,那么,运用T分数迫使其称为正态第四节第四节 样本分布样本分布一、正态分布及渐近正态分布二、t分布三、 分布四、F分布总体分布:总体内个体数值的概率分布样本分布:样本统计量的分布,如样本平均数和标准差的分布样本分布是统计推论的重要依据条件:各个样本相互独立,都服从同样的分布,可采用随机取样的方法得到一、正态分布及渐近正态分布(一)样本平均数的分布样本平均数的分布是指从基本随机变量的总体(又称母总体)中,采取有放回随机抽样方法,每次从这个总体中抽取大小为n的一个样本,计算出它的平均数 ,然后将这些个体放回总体去,再次取n个个体,又可计算出一个,.再将n个个体放回,再抽取n个个体.这样如此反复,可计算出无限多个,这无限多个平均数的分布就是样本平均数的分布1.总体分布为正态,方差已知,则样本平均数的分布为正态分布此时,样本平均数分布的平均数与标准差与母总体的平均数和标准差有如下关系:其中: 为平均数的方差,称为变异误 为平均数的标准差,称为标准误(standard error), 有时用SE表示从公式6-5a(b)可知,样本平均数与母总体平均数相同,样本平均数的标准误与母总体的标准差成正比,而与样本容量成反比,n越大,标准误就越小。(公式(公式6-5a)(公式(公式6-5b)标准误:抽样误差会造成样本统计量与总体参数真值的差异,而抽样误差我们用抽样分布上的标准差来表示,因此,某种统计量在抽样分布上的标准差称为该种统计量的标准误。标准误越小说明样本统计量与总体参数的值越接近,样本对总体越有代表性标准误是推断统计可靠的指标样本平均数的标准正态分布的转换:(公式(公式6-6)2.总体分布非正态,但方差已知,此时当样本足够大时(n30),其样本平均数的分布为渐近正态分布中心极限定理:接近正态分布的程度与样本n及总体偏斜程度有关。样本n越大或总体偏态越小,接近的程度越好;当偏斜较大时,n很大,才接近正态分布此时样本分布的平均数与标准差,与总体平均数和标准差之间,也有下述关系:(二)方差及标准差的分布当n足够大时(n30),样本方差及标准差的分布,渐趋于正态分布公式:因对n要求较大,所以实际应用较少,常用其精确分布( 分布)其它渐近正态分布的统计量分布:两样本平均数之差的分布( 已知),相关系数的分布,比率的分布等(公式(公式6-7)(公式(公式6-8)当知道了某些样本统计量为正态分布或渐近正态分布以后,便可根据正态分布表求概率如依据正态分布的概率样本平均数:有95落在 有99落在样本方差与标准差(当n足够大) 有95落在 有99落在二、二、t t分布分布是统计分析中应用较多的一种随机变量函数的分布,也称学生氏分布分布形态:左右对称,峰态比较高狭,分布形状随样本容量n-1的变化而变化的一族分布t分布与无关而与n-1(自由度)有关自由度:指任何变量中可以自由变化的数目,用符号df或表示t分布的自由度dfn-1(公式(公式6-9)t分布图分布图(一)t分布的特点1.平均数为02.以平均值0左右对称的分布,左侧t为负值,右侧t为正值3.变量取值在-之间4.当n-1时,t分布为正态分布,1; 当n-130时,t分布接近正态分布,1,随 n-1的增大渐趋于1 当n-130,则样本平均数的分布近似为t分布(公式(公式6-11)小结规则: 当总体方差已知, 用z分数. 当总体方差未知, 用样本方差来估计总体方差,则用t-统计量. 同样的规则在对总体均值(如,置信区间)进行估计时也适用. t 统计量是当总体方差未知时,用来考验关于总体均值的假设。t统计量的公式在结构上与z分数公式非常相似,只是t 统计量用估计的标准误. 三、三、 分布分布 分布是刻画正态变量二次型的一种重要分布从正态总体中随机抽取随机变量 分别将其平方,可得到 ,也可计算其标准分数 及其平方 ,那么无限多个随机变量平方和或标准分数的平方和的分布,服从 分布(dfn) (公式(公式6-12)(dfn-1) (公式(公式6-12)(一) 分布的特点1. 分布是一个正偏态分布,随n值变化,当 df时, 分布即为正态分布2. 值都是正值3. 分布的和也是 分布,即 分布具有可加性 是一个服从dfdf1df2.dfn的 分布4.如果df2,这时 分布的平均数 ,方差5. 分布是连续型分布,但有些离散型的分布也近似 分布(二) 分布表构成:自由度df,概率值p, 值 分布曲线下的面积为1,但随自由度df的不同,同一 值以上或以下所含的面积与总面积的比率不同表中的p值表不同自由度时,某 值以上的概率例:df1时, 0.00004以上的概率为0.995,其以下的概率为1-0.9950.005;其含义为:在无限多个 构成的 分布中,其 值有99.5的可能比0.00004大,同时有0.5的可能比0.00004小 分布在统计分析中应用于计数数据的假设检验以及样本方差与总体方差差异是否显著的检验等四、四、F F分布分布自一个正态总体中随机抽取容量为n1和n2两样本,其方差的比率分布为F分布,分子的自由度为n1-1,分母的自由度为n2-1。知道了同一总体不同样本的方差比率分布,即可分析任意两样本方差是否取自同一总体F分布在统计分析中是很有用的一种样本分布公式推导过程:从两个正态分布的总体中分别随机抽取容量为n1和n2的样本,每个样本都可计算出 值,这样可得到无限多个 每个 随机变量个除以对应的自由度df1与df2之比,称为F比率,这无限多个F的分布就是F分布(一)F分布的特点1.F分布为正偏态,随df1,df2的不同而不同,随df1和df2的增加而渐趋于正态分布2.F总为正值3.当分子的自由度df1为1,分母的自由度df2为任意值时,F值与分母自由度相同概率的t值(双侧概率)的平方相等。如:df11,df220,则F0.05(1,20)4.35,而 t(0.05/2)的平方4.35(二)(二)F F分布表分布表只列出最常用的0.95,0.99(指某F值左侧)或为0.05,0.01(某F值的右侧)的值左一列:分母自由度df2左二列:概率上列:分子自由度df1标准数值:F值(F(df1,df2)例:df1=2,df2=9,=0.05,则F0.05(2,9)4.26即在分子自由度为2,分母自由度为9的F分布曲线下,F为4.26时,该F值右侧概率为0.05,即只有5的样本可能比4.26大小结重点:重点:随机变量所有可能取值及其相应的概率,称为概率分布基本随机变量的分布:二项分布 正态分布 t 分布抽样分布:样本统计量的分布 分布 F 分布
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号