资源预览内容
第1页 / 共13页
第2页 / 共13页
第3页 / 共13页
第4页 / 共13页
第5页 / 共13页
第6页 / 共13页
第7页 / 共13页
第8页 / 共13页
第9页 / 共13页
第10页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
章、绪论现代统计学之父:皮尔逊描述统计与推断统计描述统计主要研究如何整理、描述数据的特征。推断统计主要研究如何通过局部数据所提供的信息推论总体特征。变量类型定类变量:如,性别、学号、颜色类别、教学方法。特征:没有绝对零点,没有测量单位。变量值之间有“相等”和“不等”的关系,但没有大小之分,不能比较大小,更不能进行加、减、乘、除四则运算。定序变量:程度、等级和水平。如,比赛名次、品质等级、喜爱程度特征:既无零点、又无测量单位。变量的值之间具有“等于”或“不等于”关系、序关系(优于、先于、劣于、后于等),四则运算没有意义。定比变量:除了可以说出名称和排出大小,还能算出差异大小量的变量。如温度、测验成绩、智商。特征:有相等的测量单位,无绝对零点。考试成绩为零不表示没有一点知识。可进行加减运算,乘除运算则无意义。定距变量:如身高、重量、学生人数。既有测量单位,又有绝对零点,可进行计算。降低偏差:利用随机抽样降低变异性:用大一点的样本三、描述统计一、频数:某一事件在某一类别中出现的次数。频数分布类型:正态,正(负)偏态,正(反)J形,U形分布分布性质;集中(分散)程度,偏度和峰度不同。偏态系数:数据的对称性峰态系数:数据的峰度二、集中量数:包括算术平均数M、中位数Md、众数Mo(用众数代表一组数据,可靠性较差,不过,众数不受极端数据的影响,并且求法简便)、加权平均数Mw、几何平均数Mg、调和平均数Mho组数据中有少数数据偏大或偏小,数据的分布呈偏态时,应用几何平均数算数平均数的性质(算法必须会):(1) 每一个变量加减或乘除一个数之后,均值也相应增加。(2) 变量值与均值的离均差之和为零。(3) 变量值与均值的离均差平方和为最小值。三、离散M数:全距R、四分位差Q、平均差A.D、方差(样本统计MS2,总体参数2)、标准差(s或者sd)、百分位差全距:全部数据中的最大值与最小值的差,描述了数据分布的范围。四分位差(Q):样本中间50%的人的全距的一半。是一个距离,Q越大,表示样本中各样品越不整齐?平均差:全部数据与均值绝对离均差的均值。方差:各个数据偏离中心的程度。方差越大,数据波动越大。标准差:方差的算术平方根。样本中独立或能自自由度:自由度是指当以样本的统计M来估计总体的参数时,由变化的数据的个数。标准分数:以标准差为单位表示一个原始分数在团体中所处的相对位置,即原始分数在均值以上或以下几个标准差的位置。性质:标准分数的均值为0,标准差为1。没有实际单位。应用:(1) 、比较不同性质的观测值在各自数据分布中相对位置的高低。如身高与体重。(2) 计算不同质的观测值的总和或者均值,以表示在团体中的相对位置。如高考的标准分。(3) 做线性转换后,表示标准测验分数。如IQ。图表条形图,用于定性数据。直方图与多边图:用于定量数据时序图:反映事物变化趋势饼图:定性数据的多少或构成比例散点图:两个变量的变化关系和变化方向。茎叶图:保留小样本连续变量的原貌。三线表的组成要素包括:表序、表题、项目栏、表体、表注五、随机变量分布正态分布XN(f2)样本均值的分布正态分布曲线下的面积:曲线高度是频数(丫),曲线下面积则是累积频数P(也视作随机变量出现的概率)。X轴上的截距为Z。其中,口决定曲线的位置,C决定曲线的“胖瘦”无论各分布的均值与标准差的值是多少,x取值以下特定区域的概率(面积)是确定的,即:正负一个标准差,占68.27%,两个95.45%,三个99.73%标准正态分布:均值为0,标准差为1.总体服从正态分布N(h二2)时,来自该总体的所有容M为n的样本的均值_2X的期望为P,方差为(T2/nX?N二)n平均数的标准误标准误衡M了抽样误差(samplingerror)的大小。所谓抽样误差是指由抽样引起的样本统计M与总体参数间的差异。标准误越小,统计M与参数越接近,样本对总体越有代表性,用统计M推断参数的可靠度越大,所以,标准误是推断统计可靠性的重要指标。卡方分布:变M相互独立,且服从N(0,1)分布的随机变称随机变M服从自由n度为为n的卡方分布。记做x2二x2(n),x2=x2im卡方分布:样本方差的分布(样本方差的分布)来自一个正态总体:(X)S;J N:t(N -1),其中,庞(X _X)2二 N-1T分布:随机变MX服从N(0,1),丫服从x2(n),且相互独立,则随机变M服从自由度为n的t分布,记做tt(n).t二X.来自两个正态总体t= (xm)SpN1N2 NaN2:t(Ni其中 s = 01 -1)S2+(N2-1)MII2-2),Sp为两样本的混合标准差NJN2-2T分布的均值为0,方差为n/(n-2).t统计M是参数估计与假设检验的基础。特点:当样本容M趋于二,t分布为正态分布,方差为1,随自由度的减少,离散程度(方差)增大,分布中间变低,尾部变高S2F分布:F=F(N,-1,N2-1)两样本方差的比I&IF统计M主要用于方差分析、协方差分析、回归分析等。六、参数估计参数估计:当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。总体参数估计问题可以分为点估计与区间估计。点估计:用莫一样本统计M的值来估计相应总体参数的值。优良的估计M具有的性质:无偏性、有效性、一致性。区间估计:按一定概率要求,由样本统计M的值估计总体参数值的所在范围。原理:抽样分布理论。抽样分布的标准误的大小决定置信区间的长度。置信区间:指在莫一置信度时,总体参数所在的区域长度。置信度:是作出莫种推断时正确的可能性(概率)。通常用(1-a)表示。显著性水平:即a,是指估计总体参数落在莫一区间时可能犯错误的概率。两个要素:可靠性(置信水平的高低)和精确度(区间长度)。置信水平为95%的置信区间的确切含义:重复抽样N次,所得到的N个置信区间中有95%个包含了总体参数。影响区间估计精确度的因素:(1)置信度(1-a)(反比)(2)样本容M(正比)(3)总体数据的变异程度(反比)0.95的置信区间:X-1.96个标准误单总体均值的区间估计:X_u两总体均值差异的区间估计: 时用很长很长的那个公式。方差已知,正态分布;Z二入N(0,1)方差未知,t分布。T分布。相关样本与独立样本都为T分布其中,独立样本总体均值的区间估计:卡方分布N21SAX2(N-1)y七、假设检验假设检验(显著性检验):事先对总体参数或分布形式作出莫种假设,然后利用样本信息来判断原假设是否成立。类型:参数检验和非参数检验(包括分布检验和独立性检验)。假设检验的原理:(1)逻辑上为反证法(假设检验首先假定虚无假设H。为真,通过否定H。,来检验备择假设Hi的真实性)(2)统计上为小概率事件(小概率事件在一次实验或观测中,几乎是不可能发生的。在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。小概率由研究者事先确定,如0.05,0.01,0.001等)。假设检验的步骤:(1)提出原假设和备择假设(2)确定适当的检验统计M,检验统计M(方差已知)的基本形式为:z=七士|/f(3) 规定显著性水平(0.05或0.01)(4)计算检验统计M的值(5)作出统计决策拒绝域:拒绝原假设的概率。两类错误:拒真错误:型错误;取伪错误1型错误。统计效力(统计检验力)1-1两类错误的关系(1) 不一定等于1.(2)其他条件不变,两者不能同时增大或者减小。(3)两者地位不一样。我们应尽M避免第一类错误(4)影响错误单侧检验与双侧检验单侧检验:强调方向性。双侧检验:只强调差异,不强调方向性。单总体均值的假设检验:X-方差已知,正态分布Nn生N(0,1)。用这个统计公式,然后查表。o/Vn方差未知,t分布 t = 一二一=1马铤(N 1),其中,IN两总体均值差异的显著性检验:(1)相关样本,使用t分布统计M(2)独立样本,方差已知,使用正态分布统计M ;s、(X -X) 21 N 1Z_(Xi-X2)i U1 I 1 - 2)22-2-十;NiN2(3)独立样本,方差未知,但是齐性,使用t分布统计M(Xi-X2)(叫-”)N1N2M0、KAt(N1N2-2),SpN1N2其中,sp二(Ni -1)Si2 (N2-1)$汕 +N2 2总体分布的假设检验(属于非参数检验):卡方检验设有N个被试,按变MX的取值可以分成k类,第i类有Oi个观测值,则检验统 ?(Oi-Ey Ei2:x (K -1)八、方差分析方差分析的逻辑:把观察值的总变异分解为两个或多个部分,除随机误差外,其余各部分变异可由莫个或莫几个因素或它们的交互作用来解释。F分布的统计推断可阐明莫一或莫些因素或因素间交互作用是否对观察值有影响。单因素方差分析的逻辑与步骤:(1)模型与假设(2)平方和的分解与F检验(3)关联强度与效应值(4) 多重比较(5)前提假设方差分析的前提条件:总体服从正态分布;变异可加性;方差齐性;独立性。单因素完全随机设计的方差分析:关联强度与效应值:实验处理引致的效应的大小或者数据的变异有多少部分是由实验处理造成的关联强度:因变M的变异被自变M解释的百分比。事后比较:F检验显著说明各组均值并不相同(至少两组不同),但不能回答到底哪几组不同。通过对各组均值之间的配对比较来进一步检验到底哪些均值之间存在差异。事后比较的方法:(1)费舍最小显著差异法:对检验两总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE代替)。( 2) S-N-K,q检验:把各组均值排序,用每一比较的两个均值在排序序列种相差的等级数来确定不同的q临界值。( 3) HSD检验:与SNK法类似,不同之处在于不论各组均值的大小次序,均使用同一临界值。( 4) Bonferroni校正(以t分布作为检验分布)对检验水准进行调整),不适用于比较的次数很多的情况。方差分析结果的解释与报告单因素方差分析结果(范例):方差分析的结果(见表2)显示,教学方法对阅读理解的成绩有显著影响,F(2,15)=4.44,MSE=34.94,p=0.0310.05,Etap2=0.37。进一步的多重比较显示,当使用教学方法2时,被试的成绩显著高于使用方法1(p=0.015)或方法3时(p=0.030);但是,方法1和方法3之间则无显著差异(p=0.737)。双因素结果方差分析(范例):标题提示与阅读速度对成绩的影响方差分析的结果显示,标题提示对成绩有显著影响,F(2,66)=3.856,2MSE=2.475,p=0.0260.05,EtaP=0.105。事后比较结果显示,当标题提示为正确与中性时,成绩显著高于标题提示为误导时的成绩(p0.05),但前两者无显方差分析还显示,阅读速度对成绩有显著影响,F(1,66)=21.573,MSE=2.475,p=0.0000.01,Etap2=0.246,阅读速度为常速时的成绩比快速时更高。更重要的是,交互作用
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号