数据统计分析初级统计及回归分析顾世梁-

数据统计分析初级统计及回归分析顾世梁Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望生物统计是关于试验的设计、实施，数据的收集、整理、分析和结果推论的科学。从事试验研究，需要对处理（措施、技术）的效应给出一个明确的结论（显著与否）。推论是先对研究对象的总体提出一种假设(hypothesis)，再对该假设进行测验(test)以计算在假设总体中抽得实际样本(统计数)的概率来判断。1.1 二项总体分布二项总体分布（0，1 分布）若一个总体由0，1两种元素组成，这样的总体称0，1总体。若取1的概率为p，记为P(1)=p，则P(0)=1-p=q，p+q=1.1 几种常见的分布几种常见的分布概率计算比较复杂，生物统计中所用的概率计算主要利用变数分布进行。1.2 二项分布二项分布(binomial distribution) 二项分布是指在=p的二项总体中，以样本容量n进行抽样，样本总和数 k (0kn)的概率分布。1.3 普松分布普松分布(poisson distribution) 若n很大，p很小，其np=m，二项概率分布趋于普松分布。1.4 正态分布正态分布(normal distribution)若p接近0.5，n很大，二项概率分布趋于正态分布。正态分布是最重要的连续性变数的分布，原因有3：1、试验研究中很多变数(性状)服从正态分布；2、一些间断性变数在一定条件下趋于正态分布；3、一些变数本身不服从正态，但其统计数(如平均数)在一定条件下(样本容量增大时)趋于正态分布。这第3点是一个很重要的性质，因为我们将来对处理效应的推断，往往是以平均数（或其它统计数）进行的。在对样本容量较大的统计数进行统计推断时，可不必考虑原变数服从何种分布，统计假设测验均可在正态分布的基础上进行。了解一个变数（或一个统计数）服从某种分布，其目标是为了计算该变数（统计数）落在某一区间的概率。P(axb)=?1.5 学生氏学生氏 t 分布分布( t distribution)标准正态离差服从正态分布。上述u分布在实际应用中存在问题，最主要的是无法得到，人们自然想到用样本标准差 s 代替计算u值，进而计算概率（假设测验）。但经抽样试验发现，这种替代是有问题的，尤其是在小样本情况下，s 的变异度较大（而是常量）。它直接的效果是由此算出的值比 u 的变异度大。后经WS Gosset (1908)导出了该统计数（t）的概率密度函数 f(t)。1.6 卡方分布卡方分布(2 distribution)1.7 F分布分布( F distribution, RA Fisher, 1923)2 统计假设测验统计假设测验2.1 概念和基本步骤概念和基本步骤我们在试验过程中获得了一个或多个样本(统计数)，其目的在于推断由此代表的总体（参数）。得出处理效应存在与否的定性结论。基本过程有4步：1）对未知总体）对未知总体(参数参数)提出假设提出假设 H0:=0, HA: 0； H0: = 0, HA: 0 ；2）设定一个否定）设定一个否定H0假设的小概率标准（显著水平）假设的小概率标准（显著水平）（ =0.05， =0.01 ）；）；3）计算在假设条件下比实得样本）计算在假设条件下比实得样本(统计数统计数)还偏的概率还偏的概率p。4）根据）根据p与与值的大小，接受或否定值的大小，接受或否定H0假设。假设。2.2 几种常用的假设测验几种常用的假设测验指的是该统计数的标准误，亦即该统计数分布的标准差。ttest(x, m0)ttest2(x1, x1) 2.3 假设测验的本质假设测验的本质1）显著性的大小是决定统计数与假设参数间、统计数间差异显著性的主要因素。试验研究中应尽量减小统计数的标准误。一是减小试验误差（s）；二是增大样本容量（n）。2）假设测验的错误利用概率进行测验，有些情况下会犯错误。当正确的假设被否定时，就犯了弃真错误（I型错误, 错误）；当错误的假设被接受时，就犯了取伪错误（II型错误, 错误）。犯两类错误的概率不同。 3 方差分析方差分析方差分析是将多个样本作为一个整体，将总变异分解成相应变异来源的平方和和自由度，得到各变异来源方差的数量估计，用F测验鉴别样本间的差异显著性。分三个内容：1）分解平方和自由度，计算各变异来源的方差；其中MSe(或se)比较重要，它是测验组间效应存在与否的标准；2）F测验, F=MSt/MSe；3）多重比较，当F测验显著，应对处理平均数的差异显著性作进一步说明。3.1 单向分组资料的方差分析单向分组资料的方差分析处理观察值Tixi1x11x12x1jx1nT1x12x21x22x2jx2nT2x2ixi1xi2xijxinTixikxk1xk2xkjxknTkxkxij为第为第i个处理的第个处理的第j个观察值，个观察值，i=1,2,k, j=1,2,n. Data structure方差分析结果尽量以方差分析表表示。anova1(x)3.2 两向分组资料的方差分析两向分组资料的方差分析AB1 2 j n Tixi1x11x12x1jx1nT1x12x21x22x2jx2nT2x2ixi1xi2xijxinTixikxk1xk2xkjxknTkxkT.1T.2T.jT.nTxxij为为A因素第因素第i个水平和个水平和B因素第因素第j个水平组合个水平组合(处理处理)的反应量，的反应量，i=1,2,k； j=1,2,n. Data structureAnova2(x)，或anova2(x,n)。3.3 系统分组资料的方差分析系统分组资料的方差分析xijk为第为第i组、第组、第j亚组、第亚组、第k个反应量，个反应量，i=1, 2, , l； j=1,2,m；k=1, 2, , n. Data structurexijk 较复杂的系统分组资料还可能在亚组中继续再分成小亚组（小小亚组）；每一组具有不同的亚组数（mi不全相同），每一亚组具有不完全相同的观察值数目（nij不全相同）。xijk为第为第i 组组,第第j亚组亚组,第第k个个(处理处理)的反应量，的反应量，i=1, 2, , l； j=1,2,mi；k=1, 2, , nij. 3.4 单因素完全随机试验资料的分析单因素完全随机试验资料的分析即单向分组资料的方差分析。即单向分组资料的方差分析。3.5 单因素随机区组试验资料的分析单因素随机区组试验资料的分析即两向分组资料的方差分析。即两向分组资料的方差分析。3.6 二因素随机区组试验资料的分析二因素随机区组试验资料的分析 A因因素素有有a个个水水平平，B因因素素有有b个个水水平平，均均衡衡搭搭配配时时有有ab个个处处理理；r个个重重复复（r个个区区组组），abr个观察值。方差分析分两步：个观察值。方差分析分两步：1）构建处理区组两向表，按处理区组两向分组数据模型分解平方和、自由度： 2）构建AB两向表，按AB因素两向分解平方和、自由度。二因素、多因素完全随机试验、随机区组试验资料的方差分析均可用anovan的命令实现。格式：anovan(x, group, model)Anovan （多因素资料的方差分析）（多因素资料的方差分析）Anovan(x, group, model)三因素三因素 model=1 2 3 4 5 6 7(三因素方差分析编码表三因素方差分析编码表)数值数值含义含义1A(主效主效)2B(主效主效)3AB(互作互作)4C(主效主效)5AC(互作互作)6BC(互作互作)7ABC(互作互作)四因素方差分析编码表四因素方差分析编码表(model)数值含义数值含义1A(主效主效)9AD2B(主效主效)10BD3AB(互作互作)11ABD4C(主效主效)12CD5AC13ACD6BC14BCD7ABC15ABCD8D(主效主效)3.7 一些处理效应再分解的方差分析 1）单一自由度比较； 2）其他分解的一些实例。 Lsh.m; cg.m.处理n平均数 ABCD vs EAB vs CDA42727.875T1=44625.75T1=206B424.5C428.530T2=240D431.5E42020T2=80 如例8.1（水稻N肥试验），5个处理（ABCDE）具有SSt=301.2，dft=4，可将其进一步分解：ABCD vs E df1=1, SS1=198.45；AB vs CD df2=1, SS2=72.25 A vs B df3=1, SS3=12.5； C vs D df4=1, SS4=18.04 回归和相关分析回归和相关分析4.1 一元线性回归分析一元线性回归分析对于双变数资料的回归分析，主要有三项任务：1）建立 Y 依 X 的量化关系，即估计回归统计数和回归方程；2）估计离回归误差，对回归方程和回归统计数进行统计假设测验；3）回归方程的进一步利用。模型：据：对Q分别对a、b求偏导并使其为0，得正规方程组：解得：4.2 回归分析的矩阵方法回归分析的矩阵方法回归分析是用最小二乘法(least squares method)估计回归统计数B=(a, b)，使离回归平方和（Q, RSS）最小：实例和matlab命令集clear; clcx=1.58, 9.98, 9.42, 1.25, .30, 2.41, 11.01, 1.85, 6.04, 5.92y=180, 28, 25, 117, 165, 175, 40, 160, 120, 80x=x(:); y=y(:); n=size(y,1); SSy=var(y)*(n-1); SSx=var(x)*(n-1);xbar=mean(x); ybar=mean(y);X=ones(n,1),x; A=X*X; K=X*y; SumX=A(1,2); SumY=K(1); SumX2=A(2,2); SumXY=K(2);SP=SumXY-SumX*SumY/nC=inv(A), B=AK, B=C*K, B=X*XX*y, b=XyQ=y*y-B*K, U=SSy-Q, MSQ=Q/(n-2), syx=sqrt(MSQ)F=U/MSQ; p=1-fcdf(F,1,n-2);disp(F=,num2str(F), p=,num2str(p)sa=syx*sqrt(C(1,1), sb=syx*sqrt(C(2,2)ta=b(1)/sa; pa=2*tcdf(-abs(ta),n-2);disp(ta=,num2str(ta), p=,num2str(pa)tb=b(2)/sb; pb=2*tcdf(-abs(tb),n-2);disp(tb=,num2str(tb), p=,num2str(pb)r=corr(x,y), r2=SP2/SSx/SSysr=sqrt(1-r2)/(n-2), tr=r/sr4.3 多元线性回归分析多元线性回归分析当其中的自变数不显著时，应将其剔除。剔除的过程应采用逐步回归的方法，即每次剔除一个偏回归平方和最小且不显著的自变数，直至所有的自变数均显著（下同）。实例和matlab命令集clear;clc,alpha=.05;x1=10, 9, 10, 13, 10, 10, 8, 10, 10, 10, 10, 8, 6, 8, 9;x2=23, 20, 22, 21, 22, 23, 23, 24, 20, 21, 23, 21, 23, 21, 22;x3=3.6,3.6,3.7,3.7,3.6,3.5,3.3,3.4,3.4,3.4,3.9,3.5,3.2,3.7,3.6;x4=113, 106,111,109,110,103,100,114,104,110,104,109,114,113,105;y=15.7,14.5,17.5,22.5,15.5,16.9,8.6,17,13.7,13.4,20.3,10.2,7.4,11.6,12.3;x=x1,x2,x3,x4;load regm %x=rand(100,40);y=rand(100,1);%data=xlsread(regm); y=data(:,end);data(:,end)=;x=data;data=;%data=load(regm.csv); y=data(:,end);data(:,end)=;x=data;data=;n,m=size(x);SSy=var(y)*(n-1);X=ones(n,1),x;A=X*X;K=X*y;C=inv(A)b=AK,%b=C*K,b=X*XX*y,b=XyQ=y*y-b*K,U=SSy-Q,MSQ=Q/(n-m-1),syx=sqrt(MSQ)Fm=U/m/MSQ; p=1-fcdf(Fm,m,n-m-1);disp(Fm=,num2str(Fm), p=,num2str(p)Up=b.*b./diag(C);Up(1)=;F=Up/MSQ, pr=1-fcdf(F,1,n-m-1)for i=1:m if i=alpha qi=find(F=min(F); pr=1-fcdf(min(F),1,n-m-1); if pr=alpha disp(num2str(qi), ,num2str(min(F), del ,tr(qi,:) tr(qi,:)=; X(:,qi+1)=; m=m-1; end A=X*X; K=X*y; b=Xy; Q=y*y-b*K; MSQ=Q/(n-m-1); C=inv(A); Up=b.*b./diag(C);Up(1)=; F=Up/MSQ; pr=1-fcdf(F,1,n-m-1);enddisp(Last Results:)disp( Xi bi Upi Fi pFi)disp(X0 ,num2str(b(1)for i=1:m disp(tr(i,:), ,num2str(b(i+1), ,num2str(Up(i), , num2str(F(i), ,num2str(pr(i)enddisp(Error ,num2str(n-m-1), ,num2str(Q), ,num2str(MSQ)disp(Total ,num2str(n-1), num2str(SSy)r2=(SSy-Q)/SSy多元线性回归分析的有关假定与注意事项:假定1：误差是正态分布的；假定2：每一自变数对依变数的作用仅为线性。假定2不满足对回归结果影响较大。注意1：自变数个数(m)必须少于观察值组数(n)；注意2：避免自变数共线性情形，共线性指变数间高度相关或一个变数是其他变数的线性组合。若结构阵不满秩，信息阵是奇异或病态的，逆阵不存在或有很大偏差，无法求解回归系数或有很大误差，难于对回归模型及回归统计数进行客观真实的假设测验。回归分析无法进行，或所得结果不可信。4.4 一元线性相关分析一元线性相关分析计算X、Y相关性质和程度的统计数相关系数r4.5 多元线性相关分析多元线性相关分析计算m个变数X（Y）的（简单）相关系数rij：4.6 多元偏相关分析多元偏相关分析 m个变数X（Y）在其它变数皆固定在某一水平时，余下两个变数间的相关称为偏相关。4.7 通径分析通径分析计算m个自变数 Xj 与 Y 关系的相对重要性，可用直接通径系数pj表示。4.8 一元多项式回归分析一元多项式回归分析计算1个自变数 X与 Y 的多项式回归也很常见。m为模型中Xj幂的项数。Up1, Up2, Up3, Up4 分别为线性(linear), 二次(Quadratic), 三次(cubic), 四次(4th degree)响应(response).一元多项式回归分析的几点注意：1) 随着k的增加，回归平方和增加，离回归平方和减小，k不应超过n-2。当k=n-1时，离回归平方和等于0（即所有的点都在线上）。但这并非很好，若用此方程进行预测（中间插值或外推）可能会相差很远。因此，合适的高次幂应由适当的判断和测验所决定。从数学关系可知，2次式没有拐点；3次式有一个拐点；4次式有两个拐点；及此类推。2)多项式方程的假设测验一般先对最高次幂进行，若不显著时顺次向下测验；在最高次幂确定保留的前提下，再对其他项的保留（或删除）进行鉴别。上述一元线性、多元线性、一元多项式以及多元多项式回归分析，均采用前述模型及过程进行分析。假设测验是以离回归误差MSQ作为标准进行测验，这一般没有问题，也没有其它替代方法。但若处理有重复观察值，可用重复观察值估计误差方差（MSe），各项回归效应的显著性应以此为标准进行测验，同时还可对离回归（MSQ）进行测验（失拟测验）。若失拟不显著，表明模型是合适的；若失拟显著，表明用此模型并不合适，有选择更好模型的必要。4.9 多元多项式回归分析多元多项式回归分析进行m个自变数Xj与 Y 的多元多项式回归分析，情况变得较复杂。如用最简单的多元多项式回归即只考虑线性和2次幂主效及线性互作响应时，其回归模型可表示为：其中，模型中线性主效有m项，2次幂主效有m项，线性互作有m(m-1)/2项，模型中需要考虑的项数(总自变数)p=m(3+m)/2项。若考虑其它效应，在模型中增加相应的分量，p将迅速增加。多变数(项)回归模型中，既有显著的自变数(项)，也有不显著的自变数(项)，回归分析需将不显著的自变数(项)予以剔除，使所得多元回归方程比较简化而又能较准确地分析和预测 Y 的反应。这一过程称为多元回归自变数的统计选择逐步回归。逐步回归有两种基本方法逐个选入法和逐个剔除法，以后者更为常用。该法以所有自变数(项)的回归为基础，每次剔除一个偏回归平方和最小且不显著的自变数(项)，删除结构阵的相应列，重新计算回归统计数、偏回归平方和并测验，直至所有的自变数(项)均显著。一些例子和matlab程序: lrmpoly.mThank your cooperation!