资源预览内容
第1页 / 共105页
第2页 / 共105页
第3页 / 共105页
第4页 / 共105页
第5页 / 共105页
第6页 / 共105页
第7页 / 共105页
第8页 / 共105页
第9页 / 共105页
第10页 / 共105页
亲,该文档总共105页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1、相关分析 2、回归分析 3、时间序列分析 4、系统聚类分析 5、主成分分析 6、马尔可夫预测 7、趋势面分析 8、地统计分析,第三章 地理学中的经典统计分析 方法,3.1 相关分析,3.1 相关分析,相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。 两要素之间相关程度的测定 多要素间相关程度的测定,相关关系的分类 按照影响因素分类 简单线性相关 偏相关 复相关,正相关,负相关,线性相关,非线性相关,主要步骤, 判断现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点; 确定研究变量均为随机变量; 根据变量个数和特征选择合适的分析方法; 计算相关系数; 对相关系数进行显著性检验。,一、两要素之间相关程度的测定,相关系数的计算与检验 秩相关系数的计算与检验,(一)、相关系数的计算与检验 相关系数的计算 定义 和 为两要素的平均值。 说明 :- 1 = = 1, 大于0时正相关,小于 0时负相关。 的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。,(3.1.1),极显著相关,显著相关, 简化 记 公式3.1.1可简化为:,(3.1.2),表3.1.1 伦敦的月平均气温与降水量,资料来源:http:/www.cwb.gov.tw/V4/climate/wta_station/wta20.htm,相关分析实例,根据表3.1.1中的数据,我们可以代入公式(3.1.1),计算伦敦市月平均气温(T)与降水量(P)之间的相关系数: 计算结果表明,伦敦市的月平均气温(t)与降水量(p)之间呈负相关,即异向相关。,又如:,根据甘肃省53个气象台站的多年平均数据(见教材表3.1.2),可以对降水量(p)和纬度(y)之间的相关系数以及蒸发量(v)和纬度(y)之间的相关系数,分别代入公式(3.1.1)计算如下:,计算结果表明,降水量(p)和纬度(y)之间异向相关,而蒸发量(v)与纬度(y)之间同向相关。,相关系数的检验,相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。 检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。,自由度(degree of freedom, df)在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。,在上表中,f称为自由度,为f=n-2,n为样本数;上方的 代表不同的置信水平;表内的数值代表不同的置信水平下相关系数的临界值;公式 的意思是当所计算的相关系数 的绝对值大于在 水平下的临界值 时,两要素不相关(即 )的可能性只有 。,相关系数真值0时样本相关系数的部分临界值r,(1)对伦敦市月平均气温(T)与降水量(P)之间的相关系数, f=12-2=10,在显著性水平 上,查表3.1.3,得知: 。因为 ,所以,伦敦市月平均气温(T)与降水量(P)之间的相关性并不显著。,(2)对于甘肃省53个气象台站降水量(P)和纬度(Y)之间的相关系数,以及蒸发量(V)和纬度(Y)之间的相关系数,f=53-2=51,表中没有给出相应样本个数下的临界值,但是我们发现,在同一显著水平下,随着样本数的增大,临界值减少。在显著性水平=0.001上,取f=50,查表3.1.3得知: =0.001 =0.4433。显然,PY和VY的绝对值都远远大于=0.001 =0.4433,这说明甘肃省53个气象台站降水量(P)和纬度(Y)之间,以及蒸发量(V)和纬度(Y)之间都是高度相关的。,某地区土壤中有机碳和有机氮含量分别如1所示,试求两者之间是否存在线性相关关系。 分析步骤: 1. 绘制散点图 2. 前提条件检验 正态性检验 3. 计算Pearson相关系数 4. 显著性检验,分析结果表明:在0.01水平上,SON和SOC极显著正相关,pearson相关系数为0.96。,某山地各气象观测站的相关数据如2所示,试分析其相关关系。 分析步骤: 1. 绘制散点图 2. 前提条件检验,正态性检验 3. 计算Pearson相关系数 4. 显著性检验,分析结果表明:在0.01水平上,年降水量与经度极显著负相 关,相关系数为0.559;年降水量与海拔极显著正相关,相 关系数为0.937;经度与海拔在数值上极显著负相关,在专业 意义上为假相关。,秩相关系数,又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。,(3.1.4),(二)秩相关系数的计算与检验,书中表3.1.4给出了2003年中国大陆各省(直辖市、自治区)的GDP(x)和总人口(y)数据及其位次,将数据代入公式(3.1.4),就可以计算它们之间的秩相关系数: 即: GDP(x)与总人口(x)之间的等级相关系数为0.7847。,示例:,n代表样本个数,代表不同的置信水平,也称显著水平,表中的数值为临界值。,秩相关系数的检验,在上例中,n=31,表中没有给出相应的样本个数下的临界值,但是同一显著水平下,随着样本数的增大,临界值减少。在n=30时,查表得:0.010.432,由于xy=0.7847 0.010.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。,二、多要素间相关程度的测定,偏相关系数的计算与检验 复相关系数的计算与检验,二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。,问题产生,偏相关系数的计算与检验,偏相关系数的计算 定义:在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。 计算:3个要素的偏相关系数,(3.1.5),(3.1.6),(3.1.7),四个要素的偏相关系数,(3.1.8),(3.1.9),(3.1.10),(3.1.11),例如:对于某四个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵:,利用一级偏向关系数公式计算一级偏向关系数,如表3.1.5 所示:,利用 二级偏相关系数公式计算二级偏相关系数,见下表:,性质, 偏相关系数分布的范围在-1到1之间; 偏相关系数的绝对值越大,表示其偏相关程度越大; 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。,偏相关系数的显著性检验 t检验法的计算公式:,上例检验: 查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然 ,这表明在置信度水平 =0.001上,偏相关系数r2413是显著的。,某山地各气象观测站的相关数据如所示, 试分析消除经度影响后,年降水量与海拔的偏相关系。 分析步骤: 1. 前提条件检验 正态性检验 2. 计算偏相关系数 3. 显著性检验,偏相关分析,早稻产量与降雨量和温度之间的关系,实现步骤,图 在菜单中选择“Partial”命令,图 “Partial Correlations”对话框,图 “Partial Correlations:Options”对话框,结果和讨论,复相关系数,复相关系数:反映几个要素与某一个要素之间的复相关程度 。 计算 当有两个自变量时, 当有三个自变量时, 当有k个自变量时,,(3.1.15),(3.1.16),(3.1.17),性质 复相关系数介于0到1之间,即 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。仅表现出一个变量与一个变量集一起变化的程度。 复相关系数必大于或至少等于单相关系数的绝对值。 显著性检验 F-检验法。其统计量计算公式为,例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。,解:按照公式(3.1.16)计算: 检验: ,故复相关达到了极显著水平。,某山地各气象观测站的相关数据如2所示,试年降水量与海拔和经度的复相关关系.,假定有 n 个样品,m个变量,则可以建立一个原始数据矩阵 X如下,相关系数(correlation coefficient)是对于变量而言,第 j 和第 k 个变量的相关系数,计算公式为,相似系数,相似系数(similar coefficient)是针对样本而言,第 i 和第 r 个样品的相似系数,计算公式为,相关系数与相似系数的不同在于 R 型分析(基于样品分析变量)和 Q 型分析(基于变量分析样品)的区别,举例说明。下表是 2000 年北京、天津及上海的非农业人口和建成区面积。非农业人口和建成区面积为变量,城市为样品,因此计有两个变量,三个样品。我们采用这个非常简单的例子是为了便于直观地显示图形的结构,回归分析,回归(regression)这一术语是1886年高尔顿(Galton)研究遗传现象时引进的,他发现:虽然高个子的先代会有高个子的后代,但后代的增高并不与先代的增高等量,后代的身高有向平均高度靠拢的趋势。他称这一现象为“向平常高度的回归” “Regression toward mediocrity in heredity stature”。尔后,皮尔逊(Pearson)搜集了1078个家庭或成员的身高数据,分析出成年儿子的身高y和父亲的身高x大致可归结为以下关系: 如今人们将回归分析理解为研究变量间统计依赖关系的方法,而并非Galton的原意,但回归这一名词却一直沿用下来,成为统计中最常用的概念之一。,回归分析的由来,回归分析能解决的问题 确定几个特定变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式; 根据一个或几个变量的值,预报或控制另一个变量的取值。,主要内容 建立变量x与y之间的线性回归模型 估计回归系数(最小二乘法)并进行显著性检验 判断变量x和y之间是否存在线性关系 根据一个变量的值,预测或控制另一变量的取值,一元线性回归模型 设(X,Y)是反映两个总体特征的指标。对(X,Y)进行n次观察,获得观察值(xi,yi),得到平面上的n个点。在n较大的情况下,如果有一条曲线基本上通过这些点,或使这些点的大部分偏离曲线不远,则称这条曲线为观察值的拟合曲线,亦称此曲线为y对x的回归曲线。如果这条曲线的方程能够表示成yf(x),则称该方程为y对x的回归方程。当此曲线是直线时,就称之为直线回归。,一、一元线性回归模型,定义:假设有两个地理要素(变量)x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数; 为各组观测数据的下标; 为随机变量。,(3.2.1),记 和 分别为参数a与b的拟合值,则一元线性回归模型为 (3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号