空间统计分析方法-－金锄头文库

第第5讲讲空间统计分析空间统计分析授课人：王杰Email: wangjie09lzb.ac.cn安徽大学资源与环境工程学院地理信息系统科研方法课程本讲内容本讲内容探索性空间统计分析探索性空间统计分析地统计分析方法地统计分析方法空间统计分析空间统计分析, ,即空间数据（即空间数据（spatial data）的统）的统计分析，是现代计量地理学中一个快速发展的方向计分析，是现代计量地理学中一个快速发展的方向和领域。和领域。空间统计分析，其核心就是认识与地理位置相关的空间统计分析，其核心就是认识与地理位置相关的数据间的数据间的空间依赖、空间关联或空间自相关空间依赖、空间关联或空间自相关，通过，通过空间位置建立数据间的统计关系。空间位置建立数据间的统计关系。空间统计分析的任务，就是运用有关统计方法，建空间统计分析的任务，就是运用有关统计方法，建立立空间统计模型空间统计模型，从凌乱的数据中，从凌乱的数据中挖掘空间自相关挖掘空间自相关与空间变异规律与空间变异规律。空间统计分析空间统计分析空间数据分析与传统统计分析主要有空间数据分析与传统统计分析主要有两大差异：两大差异：(1)空间数据间并非空间数据间并非独立独立，而是在维空间中具有某种空间相关，而是在维空间中具有某种空间相关性，且在不同的空间分辨率下呈现不同之相关程度；性，且在不同的空间分辨率下呈现不同之相关程度；(2)地球只有一个，大多数空间问题仅有一组（空间分布不规地球只有一个，大多数空间问题仅有一组（空间分布不规则的）观测值，而则的）观测值，而无重复观测数据无重复观测数据。因此，空间现象的了。因此，空间现象的了解与描述是极为复杂的，而传统方法，尤其是建立在独立解与描述是极为复杂的，而传统方法，尤其是建立在独立样本上的统计方法，不适合分析空间数据。样本上的统计方法，不适合分析空间数据。空间统计空间统计 VS. 经典统计经典统计n经典统计：独立性、随机性假设经典统计：独立性、随机性假设n空间统计：自相关、依赖性、异质性空间统计：自相关、依赖性、异质性地理学第一定律（地理学第一定律（FLGFLG）: : everything is related to everything is related to everything else, but near things are more related than everything else, but near things are more related than distant things (Tobler,1970).distant things (Tobler,1970).空间统计的基本思想：Waldo Tobler（born in 1930） receiving a plaque for his contributions to geography. On the event of his November 2000 birthday. http:/en.wikipedia.org/wiki/Waldo_R._Tobler Tobler, W. R. (1970). A computer movie simulating urban growth in the Detroit region. Economic Geography, 46(2): 234-240.FLGFLG的一般性的一般性: : 自然地理、人文地理、社会经济n空间自空间自相关相关是普遍存在的是普遍存在的，否则地理分析便没有多大意义。经典统计：独立空间自相关的存在，使得经典统计学所要求的样本独立性假设不满足。n如果地理学从根本上值得研究，必然是因为地理现象在空间上的变化地理现象在空间上的变化不是随机不是随机的的。经典统计：随机可以借助空间统计更好地理解地理现象。可以借助空间统计更好地理解地理现象。或许学习空间统计最重要的原因是我们不仅仅想知道问题或许学习空间统计最重要的原因是我们不仅仅想知道问题“怎么怎么样样”，更想知道，更想知道“哪里怎么样哪里怎么样” 空间统计学可以帮助我们准确地判断具体地理模空间统计学可以帮助我们准确地判断具体地理模式的原因。式的原因。 John Snow的霍乱地图的霍乱地图当发现某种病仅仅发生在靠近河流的村庄时，河流中的寄生物可当发现某种病仅仅发生在靠近河流的村庄时，河流中的寄生物可能是病源。能是病源。空间统计学可以帮助我们处理大的复杂数据集空间统计学可以帮助我们处理大的复杂数据集, 这是这是GIS经常面对的事情。经常面对的事情。为什么要用空间统计为什么要用空间统计霍乱病死者居住分布图(John Snow, 1854)v18541854年年8 8月到月到9 9月月英国伦敦霍乱流英国伦敦霍乱流行时，当局始终找不到发病的原行时，当局始终找不到发病的原因，后来医生约翰因，后来医生约翰斯诺斯诺(John (John Snow) Snow) 参与调查。参与调查。v他在绘有霍乱流行地区所有道路、他在绘有霍乱流行地区所有道路、房屋、饮用水机井等内容的房屋、饮用水机井等内容的1 1：65006500比例尺地图上，标出了每个比例尺地图上，标出了每个霍乱病死者的霍乱病死者的居住位置居住位置，得到了，得到了霍乱病死者居住分布图霍乱病死者居住分布图。一一. 探索性空间统计分析探索性空间统计分析基本原理与方法应用实例探索性空间数据分析探索性空间数据分析(ESDA)ESDA是指利用统计学原理统计学原理和图形图表图形图表相结合对空间信息的性质进行分析、鉴别，用以引导确定性模型的结构和解法。 ESDA与EDA区别在于它考虑了数据的空间特性，它考虑了数据的空间特性，在方法上它将数据分解为一般趋势和叠加于其上的在方法上它将数据分解为一般趋势和叠加于其上的局部变化两部分局部变化两部分。然后用一定的数学函数去拟合由样本点产生的经验变率函数，进行诸如克立格内插等空间操作。通常定义一个二元对称空间权重矩阵W，来表达n个位置的空间区域的邻近关系，其形式如下式中：Wij表示区域i与j的临近关系，它可以根据邻接标准或距离标准来度量。 1. 基本原理与方法基本原理与方法（一）空间权重矩阵简单的二进制邻接矩阵简单的二进制邻接矩阵基于距离的二进制空间权重矩阵基于距离的二进制空间权重矩阵 n两种最常用的确定空间权重矩阵的规则（二）全局空间自相关（二）全局空间自相关 Moran指数反映的是空间邻接或空间邻近的区域单元属性值的相似程度。 Geary 系数与Moran指数存在负相关关系。 Patrick A.P.Moran （1917-1988） Moran指数和Geary系数是两个用来度量空间自相关的全局指标。全局空间自相关概括了在一个总的空间范围内空间依赖的程度。如果是位置（区域）的观测值，则该变量的全局Moran指数I，用如下公式计算式中： I 为Moran指数；；。 Geary 系数C计算公式如下式中：C为Geary系数；其他变量同上式。如果引入记号则全局Moran指数I的计算公式也可以进一步写成 Moran指数指数I的取值一般在的取值一般在-1，1之间之间,小于小于0表示负相表示负相关，等于关，等于0表示不相关，大于表示不相关，大于0表示正相关；表示正相关； Geary系数系数C的取值一般在的取值一般在0，2之间，大于之间，大于1表示负相表示负相关，等于关，等于1表示不相关，而小于表示不相关，而小于1表示正相关。表示正相关。（三）局部空间自相关（三）局部空间自相关描述一个空间单元与其领域的相似程度，能够表示每个局部单元服从全局总趋势的程度（包括方向和量级），反映了空间异质性，说明空间依赖是如何随位置变化的。局部空间自相关分析方法包括局部空间自相关分析方法包括3种种:p 空间联系的局部指标空间联系的局部指标(LISA)； p G统计量统计量；p Moran散点图散点图n空间联系的局部指标空间联系的局部指标(LISA)(LISA) 空空间间联联系系的的局局部部指指标标（local indicators of spatial association ，缩写为，缩写为LISA）满足下列两个条件：）满足下列两个条件：（1）每每个个区区域域单单元元的的LISA，是是描描述述该该区区域域单单元元周周围围显著的相似值区域单元之间空间集聚程度的指标显著的相似值区域单元之间空间集聚程度的指标；（2）所所有有区区域域单单元元LISA的的总总和和与与全全局局的的空空间间联联系系指指标成比例。标成比例。 LISA包括包括局部局部Moran指数指数（local Moran index）和和局部局部Geary指数指数（local Geary index），下面重），下面重点介绍和讨论局部点介绍和讨论局部Moran指数。指数。局部局部Moran指数被定义为指数被定义为可进一步写成可进一步写成式中：式中：和和是经过标准差标准化的观测值。是经过标准差标准化的观测值。局部局部Moran指数检验的标准化统计量为指数检验的标准化统计量为 n G统计量统计量 v全局全局G统计量的计算公式为统计量的计算公式为v对每一个区域单元的统计量为对每一个区域单元的统计量为探测区域单元是属于高值集聚还是低值集聚的空探测区域单元是属于高值集聚还是低值集聚的空间分布模式间分布模式. . 对统计量的检验与局部对统计量的检验与局部Moran指数相似，其检验值为指数相似，其检验值为显著的正值表示在该区域单元周围，高观测值的区域单显著的正值表示在该区域单元周围，高观测值的区域单元趋于空间集聚，而显著的负值表示低观测值的区域单元趋于元趋于空间集聚，而显著的负值表示低观测值的区域单元趋于空间集聚空间集聚, ,与与Moran指数只能发现相似值指数只能发现相似值( (正关联正关联) )或非相似性或非相似性观测值观测值( (负关联负关联) )的空间集聚模式相比，的空间集聚模式相比，具有能够探测出区域单具有能够探测出区域单元属于高值集聚还是低值集聚的空间分布模式元属于高值集聚还是低值集聚的空间分布模式。n Moran散点图散点图以以（Wz，z）为为坐坐标标点点的的Moran散散点点图图，常常来来研研究究局局部部的的空空间间不不稳稳定定性性，它它对对空空间间滞滞后后因因子子Wz和和z数数据据对对进进行行了了可可视视化的二维图示。化的二维图示。全全局局Moran指指数数，可可以以看看作作是是Wz对对于于z的的线线性性回回归归系系数数，对对界界外外值值以以及及对对Moran指指数数具具有有强强烈烈影影响响的的区区域域单单元元，可可通通过标准回归来诊断出。过标准回归来诊断出。由由于于数数据据对对（Wz，z）经经过过了了标标准准化化，因因此此界界外外值值可可易易由由2sigma规则可视化地识别出来。规则可视化地识别出来。 Moran散点图的散点图的4 4个象限个象限，分别对应于区域单元与其邻居分别对应于区域单元与其邻居之间之间4 4种类型的局部空间联系种类型的局部空间联系形式：形式：l 第第1 1象限代表了象限代表了高观测值高观测值的的区域单元被区域单元被高值高值的区域所包围的区域所包围的空间联系形式；的空间联系形式；l 第第2 2象限代表了象限代表了低观测值低观测值的的区域单元被区域单元被高值高值的区域所包围的区域所包围的空间联系形式；的空间联系形式； l 第第3 3象限代表了象限代表了低观测值低观测值的区域单元被的区域单元被低值低值的区域所的区域所包围的空间联系形式；包围的空间联系形式；l 第第4 4象限代表了象限代表了高观测值高观测值的区域单元被的区域单元被低值低值的区域所的区域所包围的空间联系形式。包围的空间联系形式。2. 应用实例应用实例中国大陆30个省级行政区人均GDP的空间关联分析。根据各省（直辖市、自治区）之间的邻接关系，采用二进制邻接权重矩阵，选取各省（直辖市、自治区）19982002年人均GDP的自然对数，依照公式计算全局Moran指数I，计算其检验的标准化统计量Z（I），结果如下表所示。年份年份IZP19980.50014.503 50.000 019990.506 94.555 10.000 020000.511 24.597 80.000 020010.505 94.553 20.000 020020.501 34.532 60.000 0 从从表表中中可可以以看看出出，在在19982002年年期期间间，中中国国大大陆陆30个个省省级级行行政政区区人人均均GDP的的全全局局Moran指指数数均均为为正正值值；在在正正态态分分布布假假设设之之上上，对对Moran指指数数检检验验的的结结果果也也高高度度显显著著。这这就就是是说说，在在19982002年年期期间间，中中国国大大陆陆30个个省省级级行行政政区区人人均均GDP存存在在着着显显著著的的、正正的的空空间间自自相相关关，也也就就是是说说各各省省级级行行政政区区人人均均GDP水水平平的的空空间间分分布布表表现现出出相相似似值值之之间间的的空空间间集集聚聚，其其空空间间联联系系的的特特征征是是：较较高高人人均均GDP水水平平的的省省级级行行政政区区相相对对地地趋趋于于和和较较高高人人均均GDP水水平平的的省省级级行行政政区区相相邻邻，或或者者较较低低人人均均GDP水水平平的的省省级级行行政政区区相相对对地地趋趋于于和和较较低低人人均均GDP水平的水平的省级行政区省级行政区相邻。相邻。选取2001年我国30个省级行政区人均GDP数据，计算局部Gi统计量和局部Gi统计量的检验值Z(Gi)，并绘制统计地图如下。检验结果表明，贵州、四川、云南西部3省的Z值在0.05的显著性水平下显著，重庆的Z值在0.1的显著性水平下显著，该4省市在空间上相连成片分布，而且从统计学意义上来说，与该区域相邻的省区，其人均GDP趋于为同样是人均GDP低值的省区所包围。由此形成人均GDP低值与低值的空间集聚，据此可认识到西部落后省区趋于空间集聚的分布特征。东部的江苏、上海、浙江三省市的Z值在0.05的显著性水平下显著，天津的Z值在0.1的显著性水平下显著。而东部上海、江浙等发达省市趋于为一些相邻经济发展水平相对较高的省份所包围，东部发达地区的空间集聚分布特征也显现出来。以（Wz,z）为坐标，进一步绘制Moran散点图可以发现，多数省（直辖市、自治区）位于第1和第3象限内，为正的空间联系，属于低低集聚和高高集聚类型，而且位于第3象限内的低低集聚类型的省（直辖市、自治区）比位于第1象限内的高高集聚类型的省（直辖市、自治区）更多一些。上图进一步显示了30个省级行政区人均GDP局部集聚的空间结构。可以看出，从人均GDP水平相对地来看：高值被高值包围的高高集聚省（直辖市）有：北京、天津、河南、安徽、湖北、江西、海南、广东、福建、浙江、山东、上海、江苏；低值被低值包围的低低集聚省（自治区）有：黑龙江、内蒙古、新疆、吉林、甘肃、山西、陕西、青海、西藏、四川、云南、辽宁、贵州；被低值包围的高值省（直辖市）有：重庆、广西、河北；被高值包围的低值省份只有湖南。1978、1990、2001、2007年全国各省市人均GDP的LISA显著水平图二、地统计分析方法二、地统计分析方法地统计方法的基本原理应用实例地统计学地统计学(Geostatistics), 又称地质统计学，是法国著名统计学又称地质统计学，是法国著名统计学家家G.Matheron在大量理论研究基础上提出的。在大量理论研究基础上提出的。地统计学是以地统计学是以区域化变量理论区域化变量理论为基础，以变异函数为主要工具，为基础，以变异函数为主要工具，研究那些在空间分布上既有随机性又有结构性，或空间相关和研究那些在空间分布上既有随机性又有结构性，或空间相关和依赖性，或空间格局与变异，并对这些数据进行最优无偏内插依赖性，或空间格局与变异，并对这些数据进行最优无偏内插估计，或模拟这些数据的离散性、波动性。估计，或模拟这些数据的离散性、波动性。协方差函数协方差函数和和变异函数变异函数是以区域化变量理论为基础建立起来的是以区域化变量理论为基础建立起来的地统计学的两个最基本的函数。地统计学的主要方法之一，克地统计学的两个最基本的函数。地统计学的主要方法之一，克立格法就是建立在变异函数理论和结构分析基础之上的。立格法就是建立在变异函数理论和结构分析基础之上的。当一个变量当一个变量呈现为空间分布呈现为空间分布时，就称之为区域化变量。这种变时，就称之为区域化变量。这种变量常常反映某种空间现象的特征，用区域化变量来描述的现象称之量常常反映某种空间现象的特征，用区域化变量来描述的现象称之为为区域化现象区域化现象。区域化变量区域化变量，亦称，亦称区域化随机变量区域化随机变量，G. Matheron（1963）将它）将它定义为以空间点定义为以空间点x的三个直角坐标为自变量的随机场的三个直角坐标为自变量的随机场区域化变量具有区域化变量具有两个最显著两个最显著，而且也是最重要的特征，即，而且也是最重要的特征，即随机随机性和结构性性和结构性。1. 地统计方法的基本原理地统计方法的基本原理（一）区域化变量区域化变量的功能：区域化变量的功能：由于区域化变量是一种随机函数，因而能同时反映空间变量的结构性和随机性。l一方面，当空间点 x 固定后，Z(x)就是一个随机变量，这体现了其随机性随机性。l另一方面，在空间两个不同点 x 与 x+h 处的区域化变量值具有某种程度的相关性，这体现了其结构性结构性。区域化变量的组成部分区域化变量的组成部分l 数据点结构性可以用均值和常数趋势表示空间相关数据通常呈现正空间相关性随机性测量误差，其他误差 distance elevation结构性结构性随机性随机性实际值实际值（二）协方差函数（二）协方差函数协方差函数的概念协方差函数的概念区域化随机变量之间的差异，可以用空间协方差来表示。区域化随机变量之间的差异，可以用空间协方差来表示。在概率论中在概率论中,随机向量随机向量X与与Y的协方差被定义为的协方差被定义为区域化变量区域化变量在空间点在空间点x和和x+h处的两个随机处的两个随机变量和的二阶混合中心矩定义为变量和的二阶混合中心矩定义为Z(x)的自协方差函数，即的自协方差函数，即（4.2.24.2.2）(4.2.1)(4.2.1)n协方差函数的计算公式协方差函数的计算公式式式中中：h h为为两两样样本本点点空空间间分分隔隔距距离离或或距距离离滞滞后后；为为在在空空间间位位置置处处的的实实测测值值；是是在在处处距距离离偏偏离离h的的实实测测值值 i=1=1，2 2，，是分隔距离为是分隔距离为h时的样本点对（时的样本点对（parisparis）总数，）总数，和和分别为分别为和和的样本平均数的样本平均数, ,即即 (4.2.3)(4.2.3)(4.2.4)(4.2.4)(4.2.5)(4.2.5) 若若 = =m（常数），则上式可以改写为（常数），则上式可以改写为式中：式中：m为样本平均数，可由一般算术平均数公式求得，即为样本平均数，可由一般算术平均数公式求得，即 (4.2.6)(4.2.6)（三）变异函数（三）变异函数变异函数的概念变异函数的概念变异函数变异函数(variograms)，又称变差函数、变异矩，是地统计，又称变差函数、变异矩，是地统计分析所特有的基本工具。分析所特有的基本工具。在一维条件下变异函数定义为，在一维条件下变异函数定义为，当空间点当空间点x在一维在一维x轴上变轴上变化时，区域化变量化时，区域化变量Z(x)在点在点x和和x+h处的值处的值Z(x)与与Z(x+h)差的方差的方差的一半为区域化变量差的一半为区域化变量Z(x)在在x轴方向上的变异函数轴方向上的变异函数，记为，记为(h)，即，即 (4.2.7(4.2.7) ) 在在二阶平稳假设二阶平稳假设条件下，对任意的条件下，对任意的h有有因此，公式可以改写为因此，公式可以改写为从从上上式式可可知知，变变异异函函数数依依赖赖于于两两个个自自变变量量 x和和h，当当变变异异函函数数仅仅仅仅依依赖赖于于距距离离h h而而与与位位置置x无无关关时时，可可改改写写成成，即，即 (4.2.9)(4.2.9)(4.2.8)(4.2.8)变异函数的性质变异函数的性质设设Z(x)是区域化变量，在满足二阶平稳假设条件下，变异函是区域化变量，在满足二阶平稳假设条件下，变异函数式具有如下性质：数式具有如下性质： (1)(1) =0 =0，即在，即在h=0=0处，变异函数为处，变异函数为0 0； (2(2) ) = = ，即即关关于于直直线线h=0=0是是对对称称的的，它它是是一一个个偶偶函函数；数； (3) 0(3) 0，即，即只能大于或等于只能大于或等于0 0；n变异函数的计算公式 v 设设是是系系统统某某属属性性Z在在空空间间位位置置x处处的的值值，为为一一区区域域化化随随机机变变量量，并并满满足足二二阶阶平平稳稳假假设设，h为为两两样样本本点点空空间间分隔距离，分隔距离，v 和和分分别别是是区区域域化化变变量量在在空空间间位位置置和和处处的的实实测测值值i=1,2,N(h)，那那么么，变变异异函函数数的的离离散散计计算公式为算公式为(4.2.10)(4.2.10) 这这样样对对不不同同的的空空间间分分隔隔距距离离h，计计算算出出相相应应的的和和值值。如如果果分分别别以以h为为横横坐坐标标，或或为为纵纵坐坐标标，画画出出协协方方差差函函数数和和变变异异函函数数曲曲线线图图，就就可可以以直直接接展展示示区区域域化化变变量量Z(x)的的空空间间变变异异特特点点。可可见见，变变异异函函数数能能同同时时描描述述区区域域化化变变量量的的随随机机性性和和结结构构性性，从从而而在在数数学学上上对对区区域域化化变变量量进进行行严严格格分分析析，是是空空间间变变异异规规律律分分析析和和空空间结构分析的有效工具。间结构分析的有效工具。例如：假设某地区降水量Z(x)（单位：mm）是二维区域化随机变量，满足二阶平稳假设，其观测值的空间正方形网格数据如图4.2.1所示（点与点之间的距离为h=1 km）。试计算其南北方向及西北和东南方向的变异函数。图图4.2.1 4.2.1 空间正方形网格数据（点间距空间正方形网格数据（点间距h h=1 km=1 km）从图4.2.1可以看出，空间上有些点，由于某种原因没有采集到。如果没有缺失值，可直接对正方形网格数据结构计算变异函数；在有缺失值的情况下，也可以计算变异函数。只要“跳过”缺失点位置即可（图4.2.2）。图图4.2.2 4.2.2 缺失值情况下样本数对的组成和计算过程缺失值情况下样本数对的组成和计算过程为缺失值图图1 空间正方形网格数据（点间距空间正方形网格数据（点间距h=1km）图图2 空间正方形网格数据（点间距空间正方形网格数据（点间距h=2km）首先计算南北方向上的变异函数值，由变异函数的计算公式可得 =385/72=5.35 图图4.2.2 4.2.2 缺失值情况下样本数对的组成和计算过程缺失值情况下样本数对的组成和计算过程为缺失值同样计算出最后，得到南北方向和西北东南方向上的变异函数计算结果见下表。同样可以计算东西方向上的变异函数。方向南北方向西北东南 h12345h1.412.824.245.657.07N(h) 36 27 21 13 5 N(h) 322113825.359.2617.5525.6922.907.0612.9530.8558.1350.00n变异函数的参数变变异异函函数数有有4个个非非常常重重要要的的参参数数，即即基基台台值值（sill）、变变程程（ range）或或称称空空间间依依赖赖范范围围（ range of spatial dependence）、块块金金值值（nugget）或或称称区区域域不不连连续续性性值值（localized discontinuity）和）和分维数（分维数（fractal dimension）。前前3个个参参数数可可以以直直接接从从变变异异函函数数图图中中得得到到。它它们们决决定定变变异函数的形状与结构。异函数的形状与结构。变变异异函函数数的的形形状状反反映映自自然然现现象象空空间间分分布布结结构构或或空空间间相相关的类型，同时还能给出这种空间相关的范围。关的类型，同时还能给出这种空间相关的范围。n 当变异函数随着间隔距离当变异函数随着间隔距离h的增大，从非零值达到一个相对的增大，从非零值达到一个相对稳定的常数时，该常数称为稳定的常数时，该常数称为基台值基台值C0+C。n 当间隔距离当间隔距离h=0时，时，(0)= C0，该值称为，该值称为块金值块金值或块金方差或块金方差（n nugget variance）。）。n 基台值是系统或系统属性中最大的变异，变异函数达到基台基台值是系统或系统属性中最大的变异，变异函数达到基台值时的间隔距离值时的间隔距离a a称为称为变程变程。变程表示在。变程表示在ha以后，区域化变量以后，区域化变量Z Z( (x) )空间相关性消失。空间相关性消失。第第4个个参参数数，即即分分维维数数用用于于表表示示变变异异函函数数的的特特性性，由变异函数由变异函数和间隔距离和间隔距离h之间的关系确定之间的关系确定其其中中，分分维维数数D为为双双对对数数直直线线回回归归方方程程中中的的斜斜率率，它它是是一一个个无无量量纲纲数数。分分维维数数D的的大大小小，表表示示变变异异函函数数曲曲线线的的曲曲率率，可可以以作作为为随随机机变变异异的的量度。量度。理论变异函数模型理论变异函数模型实践中，常用的是变异函数图：偏基台值:C(partial sill)块金值:C0(nugget)变程: a(range)h基台值(sill)not related anymore变程范围内才有结构性变程范围内才有结构性变化（有规律的变化）变化（有规律的变化）反映随机性大小：反映随机性大小：主要来源于区域化变量主要来源于区域化变量Z(x)在小于抽样尺度在小于抽样尺度h时所具有的内时所具有的内部变异；另外还有抽样分析误差。部变异；另外还有抽样分析误差。变异函数是一个单变异函数是一个单调不减函数。当调不减函数。当h超过某一个范围，超过某一个范围，例如变程，变异函例如变程，变异函数不再增大，而是数不再增大，而是趋于一个极限值，趋于一个极限值，即为基台值。实际即为基台值。实际上等于区域化变量上等于区域化变量的先验方差。即，的先验方差。即，即基台值与块金值之即基台值与块金值之差，表示数据中存在差，表示数据中存在空间相关性引起的方空间相关性引起的方差变化范围。差变化范围。n变异函数的理论模型地统计学将变异函数理论模型分为地统计学将变异函数理论模型分为3 3大类：大类：第第1 1类类是是有有基基台台值值模模型型，包包括括球球状状模模型型、指指数数模模型型、高高斯模型、线性有基台值模型和纯块金效应模型；斯模型、线性有基台值模型和纯块金效应模型；第第2 2类类是是无无基基台台值值模模型型，包包括括幂幂函函数数模模型型、线线性性无无基基台台值模型、抛物线模型；值模型、抛物线模型；第第3 3类是类是孔穴效应模型孔穴效应模型。下面有代表性地介绍几种常见的变异函数理论模型。下面有代表性地介绍几种常见的变异函数理论模型。纯块金效应模型纯块金效应模型: :其一般公式为其一般公式为式中：式中：c0 000，为先验方差。该模型相当于区域化变量，为先验方差。该模型相当于区域化变量为随机分布，样本点间的协方差函数对于所有距离为随机分布，样本点间的协方差函数对于所有距离h均等均等于于0 0，变量的空间相关不存在。，变量的空间相关不存在。 (4.2.11)(4.2.11) 球状模型球状模型: :其一般公式为其一般公式为式式中中：c0为为块块金金（效效应应）常常数数; ;c为为拱拱高高; ;c0+c为为基基台台值值; ;a为为变变程程。当当c0=0，c=1时时，称称为为标标准准球球状状模模型型。球球状状模模型型是是地地统统计计分分析析中中应应用用最最广广泛泛的的理理论论模模型型，许多区域化变量的理论模型都可以用该模型去拟合。许多区域化变量的理论模型都可以用该模型去拟合。 (4.2.12)(4.2.12) 指数指数模型模型: :其一般公式为其一般公式为式式中中：c c0 0和和c c意意义义与与前前相相同同，但但a a不不是是变变程程。当当h h=3=3时时，，即即，从从而而指指数数模模型型的的变变程程约约为为约约为为3a。当当c c0 0=0=0，c c=1=1时，称为标准指数模型。时，称为标准指数模型。(4.2.13(4.2.13) ) 高斯模型高斯模型:其一般公式为其一般公式为式中：式中：c0 0和和c意义与前相同，意义与前相同，a也不是变程。当也不是变程。当时时，，即即，因因此此高高斯斯模模型型的的变变程程约约为为。当当时时，称称为为标标准准高高斯斯函函数数模型。模型。(4.2.14)(4.2.14)幂函数模型幂函数模型: :其一般公式为其一般公式为式式中中：为为幂幂指指数数。当当变变化化时时，这这种种模模型型可可以以反反映映在在原原点点附附近近的的各各种种性性状状。但但是是必必须须小小于于2，若若，则则函函数数就就不不再再是是一一个个条条件件非非负负定定函函数数了了，也也就就是说它已经不能成为变异函数了。是说它已经不能成为变异函数了。 (4.2.15)(4.2.15) 对数模型对数模型: :其一般公式为其一般公式为显显然然，当当，这这与与变变异异函函数数的的性性质质不不符符。因因此此，对对数数模模型型不不能能描述点支撑上的区域化变量的结构。描述点支撑上的区域化变量的结构。(4.2.16)(4.2.16) 线性有基台值模型线性有基台值模型: :其一般公式其一般公式为式式中中:该该模模型型的的变变程程为为a，基基台台值值为为。线性无基台值模型线性无基台值模型: :其一般公式为其一般公式为从从式式中中可可以以看看出出，该该模模型型没没有有基基台台值值，也也没没有有变程。变程。 (4.2.18)(4.2.18)(4.2.17)(4.2.17)例如:某地区降水量是一个区域化变量，其变异函数的实测值及距离h的关系见下表，下面我们试用回归分析方法建立其球状变异函数模型。实测值(h)距离h实测值(h)距离h2.10.69.24.94.31.110.35.15.72.210.56.26.52.510.97.57.83.111.29.58.83.812.49.8 从上面的介绍和讨论，我们知道，球状变异函数的一般形式为当时，有如果记，则可以得到线性模型根据表中的数据，对上式进行最小二乘拟合，得到 (4.2.20) 计算可知，上式的显著性检验参数F=114.054，R2=0.962，可见模型的拟合效果是很好的。(4.2.19) 比较(4.2.20)式与(4.2.19)式，并做简单计算可知：c0=2.048，c=1.154，a=8.353，所以，球状变异函数模型为(4.2.21) ( (四四) )克立格插值方法克立格插值方法克立格（克立格（Kriging）插值法）插值法，又称空间局部估计或空间局部插值法。它建立在变异函数理论及结构分析变异函数理论及结构分析基础之上的，在有限区域内对区域化变量的取值进行无偏最优估计的一种方法。克立格法适用的条件是，如果变异函数和相关分析的结果表明区域化变量存区域化变量存在空间相关性在空间相关性。其实质是利用区域化变量的原始数据和变异函数的结构特点，对未采样点的区域化变量的取值进行线性无偏、最优估计线性无偏、最优估计。具体来说，它是根据待估样点(或待估块段)有限邻域内若干已测定的样点数据，在认真考虑样点的形状、大小和空间相互位置关系，它们与待估样点相互空间位置关系，以及变异函数提供的结构信息之后，对该待估样点值进行的一种线性无偏最优估计。克立格插值（克立格插值（kriging interpolation)是根据变异函数模型而是根据变异函数模型而发展起来的一系列地统计的空间插值方法，包括：发展起来的一系列地统计的空间插值方法，包括：p 普通克立格法（普通克立格法（ordinary kriging）;p 泛克立格法（泛克立格法（universal kriging）;p 指示克立格法（指示克立格法（indicator kriging）;p 析取克立格法（析取克立格法（disjunctive kriging）;p 协同克立格法（协同克立格法（cokriging）等。）等。下面仅对普通克立格法作一些简单介绍。下面仅对普通克立格法作一些简单介绍。首首先先假假设设区区域域化化变变量量满满足足二二阶阶平平稳稳假假设设和和本本征征假假设设，其数学期望为其数学期望为m，协方差函数，协方差函数及变异函数及变异函数存在。即存在。即假假设设在在待待估估计计点点（x x）的的临临域域内内共共有有n n个个实实测测点点，即即x x1 1，x x2 2，x xn n，其样本值为，其样本值为。那么，普通克里格法的插值公式为。那么，普通克里格法的插值公式为 (4.2.22)(4.2.22) 其其中中为为权权重重系系数数，表表示示各各空空间间样样本本点点处处的的观观测测值值对对估估计值计值的贡献程度。的贡献程度。可可见见，克克立立格格插插值值的的关关键键就就是是计计算算权权重重系系数数。显显然然，权权重重系数的求取必须满足两个条件：系数的求取必须满足两个条件：一是使一是使的估计是无偏的，即偏差的数学期望为零；的估计是无偏的，即偏差的数学期望为零；二二是是最最优优的的，即即使使估估计计值值和和实实际际值值之之差差的的平平方方和和最小。最小。为此，需要满足以下两个条件：为此，需要满足以下两个条件： (1)(1)无偏性。无偏性。要使要使成为成为的无偏估计量，即的无偏估计量，即。当当时，也就是当时，也就是当时，时，则有则有这时，这时，为为的无偏估计量。的无偏估计量。（2 2）最优性。）最优性。在满足无偏性条件下，估计方差为在满足无偏性条件下，估计方差为(4.2.23(4.2.23) )2. 应用实例应用实例年降水量和蒸发量，既服从地带性规律，同时又受随机性因素的影响，因此它们是典型的区域化变量。我们以甘肃省53个气象台站多年平均降水量和蒸发量数据为实测值，拟合了年降水量和蒸发量的半变异函数理论模型，并采用普通克立格法和双变量协同克里格法，做了空间插值计算，结论如下。（一）半变异函数（一）半变异函数半变异函数模型，是克立格空间插值的前提条件，同时它也决定着空间插值的精度。一般情况下，半变异函数模型是根据半半变变异异函函数数云云图图的分布，选择合适的理论模型，按照估计方差最小的原则，运用最小二乘法求得。图4.2.4和图4.2.5分别给出了年降水量和年蒸发量的半变异函数云图。图4.2.4 年降水量的半变异函数云图图4.2.4 年降水量的半变异函数云图图4.2.5 年蒸发量的半变异函数云图从图4.2.4和图4.2.5可以看出，年降水量和年蒸发量的块金效应都不明显，这是因为样本点是各个气象站点的实测值，空间分辨率可以忽略不计，另外实验误差和人为误差基本上都很小。选择各种不同的半变异函数理论模型，经过多次拟合计算和对比分析，发现指数模型比较好地描述了年降水量的空间变异规律。其变异函数的具体形式如下： (4.2.38) (4.2.38)式拟合的适度系数为。选择各种不同的半变异函数理论模型，经过多次拟合计算和对比分析，发现球状模型比较好地描述了年蒸发量的空间变异规律。其变异函数的具体形式如下 (4.2.39) (4.2.39)式拟合的适度系数为。（二）空间插值结果基于半变异函数的理论模型(4.2.38)和(4.2.39)，对甘肃省范围内的年降水量和蒸发量，用普通克立格法进行空间插值计算，得到的结果分别如图4.2.6和图4.2.7。（三）结果讨论从图4.2.6可以看出，在甘肃省范围内，年降水量的空间分布格局总体上是东南多西北少，并且呈现从东南方向到西北方向逐渐过渡，梯度变化明显；山地多，平地少，南北方向从南部祁连山脉向北部的沙漠戈壁逐渐减少。年降水量的空间变程很大，最多的东南部是最少的西北部的近10倍，其中，甘南东南部玛曲和禄曲、陇南东南部以及平凉和灵台东南地区，年降水量达到691.59786.75 mm之间。400 mm等降水线靠近兰州附近，而到了西北端，几乎整个酒泉市、嘉峪关市和张掖市的西北部，年降水量只有59.17102.08 mm。图4.2.6 甘肃省年降水量的普通克立格空间插值图4.2.7 甘肃省年蒸发量的普通克立格空间插值结果从图4.2.7可以看出，年蒸发量的空间格局，恰好与年降水量的空间格局相反：西北多、东南少，呈现出由西北向东南逐渐减少的变化趋势，梯度变化明显。 The End课程论文要求课程论文要求主题要求主题要求：详细介绍一种地理信息系统研究方法及其应用案例（不少于2个）；时间要求：时间要求： 6月20号之前统一提交论文打印版至王杰老师处。格式要求格式要求：论文标题: 题目自拟，三号黑体个人信息：班级，学号，姓名等，小四宋体论文摘要：200-400字，小四宋体；关键词：35个，小四宋体;正文：包括引言、研究方法原理、应用实例、课程总结等部分（图、文、表结合，不少于2000字）参考文献: 不少于8篇，五号宋体;