社会统计学第四章相关测量法与变量层次-

1第四章第四章相关测量法与测量层次相关测量法与测量层次相关测量的六种情况相关测量的六种情况两个定类变量两个定类变量两个定序变量两个定序变量两个定距变量两个定距变量一个定类变量与定序变量一个定类变量与定距变量一个定类变量与定距变量一个定序变量与定距变量第一节第一节两个定类变量两个定类变量nLambda 相关测量法相关测量法基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时，如果以众值作为预测的准则，可以减除多少误差。消减的误差在全部误差中所占的比例愈大，就表示这两个变量的相关越强。Lambda 相关测量法有两种形式。一种是对称形式，简写是系数，即不分自变量与因变量。另一种是不对称形式，简写是y系数，即要求一个是自变量，一个是因变量。系数系数n E1的定义：的定义：n未知y与x有关之前，如果预测y值，唯一可资依据的就是y本身的分布。由于y与x无关，所以只能根据y的行边缘和（与x无关）去预测y，也即由y的行边缘和中最大者众值，去预测y，可能性最大。 E1 = n max(n*j) （即总频次（即总频次n减去减去y的行边缘和中最大者）的行边缘和中最大者）分析：分析：n（1）E1 = 0 （E1最小）当 max(n*j) = n 时，E1 = 0。也即众值极大，异众比率为0，此时众值代表性最高，故E1为0。n（2）E 1 = n （E1最大）当 max(n*j) = 0 时，E1 = n。也即众值为0，异众比率最大，此时众值代表性最低，故E1为n。nE2的定义：的定义：n 当已知y与x有关之后，如果再去预测y值，则可借助x预测y。即用各类x条件下，y的条件分布中的众值去预测y，可能性最大。 E2 = n max(nij) 分析：分析：n1）E2 = 0 （即max(nij) = n，即各类x条件下的众值皆为最大值）n2）E2 = n （即max(nij) = 0，即各类x条件下的众值皆为最小值）系数系数计算公式算公式其中，My=Y变量的众值次数， Mx=X变量的众值次数 my=X变量的每个值（类别）之下Y变量的众值次数 mx=Y变量的每个值（类别）之下X变量的众值次数例：例：对称与不称与不对称称系数系数表青年人与其知心朋友的志愿自己志愿自己志愿知心朋友志愿知心朋友志愿快乐家庭理想工作增广见闻总数快乐家庭289340理想工作241750增广见闻24410总数325414100系数与尤拉系数与尤拉Q系数系数爱好爱好男男女女篮球9010跳绳1090系数的缺点系数的缺点nLambda相关测量法的特点是以众值作为预测的准则，不理会众值以外的次数分布。因此，如果全部众值集中在条件次数表的同一列或同一行中，则Lambda系数便会等于0.南方南方北方北方边缘次数边缘次数面食52025米食453075边缘次数5050n=100tau-y相关测量法相关测量法ntau-y是不对称相关测量法，这个方法是在是不对称相关测量法，这个方法是在计算系数值时会包括所有的边缘次数和条计算系数值时会包括所有的边缘次数和条件次数。件次数。其中：其中： nn=全部个案书目，全部个案书目，nf=某条件次数某条件次数nFy=Y变量的某个边缘次数变量的某个边缘次数nFx=X变量的某个边缘次数变量的某个边缘次数n再以饮食习惯表为例：练习题练习题1题：以下是某高校对高、低年级学生求职意愿的抽样题：以下是某高校对高、低年级学生求职意愿的抽样调查。问调查。问：（：（1）计算不对称）计算不对称Lambda系数；（系数；（2）计）计算算tau-y系数；（系数；（3）建立条件百分表。）建立条件百分表。高年级高年级低年级低年级学校学校1010企业企业2010机关机关1020第二节第二节两个定序变量两个定序变量nGamma系数系数级序相关法的基本逻辑是要求出；根据任何两个个案在某变量上的等级来预测他们在另一个变量上的等级时，可以减少的误差是多少。同序对与异序对：假设样本的全部个案数目是n，就会组成1/2n(n-1)对个案。某对个案在两个变量上的相对等级时相同，则成为同序对；如果是不相同，则成为异序对。同序对与异序对同序对与异序对x xy yx1y1x2y2x3y3x4y4x xy yx1y1x2y2x3y3x4y4x xy yx1y1x2y2x3y3x4y4x xy yx1y1x2y2x3y3x4y4同分对n两个个案在某变量上次序相对，无法分高低，即同分对。通常以Tx代表只在X变量上同分的对数，以Ty代表只在Y变量上同分的对数，而以Txy代表在两个变量上都是同分的对数。工厂工厂积极性积极性等级等级产量等产量等级级A55B33C41D1.53E1.53Gamma系数系数nGamma系数的计算公式如下：其中：Ns 是同序对数，Nd异序对数。G的绝对值越大，就表示所犯的错误可能性越小，G是负值，则如果知道一对个案在某个变量的相对等级，就应该估计他们在另一个变量上的相对等级是相反的。反之亦然。求下表求下表G系数系数工厂工厂积极性等级积极性等级产量等级产量等级A55B33C41D1.53E1.53nG系数是属于对称相关测量法。如果是非对称，即一个是自变量，一个是因变量，则适宜于简化不对称关系的萨默斯dy系数。萨默斯萨默斯dy系数系数dy的计算公式如下：的计算公式如下：其中：Ns 是同序对数，Nd异序对数，Ty是只在因变量上同分的对数。假设积极性等级是x，产量是Y,求dy计算列联表的同序对与异序对计算列联表的同序对与异序对高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9n同序对：n1(n5+n6+n8+n9)+n2(n6+n8)+n4(n8+n9)+n5(n9)n异序对：n7(n2+n5+n3+n6)+n4(n2+n3)+n8(n3+n6)+n5(n3)计算列联表的同分对计算列联表的同分对高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9n同分对：Tx=n1(n2+n3)+n2(n3)+n4(n5+n6)+n5(n6)+n7(n8+n9)+n8(n9)n同分对：例：计算例：计算G系数与系数与dy系数系数大学大学中学中学小学小学美满美满9165一般一般83018不美满不美满347婚姻美满文化程度n同序对：9（30+18+4+7）+8（4+7）+16（18+7）+30（7）=1229n异序对：5（8+30+3+4）+18（3+4）+16（8+3）+30（3）=617n同分对：9（16+5）+16（5）+8（30+18）+30（18）+3（4+7）+4（7）=1254nG系数=0.33ndy系数系数=0.22肯德尔的肯德尔的tau系数系数ntau系数的基本逻辑是计算同序对数与异序对数之差在全部的可能对数中所占的比例。公式如下：n其中m是列联表中行数与列数中的较小者。斯皮尔曼斯皮尔曼rho系数系数n斯皮尔曼rho系数的特点是计算每个个案在两个变量上的等级时，不仅要区别两者的高低差异，而且还要计算二者差异的确切数值。其中D表示每个个案在两列级序上的差异值，n表示全部个案数目。D平方可以避免正负值抵消rho系数是对称相关测量法，要求同分情况不多，统计值在-1至1之间。其平方值可以有消减误差比例的意义。求斯皮尔曼求斯皮尔曼rho系数系数参赛人参赛人ABCDEFGHIJ评判员112435876910评判员212345687910等级差等级差d001-102-1-100d平方平方0011041100第三节第三节两个定距变量两个定距变量n简单线性回归分析法简单线性回归分析法简单线性回归时根据一个直线方程式，以一个自变量X的数值来预测一个因变量Y的数值。目的是要找出一个错误最小的方法来预测因变量的数值。其中X是自变量数值；b成为回归系数，表示回归线的斜率；a是截距，是回归线与Y轴的交点；是根据回归方程所预测的Y变量值。最小二乘法最小二乘法n回归法在绘制回归线时所根据的准则是最小二乘法。假定我们根据一条直线来以自变量X估计因变量的某个值，所估计的值是Y1,而实际上该值是Y2，则误差便是:e=Y2-Y1n各个e相加起来就是误差总数，为防止正负值相抵消的问题，改为e的平方值相加起来，即直线应使最小。计算公式计算公式斜率截距n其中X是自变量值，是自变量的均值，Y是因变量值，是因变量的均值，n是全部个案数目。例例1：计算回归方程：计算回归方程妇女妇女教育年期教育年期劳动小时劳动小时A25B24C34D33E41F41G40H60I80总数总数3618XY10425841612916999416141610160036006404717468回归与相关回归与相关n线性回归方程不仅具有简化资料的作用，而且可以推广应用于预测或估计样本之外个案的数值。回归系数（b）表示X对Y的影响有多少，指每增加一个单位的X值时Y值的变化有多大。B值是表示自变量对因变量的影响的大小与方向，它是不对称关系的统计法。回归方程不具有消减误差比例作用，一般在计算回归方程回归方程不具有消减误差比例作用，一般在计算回归方程时须进行相关系数测量。如果相关系数比较小，消减误差时须进行相关系数测量。如果相关系数比较小，消减误差比例太少，则不适合作线性回归方程。比例太少，则不适合作线性回归方程。积矩相关测量法积矩相关测量法nb系数没有上限，很少用来比较变量与变量之间的相关程度。而且容易受到统计单位的影响。nr系数与b系数的不同地方，是r系数假定X与Y的关系是对称的，而且r的统计值是-1至1，同时r2具有消减误差比例的意义。r2称为决定系数。r系数系数nr系数计算公式如下：r系数与简单线性回归都是假定X与Y的关系具有直线的性质。如果非直线，就会犯错误。直线与非直线直线与非直线第四节第四节定类变量与定距变量定类变量与定距变量n相关比率，又称为eta平方系数（E2），是以一个定类变量为自变量，来预测或估计以一个定距变量为因变量的值。其中，Y是因变量的值，是因变量的均值；是自变量值（Xi）上各因变量的均值。表1 20名学生的家庭职业背景对英文水平的影响职业种类职业种类干部工人农民7852838259759173828561788180808351906454ni785Yi84.2961.7579.6Si4.409.642.87英英文文水水平平（得得分分）非线性关系非线性关系n比较E值与r值的大小，就可以大致知道是否非直线关系：两者相差愈大，显示变量之间的关系越是非直线。练习练习1：主客观指标度量生活质量：主客观指标度量生活质量n计算计算G系数系数高高一般一般低低不满意不满意43530一般一般505025较满意较满意100344 客观客观主观主观练习练习2：计算回归直线与相关系数：计算回归直线与相关系数n从子代与父代受教育表求回归直线、相关从子代与父代受教育表求回归直线、相关系数和决定系数，并解释意义系数和决定系数，并解释意义父代父代246810子代子代45879练习练习3：求：求E2n下表是三个地区家庭人口数的抽样调查，下表是三个地区家庭人口数的抽样调查，求相关比率求相关比率甲地甲地264135846乙地乙地6441821256丙地丙地213317142谢谢！谢谢！