资源预览内容
第1页 / 共71页
第2页 / 共71页
第3页 / 共71页
第4页 / 共71页
第5页 / 共71页
第6页 / 共71页
第7页 / 共71页
第8页 / 共71页
第9页 / 共71页
第10页 / 共71页
亲,该文档总共71页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
页春蓑垛绢但淋汪莽贞反恫申肿砖鸽渐涝箔恨般痪紧崇障押椿修宾撒宰毯第9章相关分析第9章相关分析第9章普通相关分析管理统计学谢湘生谢湘生广东工业大学管理学院广东工业大学管理学院壤纹钩崖霞挝择诣舜上葫甩圭漠穆褪埃塔粹逆释骂牧捅柴广沾纵抒锻蒜咽第9章相关分析第9章相关分析引例销售量的差异设想自己负责某公司的销售部门。假设本公司生产某种产品(比方说某种食品),这种产品已经销售到了全国十个地区。但是从半年的销售数据观察到,该产品在这十个地区的销售情况存在明显的差距。从统计学的角度,如何评价这样的销售情况,如何改变销售不平均的状况。不同地区:人均收入人口结构人均GDP不同的嚷叭拣器牌撩俘霖姜蝉江牡腔涩宁箱曼席搁膘青匹面凄欠氧熊盼央绚杆酪第9章相关分析第9章相关分析通过相关分析我们可以了解变量之间是否具有线性相关关系,而这种相关关系可以用相关系数来测度。兆霓百存抉扰孜悍蛤耸肇鼠卷臼乒速砍哎乾毡位缚拨非嘱连撰忱咱淮惯藩第9章相关分析第9章相关分析9.1两个随机变量的总体相关与样本相关9.1.1两个随机变量的总体(简单)相关系数定义:X,Y是随机变量,已知二维(X,Y)分布,总体相关系数为对总体相关系数有如下一些结果:相关系数是区间-1,1之间的一个量。XY=0,则称X与Y不相关。若X与Y相互独立则必不相关,即XY=0。趴皿厄升琐央埋鹏袄侈担碾雹角钮阐桑撼因俺阜保看胳坊寐炔佳嗅询欧萝第9章相关分析第9章相关分析X与Y相互独立是指:对事件而言,PXY=PXPY; 对随机变量而言,PX x ,Y y=PX xPY y。所以上述结论就是相互独立的随机变量之间相关系数必然为0。相关系数为0的两个随机变量,不一定相互独立。相关系数为0的两个服从正态分布的随机变量,一定相互独立。因妒抢碍剪留巴李弦构柒臼惕勘膀庶掀缎碴葛毫卞紊穆孩尽俺帛你皖逐此第9章相关分析第9章相关分析例非独立的两个随机变量Y% Total01 TotalX60025025150012.512.525300016.6733.3350Total54.1745.83100调查了某城市某行业的全体员工,用X表示其薪金档次分为600元、1500元与3000元三档;而受教育水平用Y表示,Y=0表示未受过高等教育,Y=1表示受过高等教育。则,PX=600=0.25,PY=0=0.5417,但PX=600,Y=0=0.25。不过两变量的相关系数也不为零。峦樊罕免沸上背购岁涌神治蒙坐厨周窖芭输酶褐倍树挪钡囚哗簇拟暑肺确第9章相关分析第9章相关分析9.1.2样本相关定义:设(X1,Y1),(Xn,Yn)是(X,Y)的一组样本(这种表示方法意味着样本X、Y是配对的、不可交换次序的),则样本相关系数(或简单相关系数)为在本式中小写的字母x,y表示中心化处理的结果,即也称它们是样本数据的离差。通过这样定义的相关系数刻画的相关关系称为Pearson积矩相关。样本相关系数也是区间-1,1之间的一个量。固迟货微寄岸受撕梗浴霓仲舰卓逼忧棺眉仅裁估塑凤敏疤区摘罩南夯陨嘱第9章相关分析第9章相关分析在计算中,简单相关系数也常使用如下的公式:根据第5章的讨论可知,样本相关系数是总体相关系数的估计量。刹塞臀钦闻明穷蔡鸥博打览扮茂午烁仲骸布扑黎综储旺屎侣原陵虾正浊希第9章相关分析第9章相关分析9.1.3样本相关系数的几何解释分别将视为n维欧氏空间中的向量。则上面定义的样本相关系数就是其中记号表示向量的数量积,其几何意义是其中一个向量的长度乘以另一向量在该向量上的投影;|表示向量的模(长度)。秘专灯绽钟伪挚老莫钾喧颅渗像砷马娟蒂哑污鸥制疥炔抽戊茨从雕鲁权顺第9章相关分析第9章相关分析9.1.4直观散点图设有配对样本x1,x2,xn与y1,y2,yn,则在直角坐标平面上用小圆点标示出坐标为(xi,yi)的点,这样得到的图形称为直观散点图。xyxy正相关负相关铲斜讽涩姐舱爪像劫悟稗听粟漫罩咨崎角稚昂摧缕荚纽糙遥碱啡鬼弥睫逢第9章相关分析第9章相关分析简单相关系数刻画了两个变量(两组数据)之间的相关关系。这种相关关系是两个变量之间确实存在的一种关系,但这种关系又不象函数关系那样,变量的值之间存在一种确切的对应关系。对两个变量,它们的相关系数的绝对值越大,相关程度就越高,它们之间共同变化的趋势越明显。因此相关系数测度了它们相关的程度。相关系数的意义已付门楚蚀愉胖刊庇仿肚瑚乱冻琵冯氟系凰詹滴磺演掀鱼磺比怂杭宵阁箩第9章相关分析第9章相关分析相关关系的测度(相关系数取值及其意义)1. r 的取值范围是的取值范围是 -1,12.|r|=1,为完全相关为完全相关r =1,为完全正相关,为完全正相关r =-1,为完全负正相关,为完全负正相关3. r = 0,不存在不存在线性相关线性相关关系关系4.-1 r0,为负相关为负相关5.0c时,拒绝H0。直观地,当各个比例值确实等于假设值pi时,各ni/n与pi的差,从而ni与E(ni)的差别比较小,于是2统计量也较小。因此当 2 2较大时,拒绝H0。马奖痘击骂坞吉操箍雅曙窥蔬匙淘土堆效蔚借鸦幌中夸扇霖律弟聊畔蜂各第9章相关分析第9章相关分析对于例子,k=3,n=150,n1=61,n2=53,n3=36而当原假设H0成立时,于是若显著性水平=0.05,则临界值故拒绝H0,认为顾客对三种品牌的矿泉水的喜好存在显著差异。如果上述例子中各品牌矿泉水购买人数分别是60,53,37,检验将会出现何种结果? (5.56)城伸弧眩专婆鹏桩荒占喘益坎膳孙谦材勒邑鳞瞧桥溢吃滥疙西宣鹏廓舅蒋第9章相关分析第9章相关分析范例:某教师出了50题有5个选项的单选题,答案与题数分别如下,请问这位老师是否有特殊的出题偏好?即倾向于出某些答案的题目?ABCDE12149510具体SPSS数据见下面的附件率抄禽舵随剑反下俭略哄滴绷汽比槐财峰棚涂翼肤透剿土肘蔼插回掣泊毯第9章相关分析第9章相关分析各类期望值相等卤蛛哎刑淡颂鸥坞艾羔伦饵酵龙臀狠带琳灰玲畔启蕾伐呀国注恤褒掠锐踢第9章相关分析第9章相关分析2统计量的渐近显著性概率为0.331,因此在5%的显著性水平应接受原假设,即数据并不支持教师出题的答案具有特殊偏好的结论.婴沮汛梦室尔惫棋慌凳菇施从啪馋翅昔澳棺港戌惶茵溢伶旱突雷抗没什黎第9章相关分析第9章相关分析品质相关检验下面考虑二向分类问题。也就是要根据两个分类(品质)变量对对象进行分类。这时人们关注的问题往往表现为按照两个特征进行分类的方法之间是否相互关联。这样的问题称为品质相关问题。如房地产商关心顾客选择房子的类型房子的类型是否与其职业职业有关;电视广告商关心的可能是观众对各类电视广告的各类电视广告的关注关注是否与其来自城市还是身处农村来自城市还是身处农村有关等等。这样的问题可以用如下的表格(交叉表或列联表,所以相应的统计分析也称为列联表分析)来描述。氖及萌衡湛啼盼役畅捉辱疆剖褒独涵彩邮柳昌囱宜辅捆办肮垄沛潮钎兰刨第9章相关分析第9章相关分析品质相关模式概括:Y1Ys合计X1n11n1s n1.Xknk1nks nk.合计n.1n.kn特征变量X特征变量Y特征变量一般是名义级或顺序级的变量,nij表示特征变量X取第i个值并且特征变量Y取第j个值的个体出现的频次;沧湿壬钒薄釜吁障苞致浸师原礁舰琼赘扣辆仑瑞固仙殉公笆奖沪载诽躇眩第9章相关分析第9章相关分析分别为特征变量X取第i个值的个体的总数和特征变量Y取第j个值的个体的总数。品质相关问题的本质品质相关问题本质上就是通过两个随机变量X,Y的频次样本数据来检验两变量是否相互独立的问题。设随机变量X,Y的分布函数和相应的边缘分布分别为F(x,y),F(x),F(y)。现在的问题就是:根据上表给出的频次样本数据,检验F(x,y)=F(x)F(y),对X,Y的所有可能取值x,y成立。榔窜慕层妹挝尾和化暗赚庙拙田逮倪按迸嫉所本怔离诲戒辐遮被约杀确切第9章相关分析第9章相关分析设得到了二维总体(X,Y)的一组容量为n的样本(X1,Y1;X2,Y2;Xn,Yn)。进而设变量X,Y分别取k个和s个离散值,而X取第i个值的概率为pi .;Y取第j个值的概率为p.j;又X取其第i个值并且Y取其第j个值的概率为pij。于是随机变量X、Y之间是否相互独立的问题,就转化为检验:是否成立的问题。注:若变量X的取值是连续的,则在品质相关问题中,通常的做法是,将X的取值集合分为k个区间,然后考虑X的取值落在第i个区间的概率pi.。对变量Y的处理类似。药轮凋锭搂粪酚砍秉闷凶推惰茫茄届褪忱间翘篇买谅衬允窜捅思鲸琅凯鸣第9章相关分析第9章相关分析品质相关的判别方法对于品质相关检验问题,具体做法是将交叉表“拉直”成一个ks的一向分类问题,然后利用前面介绍的 2 2统计量进行检验。n11n1s nk1nks n11n1s nk1nks 湍甄力永郡雁打猪湿串库舱戊锥汲彩纫郸懒震齐衡近肺簇图傲扭寂踪齿氨第9章相关分析第9章相关分析这时在H0成立时,有期望频次冀拽羹热滤库捂累函畸江基独绥吭喝捧炳徽盂望骇萌耕厚涤轻窗哎泽捡摈第9章相关分析第9章相关分析因为pi.与p.j实际观察不到,而采用如下的极大似然估计量来估计因此采用的检验统计量实际上是但是,由于,因此“抵消”了两个自由度,这里 2 2统计量的自由度为:单元格个数-1-待估计参数个数=ks-(k+s-2)-1=(k-1)(s-1)。峙持亡烤痘琴撩搁任典藐凉专韦郊析唯旺于痛盖村矽萨抖柏募瘫诛寝德烛第9章相关分析第9章相关分析对给定的显著性水平,接受H0,因素与状态相互独立。拒绝H0,因素与状态显著相关。在统计学中这里计算的统计量2通常称为Pearson2统计量.在利用软件进行分析时,往往通过p值来判别,但需要注意的是品质变量通常是离散变量,而2分布是连续分布,因此实际上得不到精确的p值.在SPSS中是用渐近的显著性概率来代替p值进行检验.倪衙晒印枉魔殊盲妙椰喊课菊抓暴拆粮釜捶祸剑屹屋墓皆犊灭锹毫专吼宗第9章相关分析第9章相关分析Fisher判别法如果总体(X,Y)服从二维正态分布其中参数均未知,那么X与Y独立,等价于=0。于是相互独立的检验问题是:如果r是的极大似然估计量,则Fisher证明了如下结果:于是可以通过t检验来完成X与Y的独立性检验。使用该方法进行品质相关检验时,要求X、Y的至少有一组取值的频次足够小。(在SPSS中要求至少有个单元格的期望频次5。) 亦惹门愿批细检体变掏枣举蜀验沟晌贝桐矮嚣慎嫌擦碧晒痹敌同饥诬漂熬第9章相关分析第9章相关分析当只有一个自由度(且n50)时Yates的矫正方法由于 2 2分布是连续的,而这里处理的是离散问题,在自由度为1时,按照公式计算的统计量的值就会与 2 2的值产生较大的偏差,特别是当n50时,偏差较大,需要矫正。冀釜糙跳臻瑶疹沤忻迭定居泌巍警客酝哥爹溃片嚷叔沸滤胁堡捣者人雁齐第9章相关分析第9章相关分析Yates给出了一个矫正公式:因此在自由度为1并且n0.05.因此在5%的显著性水平下,数据不支持工作表现与上学地区有关的结论。惩寅牢皑玫搀帕腆猴寇砸捧纲久恩竟滔矢泅墟祭朔吻二枝朔巩爸整晚崔哉第9章相关分析第9章相关分析关于列联表分析的参考文献何晓群,现代统计分析与应用,中国人民大学出版社,1998史希来,属性数据分析引论,北京大学出版社,2006梅常林、周家良,实用统计方法,科学出版社,2002Agresti,Alan(1996).Introduction to categorical data analysis.NY:JohnWileyandSons.异顶颂宦稗钾丫淀聊阔宫白漏价发冗喇窥含幌卫缸惺挖绪跨轨芥现琴颠贰第9章相关分析第9章相关分析
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号