资源预览内容
第1页 / 共89页
第2页 / 共89页
第3页 / 共89页
第4页 / 共89页
第5页 / 共89页
第6页 / 共89页
第7页 / 共89页
第8页 / 共89页
第9页 / 共89页
第10页 / 共89页
亲,该文档总共89页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
一名统计学家遇到一位数学家,统计学家调侃数学家:你们一名统计学家遇到一位数学家,统计学家调侃数学家:你们不是说若且,则吗!那么想必你若是喜欢不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男生你也会喜欢罗!?一个女孩,那么那个女孩喜欢的男生你也会喜欢罗!?”数学家想了一下反问道:数学家想了一下反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五十度而已!冰水里想来也没事吧!因为它们平均不过是五十度而已!”n静静地顿河静静地顿河,萨尔仁尼琴,萨尔仁尼琴 质疑,认为不是肖洛霍夫所写,质疑,认为不是肖洛霍夫所写,而是而是Kryukov所作。所作。Kjetsaa对此作了研究。对此作了研究。数学家的幽默数学家的幽默著作著作抽样字数抽样字数不同的词汇不同的词汇Marking (Kryukov)1000589The way and the road(肖洛霍夫肖洛霍夫)1000656静静地顿河静静地顿河1000646n1、“统统”,就是全部,就是全部,“计计”,就是计算,统计学即是,就是计算,统计学即是“具有具有全局意义的数字计算全局意义的数字计算”。(陈希孺)。(陈希孺)n2、统计学是收集和分析带随机性误差的数据的科学和艺术。、统计学是收集和分析带随机性误差的数据的科学和艺术。n3、一堆数字,就像一对沙子,谁喜欢?但是,一旦你发现了这、一堆数字,就像一对沙子,谁喜欢?但是,一旦你发现了这一堆数字中隐藏的奥秘,你就会喜欢这对数据了,在你眼里,一堆数字中隐藏的奥秘,你就会喜欢这对数据了,在你眼里,就是一堆沙子变成了一堆财富。统计学,就是帮你把一堆沙子就是一堆沙子变成了一堆财富。统计学,就是帮你把一堆沙子变成财富的方法。即吕洞宾那根变成财富的方法。即吕洞宾那根“点石成金点石成金”的手指。的手指。 课课 程程 介介 绍绍 多元统计分析多元统计分析(简称多元分析简称多元分析)是统计学的一个重要是统计学的一个重要分支分支.它是应用数理统计学来研究多变量它是应用数理统计学来研究多变量(多指标多指标)问题问题的理论和方法的理论和方法 ; 它是一元统计学的推广和发展它是一元统计学的推广和发展. 多元统计分析是一门具有很强应用性的课程多元统计分析是一门具有很强应用性的课程;它在它在自然科学和社会科学等各个领域中得到广泛的应用自然科学和社会科学等各个领域中得到广泛的应用;它它包括了很多非常有用的数据处理方法包括了很多非常有用的数据处理方法.第一章第一章 多元正态分布多元正态分布第二章第二章 均值向量和协方差阵的检验均值向量和协方差阵的检验第三章第三章 聚类分析聚类分析第四章第四章 判别分析判别分析第五章第五章 主成分分析主成分分析第六章第六章 因子分析因子分析第七章第七章 对应分析对应分析第八章第八章 典型相关分析典型相关分析本课程的内容本课程的内容多变量分析(数据结构简化)多变量分析(数据结构简化)分类方法分类方法两组变量的相关分析两组变量的相关分析基础理论基础理论21世纪统计学系列教材世纪统计学系列教材 多元统计分析多元统计分析(中国人民大学出版社中国人民大学出版社,何晓群何晓群,2012.1)使用的教材使用的教材1. 应用多元统计分析应用多元统计分析(朱建平,(朱建平,科学出版社科学出版社,2006)2.实用多元统计分析实用多元统计分析(方开泰方开泰,1989,华东师范大学出版社华东师范大学出版社3. 多元统计分析引论多元统计分析引论(张尧庭张尧庭,方开泰方开泰, 科学出版社科学出版社,1982)4. 实用多元统计分析实用多元统计分析(王学仁王学仁,1990 ,上海科学技术出版上海科学技术出版社社)5. 应用多元分析应用多元分析(王学民王学民,1999 ,)6. 统计分析与统计分析与SPSS的应用(第三版的应用(第三版 薛微)薛微)7.社会统计学分析方法社会统计学分析方法SPSS软件应用软件应用(郭志刚,(郭志刚,中国人民大学出版社中国人民大学出版社,1999)参考书参考书 教学方式教学方式 : 授课与实际例题相结合授课与实际例题相结合.本课程的特点与教学方式本课程的特点与教学方式 本课程的特点本课程的特点是将常用的多元分析方法的是将常用的多元分析方法的介绍与在计算机上实现这些方法的软件紧介绍与在计算机上实现这些方法的软件紧密地结合起来,不仅介绍每种多元分析方密地结合起来,不仅介绍每种多元分析方法法 的实际背景、统计思想、统计模型、数的实际背景、统计思想、统计模型、数学原理和解题的思路,并结合实例介绍应学原理和解题的思路,并结合实例介绍应用统计软件用统计软件(SPSS)解决问题的步骤和计算结解决问题的步骤和计算结果的分析。果的分析。 引引 言言 什么是多元统计?什么是多元统计? 在实际问题中,很多随机现象涉及到的变量不在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而且这些变量间又存止一个,而经常是多个变量,而且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测在一定的联系。我们常常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生数据。例如考察学生的学习情况时,就需了解学生在几个主要科目的考试成绩在几个主要科目的考试成绩。 下表给出从中学某年级随机抽取的下表给出从中学某年级随机抽取的12名学生中名学生中5门主要课程期末考试成绩。门主要课程期末考试成绩。序号序号 政治政治 语文语文 外语外语 数学数学 物理物理 1 99 94 93 100 1001 99 94 93 100 100 2 99 88 96 99 97 2 99 88 96 99 97 3 100 98 81 96 100 3 100 98 81 96 100 4 93 88 88 99 96 4 93 88 88 99 96 5 100 91 72 96 78 5 100 91 72 96 78 6 90 78 82 75 97 6 90 78 82 75 97 7 75 73 88 97 89 7 75 73 88 97 89 8 93 84 83 68 88 8 93 84 83 68 88 9 87 73 60 76 84 9 87 73 60 76 8410 95 82 90 62 3910 95 82 90 62 3911 76 72 43 67 7811 76 72 43 67 7812 85 75 50 34 3712 85 75 50 34 37 上表提供的数据,如果用一元统计方法,势上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视了课程之间可课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级太多。分析的结果不能客观全面地反映某年级学生的学习情况。学生的学习情况。 本课程要讨论的多元分析方法,它同时对多本课程要讨论的多元分析方法,它同时对多门课程成绩进行分析。这样的分析对这些课程门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有用之间的相互关系、相互依赖性等都能提供有用的信息。的信息。 由于大量实际问题都涉及到多个变量,这由于大量实际问题都涉及到多个变量,这些变量又是随机变化。所以要讨论多维随机向些变量又是随机变化。所以要讨论多维随机向量的统计规律性。量的统计规律性。 多元统计分析就是讨论多维随机向多元统计分析就是讨论多维随机向量的理论和统计方法的总称。量的理论和统计方法的总称。 多元统计分析多元统计分析研究研究 的对象的对象就是多就是多维随机向量维随机向量. .多元统计分析的发展史多元统计分析的发展史n多元统计分析起源于上世纪初,多元统计分析起源于上世纪初,1928年年Wishart发表发表论文论文多元正态总体样本协差阵的精确分布多元正态总体样本协差阵的精确分布,可,可以说是多元分析的开端。以说是多元分析的开端。n20世纪世纪30年代年代R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分析许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。在理论上得到了迅速得发展。n20世纪世纪40年代在心理、教育、生物等方面有不少得年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。停滞了相当长得时间。n20世纪世纪50年代中期,随着电子计算机得出现和发展,年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。面得到广泛得应用。n20世纪世纪60年代通过应用和实践又完善和发展了理论,年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。范围更加扩大。n20世纪世纪70年代初期在我国才受到各个领域的极大关年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。并已形成一支科技队伍,活跃在各条战线上。 n在在20世纪末与本世纪初,人们获得的数据正以前所世纪末与本世纪初,人们获得的数据正以前所未有的速度急剧增加,产生了很多超大型数据库,未有的速度急剧增加,产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工化学、医学以及政府统计等领域,多元统计与人工智能和数据库技术相结合,已在经济、商业、金融、智能和数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。天文等行业得到了成功的应用。二、多元统计分析方法的应用二、多元统计分析方法的应用 多元统计分析方法的应用多元统计分析方法的应用n多元统计分析方法在经济管理、农业、医学、教育多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、文学等方面都有广泛的应用,环境保护、军事科学、文学等方面都有广泛的应用,这里我们例举一些实际问题,进一步了解多元统计这里我们例举一些实际问题,进一步了解多元统计分析的应用领域,让大家从感性上加深对多元统计分析的应用领域,让大家从感性上加深对多元统计分析的认识。分析的认识。1、城镇居民消费水平通常用八项指标来描述,如人均粮食支、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。类分析。2、在企业经济效益的评价中,涉及到的指标往往很多,如百、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。学的评价。可用主成分分析和因子分析法。3、某一产品是用两种不同原料生产的,试问此两种原料生产、某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年的产品寿命有无显著差异?又比如,若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。是否有显著差异以及经营指标之间的波动是否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。可用多元正态总体均值向量和协差阵的假设检验。4、按现行统计报表制度,农村家庭纯收入是指农村常住居民、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、税款和上家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。如果我们非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及据,可以用相应分析,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。各省、自治区、直辖市与各收入指标的关系。5、某医院已有、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果的病人资料,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。用判别分析方法判定他患的是哪种病。6、在地质学中,常常要研究矿石中所含化学成分之间的关系。、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了设在某矿体中采集了60个标本,对每个标本测得个标本,对每个标本测得20个化学成个化学成分的含量。我们希望通过对这分的含量。我们希望通过对这20个化学成分的分析,了解矿个化学成分的分析,了解矿体的性质和矿体形成的主要原因。体的性质和矿体形成的主要原因。7、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对关系。对1000个类似的鱼类样本,如何根据测量的特征如体个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。法将这类鱼分成几个不同品种。8、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。属于哪一类动物牙齿、是哪一个时代的。回顾回顾 矩阵代数矩阵代数n1.1 矩阵的逆矩阵的逆n1.2 特征值、特征向量和矩阵的迹特征值、特征向量和矩阵的迹n1.3 正定矩阵和非负定矩阵正定矩阵和非负定矩阵n1.4 特征值的极值问题特征值的极值问题代数余子式代数余子式n设设A为为p阶方阵,将其元素阶方阵,将其元素aij所在的第所在的第i行与第行与第j列划去列划去之后所得之后所得(p1)阶矩阵的行列式,称为元素阶矩阵的行列式,称为元素aij的的余子余子式式,记为,记为Mij。Aij=(1)i+jMij称为元素称为元素aij的的代数余子式代数余子式。n伴随矩阵伴随矩阵1.1 矩阵的逆矩阵的逆n若方阵若方阵A满足满足|A|0,则称,则称A为为非退化方阵非退化方阵;若;若 |A|=0,则称,则称A为为退化方阵退化方阵。n设设A=(aij)是一非退化方阵,若方阵是一非退化方阵,若方阵C满足满足AC=I,则称,则称C为为A的的逆矩阵逆矩阵,记为,记为C=A1,且且A1 =A*/|A|其中其中A*伴随矩阵伴随矩阵例例1求求 的逆矩阵的逆矩阵解:解:1.2 特征值、特征向量和矩阵的迹特征值、特征向量和矩阵的迹n一、特征值和特征向量一、特征值和特征向量n二、矩阵的迹二、矩阵的迹一、特征值和特征向量一、特征值和特征向量n设设A是是p阶方阵,若对于一个数阶方阵,若对于一个数,存在一个,存在一个p维非零向量维非零向量x,使得使得Ax=x,则称,则称为为A的一个的一个特征值特征值或或特征根特征根,而称,而称x为为A的的属于特征值属于特征值的一个的一个特征向量特征向量。n求解特征值和特征向量步骤:求解特征值和特征向量步骤: 1)令)令|AI|=0,求方程根即为特征值,求方程根即为特征值,记作记作1,2, ,p 2)对每一个特征根)对每一个特征根i,求解方程求解方程(AiI)x=0,设解为设解为xi,则则i是是A的一个特征值,而的一个特征值,而xi是相应的特征向量。是相应的特征向量。n今后,一般取今后,一般取xi为单位向量,即满足为单位向量,即满足xixi=1。n例例2 求求 的特征值和特征向量。的特征值和特征向量。n解:解:n所以所以 A的特征值为的特征值为n当当 时,解方程时,解方程 。由。由n得基础解系:得基础解系: ,所以对应于,所以对应于 的单位特征向量为的单位特征向量为 n当当 时,解方程时,解方程 。由。由 n得基础解系:得基础解系: ,所以对应于,所以对应于 的单位特征向的单位特征向n量为量为 。n当当 时,解方程时,解方程 。由。由n得基础解系:得基础解系: ,所以对应于,所以对应于 的全部特的全部特n征向量为征向量为 。特征值和特征向量特征值和特征向量的的基本性质基本性质n(1)A和和A有相同的特征值。有相同的特征值。n(2)若若A为实对称矩阵,则为实对称矩阵,则A的特征值全为实数,的特征值全为实数,p个特征值按个特征值按大小依次表示为大小依次表示为12 p。若。若ij,则相应的特征向量,则相应的特征向量xi和和xj必正交,即必正交,即xixj=0。n(3)若若A为为p阶对称矩阵,则存在正交矩阵阶对称矩阵,则存在正交矩阵T及对角矩阵及对角矩阵=diag(1,2, ,p),使得,使得A=TT二、矩阵的迹二、矩阵的迹n设设A为为p阶方阵,则它的对角线元素之和称为阶方阵,则它的对角线元素之和称为A的的迹迹,记作记作tr(A),即,即tr(A)=a11+a22+ +appn方阵的迹具有下述方阵的迹具有下述基本性质基本性质:(1)tr(AB)=tr(BA)。特别地,。特别地,tr(ab)=ba。(2)tr(A)=tr(A)。(3)tr(A+B)=tr(A)+tr(B)。(4) 。1.3 正定矩阵和非负定矩阵正定矩阵和非负定矩阵n设设A是是p阶对称矩阵,阶对称矩阵,x是一是一p维向量,则维向量,则xAx称为称为A的的二次型二次型。若对一切。若对一切x0,有,有xAx0,则称,则称A为为正定矩正定矩阵阵,记作,记作A0;若对一切;若对一切x,有,有xAx0,则称,则称A为为非非负定矩阵负定矩阵,记作,记作A0。对非负定矩阵。对非负定矩阵A和和B,AB表表示示AB0;AB表示表示AB0。n(1)设设A是对称矩阵,则是对称矩阵,则A是正定是正定(或非负定或非负定)矩阵,当且仅当矩阵,当且仅当A的所有特征值均为正的所有特征值均为正(或非负或非负)。(2)若若A0(或或0),则存在,则存在 0(或或0),使得,使得 称称为为A的的平方根矩阵平方根矩阵。1.4 特征值的极值问题特征值的极值问题n(1)若若A是是p阶对称矩阵,其特征值依次为阶对称矩阵,其特征值依次为12 p,则,则n(2)若若A是是p阶对称矩阵,阶对称矩阵,B是是p阶正定矩阵,阶正定矩阵,12 p是是B1A的的p个特征值,则个特征值,则n(3)柯西柯西许瓦兹不等式许瓦兹不等式(CauchySchwarz) 若若B0,则则(xy)2(xBx)(yB1y)第一章第一章 多元正态分布多元正态分布 目录 上页 下页 返回 结束 1.1 多元分布的基本概念多元分布的基本概念1.2 统计距离和马氏距离统计距离和马氏距离1.3 多元正态分布多元正态分布1.4 均值向量和协方差阵的估计均值向量和协方差阵的估计1.5 常用分布及抽样分布常用分布及抽样分布2021/7/22361.11.1多元分布的基本概念多元分布的基本概念 目录 上页 下页 返回 结束 1.1.1 随机向量随机向量1.1.2 分布函数与密度函数分布函数与密度函数1.1.3 多元变量的独立性多元变量的独立性1.1.4 随机向量的数字特征随机向量的数字特征2021/7/2237定义定义1.11.1 设设 为为 个随机变量,由它们组成个随机变量,由它们组成的向量的向量 称为随机向量。称为随机向量。 目录 上页 下页 返回 结束 1.1.1 1.1.1 随机向量随机向量若无特别说明,本书所称向量均指列向量若无特别说明,本书所称向量均指列向量 描述随机变量的最基本工具是分布函数,类似地描述描述随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。随机向量的最基本工具还是分布函数。2021/7/2238 定义定义1.21.2 设设 是一随机向量,它的是一随机向量,它的多元分布函数是多元分布函数是 式中,式中, ,并记成,并记成 。1.1.21.1.2 分布函数与密度函数分布函数与密度函数 目录 上页 下页 返回 结束 多元分布函数的有关性质此处从略。多元分布函数的有关性质此处从略。2021/7/22391.1.21.1.2 分布函数与密度函数分布函数与密度函数 目录 上页 下页 返回 结束 定义1.3:设 = ,若存在一个非负的函数 ,使得 对一切对一切 成立,则称成立,则称 (或(或 )有分布)有分布密度密度 并称并称 为连续型随机向量。为连续型随机向量。 一个一个 维变量的函数维变量的函数 能作为能作为 中某个随机向量中某个随机向量的分布密度,当且仅当的分布密度,当且仅当2021/7/22402021/7/22411.1.31.1.3 多元变量的独立性多元变量的独立性 目录 上页 下页 返回 结束 对一切对一切 成立。成立。注注1 1:若:若 为为 的联合分布函数,的联合分布函数, 分别为分别为 和和 的分布函数,则的分布函数,则 与与 独立当且仅当独立当且仅当定义定义1.4:两个随机向量:两个随机向量 和和 称为是相互独立的,若称为是相互独立的,若注意注意: :在上述定义中,在上述定义中, 和和 的维数一般是不同的。的维数一般是不同的。注注2 2:若:若 有密度有密度 ,用,用 分别表示分别表示 和和 的分布密度,则的分布密度,则 和和 独立当且仅当独立当且仅当 2021/7/22421.1.4 1.1.4 随机向量的数字特征随机向量的数字特征是一个是一个 维向量,称为均值向量维向量,称为均值向量. . 目录 上页 下页 返回 结束 当当 为常数矩阵时,由定义可立即推出如下性质:为常数矩阵时,由定义可立即推出如下性质:1 1、随机向量、随机向量 的均值的均值 设设 有有 个分量。若个分量。若 存在,存在, 定义随机向量定义随机向量 的均值为的均值为)(PPm)()6. 1)( )(2121X=XEXEXEEmm2021/7/22431.1.4 1.1.4 随机向量的数字特征随机向量的数字特征 目录 上页 下页 返回 结束 2、随机向量、随机向量 自协方差阵自协方差阵 称它为 维随机向量 的协方差阵,简称为 的协方差阵。称 为 的广义方差,它是协差阵的行列式之值。2021/7/2244注注1: 是对称矩阵是对称矩阵 2: 的对角线元素的对角线元素 是是 的方差,的方差,非对角线元素非对角线元素 是是 和和 的协方差。的协方差。 3:性质:性质2021/7/22452021/7/2246 目录 上页 下页 返回 结束 1.1.4 1.1.4 随机向量的数字特征随机向量的数字特征3 3、随机向量、随机向量X X 和和Y Y 的协差阵的协差阵 设设 2021/7/2247 目录 上页 下页 返回 结束 (3)设)设X为为 维随机向量,期望和协方差存在记维随机向量,期望和协方差存在记 则则(4 4)X X和和Y Y相互独立,则相互独立,则X和和Y不相关不相关(5)随机向量)随机向量 的协方差的协方差阵阵D(X)是对称非负定矩阵是对称非负定矩阵2021/7/2248 目录 上页 下页 返回 结束 1.1.4 1.1.4 随机向量的数字特征随机向量的数字特征 4 4、随机向量、随机向量X X 的相关阵的相关阵 若随机向量 的协差阵存在,且每个分量的方差大于零,则X X的相关阵定义为: 也称为分量 与 之间的(线性)相关系数。2021/7/22492021/7/22501.2 1.2 统计距离和马氏距离统计距离和马氏距离 目录 上页 下页 返回 结束 欧氏距离欧氏距离马氏距离马氏距离2021/7/22511.2 1.2 统计距离和马氏距离统计距离和马氏距离欧氏距离欧氏距离 在多指标统计分析中,距离的概念十分重要,样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离,或称直线距离.如几何平面上的点p=(x1,x2)到原点O=(0,0)O=(0,0)的欧氏距离,依勾股定理有 目录 上页 下页 返回 结束 2021/7/22521.2 1.2 统计距离和马氏距离统计距离和马氏距离 目录 上页 下页 返回 结束 例如,横轴 代表重量(以kg为单位),纵轴 代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示 如果 用mm作单位2021/7/22531.2 1.2 统计距离和马氏距离统计距离和马氏距离 目录 上页 下页 返回 结束 欧式距离的缺点:1)与变量所用的单位有关;2)没有体现各个变量在变差大小上的不同3)没有考虑变量间的相关性看来我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离” 这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis)于1936年引入的距离,称为“马氏距离”。 2021/7/22541.2 1.2 统计距离和马氏距离统计距离和马氏距离 目录 上页 下页 返回 结束 下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。设有两个一维正态总体 。若有一个样品,其值在A处,A点距离哪个总体近些呢?由图1-2图1-22021/7/22551.2 1.2 统计距离和马氏距离统计距离和马氏距离马氏距离马氏距离 设X、Y从均值向量为从均值向量为,协方差阵为,协方差阵为的总体的总体G中抽取的两个样品,定义X、Y两点之间的马氏距离为两点之间的马氏距离为(1.21) )()(),(1/2YXYXYX-=-dmXG(1.22) )()(),(1/2XXX-=-Gdm的马氏距离为与总体定义 目录 上页 下页 返回 结束 2021/7/22562024/7/27中国人民大学六西格玛质量管理研究中心57 目录 上页 下页 返回 结束 2021/7/22571.2 1.2 统计距离和马氏距离统计距离和马氏距离 设设 表示一个点集,表示一个点集, 表示距离,它表示距离,它 是到是到 的函数,可以证明的函数,可以证明,马氏距离符合如下距离的四条基本公马氏距离符合如下距离的四条基本公理理 :;(1 1) , (2 2) 当且仅当当且仅当 ; (3 3) (4 4) 目录 上页 下页 返回 结束 2021/7/2258 1.3 1.3 多元正态分布多元正态分布 目录 上页 下页 返回 结束 1.3.1多元正态分布的定义多元正态分布的定义1.3.2多元正态分布的性质多元正态分布的性质1.3.3条件分布和独立性条件分布和独立性2021/7/22601.3.1 1.3.1 多元正态分布的定义多元正态分布的定义|为协差阵为协差阵的行列式。的行列式。 目录 上页 下页 返回 结束 定义定义1.51.5:若:若 元随机向量元随机向量 的概率密度函的概率密度函数为:数为: 则称则称 遵从遵从 元正态分布,也称元正态分布,也称X X为为 元正态变量。记为元正态变量。记为2021/7/2261例1.3.1(二元正态分布 )设xN2(, ),这里易见,是x1和 x2的相关系数。当|00,则,则 2021/7/2270例3 设 求 的分布2021/7/2271 在定理在定理1.21.2中,我们给出了对中,我们给出了对X X、和和作形如作形如(1.25)(1.25)式剖分时条件协差阵式剖分时条件协差阵 的表达式及其与非的表达式及其与非条件协差阵的关系,令条件协差阵的关系,令 表示表示 的元素,的元素,则可以定义偏相关系数的概念如下:则可以定义偏相关系数的概念如下: 定义定义1.61.6:当:当 给定时,给定时, 与与 的偏相关系数的偏相关系数为:为: 目录 上页 下页 返回 结束 1.3.3 1.3.3 条件分布和独立性条件分布和独立性2021/7/2272 偏相关系数偏相关系数 以x1表示某种商品的销售量, x2表示消费者人均可支配收入, x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。2021/7/2273 目录 上页 下页 返回 结束 1.3.3 1.3.3 条件分布和独立性条件分布和独立性 定理定理1.41.4:设:设 将将X X、按同样方按同样方式剖分为式剖分为 其中,其中, 2021/7/2274设设 遵从于遵从于P P元正态分布元正态分布 , 未知,从总体中抽取样本容量为未知,从总体中抽取样本容量为 n n的样本的样本 目录 上页 下页 返回 结束 1 1.4 .4 均值向量和协方差阵的估计均值向量和协方差阵的估计2021/7/2275例如 已知咱班同学5门课成绩X服从5元正态分布,先从咱班抽取3位同学成绩如下: 姓名姓名数分数分高代高代概率概率统计统计经济学经济学翁启航8070757075史影9590909588郭伟杰70657075802021/7/2276 横看表横看表1-11-1,记,记 , 它表示第它表示第 个样品的观测值。竖看表个样品的观测值。竖看表1-1,1-1,第第 列的元素列的元素 表示对表示对 第个变量第个变量 的的n n次观测数值。下面为表次观测数值。下面为表1-11-1n 21 变量变量序号序号 目录 上页 下页 返回 结束 1.1.1 1.1.1 随机向量随机向量2021/7/2277因此因此, ,样本资料矩阵可用矩阵语言表示为样本资料矩阵可用矩阵语言表示为: : 目录 上页 下页 返回 结束 1.1.1 1.1.1 随机向量随机向量2021/7/22781 1.4 .4 均值向量和协方差阵的估计均值向量和协方差阵的估计 目录 上页 下页 返回 结束 设样品设样品 相互独立相互独立, ,同遵从于同遵从于P P元正态分元正态分布布 , ,而且而且 ,0,0,则则2021/7/22791 1.4 .4 均值向量和协方差阵的估计均值向量和协方差阵的估计 目录 上页 下页 返回 结束 2021/7/22801 1.4 .4 均值向量和协方差阵的估计均值向量和协方差阵的估计 目录 上页 下页 返回 结束 例:为了了解某种橡胶的性能,今抽取例:为了了解某种橡胶的性能,今抽取1010个样品,个样品,每个样品测量三项指标:硬度,变形和弹性,其数每个样品测量三项指标:硬度,变形和弹性,其数据如下表据如下表:求样本均值向量、样本离差阵、:求样本均值向量、样本离差阵、样本协方差阵样本协方差阵序号序号硬度硬度变形变形弹性弹性1654527.62704530.73704831.84694632.656650312021/7/22811 1.5.5常用分布及抽样分布常用分布及抽样分布1.5.2 分布与分布与 分布分布1.5.1 分布与分布与Wishart分布分布1.5.3 中心分布与中心分布与Wilks分布分布 目录 上页 下页 返回 结束 2021/7/2282 (1.32)(1.32) 定义定义1.71.7 设设 相互独立相互独立, ,且且 , ,记记 , ,则随机矩阵:则随机矩阵: 所服从的分布称为自由度为所服从的分布称为自由度为 的的 维非中心维非中心WishartWishart分布分布, ,记为记为 , , 其中, , , 称为非中心参数,当 时称为中心Wishart分布,记为m 目录 上页 下页 返回 结束 1.5.1 分布与分布与Wishart分布分布2021/7/2283注:当注:当 时时, , 中心中心WishartWishart分布就退化为分布就退化为 下面不加证明的给出下面不加证明的给出WishartWishart分布的重要性质分布的重要性质: : 个随机样本个随机样本, , 为样本均值为样本均值, , 样本离差阵为样本离差阵为维正态总体维正态总体若若 是从是从中抽取的中抽取的, , 则则.相互独立相互独立. .和和(1) (1) (2) (2) , , 目录 上页 下页 返回 结束 1.5.1 分布与分布与Wishart分布分布注:当注:当 时时, , 中心中心WishartWishart分布就退化为分布就退化为 2021/7/2284中心中心 分布可化为中心分布可化为中心 分布分布, ,其关系为其关系为: :显然显然, ,当当 时时, ,有有 . .定义定义1.81.8 设设 , , , , , , , , 与与相互独立相互独立, ,则称随机变量则称随机变量 (1.33) 所服从的分布称为第一自由度为所服从的分布称为第一自由度为 第二自由度为第二自由度为 的中的中心心 分布分布, ,记为记为 目录 上页 下页 返回 结束 1.5.2 1.5.2 分布与分布与 分布分布2021/7/2285 所服从的分布称为维数为所服从的分布称为维数为 , ,第一自由度为第一自由度为 第二第二自由度为自由度为 的的Wilks Wilks 分布分布, ,记为记为 (1.34) 定义定义1.91.9 设设 , , , , , , ,且且 与与 相互独立相互独立, ,则称随机变量则称随机变量 目录 上页 下页 返回 结束 1.5.3 1.5.3 中心分布与中心分布与WilksWilks分布分布2021/7/2286 目录 上页 下页 返回 结束 1.5.3 1.5.3 中心分布与中心分布与WilksWilks分布分布 由于分布在多元统计中的重要性,关于它的近似分布和精确分布不断有学者进行研究,当p和 中的一个比较小时, 分布可化为F分布,表1-2列举了常见的情况.表1-22021/7/2287 目录 上页 下页 返回 结束 2021/7/2288个人观点供参考,欢迎讨论
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号