资源预览内容
第1页 / 共76页
第2页 / 共76页
第3页 / 共76页
第4页 / 共76页
第5页 / 共76页
第6页 / 共76页
第7页 / 共76页
第8页 / 共76页
第9页 / 共76页
第10页 / 共76页
亲,该文档总共76页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1,应用多元统计分析,2,课 程 介 绍,多元统计分析(简称多元分析)是统计学的一个重要分支.它是应用数理统计学来研究多变量(多指标)问题的理论和方法 ; 它是一元统计学的推广和发展.多元统计分析是一门具有很强应用性的课程;它在自然科学和社会科学等各个领域中得到广泛的应用;它包括了很多非常有用的数据处理方法.,3,第一章 绪论 第二章 多元正态分布及参数的估计 第三章 多元正态总体参数的假设检验 第四章 回归分析- 第五章 判别分析 第六章 聚类分析 第七章 主成分分析 第八章 因子分析 第九章 对应分析方法 第十章 典型相关分析 第十一章 偏最小二乘回归分析,本课程的内容,多变量分析(数据结构简化),分类方法,两组变量的相关分析,基础理论,两组变量的相依分析,4,普通高等教育”十一五”国家级教材 北京大学数学教学系列丛书本科生 数学基础课教材应用多元统计分析(北京大学出版社,高惠璇,2006.10),使用的教材,5,1. 实用多元统计分析(方开泰,1989,见参考文献1) 2. 多元统计分析引论(张尧庭,方开泰, 2003,见2) 3. 实用多元统计分析(王学仁,1990 ,见6) 4. 应用多元分析(王学民,1999 ,见8) 5. 实用统计方法与SAS系统(高惠璇,2001, 见3) 6. 多元统计分析(于秀林,1999 ,见9) 7. 多元统计方法(周光亚,1988 ,见28) 8. 多元分析(英 . M . 肯德 尔,1983 ,见15) 9. SAS系统使用手册等资料(1994-1998 ,见17-21),参考书(一),6,(1) An Introduction to Multivariate Statistical Analysis (Anderson 1984 ,见22),参考书(二),(2) Applied Multivariate Statistical Analysis( Richard A.Johnson and Dean W.Wichern 4th ed 1998)中译本:实用多元统计分析 (陆璇译 2001 ,见5 ),(3) Linear Statistical Inference and Its Applications (C.R.Rao 1973)中 译 本:线性统计推断及其应用 (C.R. 劳 1987 ,见25),7,教学方式 : 授课与实际例题相结合.,本课程的特点与教学方式,本课程的特点是将常用的多元分析方法的介绍与在计算机上实现这些方法的软件紧密地结合起来,不仅介绍每种多元分析方法 的实际背景、统计思想、统计模型、数学原理和解题的思路,并结合实例介绍应用统计软件(SAS系统)解决问题的步骤和计算结果的分析。,8,第一章 绪 论 1.1 引 言,在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生在几个主要科目的考试成绩。下表给出从中学某年级随机抽取的12名学生中5门主要课程期末考试成绩。,9,第一章 绪 论 1.1 引 言,序号 政治 语文 外语 数学 物理1 99 94 93 100 1002 99 88 96 99 973 100 98 81 96 1004 93 88 88 99 965 100 91 72 96 786 90 78 82 75 977 75 73 88 97 898 93 84 83 68 88 9 87 73 60 76 84 10 95 82 90 62 39 11 76 72 43 67 78 12 85 75 50 34 37,10,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级学生的学习情况。,本课程要讨论的多元分析方法,它同时对多门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有用的信息。,11,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,由于大量实际问题都涉及到多个变量,这些变量又是随机变化,如学生的学习成绩随着被抽取学生的不同成绩也有变化(我们往往需要依据它们来推断全年级的学习情况)。所以要讨论多维随机向量的统计规律性。,多元统计分析就是讨论多维随机向量的理论和统计方法的总称。,多元统计分析研究 的对象就是多维随机向量.,12,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,研究的内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。多元统计分析是一类范围很广的理论和方法。企图用三言两语来下一个严格的定义是困难的.,13,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,就以学生成绩为例,我们可以研究很多问题:用各科成绩的总和作为综合指标来比较学生学习成绩的好坏(如成绩好的与成绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之间的关系(如物理与数学成绩的关系,文科成绩与理科成绩的关系);等等。所有这些都属于多元统计分析的研究内容。,14,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,综上所述,多元分析以个变量的n次观测数据组成的数据矩阵,x11 x12 x1px21 x22 x2p. . . .xn1 xn2 xnp,X=,为依据。根据实际问题的需要,给出种种方法。英国著名统计学家.肯德尔(M.G.Kendall)在多元分析一书中把多元分析所研究的内容和方法概括为以下几个方面:,15,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,1. 简化数据结构(降维问题)例如通过变量变换等方法使相互依赖的变量变成互不相关的;或把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不太多.主成分分析,因子分析,对应分析等多元统计方法就是这样的一类方法。,.分类与判别(归类问题)对所考查的对象(样品点或变量)按相似程度进行分类(或归类)。聚类分析和判别分析等方法是解决这类问题的统计方法。,16,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,3.变量间的相互联系(1) 相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化?如果是,建立变量间的定量关系式,并用于预测或控制-回归分析.(2) 变量间的相互关系: 分析两组变量间的相互关系-典型相关分析等. (3)两组变量间的相互依赖关系-偏最小二乘回归分析.,17,第一章 绪 论 1.1 引言-多元分析的研究 对象和内容,5.多元统计分析的理论基础包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础。,.多元数据的统计推断参数估计和假设检验问题.特别是多元正态分布的均值向量和协差阵的估计和假设检验等问题。,18,第一章 绪 论 1.1 引言-多元分析的发展历史,多元统计分析起源于二十世纪初,1928年Wishart发表论文多元正态总体样本协方差阵的精确分布,可以说是多元分析的开端.之后R.A.Fisher、H.Hotelling、S.N.Roy、许宝录等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展,在许多领域中也有了实际应用.由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响,甚至停滞了相当长的时间.,19,第一章 绪 论 1.1 引言-多元分析的的发展历史,二十世纪50年代中期,随着电子计算机的出现和发展,使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用.60年代通过应用和实践又完善和发展了理论,由于新理论、新方法的不断出现又促使它的应用范围更加扩大.多元统计的方法在我国至70年代初期才受到各个领域的极大关注,近30多年来我国在多元统计方法的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上.,20,第一章 绪 论 1.2 多元统计分析的应用领域-教育学,多元统计分析是解决实际问题有效的数据处理方法。随着电子计算机使用的日益普及,多元统计方法已广泛地应用于自然科学,社会科学的各个方面。以下我们列举多元分析的一些应用领域。从中可看到多元分析应用的广度和深度。,1. 教育学n个考生报考北大概率统计系.每个考生参加7门课(语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为Yj1, Yj2 , Yj7 。又每个考生在高中学习期间,m门主要课程成绩为Xj1, Xj2, Xjm( j=1,2, n )。经对这大量的资料作统计分析,我们能够得出:,21,第一章 绪 论 1.2 多元统计分析的应用领域-教育学,(1) 高考成绩和高中学习期间成绩的关系,即给出两组变量线性组合间的关系,从而可由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩.(2) 给出考生成绩次序排队的最佳方案(最佳组合).总分可以体现一个考生成绩好坏,但对报考概率统计系的学生,按总分从高到低的顺序录取并不是最合适的.应按适当的权数加权求和.如数学、物理、外语的权数相对高些.,22,第一章 绪 论 1.2 多元统计分析的应用领域-教育学,(3) 利用n个学生在高中学习期间m门主科的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优秀学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平合理地确定。,23,教育学- 主成分分析在学生学习成绩排序中的应用,我在担任学生班主任期间,经常会遇到学校下达的评选三好生,评选学习奖等任务.另还有评选各种奖学金的工作;推荐研究生的工作都要求班主任提出意见.如何利用全班学生在校几年中主要课程的学习成绩及各方面的表现更科学,更合理地进行评选?应用多元统计分析中的主成分方法可以给出公平合理地确定.,24,教育学- 主成分分析在学生学习成绩排序中的应用,比如全班有40名学生,本科生四年中主要课程包括基础课,专业基础课,本专业的限选课,设共有12门课.从教务可以得到全班40名学生这12门课的成绩,组成的40行12列的数据阵X就是我们的原始数据.(1) 全班学生综合成绩的排序评选三好生,评选学习奖,推荐研究生的工作首先都要了解全班学生的学习情况.,25,教育学- 主成分分析在学生学习成绩排序中的应用,12门课的成绩可看成12个变量,这是多指标(变量)系统的排序评估问题。这类问题在实际工作中经常会迂到,比如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题综合为单个综合变量的形式.主成分分析方法为样品排序或多指标系统评估提供可行的方法.,26,教育学- 主成分分析在学生学习成绩排序中的应用,这里把12门课的成绩看成12个变量,这些变量是相关的,有的相关性强些,有的相关性一般些。用主成分分析方法从12个相关的变量中可以综合得出几个互不相关的主成分它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在70以上),我们就用第一主成分(即单个综合指标)替代原来的12个变量;然后计算第一主成分的得分并进行排序。,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号