资源预览内容
第1页 / 共229页
第2页 / 共229页
第3页 / 共229页
第4页 / 共229页
第5页 / 共229页
第6页 / 共229页
第7页 / 共229页
第8页 / 共229页
第9页 / 共229页
第10页 / 共229页
亲,该文档总共229页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
统计学教程统计学教程第一章 绪论第二章 统计调查与整理第三章 综合指标第五章 参数估计和假设检验第六章 相关与回归第七章 非参数检验第八章 时间序列第九章 指数二、统计学的研究对象和研究方法二、统计学的研究对象和研究方法(一)统计包含(一)统计包含三种涵义,两重关系三种涵义,两重关系1、统计工作:调查研究。资料收集、整理和分析。2、统计资料:工作成果。包括统计数据和分析报告。3、统计学:研究如何搜集、整理、分析数据资料的一 门方法论方法论科学。统计工作统计工作统计资料统计资料统统 计计 学学工作与工作成果关系工作与工作成果关系实践与理实践与理论关系论关系统计学的性质:是一门适用于自然现象和社会现象的方法论学科。统计学的研究对象:大量现象的数量方面。包括数量 特征、数量关系、数量界限等。(二)统计学的研究对象(二)统计学的研究对象(三)统计学的研究对象(三)统计学的研究对象1、大量观察法是指对所研究的事物的全部或足够数量进行观察的方法。它可以使影响个体的偶然因素相互抵消,显示出现象的一般特征。其数理依据是反映随机现象基本规律的大数定律。2、综合指标法是从数量方面对现象总体特征的概括说明。综合指标法,就是运用各种综合指标对现象的数量特征、数量关系进行对比分析的方法。它是统计分析的基本方法。3、统计推断法是在一定置信程度(即可靠程度)下,根据样本资料的特征对总体特征作出估计和预测的方法。统计推断是现代统计学的基本方法。一、统计学的产生与发展一、统计学的产生与发展产生产生原始社会后期: 统计萌芽于计数活动; 奴隶制国家产生:使统计日显重要; 封建社会时期: 统计已具规模;资本主义的兴起:统计扩展到社会经济各方面。统统 计学应运而生,统计学作为一门系统计学应运而生,统计学作为一门系统的科学,距今只有的科学,距今只有300多年的历史。多年的历史。一、统计学的产生与发展一、统计学的产生与发展发展(三个时期)发展(三个时期)(一)统计学的萌芽期(一)统计学的萌芽期(17世纪中世纪中18世纪中)世纪中)1、德国的记述学派(国势学派、德国的记述学派(国势学派 康令康令 (16061681) 阿痕瓦尔(阿痕瓦尔(17191772; 1764年首创统计学一词)年首创统计学一词) 他们在大学中开设他们在大学中开设“ 国势学国势学”采用记述性材料,采用记述性材料,讲述国家讲述国家“ 显著事项显著事项”,籍以说明管理国家的方法,籍以说明管理国家的方法。特点是特点是偏重于事物质的解释而忽视量的分析偏重于事物质的解释而忽视量的分析。(二)统计学的近代期(二)统计学的近代期(18世纪末世纪末19世纪末)世纪末) 1、数理统计学派、数理统计学派 代表人物:法国的拉普拉斯,比利时的凯特勒代表人物:法国的拉普拉斯,比利时的凯特勒。 拉普拉斯把拉普拉斯把古典概率论引进统计学古典概率论引进统计学,发展了概发展了概率论,推广了概率论在统计中的应用。率论,推广了概率论在统计中的应用。 2、政治算术学派、政治算术学派代表人物:英国的威廉代表人物:英国的威廉配第、约翰配第、约翰格朗特等。格朗特等。 威廉威廉配第的代表著配第的代表著政治算术政治算术对当时的英、荷、对当时的英、荷、法等国的法等国的“ 国富和力量国富和力量”进行了数量的计算和比较;进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作格朗特写出了第一本关于人口统计的著作。他们开创他们开创了了从数量方面研究社会经济现象的先例从数量方面研究社会经济现象的先例。 凯特勒把德国的国势学派、英国的政治算术学派和凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人,有统计学。他是数理统计学派的奠定人,有“ 统计学之统计学之父父”之称。之称。 2、社会统计学派、社会统计学派 代表人物:德国的克尼斯、恩格尔、梅尔等代表人物:德国的克尼斯、恩格尔、梅尔等。 他们强调统计学是他们强调统计学是研究社会现象的科学研究社会现象的科学,包括统包括统 计资料的搜集、整理和分析研究,目的是要揭示现象计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系内部的联系。(三)统计学的现代期(三)统计学的现代期(20世纪初至今)世纪初至今) 统计学的主流从描述统计学统计学的主流从描述统计学转向转向推断统计学。推断统计学。20世纪世纪30年代年代R费希尔的推断统计理论标志着现代数理费希尔的推断统计理论标志着现代数理统计学的确立。统计学的确立。60年代以后统计学发展有三个明显的趋势:年代以后统计学发展有三个明显的趋势:1统计学依赖和吸收数学更多;统计学依赖和吸收数学更多;2以统计学为基础的边缘学科不断形成;以统计学为基础的边缘学科不断形成;3与电子计算机技术相结合,应用范围更广,作用更大。与电子计算机技术相结合,应用范围更广,作用更大。三、统计学的要素和内容三、统计学的要素和内容1、统计总体和总体单位、统计总体和总体单位总体总体统计研究所确定的客观对象,是具统计研究所确定的客观对象,是具统计研究所确定的客观对象,是具统计研究所确定的客观对象,是具 有共同性质的许多单位组成的整体。有共同性质的许多单位组成的整体。有共同性质的许多单位组成的整体。有共同性质的许多单位组成的整体。无限总体:含无限多个单位无限总体:含无限多个单位无限总体:含无限多个单位无限总体:含无限多个单位范围范围范围范围 有限总体:含有限个单位。有限总体:含有限个单位。有限总体:含有限个单位。有限总体:含有限个单位。总体单位:组成总体的各个单位(或元素),是总体单位:组成总体的各个单位(或元素),是各项统计数字的原始承担者。各项统计数字的原始承担者。同质性:总体中各个单位具有某同质性:总体中各个单位具有某种共同的性质。种共同的性质。大量性:总体总是包含大量的单位。大量性:总体总是包含大量的单位。(一)统计学的要素(一)统计学的要素特点特点2、标志、标志标志标志总体单位的属性、特征。总体单位的属性、特征。总体单位的属性、特征。总体单位的属性、特征。品质标志:用文字表示属性品质标志:用文字表示属性品质标志:用文字表示属性品质标志:用文字表示属性分类分类分类分类数量标志:用数字表示特征数量标志:用数字表示特征数量标志:用数字表示特征数量标志:用数字表示特征不变标志:各单位具体表现不变标志:各单位具体表现不变标志:各单位具体表现不变标志:各单位具体表现 相同相同相同相同可变标志:各单位具体表现可变标志:各单位具体表现可变标志:各单位具体表现可变标志:各单位具体表现 不同不同不同不同指标:综合反映总体数量特征的概念和数值。指标:综合反映总体数量特征的概念和数值。构成:指标名指标数值构成:指标名指标数值构成:指标名指标数值构成:指标名指标数值特点:具体性;综合性特点:具体性;综合性特点:具体性;综合性特点:具体性;综合性3、指标和指标体系、指标和指标体系分类:数量指标;质量指标分类:数量指标;质量指标描述指标;评价指标;预警指标描述指标;评价指标;预警指标描述指标;评价指标;预警指标描述指标;评价指标;预警指标绝对数指标;相对数指标;平均数指标绝对数指标;相对数指标;平均数指标绝对数指标;相对数指标;平均数指标绝对数指标;相对数指标;平均数指标在推断统计中:说明总体的指标也称参数。在推断统计中:说明总体的指标也称参数。在推断统计中:说明总体的指标也称参数。在推断统计中:说明总体的指标也称参数。说明样本的指标称统计量。说明样本的指标称统计量。说明样本的指标称统计量。说明样本的指标称统计量。指标体系:具有内在联系的一系指标构成的整体。指标体系:具有内在联系的一系指标构成的整体。指标体系:具有内在联系的一系指标构成的整体。指标体系:具有内在联系的一系指标构成的整体。标志与指标的联系与区别:标志与指标的联系与区别:联系(联系(1)一些数量标志汇总可以得到指标的数值)一些数量标志汇总可以得到指标的数值 。区别(区别(1)标志是说明总体单位特征的,而指标是说统)标志是说明总体单位特征的,而指标是说统 统统计总体数量特征的;计总体数量特征的; (2)数量标志与指标之间存在变换)数量标志与指标之间存在变换 关系。关系。 (2)标志的具体表现,有的用数值有的用文字表示,)标志的具体表现,有的用数值有的用文字表示,而指标都是用数值表示的。而指标都是用数值表示的。4、变量和变量值、变量和变量值变量变量可变的数量标志和统计指标。可变的数量标志和统计指标。可变的数量标志和统计指标。可变的数量标志和统计指标。确定性变量确定性变量确定性变量确定性变量分类分类分类分类随机性变量随机性变量随机性变量随机性变量离散性变量离散性变量离散性变量离散性变量连续性变量连续性变量连续性变量连续性变量变量值:即变量的具体数值,包括标志值和指标数值变量值:即变量的具体数值,包括标志值和指标数值社会经济现象中许多变量,既受确定性因素影响,又社会经济现象中许多变量,既受确定性因素影响,又社会经济现象中许多变量,既受确定性因素影响,又社会经济现象中许多变量,既受确定性因素影响,又受随机性因素影响。要根据具体情况加以认定。受随机性因素影响。要根据具体情况加以认定。受随机性因素影响。要根据具体情况加以认定。受随机性因素影响。要根据具体情况加以认定。5、样本、样本是从总体中随机抽取部分单位所构成的集合是从总体中随机抽取部分单位所构成的集合是从总体中随机抽取部分单位所构成的集合是从总体中随机抽取部分单位所构成的集合体。体。体。体。必须取自所要研究的总体;必须取自所要研究的总体;特点特点特点特点从一个总体中可抽取许多个样本,这从一个总体中可抽取许多个样本,这些样本的数值是不同的,也即存在着些样本的数值是不同的,也即存在着随机的差异;随机的差异;样本必须具有代表性;样本必须具有代表性;样本必须具有客观性,也即排除主样本必须具有客观性,也即排除主观因素的影响观因素的影响6、推断:就是以样本信息为依据对总体的某些特、推断:就是以样本信息为依据对总体的某些特 征作出预测和估计。征作出预测和估计。7、推断的可靠性:根据随机抽取的样本对总体推、推断的可靠性:根据随机抽取的样本对总体推断所得出的结果的可靠程度,也称断所得出的结果的可靠程度,也称置信度置信度。(二)统计学的内容二)统计学的内容1、描述统计、描述统计指搜集、整理、分析并提供统计资指搜集、整理、分析并提供统计资料的理论和方法。料的理论和方法。主要任务:使反映客观事物的统计数据主要任务:使反映客观事物的统计数据可以一目了然,条理清晰,使用方便,可以一目了然,条理清晰,使用方便,可以说明现象的数量特征和数量关系。可以说明现象的数量特征和数量关系。2、推断统计、推断统计是只依据样本资料推断总体特征的是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设技术和方法,包括参数估计和假设检验的方法。检验的方法。描述统计是推断统计的前提,描述统计是推断统计的前提,推断统计是描述统计的发展。推断统计是描述统计的发展。四、统计测定的层次四、统计测定的层次 统计测定(统计测定(measurement)即对总体数量特征的量度,包括登记、分类、即对总体数量特征的量度,包括登记、分类、标示、计算等。标示、计算等。四个测定层次的比较四个测定层次的比较1234量量量量化化化化等等等等级级级级功功功功能能能能包包包包容容容容1234测定层次测定层次特征特征运算功能运算功能举例举例1、定名测定、定名测定2、序列测定、序列测定3、间距测定、间距测定4、比率测定、比率测定分类分类分类;排序分类;排序分类;排序;分类;排序;有基本测量单位有基本测量单位分类;排序;分类;排序;有基本测量单位;有基本测量单位;有绝对零点有绝对零点计数计数计数;排序计数;排序计数;排序;计数;排序;加减加减计数;排序;计数;排序;加减加减乘除乘除产业分类产业分类企业等级企业等级产品质量产品质量差异差异商品销售商品销售额额第二章第二章 统计调查与整理统计调查与整理统计调查统计调查统计整理统计整理统计分析统计分析有组织、有组织、有计划地有计划地搜集资料。搜集资料。要求:准确、要求:准确、完整、及时完整、及时对调查资料对调查资料去伪存真、去伪存真、去粗取精、去粗取精、科学分类、科学分类、浓缩简化浓缩简化描述性分析描述性分析推断分析、推断分析、决策分析。决策分析。要求:定性要求:定性定量结合定量结合统计工作的三个中心阶段统计工作的三个中心阶段统计调查统计调查一、调查组织方式一、调查组织方式统计调查统计调查二、调查方案设计二、调查方案设计报表制度报表制度普普 查查重点调查重点调查典型调查典型调查抽样调查抽样调查方案内容方案内容调查表、调查表、问卷设计问卷设计制度化的制度化的经常性调查经常性调查专门组织调专门组织调查查全全面面调调查查非非全全面面调调查查一、统计调查的组织方式一、统计调查的组织方式统计报表制度统计报表制度由政府部门组织,采用统一的表格,由政府部门组织,采用统一的表格,自自上而下上而下布置,布置,自下而上自下而上报告。报告。任务:任务:搜集搜集国民经济和社会发展基本情况国民经济和社会发展基本情况的资的资料,为制订国民经济和社会发展计划和料,为制订国民经济和社会发展计划和检查计划执行情况服务。检查计划执行情况服务。优点:优点:精心周密设计、高度统一、规范。精心周密设计、高度统一、规范。回收率高,内容相对稳定,便于资料积回收率高,内容相对稳定,便于资料积累、对比。累、对比。层层上报、逐级汇总,可以满足各部门层层上报、逐级汇总,可以满足各部门需要。需要。特点:特点:普查普查特点:特点: 工作量大工作量大,时间性强时间性强,需要大量人力和财力。,需要大量人力和财力。任务:任务:搜集重要的搜集重要的国情国力和资源状况国情国力和资源状况的全面资的全面资料,为政府制定规划、方针政策提供依据。料,为政府制定规划、方针政策提供依据。方式:方式:建立专门机构,配备专门人员调查。建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料发表调查。利用基层单位原始记录和核算资料发表调查。原则:原则:规定统一的标准时点。规定统一的标准时点。规定统一的普查期限。规定统一的普查期限。规定调查的项目和指标。规定调查的项目和指标。重点调查重点调查特点:特点:在总体中选择在总体中选择个别或部分个别或部分重点单位重点单位进行调查进行调查。任务:任务:及时了解总体基本情况,为主管部门指导工及时了解总体基本情况,为主管部门指导工作服务。作服务。方式:方式: 一次性调查;专门设计和备配人员现场调查。一次性调查;专门设计和备配人员现场调查。 重点单位重点单位指在总体中有举足轻重地位的单位,指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。其标志值在总体标志总量中占有绝大比重。经常性调查;同报表制度结合,用统计报表经常性调查;同报表制度结合,用统计报表调查。调查。 典型调查典型调查特点:特点:在全面分析的基础上,有在全面分析的基础上,有意识地意识地选择代表性的选择代表性的典型单位典型单位进行现场调查。进行现场调查。任务:任务:为研究某种特殊的社会经济问题,搜集详细为研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的的第一手资料,借以认识事物的本质特征本质特征、因果关系因果关系、变化趋势变化趋势。为理论和政策性问题。为理论和政策性问题研究提供依据。研究提供依据。作用:作用:适宜于研究处于萌芽状态事物和倾向性问题;适宜于研究处于萌芽状态事物和倾向性问题; 适宜于分析事物的类型,它们之间的差别和适宜于分析事物的类型,它们之间的差别和关系。关系。方法:方法:“解剖麻雀解剖麻雀; 划类选典划类选典;抓两抓两头头”。 抽样调查抽样调查特点:特点: 1按按随机原则随机原则从总体中抽取样本;从总体中抽取样本;2以样本指标(统计量)为依据以样本指标(统计量)为依据推断总体参数推断总体参数 或或检验总体的某种假设检验总体的某种假设;3抽样误差可以事先抽样误差可以事先计算计算并加以并加以控制控制。调调调调查查查查误误误误差差差差登记性误差登记性误差代表性误差代表性误差编编 差差随机误差随机误差抽样平均误差抽样平均误差实际误差实际误差统计推断中的抽样误差就是统计推断中的抽样误差就是抽样平均误差抽样平均误差。它是处。它是处于调查所固有的,是对抽样推断精确度的量度。于调查所固有的,是对抽样推断精确度的量度。样本容量样本容量样本容量样本容量抽样方式抽样方式抽样方式抽样方式总总总总体体体体内内内内部部部部差差差差异异异异抽样调查的组织方式:抽样调查的组织方式:1简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)方法:将总体单位编成抽样框,而后用抽签或方法:将总体单位编成抽样框,而后用抽签或 随机数表抽取样本单位。随机数表抽取样本单位。适用:总体规模不大;总体内部差异小适用:总体规模不大;总体内部差异小2类型抽样(分层抽样)类型抽样(分层抽样)方法:将总体全部单位分类,形成若干个类型组,方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。后从各类型中分别抽取样本单位,合成样本。总体总体N样本样本n等额等额等比例等比例最优最优3等距抽样(机械抽样)等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一定方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。的间隔抽取样本单位。排序依据的标志:(排序依据的标志:(1)无无关标志;(关标志;(2)有有关标志关标志(总体单位按某一标志排序)(总体单位按某一标志排序)4整群抽样整群抽样方方法法: 将将总总体体全全部部单单位位分分为为许许多多个个“群群”,然然后后随随机机抽抽取取若若干干“群群”,对对被被抽抽中中的的各各“群群”内的所有单位登记调查。内的所有单位登记调查。例:例:例:例:总体群数总体群数R=16 样本群数样本群数r=4 样本容量样本容量例:例:ABCDEFGHIJKLMNOPLHPD例:例:在某省在某省100多万农户抽取多万农户抽取1000户调查农户生产户调查农户生产性投资情况。性投资情况。5多阶段抽样多阶段抽样第一阶段:从省内部县中抽取第一阶段:从省内部县中抽取5个县个县第二阶段:从抽中的第二阶段:从抽中的5个县中各抽个县中各抽4个乡个乡 第三阶段:从抽中的第三阶段:从抽中的20个乡中各抽个乡中各抽5个村个村 第四阶段:从抽中的第四阶段:从抽中的100个村中各抽个村中各抽10户户样本样本n=10010=1000(户户)抽样方法抽样方法1放回抽样放回抽样:抽出样本单位登记后放回总:抽出样本单位登记后放回总体,再抽时总体不变体,再抽时总体不变2不放回抽样不放回抽样:抽出样本单位登记后不放回总:抽出样本单位登记后不放回总体,再抽时总体渐次减少体,再抽时总体渐次减少二、调查方案统计二、调查方案统计调查方案的主要内容调查方案的主要内容 1、确定调查、确定调查目的目的2、确定调查、确定调查对象对象和和调查单位调查单位 3、拟订调查、拟订调查提纲提纲4、确定调查、确定调查时间时间 5、编制调查的、编制调查的组织计划组织计划调查表与问卷设计调查表与问卷设计调查表调查表单一表单一表一览表一览表例:例:工业企业统计报表工业企业统计报表 问卷结构:问卷结构:说明词说明词 + 主题词句主题词句 + 作业记录作业记录例:例:人口普查登记表人口普查登记表问卷问卷设计设计 基本要求:基本要求:主题明确,形式简明,主题明确,形式简明,文字通俗,容易理解,文字通俗,容易理解,便于回答。词句编排,便于回答。词句编排,层次分明,先易后难。层次分明,先易后难。 问卷形式:问卷形式: 开放式词句开放式词句对选式词句对选式词句多项选择式词句多项选择式词句顺位式词句顺位式词句标度式词句标度式词句案例案例统计整理统计整理主要任务主要任务资料审核、分组、资料审核、分组、汇总、制表、制图等。汇总、制表、制图等。分组分组频数分布频数分布统计表统计表统计图统计图分组分组分组前分组前分组前分组前分组后分组后分组后分组后2533421划分现象类型划分现象类型作用:作用: 例:按所有制性质划分,我国现有例:按所有制性质划分,我国现有8种经济类型:种经济类型:国有经济;集体经济;私营经济;个体经济国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港联营经济;股份制经济;外商投资经济;港澳台投资经济澳台投资经济 2研究总体结构研究总体结构例:上海市按例:上海市按GDP计算的三次产业结构(计算的三次产业结构(%) 1980年年1990年年 1996年年 1997年年 GDP100 100 100 100 第一产业第一产业3.2 4.32.5 2.3 第二产业第二产业75.7 63.854.5 52.2 第三产业第三产业21.1 31.943.0 45.53研究现象之间的依存关系研究现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数(例:中国农民家庭按收入分组的恩格尔系数(1984年)年)按收入分组(元)按收入分组(元) 200 300 400 500 600 800 1000恩格尔系数(恩格尔系数(%) 64.9 60.2 56.7 54.4 50.5 49.9 43.6 分组标志的选择与分组形式分组标志的选择与分组形式关键:服从研究任务需要,反映总体本质特征关键:服从研究任务需要,反映总体本质特征形式形式按分组标志性质分按分组标志性质分品质标志分组品质标志分组数量标志分组数量标志分组按分组标志个数分按分组标志个数分简单分组简单分组复合分组复合分组分组体系分组体系频数分布(分布数列)频数分布(分布数列)是一种重要的分组资料,反映总体单位在各组的是一种重要的分组资料,反映总体单位在各组的分布状态。分布状态。基本形式:基本形式:分组分组单位数单位数频率频率合计合计100频数分布频数分布频率分布频率分布分类分类品质数列品质数列变量数列变量数列单项数列单项数列组距数列组距数列等距数列等距数列异距数列异距数列例例例例例例例例例例例例例例例例变量数列的编制变量数列的编制1计算极差计算极差2确定形式确定形式单项数列:离散型且取值不多。单项数列:离散型且取值不多。组距数列:离散型且取值多或连续型。组距数列:离散型且取值多或连续型。3组距数列:组距;组数;组距数列:组距;组数;4计算各组频数,频率,累计频数,累计频率等。计算各组频数,频率,累计频数,累计频率等。5组中值的计算:闭口组;开口组组中值的计算:闭口组;开口组统计表统计表构成构成总表题总表题横行标题:统计研究的对象。也称横行标题:统计研究的对象。也称主词主词。纵栏标题:说明主词的指标名。也称纵栏标题:说明主词的指标名。也称宾词宾词。数字资料数字资料分类分类主词主词简单表简单表分组表分组表复合表复合表宾词宾词平行形式平行形式交叉形式交叉形式编制规则:编制规则:统计图统计图直方图直方图等距数列:(变量,频数)等距数列:(变量,频数)异距数列:异距数列:(变量,频数密度变量,频数密度)折线图折线图曲线图曲线图等距数列:(组中值,频数)等距数列:(组中值,频数)异距数列:(组中值,频数密度)异距数列:(组中值,频数密度)单项数列:(变量,频数)单项数列:(变量,频数)向上累计分布:(变量上限,累计频数)向上累计分布:(变量上限,累计频数)向下累计分布:(变量下限,累计频数)向下累计分布:(变量下限,累计频数)变量的组数无限增多时,折线变量的组数无限增多时,折线便趋于一条光滑的曲线。便趋于一条光滑的曲线。P55 P55 图图图图2 25 5图形图形图形图形某厂职工人数统计表某厂职工人数统计表按性别分组按性别分组男男 职职 工工女女 职职 工工合合 计计人数(人)人数(人)(频数)频数)比率()比率()(频率)(频率)25311536868.7531.25100.00返回返回某厂职工家庭人口分组统计某厂职工家庭人口分组统计按家庭人口分组按家庭人口分组1合合 计计职工户数职工户数(频数)频数)比率()比率()(频率)(频率)7返回返回23456381055431202.915.241.320.512.18.0255100第三章第三章 综合指标综合指标一一、综合指标概述综合指标概述二、总量指标(绝对数指标)二、总量指标(绝对数指标)三、相对数指标(相对数)三、相对数指标(相对数)四、平均数指标(平均数)四、平均数指标(平均数)五、标志变异指标五、标志变异指标主主要要内内容容案例案例一、一、综合指标概述综合指标概述统计指标统计指标统计指标是综合反映统计总体数量特统计指标是综合反映统计总体数量特征的概念和数值。征的概念和数值。指标名称指标名称指标数值指标数值反映总体某一方面的质反映总体某一方面的质的规定性的规定性,是对总体本质是对总体本质特征的一种概括。特征的一种概括。是总体量的规定性在一是总体量的规定性在一定时间、地点、条件下定时间、地点、条件下的具体表现。的具体表现。统计指标统计指标重要特点:具体性;重要特点:具体性; 综合性综合性描述指标描述指标评价指标评价指标监测指标监测指标分类分类数量指标数量指标质量指标质量指标绝对数指标绝对数指标相对数指标相对数指标平均数指标平均数指标指标体系指标体系具具有有内内在在联联系系的的一一系系列列指指标标所所构构成成的的整整体,即称为指标体系。体,即称为指标体系。分类分类社会指标体系社会指标体系经济指标体系经济指标体系科技指标体系科技指标体系基本统计指标体系基本统计指标体系是针对某项社是针对某项社会经济问题而会经济问题而制定的专项指制定的专项指标体系,如工标体系,如工业经济效益指业经济效益指标体系、价格标体系、价格指标体系等。指标体系等。专题统计指标体系专题统计指标体系二、总量指标(绝对数指标)二、总量指标(绝对数指标)概念概念 总量指标是反映社会经济现象总量指标是反映社会经济现象总规模总规模、总水平总水平的的 总和总和指标。指标。 (1)反映国情、国力和企事业单位人、财、物)反映国情、国力和企事业单位人、财、物的状况;的状况; (3)是计算相对指标和平均指标的基础。)是计算相对指标和平均指标的基础。 (2)是国民经济宏观管理和企业经济核算的基)是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;础性指标,是实行目标管理的工具;作用作用分类分类 按反映总体的内容分按反映总体的内容分按反映的时间状态分按反映的时间状态分 (1)社会总产品,)社会总产品, (2)增加值,)增加值, (3)国内生产总值()国内生产总值(GDP) 按计量单位分按计量单位分国民经济统计中几个重要的生产总量指标国民经济统计中几个重要的生产总量指标标志总量标志总量总体单位总数总体单位总数时期总量时期总量时点总量时点总量实物量实物量劳动量劳动量价值量价值量三、相对指标(相对数)三、相对指标(相对数)概念概念相相对对指指标标是是两两个个有有联联系系的的指指标标对对比比的的比比值值,反反映映事物的数量特征和数量关系。事物的数量特征和数量关系。 (1)反映总体内在的结构特征)反映总体内在的结构特征 (3)反映事物发展变化的过程和趋势。)反映事物发展变化的过程和趋势。 (2)用于不同对象的比较评价;)用于不同对象的比较评价;作用作用种类种类计划完成相对数计划完成相对数结构相对数结构相对数比例相对数比例相对数比较相对数比较相对数强度相对数强度相对数动态相对数动态相对数不同时期不同时期比比 较较动动 态态相对数相对数强强 度度相对数相对数不同现象不同现象比较比较不同总体不同总体比较比较比比 较较相对数相对数同一总体中同一总体中部分与部分部分与部分比比 较较部分与总体部分与总体比比 较较实际与计划实际与计划比比 较较比比 例例相对数相对数结结 构构相对数相对数计划完成计划完成相对数相对数同一时期比较同一时期比较同类现象比较同类现象比较应用原则应用原则(1)正确选择对比的基数;)正确选择对比的基数;(2)必须注意统计的可比性;)必须注意统计的可比性;(3)相对指标要与总量指标相结合。)相对指标要与总量指标相结合。四、平均指标(平均数)四、平均指标(平均数)概念概念平平均均指指标标反反映映同同类类现现象象的的一一般般水水平平,是是总总体体内内各各单单位位参参差差不不齐齐的的标标志志值值的的代代表表值值,也也是是对对变变量量分分布布集中趋势集中趋势的测定。的测定。数据集中区数据集中区变量变量x常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点优点:优点:容易理,容易理, 便于计算便于计算 灵敏度高灵敏度高 稳定性好稳定性好 和和 缺点:缺点:易受极值易受极值影响影响 在偏斜分布和在偏斜分布和U形分布中,形分布中,不具有代表性不具有代表性1. 算术平均数算术平均数( )标志总量标志总量与总体单与总体单位总数的位总数的比值比值简单:简单:加权:加权:常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点优点:优点:灵敏度高灵敏度高在某种不能计算在某种不能计算的条件下,可以代的条件下,可以代替替 缺点:缺点:不易理解不易理解 易受极值影响易受极值影响 有有“ 0”值时不能值时不能计算计算 2. 调和平均数调和平均数( )标志值倒标志值倒数平均数数平均数的倒数的倒数简单:简单:加权:加权:常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点优点:灵敏度高优点:灵敏度高 受受极极值值影影响响小小于于 和和 适适宜宜于于各各比比率率之之积积为为总总比比率率的的变变量求平均量求平均缺点缺点:有有“ 0”或或负值时不能计算负值时不能计算 偶偶数数项项数数列列只只能用正根能用正根3. 几何平均数几何平均数( )几个变量几个变量值连乘积值连乘积的几次根的几次根简单:简单:加权:加权:常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点4. 中位数中位数(Me)标志值由标志值由小到大顺小到大顺序排列中序排列中居中间位居中间位置的标志置的标志值位置平值位置平均数均数上限公式:上限公式:下限公式:下限公式:优点:优点:容易容易理解,理解, 不受极值影不受极值影响响适宜于开口适宜于开口组资料和些不组资料和些不能用数字测定能用数字测定的事物的事物缺点:缺点:灵敏灵敏度和计算功能度和计算功能差差 间断数间断数Me常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点5. 众数众数(Mo)分配数列分配数列中出现次中出现次数最多的数最多的标志值位标志值位置平均数置平均数上限公式:上限公式:下限公式:下限公式:优优点点:容容易易理解,理解, 不受极值影不受极值影响响 缺缺点点:灵灵敏敏度度和和计计算算功功能能差差 稳定性差稳定性差 具具有有不不唯唯一一性性要点解释要点解释权权数数(Weighted),是是分分布布数数列列中中的的频频数数或或频频率率。对对求求平平均均数数具具有有权权衡衡轻轻重重的的作作用用,是是影影响响平平均均数数变变动的两个因素之一(另一因素是变量值)。动的两个因素之一(另一因素是变量值)。权数权数例例(1) (2)(3)X456合计合计频数频数 频率频率(%)10201025.050.025.040100.0X456合计合计频数频数 频率频率(%)20402025.050.025.080100.0X456合计合计频数频数 频率频率(%)20101050.025.025.080100.0 =5 =5 =4.75 调和平均数与算术平均数的区别调和平均数与算术平均数的区别例例频率分布变了,均值也变。因此,严格地说,频率分布变了,均值也变。因此,严格地说,权数应指权数应指频率频率。凡是掌握被平均指标的分母资料时,用算术平均法。凡是掌握被平均指标的分母资料时,用算术平均法。凡是掌握被平均指标的分子资料时,用调和平均法。凡是掌握被平均指标的分子资料时,用调和平均法。平均指标平均指标分子:标志总量分子:标志总量分母:总体单位总数分母:总体单位总数几何平均等于对数的算术平均几何平均等于对数的算术平均例例 组矩数列求中位数组矩数列求中位数是用插值法对中位数组分割的结果。是用插值法对中位数组分割的结果。例例组距数列求众数组距数列求众数是以频数之差计算的比例分割众数组组距的结果。是以频数之差计算的比例分割众数组组距的结果。例例价格(元)价格(元)3.32.52.0合计合计销售量(斤)销售量(斤)34512算术平均算术平均求某种商品三种零售价格的平均价格求某种商品三种零售价格的平均价格调和平均调和平均价格(元)价格(元)3.32.52.0合计合计销售额(元)销售额(元)10101030返回返回例例 求求95%、93%、90%的几何平均数的几何平均数(计算误差:(计算误差:0.0007)返回返回例例 (书上例(书上例11的资料)的资料)返回返回分组:分组:500 800 1100 1400 1700 2000频数:频数:4090110105705035 d1=20 d2=5 众数组众数组8001100求比例:求比例:d1/(d1+d2)=20/(20+5)=0.8分割众数组的组距:分割众数组的组距:0.8(1100-800)=240(元)(元)下限公式下限公式加下限,即加下限,即M0=800+240=1040(元)元)下页下页返回返回500800 1100 1400 1700 200050100150f(人数)人数)月收入:元月收入:元1040上页上页 d1 d2例例 (书上例(书上例11的资料)的资料)返回返回求比例:求比例:250-240/(345-240)=0.095分割中位数组的组距:分割中位数组的组距:1400-1100)0.095=28.5下限公式下限公式加下限,即加下限,即Me=1100+28.5=1128.5(元)元)下页下页标志值由小到大标志值由小到大分组:分组:500 800 1100 1400 1700 20000SK0(对称分布对称分布)正偏态分布(右)正偏态分布(右)负偏态分布负偏态分布(左)左)2.偏度系数偏度系数 (m3三阶中心矩三阶中心矩) 定义定义M=(X-A)k/n为变量为变量X关于关于A的的k阶矩阶矩。 当当A=0,即以原点为中心,上式称为即以原点为中心,上式称为“K阶原点矩阶原点矩”。K=1,2,3时,有:时,有: 一阶原点矩一阶原点矩M1=(X-0)1/n=X/n二阶原点矩二阶原点矩M2=(X-0)2/n=X2/n三阶原点矩三阶原点矩M3=(X-0)3/n=X3/n 当当A= ,即以即以 为中心,上式称为为中心,上式称为“K阶中心矩阶中心矩”。K=1,2,3时,有:时,有:一阶中心矩一阶中心矩一阶中心矩一阶中心矩二阶中心矩二阶中心矩二阶中心矩二阶中心矩三阶中心矩三阶中心矩三阶中心矩三阶中心矩 所以,所以,m3可以测定偏度。为消除量纲,转变为系数,可以测定偏度。为消除量纲,转变为系数,再除以再除以3。0正偏态正偏态计算标准分计算标准分即即将将原原始始分分数数X经经过过线线性性变变换换转转变变为为标标准准分分Z。反反映映各各原始分的平均数为中心的相对位置。原始分的平均数为中心的相对位置。XO 任何原始分在总体中的位任何原始分在总体中的位置,用置,用Z倍的倍的来测定。来测定。计算抽样误差(以平均指标为例)计算抽样误差(以平均指标为例) 设:设:抽样误差就是样本平均数分布数列的标准差。抽样误差就是样本平均数分布数列的标准差。抽样误差就是样本平均数分布数列的标准差。抽样误差就是样本平均数分布数列的标准差。第五章第五章 参数估计和假设检验参数估计和假设检验推断统计:推断统计:推断统计:推断统计:利用样本统计量对总体某些性质或数量利用样本统计量对总体某些性质或数量特征进行推断。特征进行推断。随机原则随机原则总体参数总体参数统计量统计量推断估计推断估计参数估计参数估计检验检验假设检验假设检验抽样分布抽样分布抽样分布抽样分布简单随机抽样和简单随机样本的性质简单随机抽样和简单随机样本的性质不放回不放回放放 回回放回放回不放不放 回回独独立立性性和和同同一一性性同一性同一性当当n/N5%时,有限总时,有限总体不放回抽体不放回抽样等同于放样等同于放回抽样回抽样统计量与抽样分布统计量与抽样分布统计量:即统计量:即样本指标样本指标。样本均值样本均值样本成数样本成数样本方差样本方差如:如:抽样分布:抽样分布: 某一统计量所有可能的样本的取值形成某一统计量所有可能的样本的取值形成的分布。的分布。性性 质质数字特征数字特征0P(Xi) 1P(Xi)=1均值均值E(X) 方差方差Ex-E(x)2 方差的平方根即抽样分布的标准差就是方差的平方根即抽样分布的标准差就是方差的平方根即抽样分布的标准差就是方差的平方根即抽样分布的标准差就是推断的推断的推断的推断的 抽样误差。抽样误差。抽样误差。抽样误差。样本均值的抽样分布(简称均值的分布)样本均值的抽样分布(简称均值的分布)抽样抽样 均值均值均值均值=Xi/N样本均值是样本的函数,样本均值是样本的函数, 故样本均值是一个故样本均值是一个统计量统计量,统计量是一个统计量是一个随机变量随机变量,它的概率分布称为样本均它的概率分布称为样本均值的抽样分布。值的抽样分布。抽抽 样样 方方 法法 均均 值值 方方 差差 标标 准差准差(1)从无)从无限总体抽限总体抽 样样和有限总体和有限总体放回抽样放回抽样(2)从有限)从有限总体不放回总体不放回抽样抽样抽样误差抽样误差抽样误差抽样误差从正态总体中抽样得到的均值的分布也服从从正态总体中抽样得到的均值的分布也服从正态分布正态分布。从非正态总体中抽样得到的均值的分布呢?从非正态总体中抽样得到的均值的分布呢? 中心极限定理:无论总体为何种分布,只要样本中心极限定理:无论总体为何种分布,只要样本n足够大足够大(n30),),均值(均值( )标准化为()标准化为(z)变量,必定服从标准正态变量,必定服从标准正态分布,均值(分布,均值( )则服从正态分布,即:)则服从正态分布,即:两个样本均值之差的抽样分布两个样本均值之差的抽样分布抽样抽样抽样抽样估计估计(1)如:)如:(2如果两个总体都是非如果两个总体都是非正态总体,只要正态总体,只要n1、n2足够足够大,根据中心极限定理,可大,根据中心极限定理,可知:知:样本成数(即比例)的抽样分布(简称成数的分布)样本成数(即比例)的抽样分布(简称成数的分布)抽样抽样 成数成数成数成数P=Ni/N 所有可能的样本的成数(所有可能的样本的成数( )所形成的分)所形成的分布,称为样本成数的抽样分布。布,称为样本成数的抽样分布。抽抽 样样 方方 法法 均均 值值 方方 差差 标标 准差准差(1)从无)从无限总体抽限总体抽 样样和有限总体和有限总体放回抽样放回抽样(2)从有限)从有限总体不放回总体不放回抽样抽样根据中心极限定理,只要样本足够大,根据中心极限定理,只要样本足够大, 的分布就近的分布就近似正态分布。(似正态分布。(np和和nq大于大于5时)时)抽样误差抽样误差抽样误差抽样误差两个样本成数之差的抽样分布两个样本成数之差的抽样分布抽样抽样抽样抽样估计估计 当当n1、n2都都足足够够大大时时,样样本本成成数数 都都近近似似服服从从正正态态分分布布,两两个个样样本本成成数数之之差差( )也也近似服从正态分布。近似服从正态分布。P1-P2=?一个样本方差的抽样分布一个样本方差的抽样分布抽样抽样若若:从一个正态总体中抽样所得到的样本方差的分布从一个正态总体中抽样所得到的样本方差的分布n,S2则则 当当 则则 两个样本方差之比的抽样分布两个样本方差之比的抽样分布抽样抽样从两个正态总体中分别独立抽样所得到的两个样本方从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。差之比的抽样分布。n1,S12则则 抽样抽样n2,S22参数估计参数估计点估计点估计以样本指标直接估计总体参数。以样本指标直接估计总体参数。评价准则评价准则的数学期望的数学期望等于总体参等于总体参数,即数,即该估计量称该估计量称为无偏估计。为无偏估计。无偏性无偏性有效性有效性当当 为为 的无的无偏估计时,偏估计时, 方方差差 越小,越小,无偏估计越有无偏估计越有效。效。一致性一致性对于无限总体,对于无限总体,如果对任意如果对任意则称则称的一致估计。的一致估计。是是充分性充分性一个估计一个估计量如能完量如能完全地包含全地包含未知参数未知参数信息,即信息,即为充分量为充分量估计量估计量区间估计区间估计估计未知参数所在的可能的区间。估计未知参数所在的可能的区间。评价准则评价准则随机区间随机区间置信度置信度精确度精确度随机区间随机区间包含包含(即可靠程度)(即可靠程度)越大越好。越大越好。的概率的概率的平均长度的平均长度(误差范围)(误差范围)越小越好越小越好一般形式一般形式或或总体参数总体参数估计值估计值误差范围误差范围 :一定倍数的抽样误差:一定倍数的抽样误差例如:例如:抽样误差抽样误差 一定时,一定时,越大,越大,概率(可靠性)大;概率(可靠性)大;随之增大,随之增大,精确度就差。精确度就差。抽样组织方式和参数的区间估计抽样组织方式和参数的区间估计待估计参数待估计参数已知条件已知条件置信区间置信区间正态总体,正态总体,2已知已知正态总体,正态总体,2未知未知非正态总体,非正态总体,n30有限总体,有限总体,n30(不放回抽样)不放回抽样)总体均值总体均值 ()未知时,用未知时,用S未知时,用未知时,用S两个正态总体两个正态总体已知已知两个正态总体两个正态总体未知但相等未知但相等两个非正态总体两个非正态总体 ,n1,n230两个总体两个总体均值之差均值之差1-2待估计参数待估计参数已知条件已知条件置信区间置信区间无限总体,无限总体,np和和nq都大于都大于5总体成数总体成数 (p)无限总体,无限总体, N1P15, n1q15N2P25, n2q25两个总体两个总体成数之差成数之差(P1-P2)有限总体,有限总体,np和和nq都大于都大于5有限总体,有限总体, N1P15, n1q15N2P25, n2q25待估计参数待估计参数已知条件已知条件置信区间置信区间正态总体正态总体总体方差总体方差 两个正态总体两个正态总体两个总体两个总体方差之比方差之比待估计参数待估计参数已知条件已知条件置信区间置信区间有限总体不放回有限总体不放回抽样(抽样(n等比例等比例分配于各层)分配于各层)各层各层nh30总体均值总体均值 ()有限总体不放回有限总体不放回抽样(抽样(n等比例等比例分配于各层)分配于各层)各层各层nh30总体成数总体成数(P)总总体体N样样本本n均值:均值:平均层平均层内方差:内方差:置信区间置信区间抽样误差抽样误差估计估计待估计参数待估计参数已知条件已知条件置信区间置信区间有限总体不放回有限总体不放回抽样,样本群数抽样,样本群数r足够大足够大总体均值总体均值 ()有限总体不放回有限总体不放回抽样,样本群数抽样,样本群数r足够大足够大总体成数总体成数(P)总体群数总体群数R ABCDEFGHIJKLMNOPLHPD 样本群数样本群数 r估计估计均值:均值:群间群间方差:方差:置信区间置信区间抽样误差抽样误差样本数的确定样本数的确定待估计参数待估计参数已知条件已知条件样本数的确定样本数的确定正态总体,正态总体,2已知已知总体均总体均值(值() 例:误差范围例:误差范围简简单单随随机机抽抽样样有限总体,不放回抽样,有限总体,不放回抽样,2已知已知总体成数总体成数 (P)服从正态分布服从正态分布有限总体,不放回抽样有限总体,不放回抽样待估计参数待估计参数已知条件已知条件样本数的确定样本数的确定总体均总体均值(值()分分层层抽抽样样总体均总体均值(值()整整群群抽抽样样有限总体不放回抽样,有限总体不放回抽样,等比例分配样本等比例分配样本有限总体不放回抽样,有限总体不放回抽样, 服从正态分布服从正态分布未知用未知用未知用未知用案例案例 假设检验假设检验 基本思想基本思想 检验规则检验规则 检验步骤检验步骤 常见的假设检验常见的假设检验 基本思想基本思想小概率原理:小概率原理:如果对总体的某种假设是如果对总体的某种假设是真实真实真实真实的,那么不利于的,那么不利于或不能支持这一假设的事件或不能支持这一假设的事件A(小概率事件)小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中几乎不可能发生的;要是在一次在一次在一次在一次试验试验试验试验中中中中A A竟然发生了竟然发生了竟然发生了竟然发生了,就有理由怀疑该假设的,就有理由怀疑该假设的真实性,真实性,拒绝拒绝拒绝拒绝这一假设。这一假设。总总 体体(某种假设)(某种假设)抽样抽样样样 本本(观察结果)(观察结果)检验检验(接受)接受)(拒绝)(拒绝)小概率事件小概率事件未未 发发 生生小概率事件小概率事件发发 生生假设的形式:假设的形式: H0原假设,原假设, H1备择假设备择假设 双尾检验:双尾检验:H0:=0 , H1:0单尾检验:单尾检验: H0:0 , H1:0 H0:0 , H1:0 假设检验就是根据样本观察结果对原假设(假设检验就是根据样本观察结果对原假设(H0)进行检验,进行检验,接受接受H0,就否定就否定H1;拒绝拒绝H0,就接受就接受H1。 检验规则检验规则 确定检验规则确定检验规则确定检验规则确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝超过了临界点,拒绝H0;反之,差异不显著,接受反之,差异不显著,接受H0差差 异异临界点临界点临界点临界点拒绝拒绝拒绝拒绝HH0 0接受接受接受接受HH0 0c cc c判判判判 断断断断两类错误两类错误接受或拒绝接受或拒绝H0,都可能犯错误都可能犯错误I类错误类错误弃真错误,弃真错误, 发生发生 的概率为的概率为 II类错误类错误取伪错误,发生取伪错误,发生 的概率为的概率为检验决策检验决策 H0为真为真 H0非真非真拒绝拒绝H0 犯犯I类错误(类错误() 正确正确接受接受H0 正确正确 犯犯II类错误(类错误() 怎样确定怎样确定c?大大就小,就小,小小就大就大基本原则:力求在控制基本原则:力求在控制基本原则:力求在控制基本原则:力求在控制 前提下减少前提下减少前提下减少前提下减少 显著性水平,取值:显著性水平,取值:0.1, 0.05, 0.001, 等。如果犯等。如果犯I类错误类错误损失更大,为减少损失,损失更大,为减少损失,值取小;如果犯值取小;如果犯II类错误损失更,类错误损失更,值取大。值取大。 确定确定,就确定了临界点就确定了临界点c。设有总体:设有总体:设有总体:设有总体:XNXN( , 2 2),),),), 2 2已知。已知。已知。已知。随机抽样:样本均值随机抽样:样本均值随机抽样:样本均值随机抽样:样本均值标准化:标准化:标准化:标准化:确定确定确定确定 值,值,值,值,查概率表,知临界值查概率表,知临界值查概率表,知临界值查概率表,知临界值计算计算计算计算Z Z值,作出判断值,作出判断值,作出判断值,作出判断0接受区接受区接受区接受区拒绝区拒绝区拒绝区拒绝区拒绝区拒绝区拒绝区拒绝区 当检验判断为接受原假设当检验判断为接受原假设H0时,就有可能犯取伪的错误即时,就有可能犯取伪的错误即II类错误。犯类错误。犯II类错误的概率计算:类错误的概率计算:(1)先求出拒绝先求出拒绝H0的临界值;的临界值;(2)再求得在统计量真实的抽样分布下达到临界值的概率再求得在统计量真实的抽样分布下达到临界值的概率。 统计中,称不犯取伪错误的概率统计中,称不犯取伪错误的概率1-为统计检验的能力或效为统计检验的能力或效力。力。II类错误的概率类错误的概率的计算的计算 检验步骤检验步骤建立总体假设建立总体假设H0,H1抽样得到样抽样得到样本观察值本观察值12选择统计量选择统计量确定确定H0为真为真时的抽样分布时的抽样分布3根据具体决策根据具体决策要求确定要求确定确定分布上的临确定分布上的临界点界点C和检验规则和检验规则计算检验统计算检验统计量的数值计量的数值比较并作出检验判断比较并作出检验判断7456 几种常见的假设检验几种常见的假设检验条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0:=0 H1:0z(2) H0:0 H1:0(3) H0:0 H1:z0z0正态总正态总体体2已已知知条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0:=0 H1:0t(2) H0:0 H1:0(3) H0:0 H1:t0t00正态总正态总体体2未未知知(n30)条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0:=0 H1:0z(2) H0:0 H1:0(3) H0:0 H1:z0z00非正态非正态总体总体n302已知已知或未知或未知条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0: 1=2 H1: 1 2 z(2) H0:1 2 H1: 1 2 (3) H0: 1 2 H1:1 2 z0z00两个正两个正态总体态总体已知已知条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0: 1 = 2 H1: 1 2 t(2) H0: 1 2 H1: 1 2 (3) H0: 1 2 H1: 1 2 t0t00两个正两个正态总体态总体未知,未知,但相等但相等条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0:1 = 2 H1:1 2 (2) H0:1 2 H1:1 2 (3) H0:1 2 H1:1 2 0z00两个非两个非正态体正态体n130 n230已知或已知或未知未知zz条件条件检验条件量检验条件量拒绝域拒绝域H0、H1总体服总体服从正态从正态分布分布条件条件检验条件量检验条件量拒绝域拒绝域H0、H1总体服总体服从正态从正态分布分布FFF条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0:P=P0 H1:PP0z(2) H0:PP0 H1:PP0(3) H0:PP0 H1:PP0z0z00np5nq5条件条件检验条件量检验条件量拒绝域拒绝域H0、H1(1) H0:P1=P2 H1:P1 P2 z(2) H0: P1 P2 H1:P1 P2(3) H0:P1 P2 H1:P1 P2z0z00n1p15n1q15n2p25n2q25案例案例 相关分析相关分析 回归分析回归分析第六章第六章 相关与回归相关与回归 相关和回归分析相关和回归分析是研究事物的相互关系,测定它们联是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。评价、预测和控制的重要工具。主要内容主要内容 相关分析相关分析 概念概念 种类种类 线性相关线性相关变量之间关系变量之间关系函数关系函数关系相关关系相关关系因果关系因果关系互为因果关系互为因果关系共变关系共变关系确定性依存关系确定性依存关系随机性随机性依存关依存关系系 种类种类一元相关一元相关多元相关多元相关负负 相相 关关正正 相相 关关线性相关线性相关曲线相关曲线相关xy正正 相相 关关xy负负 相相 关关xy曲线相关曲线相关xy不不 相相 关关 线性相关线性相关相相关关系系数数测定两变量是否线性相关?测定两变量是否线性相关?定义式定义式:未分组:未分组:已分组:已分组:值:值:|r|=0 不存在线性关系;不存在线性关系; |r|1 完全线性相关完全线性相关0|r|0 正相关;正相关;r0 负相关负相关计计算算公公式式相关系数的检验(相关系数的检验(t检验)检验)检验统计量检验统计量案例案例 回归分析回归分析 特点特点 线性回归线性回归 非线性回归非线性回归回归分析和相关分析的联系和区别回归分析和相关分析的联系和区别1理论和方法具理论和方法具有一致性;有一致性;2无相关就无回归,无相关就无回归,相关程度越高,回归越好;相关程度越高,回归越好;3相关系数和回归系数相关系数和回归系数方向一致,可以互相推算。方向一致,可以互相推算。1相关分析中,相关分析中,x与与y对等,回归分对等,回归分析中,析中,x与与y要确定自变量和因变量;要确定自变量和因变量;2相关分析中相关分析中x,y均为随机变量,回均为随机变量,回归分析中,只有归分析中,只有y为随机变量;为随机变量;3相关分析测定相关程度和方向,回相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。归分析用回归模型进行预测和控制。 线性回归线性回归一元线性回归模型一元线性回归模型1一元线性回归模型的一般形式一元线性回归模型的一般形式总体一元线性回归模型的一般形式总体一元线性回归模型的一般形式Y的数学期望的数学期望E(Y)随机误差随机误差也称一元线性回归方程,是对应于自变量也称一元线性回归方程,是对应于自变量X某一取值时因变量某一取值时因变量Y的均值。的均值。未知参数未知参数样本的一元线性回归模型和回归方程样本的一元线性回归模型和回归方程一元线性回归模型一元线性回归模型一元线性回归方程一元线性回归方程截距截距斜率(回归系数)斜率(回归系数)回归系数回归系数b表明自变量表明自变量x每变化一个单位因变量每变化一个单位因变量y的增(减)量。的增(减)量。b与与r的关系:的关系:r0 r0 r=0b0 b0 b=0是理论模型,表明是理论模型,表明x与与y两变量之间的平均变动关系。两变量之间的平均变动关系。(实际值):(实际值):X对对y的线性影响而形成的系统的线性影响而形成的系统部分,反映两变量的平均变动关部分,反映两变量的平均变动关系,即本质特征。系,即本质特征。随机干扰:各种偶然因素,随机干扰:各种偶然因素,观察误差和其他被忽视因素观察误差和其他被忽视因素的影响。的影响。的理论假定的理论假定值相互独立值相互独立服从正态分布服从正态分布的数学期望的数学期望E( )0的方差的方差都相同,且都相同,且xy2一元线性回归模型的确定一元线性回归模型的确定 根据实际数据,用最小平方法,即使根据实际数据,用最小平方法,即使 ,分别对分别对a、b求编导并令其为零,求得两个标准方程:求编导并令其为零,求得两个标准方程: 解联立方程,得到解联立方程,得到3一元线性回归模型拟合优度的评价一元线性回归模型拟合优度的评价判定系数(判定系数(r2) 是对回归模型拟合优度的评价。是对回归模型拟合优度的评价。xy总偏差总偏差 = 回归偏差回归偏差 + 剩余偏差剩余偏差 r2表示全部偏差中有百分之几表示全部偏差中有百分之几的偏差可由的偏差可由x与与y的回归关系来的回归关系来解释。解释。r 的符号同的符号同 b估计标准误(估计标准误(Sxy) Sxy是二元正态分布中因变量实际值(是二元正态分布中因变量实际值(yj)对估计值(对估计值( )离散程度的量度。)离散程度的量度。 Sxy 越小,越小, 拟合越好;拟合越好; Sxy 越大,越大, 拟合越差。拟合越差。 Sxy也是用自变量对因变量进行区间也是用自变量对因变量进行区间估计的抽样误差。估计的抽样误差。68.27% 94,45% 99.73%4一元线性回归模型的显著性检验一元线性回归模型的显著性检验回归系数回归系数b的检验的检验设总体回归系数为设总体回归系数为 H0:=0;H1:0n30时时 检验统计量检验统计量 (=0) b是样本回归系数抽样分是样本回归系数抽样分布的标准差。通常是未知布的标准差。通常是未知的,用其估计量的,用其估计量 代替。代替。 给定显著性水平给定显著性水平,查,查Z表可知其临界值表可知其临界值 。n30时时(=0) 给定显著性水平给定显著性水平,查,查t表可知其临界值表可知其临界值 。00Zt回归模型整体的回归模型整体的F检验检验 H0:R2=0;H1:R20 检验统计量检验统计量 F检验假设检验假设案例案例5应用一元回归模型进行区间估计应用一元回归模型进行区间估计n30时时给定给定x0,y0的置信度(的置信度(1-)的置信区间为:的置信区间为:n30时时xyX00给定的给定的x0越接越接 ,y值估计的精值估计的精确度越高。确度越高。平均值估计平均值估计n30时时特定值估计特定值估计 线性回归线性回归多元线性回归模型多元线性回归模型1多元线性回归模型的性质多元线性回归模型的性质与模型的确定与模型的确定二元线性回归模型:二元线性回归模型:总体多元线性回归模型的一般形式总体多元线性回归模型的一般形式Y的数学期望的数学期望E(Y)随机误差随机误差表明自变量表明自变量共同变动引起的共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。的平均变动。也称总体的二元线性回归方差。常数项,常数项,和和Y构成的平面与构成的平面与Y轴的截距轴的截距偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引起的每变化一个单位引起的Y的平均变动;的平均变动;案例案例偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引每变化一个单位引起的起的Y的平均变动;的平均变动;随机误差,其理论假定与一元线性回归模型中的随机误差,其理论假定与一元线性回归模型中的 一样。一样。在多元回归模型中,还要求各自变量之间不存在显著相在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。关,或高度相关也即不得存在多重共线性。样本多元线性回归模型的一般形式样本多元线性回归模型的一般形式二元线性回归模型为:二元线性回归模型为:其数学期望其数学期望也称样本(或估计的)二元线性回归方程。也称样本(或估计的)二元线性回归方程。二元线性回归方程的确定二元线性回归方程的确定根据实际资料,用最小平方法,即使根据实际资料,用最小平方法,即使 ,分别对,分别对a、b1、b2求编导并令其为零,求得三个标准方求编导并令其为零,求得三个标准方程:程:解此联立方程便可得到解此联立方程便可得到a、b1、b2。2多元线性回归模型的判定系数和估计标准误多元线性回归模型的判定系数和估计标准误判定系数判定系数 0r21修正的判定余数:修正的判定余数:估计标准误(估计标准误(Sy(x1、x2) r2和和Sy(x1、x2)都是对回归模型拟合优度的评价指标。都是对回归模型拟合优度的评价指标。 Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。也是用自变量对因变量进行区间估计的抽样误差。3多元回归模型的显著性检验多元回归模型的显著性检验对偏回归系数的对偏回归系数的t检验检验 H0: 1=0 , H1: 10;H0: 2=0,H1: 20。检验统计量:检验统计量:按显著性水平按显著性水平和自由度和自由度 (n-3)查)查t表可得表可得到临界值到临界值t0模型整体的模型整体的F检验检验检验统计量:检验统计量:(k自变量个数)自变量个数)或或 按给定的按给定的和自由度(和自由度(2)和(和(n-3)查)查F表可得到表可得到临界值临界值F4多元回归中的相关分析多元回归中的相关分析 复相关:指一个因变量同多个自变量的相关关系。复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,单偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。个变量同因变量的相关关系。 计算偏相关系数需借助相关系数矩阵表的资料。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表二元回归中的相关系数矩阵表yyx1x1x2x2ry1ry2r121.001.001.00 x1与与y的偏相关系数:的偏相关系数: x2与与y的偏相关系数:的偏相关系数:案例案例5应用多元回归方程进行区间估计应用多元回归方程进行区间估计Y的平均值的区间估计的平均值的区间估计Y的特点值的区间估计的特点值的区间估计式中,式中,是是即区间估计的抽样误差。即区间估计的抽样误差。的抽样分布的标准差,的抽样分布的标准差,式中,式中,是是的抽样分布的标准差,的抽样分布的标准差,即区间估计的抽样误差。即区间估计的抽样误差。 非线性回归模型非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:模型。例如: 双曲线:双曲线:a0 b0a0 b0xxyy指数曲线:指数曲线:y=aebxb0 b0xxyy幂函数曲线:幂函数曲线:y=axba0 b0xyb1曲线模型的判别方法:曲线模型的判别方法:理论和经验判断;理论和经验判断;观察散点图观察散点图 曲线模型的确定方法:曲线模型的确定方法: 通常用变量代换法将曲线转换为直线。按线性模型求解参数,通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。而后再变换为曲线模型。 例如:双曲线模型例如:双曲线模型指数曲线模型指数曲线模型第八章第八章 时间数列时间数列 时间数列(动态数列)时间数列(动态数列)时间数列(动态数列)时间数列(动态数列)是是指标数值指标数值按按时间顺序时间顺序排列而排列而形成的数列。形成的数列。例例 :上海市人均国内生产总值:上海市人均国内生产总值年份年份 人均人均GDP(元元/人)人)1991 69551992 86521993 117001994 152041995 189431996 222751997 2575091 92 93 94 95 96 97年年100001500020000250005000实例实例时间数列的作用时间数列的作用反映社会经济现象发展变化的过程和特点;反映社会经济现象发展变化的过程和特点;研究现象发展变化的规律和未来趋势;研究现象发展变化的规律和未来趋势;不同地区、国家发展状况的比较评价和预。不同地区、国家发展状况的比较评价和预。本章主要内容本章主要内容时间数列的种类和编制方法时间数列的种类和编制方法常用的动态指标常用的动态指标时间数列的分解和测定时间数列的分解和测定时间数列的预测方法时间数列的预测方法时间数列的种类和编制方法时间数列的种类和编制方法一、时间数列的种类一、时间数列的种类1按指标形式分按指标形式分绝对数数列绝对数数列相对数数列相对数数列平均数数列平均数数列时期数列时期数列时点数列时点数列2按观察数据性质与形态分按观察数据性质与形态分随机性数列随机性数列非随机性数列非随机性数列 平稳型平稳型趋势型趋势型季节型季节型二、时间数列变量和形态的识别二、时间数列变量和形态的识别识别与判断方法:理论判断、经验判断、图形判断、识别与判断方法:理论判断、经验判断、图形判断、自相关自相关自相关自相关系数数列判断系数数列判断系数数列判断系数数列判断、差分法判断等。差分法判断等。1、自相关系数、自相关系数自相关指时间数列前后各期数值之间的相关关系。对自相关自相关指时间数列前后各期数值之间的相关关系。对自相关强度的测定便是自相关系数。强度的测定便是自相关系数。时间延迟为时间延迟为1的自相关系数:的自相关系数:时间延迟为时间延迟为2的自相关系数:的自相关系数:时间延迟为时间延迟为k的自相关系数:的自相关系数:当当n很大时很大时(-1rk1)2.判别准则判别准则(1)时间数列所有自相关系数)时间数列所有自相关系数r1,r2,rk都近似于零时,该都近似于零时,该时间数列为随机性时间数列。时间数列为随机性时间数列。r1r2r3r4r5r6r701-1rr值值原数列原数列yt0(2)r1较较大大,r2、 r3渐渐次次减减小小,r4开开始始趋趋近近于于零零,表表明该时间数列为平稳型时间数列。明该时间数列为平稳型时间数列。r1r2r3r4r5r6r701-1rr值值原数列原数列yt0(3)r1最大,最大,r2、 r3等逐渐递减,但不等于零,表明该时间数等逐渐递减,但不等于零,表明该时间数列为趋势型时间数列。列为趋势型时间数列。r1r2r3r4r5r6r701-1rr值值原数列原数列yt0(4)r值值有有周周期期性性变变化化,每每隔隔几几个个便便有有一一个个高高峰峰,表表明该时间数列为季节型时间数列。明该时间数列为季节型时间数列。r1r2r3r4r5r6r701-1rr值值原数列原数列yt01季度季度 2季度季度 3季度季度 4季度季度三、回归模型的自相关检验三、回归模型的自相关检验用时间数列建立的回归模型能否成立,必须通过误差项用时间数列建立的回归模型能否成立,必须通过误差项的自相关显著性检验才能作出判断。的自相关显著性检验才能作出判断。1构造置信度为(构造置信度为(1 )的自相关系数的置信区间)的自相关系数的置信区间如果延滞为如果延滞为1,2,K的自相关系数大部分都落在置信区的自相关系数大部分都落在置信区间内,便可接受原假设,认为误差项为独立的随机变量。间内,便可接受原假设,认为误差项为独立的随机变量。四、编制时间数列的方法原则四、编制时间数列的方法原则1注意时间单位(年、季、月等)的选择;注意时间单位(年、季、月等)的选择;2注意数列前后指标的可比性(总体范围、指标涵义、计算方注意数列前后指标的可比性(总体范围、指标涵义、计算方 法、计量单位、经济内容等)。法、计量单位、经济内容等)。2杜宾沃森检验(杜宾沃森检验(DuibinWatson Test)检验统计量检验统计量根据样本容量根据样本容量n和自回归阶数和自回归阶数K,查查DW统计量临界值表。统计量临界值表。检验规则图示:检验规则图示:正正自自相相关关不不能能确确定定负负自自相相关关不不能能确确定定无自相关无自相关dLdU4-dL4-du2若若d值落在值落在“ 不能不能确定确定”范围时,应范围时,应增加样本容量或重增加样本容量或重新抽样检验。新抽样检验。常用的动态指标常用的动态指标水平动态指标水平动态指标1序时平均数序时平均数(平均发展平均发展水平指标)水平指标)计算公式计算公式适用于时期总量指标和适用于时期总量指标和按日连续登记的时点指按日连续登记的时点指标数列。标数列。说明说明适用于不连续登记、间适用于不连续登记、间隔相等的时点指标数列。隔相等的时点指标数列。适用于不连续登记间适用于不连续登记间隔不相等的时点指标隔不相等的时点指标数列。数列。分子分子 和分母和分母 按各自数列按各自数列的指标形式参照上述求的指标形式参照上述求序时平均数。序时平均数。常用的动态指标常用的动态指标水平动态指标水平动态指标2增长量增长量计算公式计算公式逐期增长量。逐期增长量。说明说明水平法水平法适用于多期增长量适用于多期增长量平稳变化的数列平稳变化的数列总和法总和法适适用用于于各各期期增增长长变变化化较大的数列。较大的数列。累计增长量累计增长量3平均增长平均增长量量常用的动态指标常用的动态指标速度动态指标速度动态指标1发展速度发展速度计算公式计算公式环比发展速度。环比发展速度。说明说明水平法各环比发展水平法各环比发展速度的几何平均数。速度的几何平均数。定基发展速度定基发展速度2平均发展平均发展速度速度方程法可查方程法可查平均发平均发展速度查对表展速度查对表。3(平均)增长速度(平均)发展速度(平均)增长速度(平均)发展速度100时间数列的分解和测定时间数列的分解和测定一、时间数列的构成与分解一、时间数列的构成与分解1社会经济指标的时间数列包含以下四种变动因素:社会经济指标的时间数列包含以下四种变动因素:(1)长期趋势()长期趋势(T)(2)季节变动()季节变动(S)(3)循环变动()循环变动(C)(4)随机变动()随机变动(I)可解释的变动可解释的变动不规则的不可解释的变动不规则的不可解释的变动2时间数列的经典模式:时间数列的经典模式:(1)加法模型:)加法模型: Y=T+S+C+I 计量单位相同计量单位相同的总量指标的总量指标是对长期趋势所产生是对长期趋势所产生的偏差,(的偏差,(+)或()或(-)(2)乘法模型:)乘法模型: Y=TSCI 计量单位相同计量单位相同的总量指标的总量指标是对原数列指标增是对原数列指标增加或减少的百分比加或减少的百分比3变动因素的分解:变动因素的分解:(1)加法模型用减法。例:)加法模型用减法。例:T=Y-(S+C+I)(2)乘法模型用除法。例:乘法模型用除法。例:T=Y/(SCI)二、长期趋势(二、长期趋势(T)的测定的测定(一)修匀法:(一)修匀法:1、随手法、随手法2、时距扩大法和序时平均法、时距扩大法和序时平均法3、移动平均法、移动平均法例例奇数奇数偶数偶数例例移动项数移动项数新数列项数原数列项新数列项数原数列项数移动项数数移动项数1(二)长期趋势的数字模型(二)长期趋势的数字模型(以时间(以时间t为自变量构造回归模型)为自变量构造回归模型)t时期数时期数按序随意编制按序随意编制例例步骤:步骤:选择趋势模型选择趋势模型 求解模型参数求解模型参数 对模型进行检验对模型进行检验用自相关系数检验用自相关系数检验 误差项的随机性。误差项的随机性。图形判断、差分法判断图形判断、差分法判断、经验判断、经验判断、自相关系数数列判断等。自相关系数数列判断等。例例 差分法:差分法:时间数列相继数值的差异。时间数列相继数值的差异。如:一级差分如:一级差分(逐期增长量逐期增长量)的结果大致相同。则配模型的结果大致相同。则配模型如:二级差分的结果大致相同。则配模型如:二级差分的结果大致相同。则配模型如:相继两期水平如:相继两期水平(环比发展速度环比发展速度)的比值相同。则配模型的比值相同。则配模型最小平方法,求参数。最小平方法,求参数。计算估计标准误计算估计标准误 求置信区间求置信区间m为模型中的参数为模型中的参数小样本小样本大样本大样本返回返回原数列原数列 新数列新数列y1y1y4y4y2y3y3y5y5y6y6原数列原数列新数列新数列y1y1y4y4y2y2y3y3y5y5y6y6时间时间 时期数时期数数列数列t1t2t3t4t5t6t71234567y1y2y3y4y5y6y7时间时间 时期数时期数数列数列t1t2t3t4t5t6t7-3-2-10123y1y2y3y4y5y6y7时间时间 时期数时期数数列数列t1t2t3t4t5t6-5-3-1135y1y2y3y4y5y6三、季节变动的测定(三、季节变动的测定(S)(一)按月(或按季)平均法(一)按月(或按季)平均法(二)长期趋势剔除法(二)长期趋势剔除法1趋势模型增量剔除法。趋势模型增量剔除法。2移动平均趋势剔除法。移动平均趋势剔除法。例例例例四、循环变动的测定四、循环变动的测定方法:残余法。方法:残余法。从数列中消除(从数列中消除(T)Y/T=SCI 从余值中消除(从余值中消除(S)SCI/S=CI 从余值中消除(从余值中消除(I)即移动平均,得到即移动平均,得到C五、不规则变动的测定:五、不规则变动的测定:从从CI中消除(中消除(C)CI/C=I时间数列的预测方法时间数列的预测方法一、趋势外推法一、趋势外推法运用长期趋势模型,给定时间变量,外推指标值。运用长期趋势模型,给定时间变量,外推指标值。选择趋势模型选择趋势模型 例:例:求解模型参数求解模型参数 bo、b1、b2 对模型进行检验对模型进行检验用自相关系数检验用自相关系数检验误差项的随机性。误差项的随机性。计算估计标准误计算估计标准误 求置信区间求置信区间对模型的有效性检验。对模型的有效性检验。上页上页下页下页返回返回实际值:实际值:估计值:估计值:误差项:误差项:. . . . . . .判断判断是否属于随机误差?是否属于随机误差?如果自相关系数如果自相关系数. . .都接近于零。则都接近于零。则是随机误差,该模型有效。是随机误差,该模型有效。检验检验方法:方法: 1对对. . .分别进行检验,检验量:分别进行检验,检验量:2如果是大样本,则可构如果是大样本,则可构造置信度为造置信度为的置信区间的置信区间. . .都落在该区间内,可判断都落在该区间内,可判断为随机误差。为随机误差。若若选择自回归模型选择自回归模型例:例: 求解模型参数求解模型参数 bo、b1代入前期数值代入前期数值 预测后期数值预测后期数值(按第六章(按第六章 进行回归模型系统分析)进行回归模型系统分析)要点说明:要点说明:1自回归模型的选择自回归模型的选择二、自回归预测法二、自回归预测法对显著自相关的时间数列,可建立自回归模型通过前期数对显著自相关的时间数列,可建立自回归模型通过前期数值预测后期数值。值预测后期数值。线性和非线性线性和非线性分为一级、二级、分为一级、二级、n级级一级线性自回归一级线性自回归二级线性自回归二级线性自回归n级线性自回归级线性自回归三三、移动平均和指数平滑法、移动平均和指数平滑法(一)移动平均法一)移动平均法对于平稳型时间数列可取最近对于平稳型时间数列可取最近n期数值的算术平均作为后期的期数值的算术平均作为后期的预测值。预测值。简单形式:简单形式:二次曲线自回归模型二次曲线自回归模型对自回归模型有效性检验对自回归模型有效性检验误差项误差项的随机性检验作出判断。的随机性检验作出判断。DW检验统计量检验统计量加权形式:加权形式:(f1f2f3fn)(二)指数平滑法(由移动平均法演变而来)(二)指数平滑法(由移动平均法演变而来)是本期实际值与本是本期实际值与本期预测值的加权算期预测值的加权算术平均数术平均数或或也可以是本期预测也可以是本期预测值经过误差修正后值经过误差修正后的数值。的数值。(01)季度季度年份年份第一年第一年第二年第二年第三年第三年三年合计三年合计同季平均数同季平均数季节指数季节指数全全 年年12个季度合计个季度合计12个季度平均个季度平均100一一二二四四三三返回返回季度季度(2)趋势增量)趋势增量(1)同季平均数)同季平均数(4)季节指数)季节指数平平 均均12个季度平均个季度平均100一一二二四四三三返回返回(3)=(1)()(2)总平均(无趋势)总平均(无趋势) 概概 念念 总指数的编制总指数的编制指数的因素分析指数的因素分析 指数的应用指数的应用 案案 例例第九章第九章 指数指数 指数指数(Index Number)是研究现象是研究现象差异或变动差异或变动的重要统计方的重要统计方法。它起源于法。它起源于18世纪欧洲关于物价波动的研究。至今,已被世纪欧洲关于物价波动的研究。至今,已被广泛应用于社会经济生活各方面;一些重要的指数已成为社广泛应用于社会经济生活各方面;一些重要的指数已成为社会经济发展的晴雨表。会经济发展的晴雨表。主要内容主要内容 概念概念概念概念广义指数:广义指数:狭义指数:狭义指数:反映现象数量差异或变动程度的相对数。反映现象数量差异或变动程度的相对数。例如,动态相对数,比较相对数、计划完成程度例如,动态相对数,比较相对数、计划完成程度 相对数。相对数。反映不能直接相加的复杂现象综合变动程反映不能直接相加的复杂现象综合变动程 度的相对数。度的相对数。 例如,零售物价指数,消费价格指数、股价指数。例如,零售物价指数,消费价格指数、股价指数。反映复杂的社会经济现象总体的综合变动;反映复杂的社会经济现象总体的综合变动;测定现象总变动中各个因素的影响;测定现象总变动中各个因素的影响;对多指标复杂现象综合测评。对多指标复杂现象综合测评。作用:作用:按对象的范围分按对象的范围分按指标的性质分按指标的性质分按采用的基期分按采用的基期分个体指数个体指数组指数组指数总指数总指数种类:种类:数量指标指数数量指标指数质量指标指数质量指标指数定基指数定基指数环比指数环比指数总指数的编制总指数的编制一、综合指数一、综合指数概念:概念:综合指数是总指数的综合指数是总指数的基本形式基本形式。它是通过引入一个。它是通过引入一个同度量因素同度量因素同度量因素同度量因素将不能相加的变量转化为可相加的总量指标,而后对比所得到将不能相加的变量转化为可相加的总量指标,而后对比所得到的的相对数相对数。综合指数综合指数指数化因素指数化因素同度量因素同度量因素指数化因素指数化因素同度量因素同度量因素总量指标总量指标所要研究其变动程度的所要研究其变动程度的两个时期的某一经济变量两个时期的某一经济变量引入一个同一时期的经济量,引入一个同一时期的经济量,起到媒介或权数的作用起到媒介或权数的作用综合指数综合指数平均数指数平均数指数综合指数的编制综合指数的编制1、数量指标的综合指数(例:销售量指数)、数量指标的综合指数(例:销售量指数)报告期和基期的销售报告期和基期的销售 量,为指数化因素量,为指数化因素基期价格作为基期价格作为同度量因素同度量因素基期实际销售额基期实际销售额以基期价格计算以基期价格计算的报告期销售额的报告期销售额该指数说明多种商品该指数说明多种商品销售量的综合变动程度销售量的综合变动程度。分子、分母之差:分子、分母之差:说明由产量变动带来的销售额的增(减)量说明由产量变动带来的销售额的增(减)量2、质量指标的综合指数(例:价格指数)、质量指标的综合指数(例:价格指数)报告期和基期的价格报告期和基期的价格,为指数化因素,为指数化因素报告期销售量报告期销售量作为同度量因作为同度量因素素报告期实际销售额报告期实际销售额以报告期销售量计算以报告期销售量计算的基期销售额的基期销售额该指数说明多种商品该指数说明多种商品价格的综合变动程度价格的综合变动程度。分子、分母之差:分子、分母之差:说明由价格变动带来的销售额的增(减)量。说明由价格变动带来的销售额的增(减)量。3、其他形式的综合指数公式、其他形式的综合指数公式拉氏公式:拉氏公式:派氏公式:派氏公式:马竭尔马竭尔艾奇沃斯公式:艾奇沃斯公式:费暄的费暄的“ 理想公式理想公式”:固定价格的物量指数:固定价格的物量指数:固定物量的价格指数:固定物量的价格指数:编制综合指数的一般方法原则:编制综合指数的一般方法原则:(1)同度量因素与指数化因素相乘后必须是有实际经济意)同度量因素与指数化因素相乘后必须是有实际经济意 义的总量指标;义的总量指标;(2)数量指标指数以质量指标为同度量因素;质量指标指)数量指标指数以质量指标为同度量因素;质量指标指 数以数量指标为同度量因素;数以数量指标为同度量因素;(3)同度量因素的固定时期必须以指数的经济意义为依据。)同度量因素的固定时期必须以指数的经济意义为依据。二、平均数指数二、平均数指数是以总量指标为权数对个体指数进行加权平均的总指数。是以总量指标为权数对个体指数进行加权平均的总指数。概念:概念:编制方法编制方法1、加权算求平均数指数、加权算求平均数指数通常用来计算数量指标指数(如销售量指数)通常用来计算数量指标指数(如销售量指数)销售量个体指数销售量个体指数与销售量个体指数相对应的销与销售量个体指数相对应的销售额占总销售额的比重售额占总销售额的比重2、加权调和平均数指数、加权调和平均数指数通常用来计算质量指标指数(如价格指数)通常用来计算质量指标指数(如价格指数)价格个体指数价格个体指数与价格个体指数相对应的产品与价格个体指数相对应的产品销售额占总销售额的比重销售额占总销售额的比重销售量指数价格指数比较:用哪种公式好?比较:用哪种公式好?实际工作中,常采用相对固定的权数。实际工作中,常采用相对固定的权数。某个经济发展较稳定时期的产值或销售额的结构。某个经济发展较稳定时期的产值或销售额的结构。性质性质资料资料计算方法计算方法差额分析差额分析综合综合指数指数平均数平均数指数指数狭义狭义指数指数广义广义指数指数全面全面资料资料样本样本资料资料先综合先综合后对比后对比先对比先对比后综合后综合分子、分母之差为分子、分母之差为总量差异有经济意义总量差异有经济意义分子、分母之差,不形成分子、分母之差,不形成实际总量,无经济意义实际总量,无经济意义总平均总平均数指数数指数广义广义指数指数分组分组资料资料三种形式三种形式的总平均的总平均数对比自数对比自成体系成体系分子、分母之差为平分子、分母之差为平均数差异,有意义均数差异,有意义 指数的因素分析指数的因素分析一、总量指标指数的因素分析一、总量指标指数的因素分析1、方法:、方法:这是利用综合指数的指数体系进行的因素分析。这是利用综合指数的指数体系进行的因素分析。构造有实际经济意义的指标体系:构造有实际经济意义的指标体系:分析对象:分析对象:S=AB (因素指标)因素指标)将指标体系转换为指数体系:将指标体系转换为指数体系:分析某一因素变动影响时,将其他因素固定:分析某一因素变动影响时,将其他因素固定:分析相对变动影响时,也分析绝对差额影响:分析相对变动影响时,也分析绝对差额影响:方方法法步步骤骤(A1-A0) B0 ; (B1-B0) A1A1 B0 A1B1A0 B0 A1B0_ ; _2、举例、举例两因素分析两因素分析产产 值值=产产 量量 价价 格(资料见书格(资料见书P347) 产值指数产值指数=产量指数产量指数价格指数价格指数指指数数体体系系代入资料计算得到:代入资料计算得到:180%=137.14%131.25%224=104+120 (万元万元)注意注意 :(:(1)固定因素时期的选择要满足平衡的要求;)固定因素时期的选择要满足平衡的要求;(2)因素的排序要使相邻两变量能分能合。)因素的排序要使相邻两变量能分能合。S= A B C ; D C 或或S= A B C A E 原材料支出总额指数原材料支出总额指数=产量指数产量指数单耗指数单耗指数原材料单价指数原材料单价指数原材料支出总额原材料支出总额 =产产 量量 单单 耗耗原材料单价原材料单价代入资料计算得到:代入资料计算得到:108.53%=109.17%88.37%112.50%2420=2600-3600+3420(万元)(万元)指指数数体体系系多因素分析多因素分析二、平均数指标指数的因素分析二、平均数指标指数的因素分析1。特点:。特点:总平均数指数是对总平均指标变动程度的测定总平均数指数是对总平均指标变动程度的测定(1)属于广义指数;)属于广义指数;(2)以组平均数为基础,突出结构因素;)以组平均数为基础,突出结构因素;(3)有三种形式。)有三种形式。可变构成指数可变构成指数固定构成指数固定构成指数结构变动影响指数结构变动影响指数2、例:、例:某煤矿公司劳动生产率总指数某煤矿公司劳动生产率总指数(资料见书(资料见书P.344)(1)可变构成指数(包含组平均数变动和结构变动双重影响)可变构成指数(包含组平均数变动和结构变动双重影响)公司各矿井报告期公司各矿井报告期和基期劳动生产率和基期劳动生产率报告期和基期各矿井报告期和基期各矿井工人数所占比重工人数所占比重即双重因素影响的公司平均每个工人的增产量。即双重因素影响的公司平均每个工人的增产量。(2)固定构成指数(只反映各组平均数变动影响)固定构成指数(只反映各组平均数变动影响)各矿井报告期、基期劳动生产率各矿井报告期、基期劳动生产率代入资料计算代入资料计算代入资料计算代入资料计算即由于各矿井劳动生产率平均变动带来的公司平均每个工即由于各矿井劳动生产率平均变动带来的公司平均每个工人的增产量。人的增产量。(3)结构变动影响指数)结构变动影响指数代入资料计算代入资料计算报告期和基期各矿井工人所占比重报告期和基期各矿井工人所占比重即由于公司工人数结构变动带来的公司平均每个工人的增产量。即由于公司工人数结构变动带来的公司平均每个工人的增产量。三个指数的关系:三个指数的关系:可变构成指数可变构成指数=固定构成指数固定构成指数结构变动影响指数结构变动影响指数劳动生产率变动的差额:劳动生产率变动的差额:三、将综合指数同平均数指数结合进行多因素分析。三、将综合指数同平均数指数结合进行多因素分析。混合型因素分析混合型因素分析例例 :某煤矿公司产量增长因素分析。(资料见书:某煤矿公司产量增长因素分析。(资料见书P.351)煤产量指数煤产量指数=劳动生产率指数劳动生产率指数工人人数指数工人人数指数代入资料计算得到:代入资料计算得到:207.14%=199.18%104%1500=14440+560(千吨)(千吨)式中的式中的 即劳动生产率可变构成指数即劳动生产率可变构成指数代入产量指数分解式:代入产量指数分解式:代入资料计算得到:代入资料计算得到:207.14%=176.62%115.39%104%15000=12200+2240+560(千吨)(千吨) 指数的应用指数的应用一、居民消费价格指数一、居民消费价格指数1、是关系国计民生最重要的一种指数;可用于分析居民实际、是关系国计民生最重要的一种指数;可用于分析居民实际收入水平的变化,也是国民经济核算和宏观经济分析与决策的收入水平的变化,也是国民经济核算和宏观经济分析与决策的重要指标重要指标;2、采用加权算术平均方法,由代表商品个体指数逐级加权平均、采用加权算术平均方法,由代表商品个体指数逐级加权平均为总指数。即由基本分类指数,再中类、大类,最终由各大类为总指数。即由基本分类指数,再中类、大类,最终由各大类指数加权平均为城市(或农村)居民消费价格总指数;指数加权平均为城市(或农村)居民消费价格总指数;3、关键问题:商品分类,代表品选择,价格采集,权数确、关键问题:商品分类,代表品选择,价格采集,权数确定等。定等。(一)居民消费价格指数的编制方法(一)居民消费价格指数的编制方法 指数的应用指数的应用1、测定通货膨胀率()、测定通货膨胀率() 计算期居民消费价格计算期居民消费价格(二)居民消费价格指数的应用(举例)(二)居民消费价格指数的应用(举例)_基期居民消费价格指数基期居民消费价格指数1001002、测定货币购买力和职工实际工资的变动;、测定货币购买力和职工实际工资的变动;货币购买力指数货币购买力指数 _1居民消费价格指数居民消费价格指数职工实际工资指数职工实际工资指数职工平均工资指数职工平均工资指数/居民消费价格指数居民消费价格指数 职工平均工资指数职工平均工资指数货币购买力指数货币购买力指数3、计算商品需求的价格弹性系数等。、计算商品需求的价格弹性系数等。 指数的应用指数的应用二、股票价格指数二、股票价格指数1、道、道斯股价平均数斯股价平均数2、标准、标准普尔股价指数普尔股价指数3、香港恒生指数、香港恒生指数4、上海证交所股份指数、上海证交所股份指数5、深圳证交所、深圳证交所 股份指数股份指数三、工业经济效益综合指数三、工业经济效益综合指数(一)多指标综合评价的概念和方法一)多指标综合评价的概念和方法多指标综合评价法就是将多个指标合成为一个综合数值的方法。多指标综合评价法就是将多个指标合成为一个综合数值的方法。三个关键问题:三个关键问题:1、构建一个科学合理的评价指标体系;、构建一个科学合理的评价指标体系; 指数的应用指数的应用2、指标的无量纲处理;、指标的无量纲处理;3、确定各指标在合成中的权数。、确定各指标在合成中的权数。(二)工业经济效益综合指数二)工业经济效益综合指数我国现行的工业经济效益综合指标包括:我国现行的工业经济效益综合指标包括:1、总资产贡献率;、总资产贡献率; 2、资本保值增值率;、资本保值增值率;3、资产负债率;、资产负债率;4、流动资金周转率;、流动资金周转率;5、成本费用利润率;、成本费用利润率;6、工业全员劳动生产率;、工业全员劳动生产率;7、产品销售率。、产品销售率。第七章第七章 非参数统计非参数统计 主要内容主要内容非参数统计非参数统计(亦称非参数检验),是根据样本资料对总体的某(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。种性质或关系进行假设检验的统计推断方法。主要特点主要特点(1)不要求总体分布已知或对总体分布作任何限制性假定;)不要求总体分布已知或对总体分布作任何限制性假定;(2)不以估计总体参数为目的;)不以估计总体参数为目的;(3)能用于定性变量(即定名测定和序列测定的变量);)能用于定性变量(即定名测定和序列测定的变量);(4)方法直观,易于理解,运算比较简单。)方法直观,易于理解,运算比较简单。(5)缺点是检验的功效不如参数检验方法。)缺点是检验的功效不如参数检验方法。2检验检验成对比较检验成对比较检验曼曼惠特尼惠特尼U检验检验游程检验游程检验等级相关检验等级相关检验多个样本的检验多个样本的检验2检验检验一、什么是一、什么是2检验检验2检验是运用检验是运用2分布作为理论工具,在非参数统计中可用于对总分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。体的分布或随机变量的独立性进行的检验。(一)(一)2分布分布2分布是由正态分布推导出来的一种连续型随机变量的概率分布是由正态分布推导出来的一种连续型随机变量的概率分布分布1、数学形式:、数学形式:设随机变量设随机变量x1,x2,xk相互独立且都服从正态分布相互独立且都服从正态分布N(,2)。)。将它们标准化转变为标准正态变量将它们标准化转变为标准正态变量Z1,Z2,Zk,k个独个独立标准正态变量的平方和被定义为立标准正态变量的平方和被定义为2分布的随机变量分布的随机变量2。22(k),k是自由度,表示定义式独立变量的个数。是自由度,表示定义式独立变量的个数。 当当k=1时,时,22分布的性质分布的性质(1)2分布的值恒为正值分布的值恒为正值(2)2分布的数学期望是自由度分布的数学期望是自由度k,方差为方差为2k;(3)2分布取决于自由度分布取决于自由度k,随着自由度增大而趋于对称。随着自由度增大而趋于对称。 一般当一般当k30时,时,2分布可用正态分布近似计算。分布可用正态分布近似计算。k=1k=5k=15k=3 (2)2 (k)(二)(二)2检验的原理检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以行比较,以判断实际结果与理论是否一致判断实际结果与理论是否一致。设有设有k个观察值,个观察值,f0为它们的实际频数,为它们的实际频数,fe为理论频数。为理论频数。构造构造一个统计量一个统计量数理统计证明,在大量试验中,若数理统计证明,在大量试验中,若f0与与fe相一致时相一致时,2服从服从2分分布。布。(f0-fe)比较小时,比较小时,2值也较小;(值也较小;(f0-fe)比较大时,比较大时,2也较也较大。当大。当2值大到按值大到按2分布超过设定的临界值时,即为小概率事分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。件,就可以认为实际结果与理论假设不一致。 (2)k=4=0.052 0.05(4) =9.488例例1 (P.258)2 01、拟合优度检验、拟合优度检验二、应用二、应用这是利用随机样本资料对总体是否服从某种理论分布的检验这是利用随机样本资料对总体是否服从某种理论分布的检验检验步骤检验步骤(1)对总体分布建立假设)对总体分布建立假设H0:总体服从某种理论分布总体服从某种理论分布H1:总体不服从该理论分布总体不服从该理论分布(2)抽样并对样)抽样并对样本资料编成频数本资料编成频数分布(分布(f0)(3)以)以“原假设原假设H0为真为真”导出一组导出一组期望频数(期望频数(fe)(4)计算检验统计量)计算检验统计量2=(f0-fe)2/fe(5)2=(f0-fe)2/fe 给给定的定的查查2表,得到临表,得到临界值界值(6)比较)比较2值与临界值值与临界值作出检验判断作出检验判断注意事项注意事项(1)各组理论)各组理论频数频数fe不得小于不得小于5,如不足,如不足5,可,可合并组;合并组;(2)为使组数不)为使组数不致太少,总频数致太少,总频数n50;(3)根据具)根据具体情况确定自体情况确定自由度。由度。2、独立性检验、独立性检验二、应用二、应用是利用样本资料对总体的两个变量的数据是否彼此关联的检验,是利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联,即为独立。如果不关联,即为独立。检验步骤检验步骤(1)对总体的两个变量建立假设)对总体的两个变量建立假设H0:两变量独立两变量独立H1:两变量关联两变量关联(2)将样本资料编)将样本资料编成成rc列联表,并列出列联表,并列出实际频数实际频数Oij(3)计算理论频数)计算理论频数(4)计算检验统计量)计算检验统计量(5) 给定的给定的查查2表,表,得到临界值得到临界值(6)比较)比较2值与临界值值与临界值作出检验判断作出检验判断要点说明要点说明列联表形式(列联表形式(rc)O11O21O31.Or1O12O22O32.Or2O13O23O33.Or3.O1cO2cO3c.OrcO1O2O3.Or123.r行行(r)列(列(c)123cxy合计合计 n.1 n.2n.3n.cn合计合计X的边缘频数的边缘频数y的边缘频数的边缘频数理论频数理论频数Eij的计算的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,概率的乘积,P(AB)=P(A)P(B)。)。因此,某一行某一因此,某一行某一列的联合概率:列的联合概率:自由度(自由度(df)的确定的确定 df=(r-1)(c-1)例例 :rc=34CT1 CT2 CT3 CT4RT1RT2RT3n总总行行数数总列数总列数r1r2r3Df=(3-1)(4-1)=6rc=22的列联表资料,的列联表资料,2值简算公式值简算公式xy1212abcda+cb+da+bc+d合计合计合计合计n成对比较检验成对比较检验一、符号检验一、符号检验这是略去两组样本数据之差的数值,只用其差的正、负符号这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。进行判断的检验方法,亦称正负号检验。1、检验内容:检验的两组数据是否有显著差异或两总体的、检验内容:检验的两组数据是否有显著差异或两总体的 位置特征(均值、中位数)是否相同。位置特征(均值、中位数)是否相同。2、适用条件:关联样本资料;定性变量。、适用条件:关联样本资料;定性变量。3、方法思想:、方法思想:设有关联样本的两组成对的数据设有关联样本的两组成对的数据xi与与yi,比较各对的大小。比较各对的大小。若若xiyi ,记作记作 “ ”“若若xiyi ,记作记作“ ”若若xi=yi ,删去,并相应减少删去,并相应减少n对数据对数据 若两组数据没有显著差异,它们之差的若两组数据没有显著差异,它们之差的“”、“”号的个数应大致相等。出现号的个数应大致相等。出现“”(或(或“”)的概)的概率为率为0.5。如果一次抽样的随机样本的配对数据中,。如果一次抽样的随机样本的配对数据中,“ +”号号出现过多或过少,在一定显著性水平出现过多或过少,在一定显著性水平条件下属于小概率事件,条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,就说明两组数据的平均水平或相对次数分布并不相同。可见,配对符号检验是二项检验的一种应用。配对符号检验是二项检验的一种应用。 由于由于P=0.5的二项分布呈对称型,所以,只要的二项分布呈对称型,所以,只要n25,即可即可按正态分布近似处理。按正态分布近似处理。4、检验步骤、检验步骤(1)抽样。将样本)抽样。将样本资料配对比较,计算资料配对比较,计算(+)、()、(-)号个数)号个数(2)建立假设:)建立假设:H0:P=0.5H1:P0.05(双侧)双侧)H1:P(+)P(-)或或P(+)P(-)(单侧单侧)(3)计算检验统计量)计算检验统计量n25时;时;“+”个数个数n25时:时:(4)设定显著性水平)设定显著性水平,查表确定临界值或否查表确定临界值或否定域定域(5)比较并作出判断比较并作出判断例例 1:随机抽取:随机抽取13个单位,放映一部描述吸烟有害健康的影片,个单位,放映一部描述吸烟有害健康的影片, 并调查得到观看电影前后各单位职工认为吸烟有害的人并调查得到观看电影前后各单位职工认为吸烟有害的人 数的百分比。检验该电影宣传是否有效果(数的百分比。检验该电影宣传是否有效果(=0.05)。)。解:解:H0:P=0.5 H1:P0.5P(13)=0.000 P(12)=0.002 P(11)=0.010 P(10)=0.035P(13)+P(12)+P(11)=0.000+0.002+0.010=0.0120.025P(13)+P(12)+P(11)+P(10)=0.012+0.035=0.0470.025012 3 4 56可见,拒绝域(双侧)应为可见,拒绝域(双侧)应为0,1,2,11,12,13。78910 11 12 13拒绝域拒绝域拒绝域拒绝域现检验统计量(现检验统计量(+)=10 (即(即10个正号),个正号),0.0350.025所以,原假设所以,原假设H0:P=0.5在在5%显著性水平上不能被拒绝。显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著差异。也即不能认为职工在观看影片前后的认识有显著差异。例例2:随机抽取:随机抽取60名消费者对甲、乙两种品牌的饮料评名消费者对甲、乙两种品牌的饮料评 分,甲分,甲 、乙得分之差为、乙得分之差为“+”号者号者35个,个,“-”号号15 个,个,“0”号号10个。个。以显著性水平以显著性水平=0.05检验两种饮料是否同等受欢迎。检验两种饮料是否同等受欢迎。解:解:H0:P=0.5, H1:P0.5n25,按正态分布近似处理按正态分布近似处理该成数抽样分布的均值和标准差分别为该成数抽样分布的均值和标准差分别为2.821.96,所以,拒绝原假设。认为两种饮料并不受到,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。同等欢迎。且乙种优于甲种。二、威尔科克森带符号检验(亦称威尔科克森秩和检验)二、威尔科克森带符号检验(亦称威尔科克森秩和检验)这种检验方法不仅考虑了两组数据差异的正、负号,而且还利这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。用了其差异大小的信息。因此,是一种更为有效的检验方法。1、应用条件和检验内容与符号检验相同。、应用条件和检验内容与符号检验相同。2、方法思想:若关联样本的两组数据没有显著差异,则不仅、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(序排列编自然序号(即秩)后,它们的正号(+)的秩和(记)的秩和(记为为T+)与负号(与负号(-)的秩和(记为)的秩和(记为T-)也应该大致相等。其中也应该大致相等。其中之较小者也应趋近于总秩和的平均数(之较小者也应趋近于总秩和的平均数( )。若正秩)。若正秩和(和(T+)与负秩和(与负秩和(T-)相差太大,其中较小者偏离总秩和的相差太大,其中较小者偏离总秩和的平均(平均( )较远,以致超过给定显著性水平)较远,以致超过给定显著性水平所确定的临界点,所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。就可以认为这两组数据存在显著差异,即总体的分布不相同。3检验步骤检验步骤(1)将样本数据配对并)将样本数据配对并计算各对正负差值计算各对正负差值(2)按差之绝对数大小排序)按差之绝对数大小排序(等级等级),并按原正负号计,并按原正负号计算正秩和算正秩和(T+)与负秩和与负秩和(T-)(3)建立假设:)建立假设:H0:T+=T-H1: T+T-(双侧双侧) H1:T+T-或或T+T-(单侧单侧) (4)计算检验统计量)计算检验统计量当当n25时,取时,取T+、T-中之小者中之小者当当n25时时(5)设定)设定,并查表确定并查表确定临界值临界值T(或或Z/2)(6)比较统计量与临界值)比较统计量与临界值作出判断,对于作出判断,对于n25,TT,拒绝拒绝H0;TT接受接受H0 曼曼惠特尼惠特尼U U检验检验曼曼惠特尼惠特尼U检验适用于从两个总体中分别独立抽取两个样本检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。的检验,方法思想与威尔科克森秩和检验相同。检验步骤:检验步骤:(1)从总体)从总体A、B中分中分别独立抽取样本别独立抽取样本nA和和nB,将(将(nA+nB)个观察个观察值值从小到大编序从小到大编序(2分别计算两个样分别计算两个样本,的秩和本,的秩和TA和和TB(3)建立假设)建立假设H0:两总体两总体A和和B相相 对次数分布相同对次数分布相同H1:两总体相对次数两总体相对次数 分布不同分布不同(4)计算检验统计量)计算检验统计量nA、nB10时,取时,取UA、UB中小者中小者UA= nAnB+ nA(nA +1)/2-TAUB= nAnB+ nB(nB +1)/2-TBnA、nB10时时(5)设定显著性水平)设定显著性水平,查,查U表或表或Z表得到临界值表得到临界值(6)比较统计量与临界值,)比较统计量与临界值,作出判断,对于作出判断,对于nA、nB10UU,拒绝拒绝H0,UU,接受接受H0游程检验游程检验一、什么是游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。游程的多少进行判断的检验方法。设某样本设某样本n=12人的标志表现为男、女,有以下三种排列。人的标志表现为男、女,有以下三种排列。(i) 男,男男,男,女,女,女女,女,女,男男,女,女女,女,男,男,男,男男,男,男,男 (ii) 男,男,男,男,男,男,男男,男,男,男,男,男,男,女,女,女,女,女女,女,女,女,女 (iii) 男男,女女,男男,女女,男男,女女,男男,女女,男男,女女,男,男男,男连续出现男或女的区段称为游程。连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。每个游程包含的个数为游程长度。以以r表示序列中游程的个数:表示序列中游程的个数:(i)r=5, (ii)r=2, (iii) r=11(i)是随机性序列;(是随机性序列;(ii)()(iii)是非随机性序列,所以,可以是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。用游程的个数来检验样本的随机性,或总体的分布特征。二、游程检验方法二、游程检验方法 1检验总体分布是否相同。检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有序后,将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。观察游程个数,进行比较。2检验样本的随机性检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的用上下交错形成的游程个数来检验样本是否是随机的3检验规则(小样本。检验规则(小样本。n20)应用表应用表La和和Lb,(,(=0.05,r为临界值)为临界值)(1)单侧检验:)单侧检验: 观察到的游程个数观察到的游程个数ro临界值(临界值(La表)表) 或或ro临界值(临界值(Lb表)表) 反之,接受反之,接受Ho。否否定定Ho (2)双侧检验:)双侧检验: 观察到的游程个数观察到的游程个数ro r(La)ror(Lb) 接受接受Ho 下限下限 上限上限反之,拒绝反之,拒绝Ho4大样本(大样本(n1或或n2大于大于20),游程个数),游程个数r近似正态分布近似正态分布检验统计量检验统计量其中:其中:等级相关检验等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。系数,从而反映两组变量之间联系的密切程度。等级相关系数的计算公式等级相关系数的计算公式其中其中di为两变量每一对样本的等级之差,为两变量每一对样本的等级之差,n为样本容量。为样本容量。等级相关系数与相关系数一样,取值等级相关系数与相关系数一样,取值-1到到+1之间,区别是它是之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。建立在等级的基础上计算的,较适用于反映序列变量的相关。二、等级相关系数的应用二、等级相关系数的应用一、等级相关检验的基本原理一、等级相关检验的基本原理利用斯皮尔曼等级相关系数,可以对两序列变量是否相利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。关进行检验。(一)检验的假设一)检验的假设(1)H0:Xi和和YI相互独立;相互独立;H1:Xi和和Yi不独立。(此为双侧检验)不独立。(此为双侧检验)(2)H0:Xi和和Yi相互独立;相互独立; H1:Xi和和Yi是正相关。是正相关。(即即Xi的大值与的大值与Yi的大值相配对的大值相配对)(3)H0:Xi和和Yi相互独立;相互独立; H1:Xi和和Yi是负相关。是负相关。(即即Xi的大值与的大值与Yi的小值相配对的小值相配对)(二)检验统计量:(二)检验统计量:多个样本的检验多个样本的检验一、克鲁斯卡尔一、克鲁斯卡尔沃利斯(沃利斯(KruskalKruskal-Wallis-Wallis)单向方差秩检验单向方差秩检验1检验内容:检验检验内容:检验K个独立样本是否来自分布相同的总体。个独立样本是否来自分布相同的总体。2适用条件:各样本相互独立;适用条件:各样本相互独立; 序列变量(间距变量,比率变量可转换为序列序列变量(间距变量,比率变量可转换为序列 变量)变量)3方法思想:与威尔科克森秩和检验相同。当方法思想:与威尔科克森秩和检验相同。当K2时,就时,就 是曼惠特尼是曼惠特尼U检验。检验。抽样和数据列表:将各抽样和数据列表:将各样本的观察值按大小顺样本的观察值按大小顺序排列,确定相应的。序排列,确定相应的。4检验步骤:检验步骤:建立假设:建立假设:H0:K个总体无显著差异个总体无显著差异H1:K个总体有显著差异个总体有显著差异计算检验统计量:计算检验统计量:K样本数样本数ni第第i个样本观察值的数目个样本观察值的数目Ri第第i个样本中的秩和个样本中的秩和设定显著性水平设定显著性水平,查表确定临界值:查表确定临界值:(1)ni5,K=3时,查时,查K-W单向方差单向方差检验统计量临界值表检验统计量临界值表(2)ni5,查,查x2分布表。自由度为分布表。自由度为K-1检验判断:检验判断:(1) ni5,K=3时:时:若若,拒绝拒绝H0;,接受接受H0。 (2) ni5时:时:(1)(2)(3)(5)(4)5要点说明:要点说明:整理样本数据按数值大小顺序确定相应的位序(即秩)时,整理样本数据按数值大小顺序确定相应的位序(即秩)时,对相同的观察值按相应的秩计算它们的平均秩。对相同的观察值按相应的秩计算它们的平均秩。若若K个独立样本中有相同的观察值,要对检验统计量进行修个独立样本中有相同的观察值,要对检验统计量进行修正。修正公式:正。修正公式:其中,其中,ti第第i个秩包括相同观察值的个数;个秩包括相同观察值的个数;K相同秩的组数。相同秩的组数。二、费利德曼(二、费利德曼(FriedmanFriedman)双向方差分析双向方差分析这种检验方法适用于这种检验方法适用于K个非独立样本是否来自同分布总体的个非独立样本是否来自同分布总体的检验。其他条件和特点与克鲁斯卡尔检验。其他条件和特点与克鲁斯卡尔沃利斯检验相同。沃利斯检验相同。检验步骤:检验步骤:抽样和数据列表:抽样和数据列表:将将ni个样本分别按它个样本分别按它们观察大小的顺序排们观察大小的顺序排列确定其秩,编成的列确定其秩,编成的ni为行、处理方法为为行、处理方法为列的双向表;并计算列的双向表;并计算各列的秩和各列的秩和Ri建立假设:建立假设:H0:K种处理方法的种处理方法的效果无显著差异;效果无显著差异;H1:K种处理方法的种处理方法的效果有显著差异效果有显著差异(1)(2)计算检验统计量:计算检验统计量:K处理方法种类,即列数;处理方法种类,即列数;n区组数,即行数;区组数,即行数;Rj第第j个列的秩和个列的秩和设设定定显显著著性性水水平平,查查表表确定临界值:确定临界值:(1)n、K不不很很小小时时;查查 2分布表,自由度为分布表,自由度为K-1;(2)n、K很很小小时时;直直接接查查 2分布表。分布表。(3)(4)检验判断:检验判断:(1)n、K不很小时:不很小时:若若(2)n、K很小时:按分布表相应的临很小时:按分布表相应的临界值判断。界值判断。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号