资源预览内容
第1页 / 共155页
第2页 / 共155页
第3页 / 共155页
第4页 / 共155页
第5页 / 共155页
第6页 / 共155页
第7页 / 共155页
第8页 / 共155页
第9页 / 共155页
第10页 / 共155页
亲,该文档总共155页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第1章 数据分析的基础,本章重点难点 1.数据分组与变量数列 2.分布中心与离散程度的测定 3.偏度与峰度 4.两个变量的相关关系 学习目标 重点掌握: 1.数据分组与变量数列编制的方法及其应用; 2.分布中心与离散程度指标的种类、测定方法及其应用; 3.偏度、峰度以及相关系数的作用以及计算方法。 能够理解:本章学习内容中的基本概念。,1.1 数据分组与变量数列,数据分组 对某一变量的不同取值,按照其自身变动特点和研究需要划分成不同的组别 以便更好地研究该变量的分布特征及变动规律 单项分组 组距分组 变量数列的两个要素 组别 频(次)数,变量数列的编制方法(五步骤) 1、确定组数 2、确定组距 3、确定组限 4、计算各组的次数 5、编制变量数列表,累积频数和累积频率 1、计算方法(演示) 2、洛伦兹曲线 (1)定义:向上累积频率(数)的分布曲线 (2)编制方法: 首先,将分配对象和接受分配者的数量化成结构相对数,并进行向上累积 横轴表示接受分配者的累积,纵轴表示分配对象的累积 (3)意义:对角线是绝对平等线,距离绝对平等线越远,表示分配越不平等,变量数列分布图 柱状图 直方图 次数密度次数组距 频率密度频率组距 折线图,1.2 分布中心的测度,分布中心得概念和意义 定义:距离一个变量的所有取值最近的位置 意义:(1)反映变量取值的一般水平 (2)反映密度曲线的中心位置,算术平均数 一般方法: (1)计算全部样本的变量值的和 (2)总和除以样本的总数 1、简单算数平均数(未分组数据) 计算方法:变量值求和;除以样本数 2、加权平均数 (1)单项分组数据 计算方法:变量值求和加总(变量值次数);样本数加总(次数) (2)组距分组数据 计算方法:变量值组中值;其他类似单项分组数据,调和平均数 例: 要计算三个乡的平均产量 平均产量总产量总播种面积 (1)三个乡的总产量 (2)三个乡的总播种面积,中位数 定义: 某一变量按变量值从小到大排列,位于数列中心的变量值。 未分组数据: 排列后直接找中心位置,如果中心位置有两个,则中位数是这两个数的算数平均值。 单项分组数据: 计算累计次数,累计次数的一半所对应(距离最近)的分组为其中位数。 组距分组数据:(不做要求),众数 定义: 某一变量的全部取值中,出现次数最多的那个变量。 未分组数据众数: 统计每个取值的出现次数 单项分组数据的众数: 次数最高的分组对应的变量值 组距分组数据的众数: 次数最高的分组,按照上下限公式计算,算数平均数、中位数、众数的关系 1、对称分布 三者相等 2、右偏分布 众数中位数算数平均数 3、左偏分布 算数平均数中位数众数,1.3 离散程度的测度,离散程度测度的意义 1、反映变量值之间的差异大小,反映中心指标的代表性 2、反映密度曲线的形状,离散程度的测度指标 1、极差 2、四分位全距 3、平均差 4、标准差 5、方差 6、变异系数标准差均值,1.4 偏度与峰度,1、偏度的测度 (1)皮尔逊偏度系数 (2)鲍莱偏度系数 (3)矩偏度系数 正值则为右(正)偏,平均数大于众数 负值则为左(负)偏,平均数小于众数 2、峰度的测度 峰度值大于3为尖峰,小于3为平峰,1.5两个变量的相关关系,1、协方差 正值表示正相关 负值表示负相关 2、相关系数 绝对值越大,相关度越高,第2章 概率与概率分布,本章重点难点 1.随机时间与概率; 2.随机变量及其分布; 3.随机变量的数字特征与独立性; 4.大数定律与中心极限定理。 学习目标 重点掌握: 1.随机事件概率的性质与计算; 2.随机变量及其分布的性质与测定方法; 3.随机变量数字特征及其测定方法。 能够理解:概率与概率分析的相关概念、定义、定律和定理。 了解:大数定律与中心极限定理的本质内容。,2.1随机事件与概率,必然事件 随机事件 事件的关系(图形演示) 包含 相等 互斥 对立,事件的运算(图形演示) 并 交 补(对立) 差 互斥,随机事件的概率 1、定义 在一次试验中,事件A发生的可能性大小。 2、概率的性质 (1) (2) (3)若A和B互斥,则 (4)若A和B是对立事件,则 (5),古典概率 随机试验的样本空间是由有限个样本点构成,且每个样本点在试验中是等可能出现的,则事件A发生的概率可用如下公式计算 P(A)=A包含的样本点个数全部样本点个数 例:,条件概率与事件的独立性 1、条件概率 已知A发生的条件下,B发生的概率,记为P(B|A) 一般的有: 例:,全概率公式 设B1,B2,,Bn是样本空间的互斥全划分,则事件A可表示为: A发生的概率为: 此公式称为全概率公式(已知事件A在每个互斥子空间发生的概率,求A发生的概率),贝叶斯公式 1、已知事件A在整个空间发生的概率P(A),以及A与某一样本子空间同时发生的概率P(Abi)。求A发生的条件下是子空间Bi发生的概率P(Bi|A). 2、已知子空间发生的概率,事件A在整个空间发生的概率P(A)以及在子空间上的条件概率P(A|Bi),求A发生的条件下是子空间Bi发生的概率P(Bi|A).,例: 事件的独立性 P(AB)=P(A)P(B),2.2随机变量及其分布,1、定义 样本空间上的事件映射为一个实数。 2、特点 (1)随机性 (2)统计规律性 (3)定义在样本空间上的实数 3、随机变量的分布 随机变量取某个值的概率(离散型),或随机变量小于某个值的概率(连续型)。,4、常见的离散型概率分布 (1)两点分布:贝努力试验,样本空间只有两个值(成功,失败) (2)超几何分布:n次不重复抽样中,恰好成功k次的概率 (3)二项分布:n次贝努力实验中,恰好成功k次的概率 (4)泊松分布:已知某事件在单位时间(空间)发生的平均次数,该事件在单位时间(空间)上恰好发生k次的概率,5、常见的连续分布 (1)均匀分布 (2)正态分布 (3)指数分布,2.3 随机变量的数字特征与独立性,1、数学期望 数学期望的性质:E(ax+b)=aE(x)+b 2、方差 方差的性质: var(ax+b)=var(ax)+var(b)=a2var(x),3、常见分布的期望和方差 (1)两点分布(0-1分布) (2)二项分布 (3)泊松分布,(4)均匀分布 (5)正态分布 (6)指数分布,4、二维随机向量与随机向量的独立性(略) (1)随机向量的概率分布 (2)随机向量的边缘分布(密度) (3)随机向量的独立性,2.4 大数定律与中心极限定理,1、大数定律 (1)贝努力大数定律 事件A在一次实验中出现的概率为p,在n次独立重复实验中A出现m次,则对于任意小的正数,有: 涵义:当试验次数足够多时,事件出现的频率无限接近其出现的概率。,(2)辛钦大数定律 设随机变量 独立同分布,且 则对于任意正数 ,有 涵义:样本足够大时,样本均值无限接近其期望值。,2、中心极限定理 (1)林德贝格勒维中心极限定理 设随机变量 独立同分布,且 定义 则有: 涵义:当样本充分大时,独立同分布随机变量的和在经过标准化之后充分接近标准正态分布,(2)德莫佛拉普拉斯中心极限定理 设 , , 则有 涵义:当n趋向无穷大时,二项分布充分接近正态分布。并建立了离散分布与连续分布之间的 联系,第3章 时间序列分析,本章重点难点 1.时间序列的概念及其种类; 2.时间序列特征指标; 3.长期趋势变动分析与季节变动分析; 4.循环变动与不规则变动分析。 学习目标 重点掌握: 1.时间序列特征指标及其计算; 2.长期趋势、季节变动、循环变动和不规则变动的测定及其分析方法。 能够理解:时间序列的概念及其种类。,3.1 时间序列概述,1、定义 按照时间顺序将观察取得的某个统计指标(变量)的一组观察值进行排列而成的序列。 2、时间序列的影响因素 (1)长期趋势T (2)季节变化S (3)循环变动C (4)不规则变动I 3、时间序列的变动模型 (1)加法模型:YT+S+C+I (2)乘法模型:YTSCI 加法模型假设个因素是独立的,乘法模型假设个因素相互影响,3.2 时间序列特征指标,1、时间序列水平指标 (1)平均发展水平(序时平均数) 时期序列的平均数 时点序列的平均数 相同间隔 不同间隔 根据特征序列计算序时平均数 (2)增长量 (3)平均增长量,2、时间序列速度指标 (1)发展速度 环比 定基 (2)增长速度 环比 定基 (3)平均发展速度 几何平均法 累积法 (4)平均增长速度 平均增长速度平均发展速度1,3.3 长期趋势的测定与预测,1、时距扩大法 例: 2、移动平均法 例:,3、数学模型法 (1)直线趋势模型 (2)指数趋势模型 (3)二次曲线趋势模型 (4)修正指数曲线模型 (5)逻辑曲线模型 (6)龚博茨曲线模型 (7)双指数曲线模型,3.4 季节变动的测定和预测,1、同月平均法 (1)计算同月平均值 (2)计算月平均值 (3)计算各月的季节比率 2、趋势剔除法 (1)计算长期趋势 (2)计算修匀比率(观测值长期趋势值) (3)计算同月的平均修匀比率 (4)加总(3) (5)调整系数12/(4) (6)季节比率各月的平均修匀比率(5),3、季节变动的预测 (1)简单季节模型预测 预测下一年平均每季(月)的变量值 平均值乘以季节比率等于季节预测值 (2)移动平均季节模型预测 移动平均法求长期趋势T 最小二乘法拟合趋势线 计算季节比率 预测趋势值 计算季节值,3.5 循环变动和不规则变动的测定,1、循环变动的测定 (1)直接测定法 计算各期的年距环比发展速度(剔除长期趋势和季节因素) 年距发展速度进行移动平均(消除随机因素)计算各期的循环指数 (2)剩余测定法 假设时间序列模型为YTSCI,剔除长期趋势、季节变动,用移动平均消除随机因素 2、随机变动的测定 剔除法,例:,第4章 统计指数,本章重点难点 1.统计指数的基本概念及种类; 2.总指数及其编制; 3.指数体系与因素分析。 学习目标 重点掌握: 1.综合指数和平均指数的编制方法及其应用; 2.指数体系的编制及因素分析法的实际应用。 能够理解:统计指数的基本概念、种类及作用。,4.1 统计指数的概念和种类,1、概念 广义:一切说明社会现象数量对比关系的相对数。 狭义:指数是一种特殊的相对数,它反映不能直接相加的多种事物数量综合变动情况的相对数。 2、统计指数的作用 (1)综合反映事物的变动方向和程度 (2)分析受多因素影响的现象总变动中各个因素的影响方向和程度 (3)研究事物在长时间内的变动趋势,3、统计指数的种类 (1)个体指数和总指数 (2)数量指标指数和质量指标指数 (3)综合指数和平均指数 (4)时间指数和空间指数,4.2 综合指数,1、概念 两个总量指标的比值。凡是一个总量指标可以分解为两个或两个以上因素指标的乘积时,将其中一个或一个以上因素指标固定下来,仅观察其中一个因素指标的变动程度,这样的总指数称为综合指数。 2、编制综合指数应解决的问题 研究社会经济现象总体总量的变动情况,3、综合指数的编制 (1)拉氏指数(同度量因素固定在基期) (2)派氏指数(同度量因素固定在报告期),4.3 平均指数,1、平均指数概念 将各个个体指数进行综合平均而得出的综合比率指标 2、编制方法 (1)加权算数平均指数 (2)加权调和平均指数,4.4 指数体系与因素分析法 (重点),1、指数体系 若干个有联系的经济指数之间如能构成一定数量对应关系,就可以把这种经济上有联系、数量上保持一定关系的指数之间的客观联系称为指数体系。 销售额指数价格指数销售量指数 总产值指数出厂价格指数产量指数 总成本指数单位成本指数产量指数,2、指数体系编制的一般原则 各个因素对现象影响的综合应该等于现象实际发生的变动,因此在同一个指数体系中的两个因素指数的同度量因素要分别固定在不同的时期。,3、因素分析法 因素
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号