资源预览内容
第1页 / 共11页
第2页 / 共11页
第3页 / 共11页
第4页 / 共11页
第5页 / 共11页
第6页 / 共11页
第7页 / 共11页
第8页 / 共11页
第9页 / 共11页
第10页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1 统计方法笔记 第一章 统计和数据 统计是用来处理数据的,是关于数据的一门学问。 1、统计学:是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。 2、统计分析数据的方法分为:(1)描述统计 (2)推断统计 3、描述统计:是研究数据搜集、处理和描述的统计学方法。 4、推断统计:是研究如何利用样本数据来推断总体特征的统计学方法。 5、推断统计包括:(1)参数估计 (2)假设检验 6、定性变量的特点:只反映现象的属性特点,不能说明具体量的大小和差异。 定性变量包括分类变量和顺序变量。 只反映现象分类特征的变量称分类变量。分类变量没有数值特征,所以不能对其数 据进行数学运算。 如果类别具有一定的顺序,这样的变量称为顺序变量。顺序变量不仅能用来区分客 观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。 7、定量变量的特点: 可以用数值表示其观察结果,而且具有明确的数值含义,不仅能分类而且能测量出来 具体大小和差异。 数值型数据(定量数据)作为统计研究的主要资料,其特征在于它们都是以数值的 形式出现的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅 可以计算数据之间的绝对差,还可以计算数据之间的相对差。其计量精度远远高于定 性数据。在统计学研究中,数值型数据有着最广泛的用途。 8、数据按获取的方法不同分为:(1)观测数据 (2)实验数据 9、观测数据:是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没 有人为的控制和条件约束。观测数据可能是全面数据,也可能是样本数据。 10、实验数据:一般是在科学实验环境下取得的数据,实验环境受到严格控制,一般 都是样本数据。 11、统计数据资料的来源: (1)通过直接的调查或实验获得的原始数据,这是统计数据的直接来源; (2)别人调查的间接数据,并将这些数据进行加工和汇总后公布的数据,称之为次级 数据。 12、数据的直接来源:(1)统计调查 (2)实验法 通过统计调查得到的数据,一般称为观测数据。 运用实验法时,实验组和对照组的产生应当是随机的,还应当是匹配的。 13、数据的间接来源: (1)公开出版的统计数据 (2)尚未公开发表的统计数据。如果公开引用未公开发 表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。 14、搜集数据的方法: (1)普查 (2)抽样调查 (3)统计报表 (4)重点调查 (5)典型调查 15、普查:是专门组织一次性的全面调查,用来调查属于一定时点或时期内的社会现 象总量。 普查适用于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清 重大的国情、国力。 16、普查的特点: (1)是一种全面调查,具有资料包括范围全面、详尽、系统的优点。 (2)是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不 宜经常举行。 17、抽样调查的特点: (1)样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响。 (2)能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到 对调查总体的认识。 (3)在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。2 18、在实际调查中抽样的方法: (1)概率抽样 (2)非概率抽样 19、常用的概率抽样形式有: (1)简单随机抽样 (2)分层抽样(3)整群抽样(4)系统抽样(等距抽样) 20、分层抽样:是先将总体各单位按主要标志加以分层,然后在每一层内进行抽样。 如先对性别分组,然后在男性和女性人口中随机抽取样本单位。 21、系统抽样:又称等距抽样,是在总体的名录框中每隔一定距离抽选一个被调查者。 22、统计报表:是按照国家统一规定的调查要求与文件自下而上的提供统计资料的一 种调查方式。 23、统计报表按照报送范围分为:(1)全面报表 (2)非全面报表统计报表按照报送周期分为:月报,季报,年报。 24、统计报表的内容包括:(1)表式 (2)填表说明 25、重点调查:是在调查对象中选择一部分对全局具有决定性作用的重点单位进行的 一种非全面调查。 当调查的任务只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的 准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。 26、典型调查:是一种非全面的调查,是根据调查的目的与要求,在对被调查对象进 行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调 查。 27、典型调查的作用: (1)补充全面调查的不足 (2)在一定条件下可以验证全面调查数据的真实性 典型调查具有灵活机动、通过少数典型即可取得深入详实的统计资料的优点,但是 易受人们主观认识上的影响,必须同其他调查结合起来使用,才能避免出现片面性。 第二章 数据描述 1、定性数据的图形表示有: (1)饼图 (2)条形图 (3)环形图 饼图是利用圆形及圆内扇形面积来表示数值大小的图形。 条形图是用宽度相同的条形的高度或长度来表述数据多少的图形。 如果想比较不同变量之间的结构差异,可以通过环形图来实现。 定性数据的图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图示 方法,它们并不适用于定性数据。 2、频数:是指频数分布表中落在某一特定类别的数据个数。 3、生成定量数据的频数分布表的步骤: (1)对数据进行分组 (2)确定组距 (3)统计出各组的频数及频数分布表 组距是每个组变量值中的最大值与最小值之差,也就是上限与下限之差。 4、在确定组距时应掌握的原则: (1)要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。 (2)要能准确地清晰地反映总体单位的分布特征。 在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研 究的现象变动很不均匀时,一般采用不等距分组。 在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该 频数计算在与下限相同的组内。 5、定量数据的图形表示有: (1)直方图 (2)折线图(3)散点图。此外还有茎叶图,箱线图等 直方图的横坐标代表变量分组,纵坐标代表各变量值出现的频数。 (条形图各类别可 以放在纵轴,也可以放在横轴) 6、统计表的五个组成部分:3 (1)表头 (2)行标题 (3)列标题 (4)数字资料 (5)表外附加表外附加通常放在表的下方,用来说明资料的来源、指标注释和必要的说明等内容。 通常情况下,统计表的左右不能封口。 7、数据的分布特征: (1)集中趋势,即一组组数据的数值向其中心值的靠拢程度 (2)离散程度,即一组数据的各个数值远离其中心的趋势和程度 8、定性数据的集中趋势常用的计算方法:(1)百分比 (2)中位数 (3)众数 9、中位数:是数据按照大小排列之后位于中间的那个数。如果样本量为偶数,则是中 间两个数的平均。 10、众数:就是数据中出现次数或出现频率最多的数值。 11、反映定量数据特征的统计量有: 反映数据集中趋势的水平度量:(1)平均数 (2)中位数 (3)众数 (4)分位 数 反映数据离散程度的差异度量:(1)极差 (2)四分位差 (3)标准差 (4) 方差 平均数易为多数人理解和接受,实际中用的也较多,但主要缺点是更容易受少数极 端数值的影响。中位数和众数提供的信息不像平均数那样多,但具有统计上的稳健性, 当数据为偏态分布,特别是偏斜程度较大时,中位数和众数的代表性要比平均数好。 1)简单平均数: (变量值出现次数相同) 2)加权平均数: (变量值出现次数不相同) 12、极差:又称全距,是一组数据中的最大值和最小值之差。非常容易受数据中极端 值的影响。 R=Xmax-Xmin 方差用 表示,总体标准差用 表示,样本标准差用 表示,离散系数用 表示, 2 s 标准分数用 表示。 Z 未分组的计算公式 分组的计算公式 n x x 2 _ 2 ) ( f f x x 2 _ 2 ) ( 未分组的计算公式 分组的计算公式 1 ) ( 2 _ n x x s 1 ) ( 2 _ f f x x s 标准差是方差的平方根,它与方差相比更具量纲性。 在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中 程度就越差。反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程4 度就越好。 标准差的大小会受到数据本身数值大小的影响。两个数列的标准差相同,但是两数 列的差异程度却不同。为了更准确地反映差异程度,要计算离散系数。 13、离散系数:是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。 总体数据的离散系数: = 样本数据的离散系数: = _ x _ x s 14、标准分数:是变量值与其平均数的离差除以标准差后的值,用以测定某一个数据 在该组数据中的相对位置。 s x x Z i i _ 第三章 参数估计 1、总体分布:是总体中所有观测值所形成的分布。 2、总体参数:是对总体特征的某个概括性的度量。 3、总体参数指标有: (1)总体平均数( ) (2)总体方差( ) (3)总体比例( )等。 2 统计量是样本的函数。构成统计量的函数中不能包含未知因素。 4、样本统计量指标有: (1)样本均值( ) (2)样本方差( ) (3)样本比例( ) x 2 s p 统计量的概率分布构成了推断总体参数的理论基础。 5、关于样本均值的抽样分布: (1)设总体共有 个元素,从中随机抽取一个容量为 的样本,在重置抽样时,共 N n 有 种抽法;在不重复抽样时,共有 个样本。 n N )! ( ! ! n N n N C n N (2)样本均值的抽样分布就是指所有可能抽出来的样本 的分布。 x (3)样本均值的均值就是总体均值,即 。 ) (x E (4)重置抽样时,样本均值的标准差为总体标准差 的 ,即 ; n 1 n x 不重置抽样时,样本均值的方差为 1 2 2 N n N n x 为修正系数。总体为有限总体, 时,修正系数简化为 ; 1 N n N % 5 N n N n 1 时,以及无限总体时,按重置抽样计算。 % 5 N n (5)当总体服从正态分布时,样本均值一定服从正态分布,即有: 时, 。 X ) , ( 2 N x ) , ( 2 n N 从均值 ,方差为 的总体中,抽取样本量为 n 的随机样本(无论总体分布正态 2 or 非正态分布) ,当 n 30,样本均值的分布近似服从均值为 、方差为 的正 n 2 5 态分布;如果总体不是正态分布,n30,样本均值的分布则不服从正态分布。 (6)若总体为未知的非正态分布时,只要样本容量 足够大(通常要求 30),样 n n 本均值 仍会接近正态分布,其分布的期望值为总体均值,样本方差为总体方差的 x n 1 。 (7)如果总体不是正态分布,当 为小样本时(通常 30),样本均值的分布则不 n n 服从正态分布。 总体标准差 样本标准差 s 总体比例 样本比例 P 总体均值 样本均值 x 6、关于样本比例的抽样分布: 总体比例是总体中具有某种属性的单位数占全部总体单位数的比例,通常是未知的。 样本比例是随机抽取的样本中具有某种属性的单位数占全部单位数的比例,随样本不 同而不同,是个随机变量。 (1)当样本容量比较大时,样本比率 近似服从正态分布,且有 的数学期望就是 p p 总体比率,即 。 ) (p E (2)在重置抽
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号