资源预览内容
第1页 / 共11页
第2页 / 共11页
第3页 / 共11页
第4页 / 共11页
第5页 / 共11页
第6页 / 共11页
第7页 / 共11页
第8页 / 共11页
第9页 / 共11页
第10页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第一章 导论1. 什么是统计学? 统计学是搜集、处理、分析、解释数据并从中得出结论的科学。2. 解释描述统计与推断统计。 描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。推断 统计研究的是如何利用样本数据来推断总体特征的统计方法。3. 统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以 分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和 时间序列数据。4. 解释分类数据、顺序数据和数值型数据的含义。 分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别 的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的 数值。5. 举例说明总体、样本、参数、统计量、变量这几个概念。 总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合, 参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数 字度量,变量是用来说明现象某种特征的概念。6. 变量可分为哪几类? 变量可分为分类变量、顺序变量和数值型变量。分类变量是说明书屋类别的一个名 称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数 据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。7. 举例说明离散型变量和连续型变量。 离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断 开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取 值是连续不断的,不能一一列举,如“温度”等。第二章 数据的搜集1. 什么是二手资料?使用二手资料需要注意些什么? 与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二 手资料。使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时 要注明数据来源。2. 比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么 情况下适合采用非概率抽样。概率抽样:指遵循随机原则进行的抽样,总体中每一个单位都有一定的机会被选入 样本。当用样本对总体进行估计时,要考虑每个单位样本被抽中的概率。技术含量和 成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数 的置信区间,就使用概率抽样。非概率抽样:指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求, 采用某种方式从总体中抽取部分单位对其进行实施调查。操作简单、时效快、成本 低。而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究,调查 结果用于发现问题,为更深入的数量分析提供准备。3. 调查中搜集数据的方法主要有自填式、面访式、电话式。除此之外,还有哪些搜集数 据的方法?试验式和观察式。4. 自填式、面访式、电话式调查各有什么利弊? 自填式优点:调查组织者管理容易;成本低,可进行大规模调查;减少被调查者回 答敏感问题的压力。缺点:返回率低;调查内容有限;调查周期长;在数据搜集过程 中遇见问题不能及时调整。面访式优点:回答率高;数据质量高;在调查过程中遇见问题可以及时调整。缺成点本: 比较高;搜集数据的方式对调查过程的质量控制有一定难度;对于敏感问被题访,者会 有压力。电话式优点:对调查员比较安全;对访问过程的控制比较容易。缺点:实施地区有 限;调查时间不能过长;使用的问卷要简单;被访者不愿回答时,不易劝服。5. 你认为应当如何控制调查中的回答误差? 对于理解误差,我会学习一些心理学知识;对于记忆误差,我会尽量去缩短所涉及 的时间范围;对于有意识误差,要做好被调查者的心理工作,要遵守职业道德,为 被调查者保密,尽量在问卷中不涉及敏感问题。6. 怎样减少无回答?请通过一个例子说明你所考虑到的减少无回答的具体措施。 对于随机误差,要提高样本容量;对于系统误差,只有做好准备工作并做好补救措 施。第三章 数据的图表展示1. 数据的预处理包括哪些内容? 数据审核(对于原始数据:完整性和准确性;对于二手数据:实用性和实效、性数)据 筛选和数据排序。2. 分类数据和顺序数据的整理和图示方法各有哪些? 分类数据:制作频数分布表,用比例、百分比和比率等进行描述性分析,可用条形 图、帕累托图、饼图和环形图进行图示分析。顺序数据:制作频数分布表,用比例、百分比、比率、累计频数和累计频率等进行描 述性分析,可用条形图、帕累托图、饼图、累计评书分布图和环形图进行分析。3. 数值型数据的分组方法有哪些?简述组距分组的步骤。 分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。分 组步骤:确定组数确定组距根据分组整理成频数分布表。4. 直方图与条形图有何区别? 条形图使用的长度表示各类别频数的多少,其宽度固定;直方图用面积表示各组频 数,矩形的高度表示魅族的频数或频率,宽度表示组距。直方图各矩形连续排列, 条形图分开排列。直方图主要展示数值型数据。5. 绘制线图应注意哪些问题? 时间在横轴,观测值在纵轴。一般是长宽比例 10:7 的长方形,纵轴下端一般从 0 开始,数据与 0 距离过大的话用折断符号折断。6. 饼图和环形图有什么不同? 饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列。7. 茎叶图与直方图相比有什么优点?他们的应用场合是什么? 茎叶图既能给出数据的分布情况,又能给出每个原始数据,即保留了原始数据的信 息。茎叶图通常适用于小批量数据,直方图适用于大批量数据。8. 鉴别图表优劣的准则有哪些? 显示数据;有助于洞察问题的本质;使复杂的观点得到简明、确切、高效的阐述; 快速高效地给读者提供大量的信息;多维的;表述数据的真实情况。9. 制作统计表时应注意哪几个问题? 合理安排统计表结构;表头一般包括表号、总标题和表中数据的单位等内容;在使 用统计表时,必要时可在下方加注释注明数据来源。第四章 数据的概括性度量1. 一组数据的分布特征可以从哪几个方面进行测度? 可以从数据分布的集中趋势、离散程度和分布的偏态与峰态三个方面进行测量。集 中其实反映了各数据向其中心支靠拢或聚集的程度;离散程度反映了各数据原理其中 心值的趋势;偏态与峰态反映了数据分布的图像形状。2. 简述众数、中位数和平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数只有在 数据量较多时才有意义。主要适合作为分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受极端值影响,当数据分布的偏斜较大 时,可以使用中位数。主要适合作为顺序数据的集中趋势测度值。 平均是是针对数值型数据计算的,而且利用了全部数据信息。当数据呈对称分布或 接近对称分布时,三个代表值相等或接近相等,这时应选平均数作为集中趋势的代表 值。但平均数的主要缺点是易受极端值的影响;对于偏态分布的数据,平均数的代表 性较差。3. 简述异众比率、四分位差、方差或标准差的应用场合。 异众比率主要用于测量分类数据的离散程度;四分位差主要用于测量顺序数据的离 散程度;方差或标准差主要用于测量数值型数据的离散程度。4. 标准分数有哪些用途? 标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行 处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群 数据。5. 为什么要计算离散系数? 方差和标准差是反映数据离散程度的绝对值,一方面其数值大小受原变量值本身水 平高低的影响;另一方面,他们与原变量的计量单位相同,采用不同计量单位的变量 值,其离散程度的测度值也就不同。6. 测度数据分布形状的统计量有哪些? 对于分布形状的测度有偏态和峰态。测度偏态的统计量是偏态系数;测度峰态的统 计量是峰态系数。第五章 概率与概率分布1. 频率与概率有什么关系?在相同条件下随机试验兀次,某事件出现m次,贝吐匕值称为该事件发生的频率。随 n着兀的增大,该频率围绕某一常鄴波动,且波动幅度逐渐减小,趋于稳定,这个频 率的稳定值即为该事件的概率。第六章 统计量及其抽样分布1. 什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数?统计量:设右,X2,,X九是从总体X总抽取的容量为n的一个样本,如果由此样本构造 一个函数心,X,不依赖于任何未知参数,贝0称函類(,X2,,晳)是一个 统计量。由样本构造具体的统计量,实际上是对样本信息进行加工并集中到统计量的取值上 便于通过统计量推断总体参数。由于样本已经抽出,故统计量总是知道的,因此统计量不含有任何未知参数。2. 简述才2分布 t分布 F分布及正态分布之间的关系。正态分布:Z= 匕川(0,1),贝吆W(“,r)a才2分布:设随机变量X,X2,X他相互独立,且Xj(i=l,2,兀)服从标准正态分布 W(O,1),贝他们的平方和Sn=1%2服从自由度为兀的才2分布。t分布:设随机变量xw(o,i), 丫才2(兀),且x与丫独立,贝01= J其分布称为r分 Vk/h布。F分布:设随机变量丫与Z相互独立,且丫与Z分别服从自由度为m和兀的才2分布,贝0X= 丫加=莎F(m.兀)Z/n mZ3. 什么是抽样分布?在总体X的分布类型已知时,若对任一自然数都能导出统计量=珥禺,) 的分布的数学表达式,这种分布称为精确的抽样分布。4. 简述中心极限定理的意义。中心极限定理:设从均值为冷方差为的一个文艺总体中抽取容量为兀的样本,当 兀充分大时,样本均值的抽样分布近似服从均值为i,方差为比/兀的正态分布。意 义:是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态 分布的条件。第七章 参数估计1. 解释估计量和估计值。 估计量:用于估计总体参数的随机变量。 估计值:估计参数时计算出来的统计量的具体值。2. 简述评价估计量好坏的标准。无偏性:估计量抽验分布的数学期望等于被估计的总体参数。有效性:对同一总体参数的连个无偏点估计量,有更小标准差的估计量更有效。一 致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。3. 怎样理解置信区间?由样本统计量所构造的总体参数的估计区间。4. 解释95 -的置信区间。用某种方法构造的所有区间中有95%的区间包含总体参数的真值。5. z 二的含义是什么?Q/2血z/2是标准正态分布上侧面积为a/2的z值,公式是统计总体均值时的边际误差。6. 解释独立样本和匹配样本的含义。独立样本:两个样本是从两个总体总独立抽取的。匹配样本:一个样本中的数据与另一个样本中的数据相对应。7. 在对两个总体均值之差的小样本估计中,对两个总体和样本都有哪些假定?两个总体都服从正态分布;两个随机样本独立地分别抽自两个总体。8. 简述样本量与置信水平、总体方差、估计误差的关系。样本量与置信水平成正比,与总体方差成正比,与估计误差的平方成反比。第八章假设检验1. 假设检验和参数估计有什么相同点和不同点?参数估计和假设检验是统计推断的两个组成部分,他们都是利用样本对总体进行某 种推断,然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方 法,总体参数在估计前是未知的;而在假设检验中,则是先对参数的值提出一个假 设,然后利用样本信息去检验这个假设是否成立。2. 什么是假设检验中的显著性水平?统计显著是什么意思?显著性水平是指当原假设正确时却被拒绝的概率和风险,统计限制等价拒绚o,指求 出的值落在小概率的区间上,一般是落在0.05或比0.05更小的显著性水平上。3. 什么是假设检验中的两类错误?
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号