2022年统计学名词解释与简答题答案-

优秀学习资料欢迎下载1. 分类数据是只能归于某一类别的非数字型数据，(1 分) 它是对事物进行分类的结果，(1 分 )数据表现为类别，使用文字来表述的。(1 分) 2. 四分位数 (quartile)也称四分位点，他是一组数据排序后处于25% 和 75% 位置上的值。(1 分) 四分位数是通过3 个点将全部数据等分为4 部分， (1 分) 其中每部分包括25% 的数据。(1 分) 3. 方差分析（ analysis of variance, ANOVA）就是通过检验各总体的均值是否相等，(1 分 )来判断分类型自变量对数值型因变量是否有显著影响。(2 分) 4. 相关系数（ correlation coefficient）是根据样本数据计算的，(1分) 度量两个变量之间线性关系强度的统计量。(2 分) 5. 居民消费价格指数（consumer price index ， CPI ）是度量居民消费品和服务项目价格水平随时间变动的相对数，(1分) 反映居民家庭购买的消费品和服务价格水平的变动情况。 (2 分) 五、简答题6. 简述直方图和茎叶图的区别。答：（1）直方图虽然能很好地显示数据的分布，但不能保留原始的数值；茎叶图类似于横置的直方图，与直方图相比，茎叶图既能给出数据的分布状况，又能给出每一个原始数值，即保留了原始数据的信息。（3 分）（ 2）在应用方面，直方图通常用于大批量数据，茎叶图通常适用于小批量数据。（2 分）7. 回归分析主要解决那几个方面的问题？答：（1）从一组样本数据出发，确定出变量之间的数学关系式；（1 分）（2）对这些关系式的可信程度进行各种统计检验，并从中影响某一特定变量的诸多变量中找出哪些变量的影响是显著的，哪些是不显著的；（2 分）（3）利用这些所求的关系式，根据一个或几个变量的取值来估计或预测另一个特定变量的取值，并给出这种估计或预测的可靠程度。（2 分8. 简述概率抽样的定义及特点。答：概率抽样（probability sampling ）也称随机抽样，是指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。（ 2 分）它具有以下几个特点：首先，抽样时是按一定的概率以随机原则抽取样本。（1 分）其次，每个单位被抽中的概率是已知的，或是可以计算出来的。（1 分）最后，当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率。（1 分）9. 简述评价估计量好坏的标准。答:1 无偏性 ; （2 分）2 有效性 ; （2分）3 一致性 . （1 分）1. 顺序数据（ ran k data）是只能归于某一有序类别的（1 分）非数字型数据。（2 分）2. 抽样误差（ sampling error）是由于抽样的随机性引起的，（1 分）样本结果与总体真值之间的误差。（2 分）3. 离散系数也成为变异系数（coefficient of variation），它是一组数据的标准差与其相应的平均数之比。（1 分）其计算公式为：（1 分）精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页，共 8 页优秀学习资料欢迎下载ssvx离散系数是测度数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。（1 分）4. 置信区间（ confidence interval）在区间估计中，有样本统计量所构造的总体参数的估计区间称为置信区间，（2 分）其中区间的最小值称为置信下限。（1 分）5. 点估计。利用估计的回归方程，对于x 的一个特定值0x，求出 y 的一个估计值就是点估计。（1 分）点估计可分为两种：一是平均值的点估计；（1 分）二是个别值的点估计。（1 分）五、简答题6. 简述直方图与条形图的不同点. 答：首先，条形图是用条形的长度（横置时）表示各类别频数的多少，其宽度（表示类别）则是固定的；直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，因此其高度与宽度均有意义。（2 分）其次，由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列。（2 分）最后，条形图主要用于展示分类数据，而直方图则主要用于展示数值型数据。（1 分）7. 简述一张好的图形应具有的基本特征。答：（1）显示数据 ; （1 分）(2) 让读者把注意力集中在图形的内容上，而不是制作图形的程序上; （1 分）(3) 避免歪曲 ; （1 分）(4) 强调数据之间的比较; （1 分）(5) 服务于一个明确的目的, 有对图形的统计描述和文字说明。（1 分）8. 简述众数、中位数和平均数的关系。答：从分布的角度看，众数始终是一组数据分布的最高峰值，中位数是处于一组数据中间位置的值，而平均数则是全部数据算术平均。（2 分）因此，对于具有单峰分布的大多数数据而言，众数、中位数和平均数之间具有以下关系：如果数据的分布式对称的，众数(0M) 、中位数（eM）和平均数（x）必定相等，即0M=eM=x；（1 分）如果数据是左偏分布，说明数据存在极小值，必然拉动平均数向极小值一方靠，而众数和中位数由于是位置代表值，不受极值的影响，因此三者之间的关系表现为：xeM0M；（1 分）如果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值一方靠，则0MeMx。（1 分）9. 在多元线性回归中，选择自变量的方法有哪些？答：变量选择的方法主要有：向前选择、（2 分）向后剔除、（1 分）逐步回归、（1 分）最优子集等。（1 分）1. 系统抽样（ systematic sampling）将总体中的所有单位（抽样单位）按一定顺序排列，（1 分）在规定的范围内随机的抽取一个单位作为初始单位，（1 分）然后按事先规定好的规则确定其他样本单位，这种抽样方法被称为系统抽样。（1 分）精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页，共 8 页优秀学习资料欢迎下载2. 中心极限定理（central limit theorem）：设从均值、2( 有限 ) 的任意一个总体中抽取样本量为n 的样本，（1 分）当 n 充分大时，样本均值X的抽样分布近似服从均值为、方差2/n 的正态分布。（2 分）3. 回归模型（ regression model）对于具有线性关系的两个变量，（1 分）可以用一个线性方程来表示他们之间的关系。（ 1 分）描述因变量y 如何依赖于自变量x 和误差项的方程称为回归模型。（1 分）4. 指数平滑法（ exponential smoothing ）是通过对过去的观察值加权平均进行预测的一种方法，（1 分）该方法使t+1 期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。（2 分）5. 置信区间（ confidence interval）在区间估计中，有样本统计量所构造的总体参数的估计区间称为置信区间，（2 分）其中区间的最小值称为置信上限。（1 分）五、简答题6. 简述制作统计表应注意的几个问题答：首先，要合理安排统计表的结构，比如行标题、列标题、数字资料的位置应合理安排。（2 分）其次，表头一般应包括表号、总标题和表中数据的单位等内容。（1 分）再次，表中的上下两条横线一般用粗线，中间的其他线要用细线，这样使人看起来清楚、醒目。（1 分）最后，在使用统计表时，必要时可在表的下方加上注释，特别要注明数据来源，以表示对他人劳动成果的尊重，以备读者查阅使用。（1 分）7. 什么是假设检验中的两类错误？答：一类错误是原假设0H为真却被我们拒绝了，犯这种错误的概率用表示，所以也称错误或弃真错误；（3 分）另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概率用表示，所以也称错误或取伪错误。（2 分）8. 方差分析包括哪些类型？它们有何区别？答：根据所分析的分类型自变量的多少，方差分析可分为单因素方差分析和双因素方差分析（2 分）。当方差分析中只涉及一个分类型自变量时称为单因素方差分析。在对实际问题的研究中，有时需要考虑对试验结果的影响。（2 分）当方差分析中涉及两个分类型自变量时，称为双因素方差分析。（1 分）9. 简述构建综合评价指数的步骤答:(1) 建立综合评价指标体系；（2 分）（2）评价指标的无量纲化处理；（1 分）（3）确定各项评价指标的权重；（1 分）精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页，共 8 页优秀学习资料欢迎下载（4）计算综合评价指数。（1 分）1. 数值型数据（ metric data ）是按数字尺度测量的观察值，（ 2 分）其结果表现为具体的数。（1 分）2. 非概率抽样（ non-probability sampling ）是相对于概率抽样而言的，指抽取样本时不是依据随机原则，（ 1 分）而是根据研究目的对数据的要求，（1 分）采取某种方式从总体中抽出部分单位对其实施调查。（1 分）3. 时间序列（ time series）是同一现象在不同时间上的（2 分）相继观察值排列而成的序列。（1 分）4. 指数，或称统计指数，是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。（ 1 分）这个概念中包含两个重点：第一个要点是指数的实质是测定多项内容；（1 分）指数概念的第二个要点是其表现形式为动态相对数，既然是动态相对数，就涉及指标的基期对比，不同要素基期的选择就成为指数方法需要讨论的问题。（1 分）5. 显著性水平 (significant level)是一个统计专有名词，在假设检验中，它的含义是当原假设正确时却被拒绝的概率或风险，（1 分）其实这就是前面所说假设检验中犯弃真错误的概率，（1 分）它是由人们根据检验的要求确定的，通常取0.05或0.01，这表明，当做出接受原假设的决定时，其正确的概率为95% 或 99% 。（1 分）五、简答题6. 简述一组数据的分布特征可以从哪几方面进行测设? 答：数据分布的特征可以从三方面进行测度和描述：（ 1）是分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度；（2 分）（ 2）是分布的离散程度，反映各数据远离其中心值的趋势；（2 分）（ 3）是分布的形状，反映数据分布的偏态和峰态。（1 分）7. 简述古典概型的特征。答：（1）结果有上限。（2 分）（2）各个结果出现的可能行被认为是相同的。（3 分）8. 解释2R的含义和作用。答：怎样度量它们之间的关系强度呢？可以用组间平方和（SSA ）占总平方和（SST ）的比例大小来反映，这一比例记为2R，即2()()SSASSRSSTSS组间总其平方根R就可以用来测量两个变量之间的关系强度。（3 分）2R的平方根 ( 类似于第 11 章中介绍的相关系数r) 可以用来测量自变量与因变量之间的关系强度。根据上面的结果可以计算出R=0.591404，这表明行业与投诉次数之间有中等以上的关系。（ 2 分）9. 简述方差分析的基本步骤精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页，共 8 页优秀学习资料欢迎下载答： 1 提出假设；（2 分）2 构造检验的统计量；（1 分）3 统计决策；（1 分）4 方差分析表。（1 分）1. 泊松分布（ Poisson distribution）是用来描述在一指定时间范围内或在指定的面积或体积之内（ 2 分）某一事件出现的次数的分布。（1 分）2. 统计学是应用数学的一个分支，主要通过利用概率论建立数学模型，收集所观察系统的数据，（2 分）进行量化的分析、总结，并进而进行推断和预测，为相关决策提供依据和参考。（1 分）3. .标准差各数据偏离平均数的距离（离均差）的平均数，（1 分）它是离差平方和平均后的方根。（1 分）用表示。因此，标准差也是一种平均数，标准差是方差的算术平方根。（1 分）4. 居民消费价格指数（consumer price index， CPI ）是度量居民消费品和服务项目价格水平随时间变动的相对数，（ 2 分）反映居民家庭购买的消费品和服务价格水平的变动情况。（1 分）5. 四分位数 (quartile)也称四分位点，他是一组数据排序后处于25% 和 75% 位置上的值。（1分）四分位数是通过3 个点将全部数据等分为4 部分，（1 分）其中每部分包括25% 的数据。（1 分）五、简答题6. 简述假设检验的流程. 答：首先提出原假设和备择假设。原假设和备择假设分别为：0:3190H( 克) 0:3190H( 克）（3 分）接下来，需要确定适当的检验统计量，并计算其数值。（ 1分）最后可以进行统计决策。（1 分）7. 说明计算2统计量的步骤。答：步骤一：用观察值0f减去期望值ef；（2 分）步骤二：将0()eff之差平方；（1 分）步骤三：将20()eff的结果除以；（1 分）步骤四 ; 将步骤三的结果加总。（1 分）8. 简述时间序列的构成要素答：时间序列的成分可以分为四种，即趋势（T）、（2 分）季节性或季节变动（S）、（1分）周期性或循环波动（C）、（1 分）随机性或不规则波动（I ）。（1 分）精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页，共 8 页优秀学习资料欢迎下载9. 简述假设检验中P值的含义。答：如果原假设H0是正确的，（1 分）所得到的样本结果会像实际观测结果那么极端或更极端的概率，称为P值。（2 分）P值是假设检验中的另一个决策工具，对于给定的显著性水平，若 P ，则拒绝原假设。（2 分）1非概率抽样（non-probability sampling）是相对于概率抽样而言的，指抽取样本时不是依据随机原则，（1 分）而是根据研究目的对数据的要求，采取某种方式从总体中抽出部分单位对其实施调查。（2 分）2置信区间（ confidence interval）在区间估计中，有样本统计量所构造的总体参数的估计区间称为置信区间，（2 分）其中区间的最小值称为置信下限。（1 分）3. 方差分析（analysis of variance, ANOVA）就是通过检验各总体的均值是否相等，（1分）来判断分类型自变量对数值型因变量是否有显著影响。（2 分）4股票价格指数，反映某一股票市场上多种股票价格变动趋势的一种相对数，（2 分）简称股价指数，其单位一般用“点”表示。（1 分）5独立性检验，对两个分类型变量是否存在相依关系的检验。（2 分）如果存在相依关系，有必要对这种相关性进行进一步测定。（1 分）五、简答题6. 答：判定系数2R测度了回归直线对观测数据的拟合程度。若所有观测点都落在直线上，残差平方和SSE=0, 2R=1，拟合是完全的；（2 分）如果y 的变化与x 无关， x 完全无助于解释 y 的变差，此时? yy, 则2R=0. 可见2R的取值范围是0,1。2R越接近于1，表明回归平方和占总平方和的比例越大，回归直线与各观察点越接近，用 x 的变化来解释y 值变差的部分就越多，回归直线的拟合程度就越好；（2 分）反之，2R越接近于0，回归直线的拟合程度就越差。（1 分）7. 答：第一步：确定时间序列所包含的成分，也就是确定时间序列的类型。（2 分）第二步：找出适合此类时间序列的预测方法。（1 分）第三步：对可能的预测方法进行评估，以确定最佳预测方案。（1 分）第四步：利用最佳预测方案进行预测。（1 分）8. 答：（1）条形图是用条形的长度或高度表示各类别频数的多少，其宽度则是固定的；直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，因此其高度与宽度均有意义。（2 分）（2）直方图的各矩形通常是连续排列，而条形图则是分开排列。（1 分）（3）条形图主要用于展示分类数据，而直方图则主要用于展示数值型数据。（2 分）9. 答；在计算一组商品价格的综合指数时，把作为权数的销售量固定在基期计算的指数称为拉式价格指数。（3 分）在计算一组商品价格的综合指数时，把作为权数的销售量固定在报告期计算的指数称为帕式价格指数。（2 分）1. 参数：用来描述总体特征的概括性数字度量，（2 分）是研究者想要了解的总体的某种特征值。（1 分）2. 截面数据，在相同或近似相同的时点上收集的数据，（2 分）它描述的是现象在某一时刻的变化情况。（ 1分）3. 股票价格指数，反映某一股票市场上多种股票价格变动趋势的一种相对数，（2 分）简称股价指数，其单位一般用“点”表示。（1 分）精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页，共 8 页优秀学习资料欢迎下载4. 中心极限定理（central limit theorem）：设从均值、2(有限 )的任意一个总体中抽取样本量为 n 的样本，（2 分）当 n 充分大时，样本均值X的抽样分布近似服从均值为、方差2/n 的正态分布。（1 分）5. 数值型数据（metric data）是按数字尺度测量的观察值，（2 分）其结果表现为具体的数值。（1 分）五、简答题6. 答：指数平滑法是对过去的观察值加权平均进行预测的一种方法，（2 分）该方法使得第t+1 期的预测值等于t 期的实际观察值与第t 期预测值的加权平均值。（2 分）一次指数平滑法是适合平稳序列的一种预测方法，其模型为：Ft+1= Yt+(1-)Ft （1 分）7. 答：如果原假设H为正确的，所得到的样本结果会像实际观测结果那么极端获更极端的概率，称为 P值。（ 2分） P值是假设检验中的另一个决策工具，对于给定的显著性水平，若 P，则拒绝原假设。（3 分）8. 答：直方图虽然能显示数据的分布情况，但不能保留原始数据。（ 2 分）茎叶图类似于横置的直方图，与直方图相比茎叶图既能显示数据的分布情况，又能显示原始数据，既保留了原始数据的信息。（2 分）在应用方面，直方图适用于大批量的数据，茎叶图适用于小批量的数据。（1分）9. 答：确定时间序列所包含的成分，既确定时间序列的类型。（2 分）找出适合此类时间序列的预测方法。（1 分）对可能的预测方法进行评估，以确定最佳方案。（1 分）利用最佳方案进行预测。（1 分）1. 错误，原假设为伪却在检验中未拒绝原假设，（2 分）又称取伪错误或第类错误，用表示其概率。（1 分）2. 指数，或称统计指数，是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。（ 1 分）这个概念中包含两个重点：第一个要点是指数的实质是测定多项内容；（1 分）指数概念的第二个要点是其表现形式为动态相对数，既然是动态相对数，就涉及指标的基期对比，不同要素基期的选择就成为指数方法需要讨论的问题。（1 分）3方差分析（analysis of variance, ANOVA）就是通过检验各总体的均值是否相等，（ ,2分）来判断分类型自变量对数值型因变量是否有显著影响。（1 分）4. 股票价格指数，反映某一股票市场上多种股票价格变动趋势的一种相对数，（2 分）简称股价指数，其单位一般用“点”表示。（1 分）5. 回归模型（ regression model）对于具有线性关系的两个变量，可以用一个线性方程来表示他们之间的关系。（2 分）描述因变量y 如何依赖于自变量x 和误差项的方程称为回归模型。（1 分）五、简答题6. 答：确定并分离季节成分。（2 分）建立预测模型，并进行预测。（2 分）计算出最后的预测值。（ 1 分）7. 答：因变量余字变量之间有线性关系。（1 分）精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页，共 8 页优秀学习资料欢迎下载在重复抽样中，自变量的取值是固定的，即假定x是非随机的。（1 分）误差项是一个期望值为0 的随机变量，即0)(E。（1 分）对于所有的x值，的方差都相同。（1 分）误差项是一个服从正态分布的随机变量，且独立，即），（20 N（1 分）8. 答：在计算一组商品价格的综合指数时，把作为权数的销售量固定在基期计算的指数称为拉氏价格指数。（3 分）在计算一组商品价格的综合指数时，把作为权数的销售量固定在报告期计算的指数称为帕氏价格指数。（2 分）9. 答：从分布的角度看，众数始终是一组数据分布的最高峰值，中位数是处于一组数据中间位置的值，而平均数则是全部数据算术平均。（2 分）因此，对于具有单峰分布的大多数数据而言，众数、中位数和平均数之间具有以下关系：如果数据的分布式对称的，众数 (0M) 、中位数（eM）和平均数（x）必定相等，即0M=eM=x；（1 分）如果数据是左偏分布，说明数据存在极小值，必然拉动平均数向极小值一方靠，而众数和中位数由于是位置代表值，不受极值的影响，因此三者之间的关系表现为：xeM0M；（1 分）如果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值一方靠，则0MeMx。（1 分）精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页，共 8 页