SAS统计应用基础第四讲共4讲-

第四章数据的统计描述4.1 概述4.1.1 定义统计描述是指对原始数据进行归纳整理、用相应的统计指标（如率、均数等）来反映研究对象最鲜明的数量特征的过程。有时为了达到更加直观的效果，可以通过统计图或统计表的形式来进行统计描述。计量资料计数资料：其统计描述过程主要包括计算相对指标，如率、构成比，相对比等，也可通过统计图对资料的分布情况进行描述根据所收集资料类型的不同，统计描述过程不尽相同位置参数：算术平均数（mean）、中位数(median)、众数（mode）变异指标：全距（range）、四分位数间距(interquartile)、方差（variance）、标准差（standard deviation）、变异系数（coefficient of variation）形状参数：偏度（skewness）、峰度(kurtosis)4.2 执行描述性统计功能的SAS过程描述性统计指标的计算可以用means、summary、univariate、tabulate过程来实现。相同点：均可计算均数、标准差、方差、标准误、总计、加权总计、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、缺失数据和非缺失数据个数等。均可通过by语句将数据分为若干个子数据集，从而对各子数据集分别进行独立的统计分析不同点：means、summary、univariate过程可以计算样本的偏度和峰度，而tabulate不计算。univariate过程可以计算出样本的众数，其他则不能。Summary过程执行后不会自动给出分析结果，须调用output语句和print过程来显示分析结果，而其他三个过程则会。univariate过程具有统计制图的功能，其他三个过程则没有。tabulate过程不产生输出数据文件，其他三个过程均可产生输出数据文件用例子说明univariate过程Libname a d:;Data a.data4_1;Infile d:abc.txt;Input x y z;Proc univariate;Run;quit;结果说明结果说明此部分给出了基于矩（moments）的统计量，几乎所有的常用统计量都包括在其中。列表中：左侧一列从上到下依次为：观测总数、均数、标准差、偏度、未校正的平方和、变异系数；右侧一列从上到下依次为：权重合计、观测值合计、方差、峰度、校正平方和、均数的标准误。此部分给出基本的描述性统计量，包括分布的位置参数（左侧一列）和尺度参数（右侧一列）。位置参数包括均数、中位数、众数，尺度参数包括标准差、方差、全距以及四分位数间距（interquartile range）此部分给出有关分布位置假设检验（test for location）的结果。由于程序中未设置”mu0=”选项，univariate过程将假设的位置参数设置为0.结果列表中的三行分别为students 检验、符号检验、符号秩检验，结果中分别给出了所得的检验统计量及其对应的双侧概率值。此部分给出分位数估计值的列表，标题“quantiles(definition5)”中的“definition5”是指计算分位数值所用的数学定义方法，由于proc univariate语句中未设置”pctldef=“选项，此处为默认的方法。此部分给出了极端值观测列表，极大值和极小值分别给出系统默认的5个。我们可以通过设置proc univariate语句中的”nextrval=“选项来自定义极端值的显示个数。