701编号医学统计学总结-

医学统计学总结医学统计学总结一.绪论一.绪论 1，医学统计学：运用概率论和数理统计学的原理和方法，研究医学领域中随机现象有关数据的搜集、整理、分析和推断，进而阐明其客观规律性的一门应用科学。 2，医学统计学的主要内容： 1）统计研究设计调查研究设计和实验研究设计 2）医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A：资料的搜集与整理 B：常用统计描述，集中趋势和离散趋势，相对数，相关系数，回归系数，统计表，统计图 C：统计推断，如参数估计和假设检验。 3）医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic 回归与 Cox 回归分析。 3，统计工作步骤： 1）设计明确研究目的和研究假说，确定观察对象与观察单位，样本含量和抽样方法，拟定研究方案，预期分析指标，误差控制措施，进度与费用。 2）搜集材料 A，搜集材料的原则及时、准确、完整 B，统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表，二是经常性工作记录，三是专题调查或专题实验。 C，资料贮存 3）整理资料 a 检查核对 b 设计分组 c 拟定整理表 d 归表 4）分析资料统计分析包括统计描述和统计推断 4，同质（homogeneity）：指被研究指标的影响因素相同。变异(variation)：同质基础上的各观察单位间的差异。变量(variable)：收集资料过程中，根据研究目的确定同质观察单位，再对每个观察单位的某项特征进行测量或观察，这种特征称为变量变量值：变量的观察结果或测量值。变量类型变量值表现实例资料类型离散型产前检查次数数值变量连续型定量测量值，有计量单位身高计量资料二分类对立的两类属性性别（男女）无序多分类不相容的多类属性血型（A,B,O,AB）计数资料分类变量有序多分类类间有程度差异的属性受教育程度（小学，中学，高中，大学）等级资料 5，总体（population）根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是：同质性样本（sample）从总体中随机抽取部分观察单位，其变量值的集合构成样本。样本必须具有代表代表性性。代表性是指样本来自同质总体，足够的样本含量和随机抽样的前提。统计量（statistics）描述样本变量值特征的指标（样本率，样本均数，样本标准差）。参数（parameter）描述总体变量值特征的指标（总体率，标准差，总体均数）。抽样误差（sampling error）：由于个体差异的存在，即使在同一整体中随机抽取若干样本，各样本的统计量往往不等，统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误差。随机事件（random event）对随机试验的各种可能结果的集合。概率（probability）描述随机事件发生的可能性大些哦的一个度量。小概率事件若随机事件 A 的概率 P（A），习惯上，=0.05 时，就称 A 为小概率事件。其统计学意义是小概率事件在一次随机试验中认为不会发生。抽样误差抽样误差 1，抽样误差（sampling error）由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。在医学统计学中，常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差；由抽样造成的样本率与总体率之间的差异称为率的抽样误差。 2，样本均数的标准差（简称标准误，standard error）反映均数的抽样误差大小的指标。大，抽样误差大；反之，小，抽样误差小。（3.1）实际工作中往往未知的，可用样本标准差 s 作的估计值，计算标准误的估计值。（3.2） 3，标准误的用途：a，衡量样本均数的可靠性；b，估计总体均数的置信区间；3，用于均数的假设检验。 4，标准误的估计值的用途： a，描述抽样误差的大小； b，总体参数的估计； c，用来进行假设检验。 5，率的抽样误差：由抽样造成的样本率与总体率的差异称为率的抽样误差。衡量率的抽样误差大小的指标是率的标准误。越小，率的抽样误差越小；越大，率的抽样误差越大。（3.3）其中为总体率。实际工作中，由于往往是未知的，可用样本率 p 作的估计值，计算率的标准误的估计值。（3.4）。标准差（s）标准误计算公式 s= （1）表示观察值的变异程度（1）估计均数的抽样误差的大小（2）计算变异系数 CV=100% （2）估计总体均数的可信区间（，）（3）确定医学参考值范围（3）进行假设检验（4）计算标准误简述标准差、标准误的区别与联系？简述标准差、标准误的区别与联系？区别：（1）含义不同：标准差 S 表示观察值的变异程度，描述个体变量值（x）之间的变异度大小，S 越大，变量值（x）越分散；反之变量值越集中，均数的代表性越强。标准误估计均数的抽样误差的大小，是描述样本均数之间的变异度大小，标准误越大，样本均数与总体均数间差异越大，抽样误差越大；反之，样本均数越接近总体均数，抽样误差越小。（2）与 n 的关系不同： n 增大时，S 趋于（恒定），标准误减少并趋于 0（不存在抽样误差）。（3）用途不同：标准差表示 x 的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等，标准误用于估计总体均数可信区间和假设检验。联系：二者均为变异度指标，样本均数的标准差即为标准误，标准差与标准误成正比。标准差：标准误：二.分布二.分布正态分布正态分布 1，正态分布的函数其中为总体均数，为总体标准差，为圆周率，为自然对数的底，且仅为变量。以为横轴，以为纵轴，当均数和标准差已知时即可绘出正态分布曲线。为应用方便，将式中进行变量变换，使原来的正态分布变为的标准正态分布，亦称分布。被称为标准正态变量或标准正态离差，将代入上述公式即得标准正态分布的密度函数。（2.17）（2.18） 2，正态分布的特征（1）正态曲线（normal curve）在横轴上方均数处最高。（2）正态分布以均数为中心，左右对称。（3）正态分布有 2 个参数（parameter），即均数（位置）和标准差（形状）。当固定不变时，越大，曲线沿横轴越向右移动；反之，越小，则曲线沿横轴越向左移动。当固定不变时，越大，曲线越平阔；越小，曲线越尖峭。通常用 N（，）表示均数为、方差为的正态分布。用（0， 1）表示标准正态分布。（4）正态分布在1处各有一个拐点。（5）正态曲线下面积的分布有一定规律。 3，常用的两个区间：1.96及2.58的区间面积分别占总面积的 95%及 99%。 4，正态分布的应用 1），制定医学参考值范围 a,正态分布法适用于正态或近似正态分布的资料双侧界值：；单侧上界:，或单侧下界：。 b，对数正态分布法适用于对数正态分布资料双侧界值：；单侧上界：，或单侧下界 c，百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。双侧界值：和；单侧上界：，或单侧下界：。 2）正态分布是多种统计方法的理论基础如 t 分布，F 分布，分布都是在正态分布的基础上推导出来的，分布也是以正态分布为基础的。另外 t 分布，二项分布，poisson 分布的极限为正态分布，一定条件下可按正态分布原理处理。 t 分布t 分布 1，t 分布：（3.5） t 分布的特征为： 1 以 0 为中心，左右对称的单峰分布。 2 t 分布曲线形态变化与自由度的大小有关。自由度越小，则 t 值越分散，曲线越低平；自由度逐渐增大时，则 t 分布逐渐逼近正态分布（标准正态分布）。当=时， t 分布为 u 分布。t 界值表附图中非阴影部分面积的概率为： 2，总体均数的估计：用样本指标估计总体参数称为参数估计，是统计推断的一个重要方面。总体均数的估计有 2 种方法。一是直接用统计量估计总体参数，称为点值估计。由于抽样误差的存在，此法很难估计准确。二是区间估计（interval estimation）法。区间估计是按一定的概率 100（1-）%估计总体均数所在的范围，亦称可信区间（confidence interval， CI）。常取的可信度为 95%和 99%，即 95%可信区间和 99% 可信区间。计算方法有 3 种：（1）未知且 n 小按 t 分布原理用式（3.6）计算可信区间。由于将代入，得则总体均数的 100（1-）%可信区间的通式为：（3.6）或写成（，）。（2）未知，但 n 足够大时（n100） t 分布逼近 u 分布，按正态分布原理，用式（3.7）估计可信区间。（）（3.7）（3）已知按正态分布原理，用式（3.8）估计可信区间。（）（3.8）标准正态分布（标准正态分布（u 分布）与分布）与 t 分布有何异同？分布有何异同？答：相同点： t 分布和标准正态分布（u 分布）都是以 0 为中心的正态分布。标准正态分布是 t 分布的特例（自由度是无限大时）。不同点：t 分布为抽样分布，u 分布为理论分布；t 分布比标准正态分布的峰值低，且尾部翘得更高；t 分布受自由度大小的影响，随着自由度的增大，逐渐趋近于标准正态分布；t 分布有无数条曲线，而 u 分布只有唯一一条曲线。二项分布二项分布 1，二项分布（binomial distribution）是对只具有 2 种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。二项分布概率公式：（3.9）式中 n 为独立的贝努力试验次数，为成功的概率，（1-）为失败的概率，X 为在 n 次贝努力试验中出现 “成功” 的次数，表示在 n 次试验中出现 X 的各种组合数，在此称为二项系数（binomial coefficient）。 2，二项分布的应用条件：（1）各观察单位只能具有相互对立的一种结果，如阳性或阴性，生存或死亡。（2）已知发生某一结果（阳性）的概率为，其对立结果的概率为 1-，实际工作中要求是从大量观察中获得比较稳定的数值。（3）n 次试验在相同条件下进行，且各个观察单位的观察结果相互独立。 3，二项分布的性质： A，二项分布的均数和标准差在二项分布的资料中，当和 n 已知时，它的均数及其标准差如下：=n （3.11）（3.12）若均数和标准差不用绝对数表示，而是用率表示时，即对式（3.11）（3.12）分别除以 n，得：（3.13）（3.14）是样本率的标准误的理论值，当未知时，常用样本率 p 作为的估计值，则：（3.15） B，二项分布的累计概率二项分布的累计概率（cumulative probability）常用的有左侧累计和右侧累计 2 种方法。从阳性率为的总体中随机抽取 n 个个体，则（1）最多有 k 例阳性的概率（3.16）（2）最少有 k 例阳性的概率（（3.17） D，二项分布的形状取决于和 n 的大小：（1）当=0.5 时，分布对称；当0.5 时，分布呈负偏态，且固定 n 时，越