心理测量学教学幻灯片2014年版第3章-

心理测量学,第三章信度,第一节信度的涵义第二节测量误差的来源第三节信度的种类与估计第四节影响信度的因素第五节信度的应用,第一节信度的涵义,一、信度的定义信度（reliability）是指测量结果的稳定性和可靠性程度。即：相同被试在不同时间或场合下，重复使用同一测量工具或等价工具测量所得结果的一致性。,真分数理论,所谓真分数就是一个测量工具在测量没有误差时，所得到的纯正值。其操作定义是：经过无数次测量所得到的测量结果的平均值。真分数的定义表明，一个人在一个测验上所得的分数，即是它的真分数的函数，也是测量误差的函数，用公式表示如下： X=T+E,需要说明的是，这里的测量误差（E）指的是引起测量不一致性的变因产生的效应，即指随机误差，不包括系统误差，后者不引起分数的改变，因而包含在真值中。在公式中E可能是正的，也可能是负的。即一个人的实得分数可能大于真实量，也可能小于真实量，总是围绕真值上下波动。,真分数理论的三个假设,误差分数的平均数是零误差分数与真分数相互独立,没有任何相关两次测量的误差分数之间的相关为零,经典测量理论的假设,式中，X为观察分数，T为一般真分数，E为随机误差分数，V为目标真分数，I为非目标真分数（系统误差）。,信度的定义,测量追求的初步目标：T占X的比例越大越好。测量追求的终极目标：V占X的比例越大越好。,当T占X的比例很大时，那么测值就会是稳定的。一般来说，稳定的测值是可靠的、可信的，因此，信度可被认为是测量结果的稳定性程度。,测量分数=真分数+误差分数误差之和为零测量分数的平均数=真分数的平均数测量分数的方差等于真分数的方差与误差方差之和,在经典测量理论中，信度被定义为：一组测验分数的真变异数与总变异数（实得变异数）的比率。即 rxx=ST2 / Sx2 式中rxx代表测量的信度，ST2代表真分数的变异数， Sx2代表是实得分数的变异数，即总变异数。,该定义有两点需要注意：第一、信度指的是一组测验分数或一列测量的特性，而不是个人分数的特性；第二、真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数做出估计。信度涉及的主要问题是对测验分数意义的概化能力，即从一次测量来推论总体能达到何种正确程度。,二、描述信度的指标,1.经典测量理论的信度系数,信度系数是表示测量结果的稳定性程度的指标。记为：,信度系数的值域：0,1,没有百分之百可靠的测量，因此，rXX=1只是理论上的值，实际当中是不会存在的。,1.经典测量理论的信度系数,（1）重测信度（test-retest coefficients），是指用同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。（2）复本信度（alternative-form coefficients），是指两个平行的测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。（3）内部一致性系数（internal consistency coefficients）也叫同质性信度（homogeneity reliability），是指测验内部所有题目间的一致性程度。,2.经典测量理论的测量标准误,测量标准误差（standard error of measurement）是测量误差的假设分布的标准差。用下列公式能够容易地计算测量标准误差：,式中，St 表示测验分数的标准差，rtt表示信度系数。,第二节测量误差的来源,一、误差的概念及种类概念：心理测量中所指的误差就是在测量中与目的无关的变因所产生的不准确或不一致的效应。种类：抽样误差、系统误差、随机误差。,系统误差是由与测验目的无关的因素所引起的恒定的、系统的、有规律的变化，存在于每次测量中，故又称恒定误差。它直接影响着测量的准确性，与效度有关。因为它们在测验中不引起测量结果的不一致性，所以与信度无关。,随机误差是使用测量工具进行心理测量所造成的误差，又称测量误差、观察误差、偶然误差。它是由与测验目的无关的偶然因素引起，使得几次测量结果不一致，且这种不一致是无系统的、随机的。随机误差与信度及效度都有关系，信度则完全受随机误差影响。,二、测量误差的来源,1 测验本身引起的误差（1）测题取样不当（2）测题格式不妥（3）测题难度不适（4）测题或指导语用词不当（5）测验时限过短,2 施测过程引起的误差（1）物理环境（2）主试者方面（3）意外干扰（4）评分不客观、计算、登分失误等,二、测量误差的来源,3 受测者本身引起的误差（1）测验动机（2）焦虑水平（3）生理因素（4）学习、发展和教育（5）测验经验（6）练习效应（7）反应风格,测验长度的增加与信度的提高不是等比例的,第三节信度的种类及估计方法,信度是一个理论上构想的概念，在实际应用时，通常以同一样本所得的两组资料的相关，作为测量一致性的指标。因为测验分数的误差来源不同，估计信度的方法也不同，故每一种信度系数只能说明信度的不同方面，因而具有不同的意义。下面介绍四种估计信度的方法。,（一）定义与计算定义用同一种测验，对同一组受试者，前后施测两次，再根据受试者两次测验分数计算其相关系数，即得再测信度。即测验时距（天、月）再测验此种信度能表示两次测验结果有无变动，反映测验分数的稳定程度，故又称稳定性系数。,一、重测信度（稳定性系数）,计算方法（P147-148）计算使用皮尔逊积差相关公式的变式： rxx = 式中、为同一被试的两个分数，、为两次测验的标准差，为被试人数。,（二）误差来源 1. 测验本身：测验所测的特性本身就不稳定，例如情绪。 2. 被试方面：成熟、知识的发展并非人人都等量增长，且练习因素、记忆效果也存在个体差异。 3. 施测情境：偶发因素的干扰，如计时错误，情绪波动，健康状况，动机变化等。,（三）计算重测信度的几个假设所测量的特性必须是稳定的；遗忘与练习的效果相同；两次施测期间被试的学习效果没有差别。,（四）使用重测信度的优缺点（优点）能提供有关测验结果是否随时间而变异的资料，可作为预测受测者将来行为的依据。（缺点）容易受练习和记忆的影响，前后两次施测间隔的长短必须适度; 第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异;耗时耗精力,被试不好找。,（五）注意事项两次测验的时间间隔要适当。最适宜的时距随测验目的、性质及被试特点而异；此方法适用于速度测验或人格测验，不适于难度测验；注意提高被试的积极性。,（一）定义与计算 1. 定义根据一组被试在两个平行（等值）测验上的得分计算相关系数。即测验复份A 测验复份B 因为它反映的是两个测验之间的等值程度，故又称等值系数。如果两个版本间隔一段时间施测称为稳定性等值系数,最短时距,二、复本信度（等值系数）,2. 计算方法 rxx = ABAB AB 式中A 、B为同一被试在两个测验复份A、B上的分数，A 、B为A、B两型测验的平均分数，A 、B为A、B两型测验的标准差，N为被试人数。,（二）误差来源 1. 测验两种形式是否等值：（1）测题取样是否匹配；（2）格式是否相同；（3）内容、题数、难度、平均数、标准差是否一致。 2. 被试方面情绪波动、动机变化等。 3. 测验情境的变化,偶发因素的干扰。,（三）等值测验应符合的条件等值测验可避免重测法的缺点，但所使用的必须是真正的复本。复本应符合以下条件： 1. 各份测验测量的是同一种心理特性； 2. 各份测验具有相同的内容和形式； 3. 各份测验的题目不应有重复的地方； 4. 各份测验题目数量相等，并且有大体相等的难度、区分度； 5. 分数分布（平均数和差异度）大致相等。,（四）注意事项 1. 两个测验必须在项目的内容、形式、数量、难易、时限、指导语等方面相同或相似； 2. 两次测验的时间间隔要适当，若太短，由于测验太相似被试可能厌倦，若太长可能又会因新的学习而产生干扰。,（五）使用复本信度的局限 1. 只能减少但不能完全消除练习和记忆的影响； 2. 由于第二个测验只改变了题目的具体内容，已经掌握的解题原则，可以很容易地迁移到同类问题。 3. 对许多测验来说，建立复本是十分困难的。,（一）同质性的含义所谓同质性指的是测验内部题目的一致性。即测验里各题得分为正相关（测验里各题得分相关为零叫异质）。题目内部的一致性主要受两方面变异的影响： 1内容的一致性； 2所研究的行为的同质性。,三、内部一致性（同质性）信度,（二）分半的方法要计算分半信度，首先是如何将测验分半，以便得到最接近的可比较的两半。通常采用奇偶分半法。使用此方法应注意： 1一组解决同一问题或互相有牵连的题目应尽量安排在同一半内。 2当试卷中有任选题时不宜使用分半法，速度测验也不宜用。,校正公式分半法求得的相关仅是半个测验分数相关，应使用“斯皮尔曼布朗”公式加以校正，藉以估计整个测验的信度。 1.斯皮尔曼布朗公式 rxx=2rhh/（1+ rhh）其中，rhh为两半分数的相关系数， rxx为测验在原长度时的信度估计。此法假设：两半测验分数的变异性相等，但实际资料未必符合此假设。当两半不等值时，即上述假设不满足时，可采用下面两公式之一：,2弗朗那根公式： rxx=21-（Sa2+Sb2）/Sx2 其中Sa2和Sb2分别表示两半测验分数的变异数，Sx2表示测验总分的变异数。 3卢伦公式： rxx=1- (Sd2/Sx2) 其中Sd2表示两半测验分数之差的变异数，Sx2表示整个测验分数的变异数。,（三）同质性信度的其他计算 1库德理查逊公式：（1）K-R20公式： rkk=K/(K-1)（Sx2-piqi )/ Sx2) 式中K表示整个测验的题数，pi为项目通过率，qi为项目未通过率，Sx2表示测验总分的变异数（方差）。,（2）K-R21公式，适用于各题难度相近的情况： rkk=K/(K-1)( Sx2-K piqi)/ Sx2 pi为题目的平均通过率，qi为1-pi 。 K-R21公式计算较为简单，但求得的信度系数有低估的倾向，当题目难度相差大时偏差更大。公式K-R20和K-R21只适用于0，1记分的测验。,2克伦巴赫系数适用于非0，1记分的一种内在一致性系数。其公式如下： =K/(K-1)1-（Si2/ Sx2）其中Si2为每一项目分数的变异数，其他字母意义与K-R20相同。上面这些公式均不适用于速度测验，因为只有每个人都做完全部题目时，题目的变异数才是准确的。,内在一致性系数的使用局限性,只适合于同质性的测验特别不适合于速度测验,评分者信度是由多个评分者给一组测验结果评分，所得各个分数之间的一致性。一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上，才认为评分是客观的。,四、评分者信度,当多个评分者评多个对象，并以等级法记分时，可用肯德尔和谐系数作为评分者信度的估计： W=Rt2-（Ri)2/N/(1/12)K2(N3-N) 其中，K是评分者人数，N是被评的对象数，Rt是每一个对象被评等级的总和。,评分误差存在的严重性,严重到什么程度？历史教授的答案被评阅为“不及格” 高考作文一幅漫画的启示，67位评阅者，6至25分都有，最高分与最低分相差19分 1984年，高考作文评分调查，438位老师，4篇作文，。最高得分为41.25，最低分为20.75，标准差为2.98。 1985年，对1984年的四篇作文再研究，347位老师（有部分年参加研究的老师），最高得分为42.5，最低分为2