心理测量学二教学讲义-

心理测量学(二),版权所有仅限百年心理咨询师班学员下载复习使用,测验的信度,第一单元信度的概念第二单元信度评估的方法第三单元信度与测验分数的解释第四单元影响信度的因素,一、信度的定义信度是指同一被试者在不同时间内用同一测验（或用另一套相等的测验）重复测量，所得结果的一致程度。在测量理论中，信度被定义为：一组测量分数的真分数方差与总方差（实得分数的方差）的比率。,低信度低效度,高信度低效度,高信度高效度,二、信度的指标（二）测量标准误测量误差分布的标准差，即为测量的标准误。,信度评估的方法,一、重测信度二、复本信度三、内部一致性信度四、评分者信度,信度的类型与估计方法,重测信度（test-retest reliability）又称稳定性系数。它的计算方法是采用重测法，即使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数。最适宜的时距随测验的目的、性质和被试特点而异，一般是两周到四周较宜，间隔时间最长不超过六个月。,复本信度（alternate-form reliability）又称等值性系数，它是以两个等值但题目不同的测验（复本）来测量同一群体，然后求得被试者在两个测验上得分的相关系数，这个相关系数就代表了复本信度的高低。如果两个复本的施测相隔一段时间，则称稳定与等值系数。在计算复本信度时，应该有半数的被试先作A本再作B本，另一半被试先作B本再作A本，由此可以抵消施测顺序的效应。,信度的类型与估计方法,内部一致性信度（internal consistency reliability）分半信度（split-half reliability）是在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。分半法经常会低估信度，必须修正，借以估计整个测验的信度。同质性信度（homogeneity reliability）同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，则测验为同质的。相反，即使所有题目看起来好象测量同一特质，但相关很低或为负相关时，则测验为异质的。,信度的类型与估计方法,评分者信度（scorer reliability）随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的。当多个评分者评定多个对象，并以等级法记分时，可采用肯德尔和谐系数作为评分者信度的估计。,信度的类型与估计方法,信度与测验分数的解释,一、解释真实分数与实得分数的相关二、确定信度可以接受的水平三、解释个人分数的意义四、比较不同测验分数的差异,解释真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。确定信度可以接受的水平当rxx0.70时，测验不能用于对个人作出评价或预测，而且不能作团体比较；当0.70rxx0.85时，可用于团体比较；当rxx0.85时，才能用来鉴别或预测个人成绩或作为。,信度与测验分数的解释,解释个人分数的意义其一是估计真实分数的范围；其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。比较不同测验分数的差异这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。,信度与测验分数的解释,影响信度的因素,一、样本特征（一）样本团体异质性的影响（二）样本团体平均能力水平的影响二、测验长度（一）测验越长测题取样或内容取样越有代表性。（二）测验越长被试的猜测因素影响就越小。,散布图,整段范围,低,高,影响信度的因素,三、测验难度难度与信度不存在简单的对应关系。如果因为难度过大或过小，造成分数范围缩小，可使信度降低。四、时间间隔再测法求信度，间隔时间越短信度系数越大；间隔时间越久，信度系数越低。,注意事项,斯皮尔曼-布朗公式为校正分半信度的经验公式，它的假设是两半测验分数的变异数相等。当假设不成立时，可用下列两种公式之一，直接求得测验的信度系数。弗朗那根（Flanagan）公式：卢伦（Kulon）公式：对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干相对异质的分测验，使每个分测验内容具有同质性。,信度系数与误差来源,一个假想测验的误差变异来源分析,测验的效度,第一单元效度的概念第二单元效度评估的方法第三单元效度的功能第四单元影响效度的因素,（一）理论定义效度指的是测量的准确性，即一个测验或量表能够实际测量出其所要测量的东西的程度，或指所测量的与所要测量的心理特点之间的符合程度。效度所要回答的基本问题是： 1.这个测验测量什么特性？ 2.它对所要测量的特性测得有多准？,一、效度的定义,招飞举例,2 8 5,2,SX= ST + SE,评分者对不同个体测试结果打分,每个人的分数都不一样,误差方差,真实方差,信度,SX= ST + SE,效度,SX= SV + SI + SE,随机误差,有效方差 SV,系统误差 SI,（二）操作定义,与测验目的有关的有效SV2和实得SX2的比值,效度,效度定义,测到欲测东西的程度,效度,效度定义,是测量的随机误差和系统误差的综合反映。,（一）效度具有相对性任何测验的效度都是针对一定的目标而言。（二）效度具有连续性只有程度上的不同，没有“全有”或“全无”的区别。测验效度是测验结果的有效性程度。,二、效度的性质,（三）判断一个测量是否有效要从多方面收集证据。证伪主义（四）效度和信度一样，也是针对测验结果而言的，是指一列测量的特性。（五）效度和信度一样，也是一个构想概念。,（三）信度与效度的关系,1.信度是效度的必要条件而非充分条件,ST2,SX2,ST2,SX2,ST2,rxy rxx,rxy rxx,rxy rxx,SE， ST， rxx,信度高，给 SV 增加提供可能能否提高效度，再看SI大小信度高不一定效度高效度要高，SV须占较大比重，ST 效度高，信度必高,ST2,信效度关系,2.测量的效度受它的信度制约,效度估计,由于测量效度是就测量结果达到测量目的的程度而言的，所以测量效度的估计在很大程度上取决于人们对测量目的的解释。,效度的发展历史,效度的分类,测量效度是就测量结果达到测量目的的程度而言，常见的解释角度有三种：一、用测量的内容来说明目的-内容效度二、用工作实效来说明目的-效标关联效度或实证角度三、用心理学上某种理论结构来说明目的-构想效度或结构效度,一、内容效度,定义应用范围特点估计方法评价,(content validity),什么是内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。这种测验的效度主要与测验内容有关，故而得名。,1. 来源： 19世纪20年代，人们越来越关注测验对于具体目标课程的代表性高低上。于是在30年代初，“课程效度（curricular validity）”被引入，后更名为“内容效度”。 2. 含义：内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。,3. 内容域（content domain）、行为域指我们所要测量的内容或行为，它依据测量目的而定，它通常包括欲测的知识范围，以及该范围内各知识点所要求掌握的程度两个方面。,表3-1 差异量测验的双向细目表,4.测验具有高内容效度必须具备两个条件内容范围明确（知识和技能）例如人的忧虑性包括哪些表现？从哪些范围界定内容（从临床观察、病人自述、医生病历、文献报道、调查观察等发现共性行为特点），再例如韦氏智力测验包括言语和操作等内容，言语和操作又包括常识、词汇、理解、类同、背数、算术及填图、拼图、积木、排列图画、数字符号等。测验题目必须是代表性取样例如韦氏智力测验言语分测验只包括讲故事，算术测验只考加减，没有乘除；或考试测验讲过的不考，没讲的考了一大堆。或一学期下来要求掌握3000个单词，结果考了其中的100个单词全是人名和地名，代表性太差。,应用范围,1.内容效度主要应用于学绩测验，因为在这种测验中，题目取样的代表性问题是内容效度的主要考察方面。例如考试都有大纲及所占比例 2.内容效度也适合于某些用于选拔和分类的职业测验。例如选拔机械师，需要制图、机械操作等方面内容 3.内容效度不适合用于能力倾向测验和人格测验。因为能力倾向测验和人格测验的内容域难以具体界定。因为能力和人格没有固定的表现，体现在方方面面。,（三）内容效度的特性内容效度与所有效度一样，并非普遍适用。只有编制者与使用者定义的内容范围相同，编制者报告的内容效度对使用者才有意义。内容效度也有时间上的特定性。例如韦氏智力测验过去有8分钱邮票的题，再例如六级词汇大纲在不断变化。内容效度并不一定要求测验总是高度同质性，假如是测量某一特定心理特质如内向需要同质，但对涵盖多种内容的测验只要求细目之内高度同质性即可，例如智力测验。,表面效度是在受测者、使用测验的行政人员及其他没有受过专门训练的观察者从表面上看测验题目与测量目的是否一致。内容效度是由有资格的判断者（专家）详尽地、系统地对测验作评价而建立的。虽然二者都是根据测验内容做出的主观判断，但判断的标准不同。在编制测验时，表面效度是一个必须考虑的特性。,内容效度常与表面效度,内容效度的评估方法 1、专家判断法 2、统计分析法独立测验相关法平行测验相关法再测法 3、经验推测法这种效度是通过实践来检验效度,1、专家判断法（逻辑分析法）定性研究含义：专家对测题与原定内容范围的吻合程度作出判断。即逻辑效度具体步骤：明确欲测内容的总体范围，包括知识范围和能力要求；编制双向细目表，确定内容的具体细节各自所占的比例；并与每个题目所测内容进行对照；制定评定量表，考核覆盖率、难度、题型等；由每位评判者在评定量表上作出判断。,内容效度的评估方法,无良好的数量指标描述这种符合性的程度；不同专家对同一测验内容效度的判断可能不一致；不同专家对内容范围会有不同的理解。,专家判断法局限,2、统计分析法独立测验相关法计算两个评分者之间评定的一致性（评分者信度），虽然考察的是评分者的判断信度，但由于来自两个独立的评判者，因此符合程度越高越能反映测验的内容效度。平行测验相关法-克伦巴赫从同一个教学内容总体抽取两套独立的平行测验，求两个测验之间的相关（复本信度）。 r高：内容效度 r低：至少一个缺乏内容效度,内容效度的评估方法,2、统计分析法再测法（测验-学习-再测验）在被试学习某种知识之前作一次测验（如学习标准分数之前考标准分数知识），学过该知识后再作同样的测验。若后测成绩显著优于前测成绩，则说明所测内容正是被试新近所学内容，进而证明该测验对这部分内容而言具有较高的内容效度。,内容效度的评估方法,3、经验推测法这种效度是通过实践来检验效度检查不同年级被试总分与每题分数变化情况，若随年级增高总分和每题通过率也升高，可推论该测验基本测量了教学内容和目标。检查不同年龄儿童测验分数的变化情况，是否随年龄增长而增加。检查不同平时学习成绩被试本次测验分数的变化情况，是否平时学习成绩好的本次分都较高。如一个平时语文学的很好的孩子本次语文测验考了20分，而一个差等生本次考了90分。,内容效度的评估方法,内容效度的评价,内容效度基于专业的判断，它只涉及测验和内容范围之间的关联程度，以及测验题目的代表性问题。没有把被试在测验上是如何表现的考虑在内。内容效度提供的证据，