第四章测量信度PPT课件-

第四章测量信度第一节信度的定义一、什么是信度n信度指测量结果的稳定性、一致性程度。一信度指测量结果的稳定性、一致性程度。一个好的测量工具必须具备好的信度，也就是个好的测量工具必须具备好的信度，也就是说它多次测量的结果应该相对的稳定、一致。说它多次测量的结果应该相对的稳定、一致。 n信度反映的是测量中随机误差的大小信度反映的是测量中随机误差的大小。随机。随机误差小，则信度高；反之，则信度低。误差小，则信度高；反之，则信度低。1 1、信度系数可定义为一个被测团体的真分数方、信度系数可定义为一个被测团体的真分数方差与观测分数方差之比。（差与观测分数方差之比。（理论定义理论定义） r rxxxx = = s s2 2T T / s/ s2 2x x (r (rxxxx为信度系数为信度系数) )观测观测分数分数方差方差真分数方差真分数方差二、用统计术语谈信度问题n一个能力测验用于人才招聘，经检验它的信一个能力测验用于人才招聘，经检验它的信度为度为0.900.90 ，如何理解这个信度系数的含义？，如何理解这个信度系数的含义？n0.900.90的信度系数表明，在不同的招聘候选人的信度系数表明，在不同的招聘候选人之间进行比较，候选人测验分数的之间进行比较，候选人测验分数的90%90%差别是差别是由于个体之间真实的能力差异所导致的，而由于个体之间真实的能力差异所导致的，而10%10%差别是由于随机误差所导致。差别是由于随机误差所导致。2 2、信度是一个被试团体的真分数与实得分数的、信度是一个被试团体的真分数与实得分数的相关系数的平方。（相关系数的平方。（理论定义理论定义） r rxxxx = = p2tx (r (rxxxx为信度系数为信度系数) )观测观测分数分数方差方差真分数方差真分数方差3 3、信度系数等于一个测验、信度系数等于一个测验X X与它的任意一个平与它的任意一个平行测验行测验XX的相关系数（的相关系数（操作定义操作定义） r rxx xx = r= rxxxx (r (rxxxx为信度系数为信度系数) ) n采用不同的方式计算相关系数，就得到不同采用不同的方式计算相关系数，就得到不同类型的信度系数。类型的信度系数。n信度值在信度值在0 01.001.00之间，当信度系数等于之间，当信度系数等于1.001.00时，表示测验完全可靠；当信度系数等于时，表示测验完全可靠；当信度系数等于0 0时，时，则表示测验根本不可靠。则表示测验根本不可靠。第二节第二节信度的种类及其估计方信度的种类及其估计方法法n采用不同的方法来计算相关系数，就会得到不采用不同的方法来计算相关系数，就会得到不同类型的信度指标：重测信度、复本信度、同类型的信度指标：重测信度、复本信度、分半信度、同质性信度、评分者信度。分半信度、同质性信度、评分者信度。n五种信度的含义和计算方法各异，我们在使用五种信度的含义和计算方法各异，我们在使用时要特别注意每一种信度的特定内涵和适用时要特别注意每一种信度的特定内涵和适用范围。范围。一、重测信度u重测信度重测信度(Test-retest Reliability)(Test-retest Reliability)指的是用指的是用同一个量表对同一组被试施测两次所得结果的同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测一致性程度，其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。验上所得分数的皮尔逊积差相关系数。相关系数施测再施测时间间隔重测信度的计算公式与使用前提v采用重测信度作为信度指标，必须满足以下前提：采用重测信度作为信度指标，必须满足以下前提：（1 1）测验所测的特征必须是稳定的；）测验所测的特征必须是稳定的；（2 2）遗忘和练习的效果基本相互抵消；）遗忘和练习的效果基本相互抵消；（3 3）在两次施测的间隔期内，被试所要测查的特征）在两次施测的间隔期内，被试所要测查的特征没有获得更多的学习和训练；没有获得更多的学习和训练；（4 4）被试有条件接受两次相同的测验，取决于时间、）被试有条件接受两次相同的测验，取决于时间、经费等因素。经费等因素。 10名学生幸福感调查的两次施测分数名学生幸福感调查的两次施测分数ABCDEFGHIJ161513131110109871516141210911867X1X2二、复本信度 n复本信度复本信度(Alternate-form Reliability)(Alternate-form Reliability) 指用两个平行测验测量同一批被试所得结果的指用两个平行测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复一致性程度。其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。本测验上所得分数的皮尔逊积差相关系数。施测型施测型相关系数连续施测或间隔施测两种复本信度u等值性系数等值性系数：如果两个平行测验连续施测，如果两个平行测验连续施测，则这种复本信度为等值性系数。它反映的是则这种复本信度为等值性系数。它反映的是两个平行测验的题目差异所带来的变异情况。两个平行测验的题目差异所带来的变异情况。u稳定性与等值性系数稳定性与等值性系数：如果两个平行测验是如果两个平行测验是间隔一段时间后施测，则这种复本信度为稳间隔一段时间后施测，则这种复本信度为稳定性与等值性系数。它反映题目差异与时间定性与等值性系数。它反映题目差异与时间间隔两方面所带来的变异情况，影响因素更间隔两方面所带来的变异情况，影响因素更多。一般而言，稳定性与等值性系数最为严多。一般而言，稳定性与等值性系数最为严格，它的值也最低。格，它的值也最低。采用复本信度的条件n要构造出要构造出2 2份或份或2 2份以上真正平行的测验。份以上真正平行的测验。n被试有条件接受两次以上的测验。被试有条件接受两次以上的测验。复本信度的优缺点优点：优点：1、减少了记忆效应和练习效应。、减少了记忆效应和练习效应。2、适用于追踪研究的多次测量。、适用于追踪研究的多次测量。3、减少了辅导的可能性。、减少了辅导的可能性。缺点：缺点：1、编制复本测验的难度较大。、编制复本测验的难度较大。2、被试要有接受两次以上测验的条件和意愿。、被试要有接受两次以上测验的条件和意愿。三、分半信度n分半信度分半信度(Split-half Reliability)(Split-half Reliability)指将一指将一个测验分成个测验分成对等对等的两半后，所有被试在这两的两半后，所有被试在这两半上所得分数的一致性程度。半上所得分数的一致性程度。n最常用的分半方法是奇、偶分半，即奇号题最常用的分半方法是奇、偶分半，即奇号题组成组成“半个测验半个测验”，偶号题组成另外的，偶号题组成另外的“半半个测验个测验” ” ，计算被试团体在这两个，计算被试团体在这两个“半个半个测验测验”上得分的相关系数，上得分的相关系数，经校正后得到分经校正后得到分半信度系数。半信度系数。分半信度的计算方法 1 1、当两个半测验分数的方差（当两个半测验分数的方差（S S2 2a a 和和S S2 2b b）相等时，）相等时，计计算两个算两个“半测验半测验”之间的皮尔逊积差相关系数，然后之间的皮尔逊积差相关系数，然后用斯皮尔曼用斯皮尔曼- -布朗公式校正。布朗公式校正。为何要校正？为何要校正？ r rxx xx = 2r= 2rhh hh / (1+r/ (1+rhhhh) () (斯皮尔曼斯皮尔曼- -布朗公式布朗公式) ) 其中其中r rxxxx是整个测验的分半信度，是整个测验的分半信度，r rhhhh是两个半测验是两个半测验之间的相关系数。之间的相关系数。练习题假设一个测验中，奇数项题目得分与偶数项题目假设一个测验中，奇数项题目得分与偶数项题目得分的方差相等，它们之间的相关系数是得分的方差相等，它们之间的相关系数是0.80,0.80,请问请问该测验的分半信度是多少？该测验的分半信度是多少？ r rxx xx = 2r= 2rhh hh / (1+r/ (1+rhhhh) ) = 20.80 = 20.80（1+ 0.801+ 0.80） =0.89 =0.892 2、当两个半测验分数的方差（当两个半测验分数的方差（S S2 2a a 和和S S2 2b b）不相等时，）不相等时，采用弗朗那根公式和卢仑公式。采用弗朗那根公式和卢仑公式。弗朗那根公式：弗朗那根公式：r rxxxx = 2 1- = 2 1-（ S S2 2a a + S + S2 2b b ）/ S/ S2 2x x 卢仑公式卢仑公式: r: rxxxx = 1- S = 1- S2 2d d / S / S2 2x x 其中其中r rxxxx是测验的分半信度，是测验的分半信度， S S2 2a a 、 S S2 2b b表示被试表示被试在两半测验上得分的方差，在两半测验上得分的方差，S S2 2x x表示被试在整个测验表示被试在整个测验上得分的方差，上得分的方差， S S2 2d d表示被试在两半测验上得分之差表示被试在两半测验上得分之差的方差。的方差。四、同质性信度四、同质性信度 u同质性信度（同质性信度（Homogeneity ReliabilityHomogeneity Reliability）指）指测验内部所有题目之间的一致性程度。测验内部所有题目之间的一致性程度。u与分半信度一样，同质性信度也是内部一致性与分半信度一样，同质性信度也是内部一致性系数。分半信度是求系数。分半信度是求两半测验之间两半测验之间的一致性程的一致性程度，而同质性信度是求度，而同质性信度是求所有题目之间所有题目之间的一致性的一致性程度。程度。同质性信度的计算方法同质性信度的计算方法1、库德-理查德逊信度系数（仅用于0、1记分的测验） (KR20公式) (KR21公式，各项目难度相当) 其中pi表示答对第i题的人数比例，qi为答错第i题的人数比例；为题目的平均通过率，为题目的平均失败率。某测验由某测验由1010道选择题组成，施测于道选择题组成，施测于1010名学生，所得结名学生，所得结果如下表所示，果如下表所示，S SX X2 2=3.0=3.0。计算该测验的信度。计算该测验的信度。被试被试题题目目1 2 3 4 5 6 7 8 9 10总分总分ABCDEFGHIJ1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 01 1 1 1 1 1 1 0 1 01 1 1 1 1 1 1 1 0 01 1 1 1 1 0 1 0 0 11 1 1 1 1 1 0 1 0 01 1 1 1 1 0 0 1 0 01 1 1 1 1 0 0 0 1 01 1 1 1 0 1 0 0 0 01 1 1 0 0 1 0 0 0 010988776654答案解：根据题目所给条件，采用解：根据题目所给条件，采用KR20公式公式计算同质性信度。计算同质性信度。2、克龙巴赫、克龙巴赫系数（系数（可用于多重记分的测验可用于多重记分的测验） = k / ( k-1) 1- s2i / s2x 其中其中k是题目数，是题目数， s2i表示所有被试在第表示所有被试在第i题上题上得分的方差，得分的方差， s2x是被试测验总分的方差。是被试测验总分的方差。五、评分者信度u评分者信度（评分者信度（Scorer ReliabilityScorer Reliability）指的是）指的是多个评分者给同一批被试作答情况进行评分多个评分者给同一批被试作答情况进行评分的一致性程度。它主要用于主观性作品的评的一致性程度。它主要用于主观性作品的评价过程中，如论述题评分、作文题评分、歌价过程中，如论述题评分、作文题评分、歌唱比赛的评分、设计作品的评分等。唱比赛的评分、设计作品的评分等。如有如有A A、B B、C C三位专家给三位专家给6 6位应聘者的面试评分，结果位应聘者的面试评分，结果如下，试求评分者信度。如下，试求评分者信度。 ABC175664529072603816354460604258475636969066评分者信度的计算方法1、当评分者人数为、当评分者人数为2时，评分者信度等于两者时，评分者信度等于两者评分的相关系数（积差相关或等级相关）。评分的相关系数（积差相关或等级相关）。2、当评分者人数大于、当评分者人数大于2时，评分者信度采用肯时，评分者信度采用肯德尔和谐系数计算。德尔和谐系数计算。 W = 12 R2i (Ri)2 / N / K2 ( N3N ) 其中其中K是评分者人数，是评分者人数，N是被评的对象数，是被评的对象数，Ri是第是第i个被评对象的被评等级之和。个被评对象的被评等级之和。测试次数和测试卷份数与信度系数估计方法测试次数和测试卷份数与信度系数估计方法测试次数测试次数测试卷份数测试卷份数 1份份 2份份 1次次分半信度分半信度同质性信度同质性信度复本信度（连续测试）复本信度（连续测试） 2次次重测信度重测信度复本信度（延时测试）复本信度（延时测试）总结与比较：五种信度u重测信度重测信度稳定性系数。稳定性系数。u复本信度复本信度（连续测验）等值性系数；（连续测验）等值性系数；（间隔测验）稳定性与等值性系数；（间隔测验）稳定性与等值性系数；u分半信度分半信度内部一致性系数；内部一致性系数；u同质性信度同质性信度内部一致性系数；内部一致性系数；u评分者信度评分者信度评分者之间的一致性。评分者之间的一致性。第三节影响信度的因素与提高方法一、影响测量信度的主要因素（一）测量工具的可能影响1 1、题目样本的选择不当、题目样本的选择不当题目样本不具代表性（偏题怪题），题目涵盖面过于题目样本不具代表性（偏题怪题），题目涵盖面过于狭窄狭窄等。等。2 2、题目含义及表达的模棱两可、题目含义及表达的模棱两可题目含义不明确，语言表达模棱两可，会造成被试的题目含义不明确，语言表达模棱两可，会造成被试的理解歧义，从而难以测查到被试的真实情况。理解歧义，从而难以测查到被试的真实情况。3 3、要求的步骤不明确、要求的步骤不明确指导语对于答题要求或步骤的指示不明确，使指导语对于答题要求或步骤的指示不明确，使被试按照各自的理解作答，增加随机误差。被试按照各自的理解作答，增加随机误差。4 4、题目难度过大或过小、题目难度过大或过小难度通过影响被试的分数分布从而间接影响测难度通过影响被试的分数分布从而间接影响测验信度。难度过大或过小验信度。难度过大或过小分数分布窄分数分布窄信度信度低，难度适中低，难度适中分数分布范围宽分数分布范围宽信度高。同信度高。同时，太难的题目也增加被试猜测的机率，从而时，太难的题目也增加被试猜测的机率，从而制造出随机误差。制造出随机误差。 5 5、测验长度偏短、测验长度偏短测验长度偏短，难以全面考察被试的心理特质，测验长度偏短，难以全面考察被试的心理特质，增加回答问题的随机性，从而降低信度。增加回答问题的随机性，从而降低信度。 6 6、特殊题型中靠猜测答题的可能性较大、特殊题型中靠猜测答题的可能性较大猜测性将增加测验得分的随机性，从而降低测猜测性将增加测验得分的随机性，从而降低测验信度。验信度。（二）施测过程的可能影响（二）施测过程的可能影响1、没有严格按照标准化程序施测、没有严格按照标准化程序施测2、测量的准备工作不充分、测量的准备工作不充分3、故意制造紧张气氛、故意制造紧张气氛4、给予特别协助、给予特别协助5、测量时间把握不恰当、测量时间把握不恰当6、评分不客观、评分不客观（三）被试方面的可能影响1、动机作用、动机作用2、测验经验、测验经验3、测验焦虑、测验焦虑4、生理变因（身心健康、疲劳等）、生理变因（身心健康、疲劳等）5、被试团体的异质性程度、被试团体的异质性程度