心理测量第3章心理与教育测量的误差-

心理与教育测量的误差第三章第一节误差的定义及分类n误差的种类图图1图图2图图3无准确性无准确性也无一致性也无一致性一致性好一致性好准确性差准确性差一致性和一致性和准确性都好准确性都好n测量误差就是在测量过程中，那些与测量目的无关的因素所导致的测量结果不准确或者不一致的测量效应。n误差是由与测量目的无关的因素引起的；误差是不准确或不一致的测量结果。n从图中可以看出，图1是由与测量目的无关的偶然因素引起的变化无规律的误差，使得多次的测量结果不一致，这种误差的大小和方向是随机的，因此叫做随机误差。图2是由与测量目的无关的因素引起的恒定的有规律的误差，它稳定地存在于每一次测量中，这种误差叫做系统误差。系统误差只影响测量的准确性，而随机误差既影响准确性又影响一致性。在测量中总会有一些不准确或者不在测量中总会有一些不准确或者不一致的误差发生，我们的任务是找出一致的误差发生，我们的任务是找出误差的原因，并设计方法把它减至最误差的原因，并设计方法把它减至最小。小。第二节误差的来源和控制要使测量准确可靠，必须减小误差；要控制误差，必须了解误差的来源。心理与教育测量中常见的误差来源主要有三方面：测量工具、测量对象、测量过程。（一）测量工具测验自身的误差主要来源于测验的编制过程，其中项目取样影响最大。测验所要测量的内容是什么，测验的项目能否代表这些内容，是至关重要的。（二）测量对象在测量工作中，最复杂和最难控制的是由被试本身引起的各种误差。应试焦虑应试经验应试动机学习、发展和训练练习效应反应倾向生理变因反应倾向即由于每个人回答问题的习惯不同，而使能力相同的被试得到不同的测验分数。求“快”与求“精确”的反应定势喜好正面叙述的反应定势喜好特殊位置的反应定势喜好较长选项的反应定势猜测的反应定势测验时间限制正向、反向记分正确答案随机选项长度题型选择（三）测量过程在测验的实施过程中可能引起误差的因素很多，如测试环境、时间、主试、意外干扰、评分记分等。误差的控制n对所有手册着施测相同的或等值的题目。n测验编制的标准化n对受测者必须在相同的条件下施测。n评分客观n对测验结果解释的标准化第三节真分数理论在测量学中，真分数指的是在测量没有误差时所得到的真值。真分数只是一个理论上构想的概念，在实际测量中是无法得到的，因为无论什么测量工具都不可能没有误差。真分数的操作定义是无数次测量结果的平均值。把任何一个测验成绩都看做是真分数和测量误差的和，这是经典测量理论（classical test theory，CTT）的基本思想。即： X为实得分数或观测分数，T是架设的真分数，E是测量误差。需要说明的是，这里的测量误差E指的是引起测量不一致的变因所产生的效应，即随机误差，不包括系统误差。对于一个团体来说，实得分数、真分数和测量误差之间有如下关系：即实得分数的变异等于真分数的变异加上误差变异数。系统误差的变异包含在真分数的变异中。这就是说，真分数的变异数还可以分成两部分：与测量目的有关的变异和与测量目的无关的变异，即：是与测量目的有关的（亦即有效的）变异数，是与测量目的无关的但却是稳定的变异数。将前面两个式子合并，可得到：这就是说：一组测验分数的变异性是由与测量目的有关的变异数、稳定的但出自无关来源的变异数和随机误差变异数所决定的。SV2SI2SE2SX2ST2 第四节项目反应理论n经典测量理论的不足n项目反应理论的提出n项目特征曲线的数学模型n项目反应理论的特点与优点1、CTT的理论体系很完善，是其他测验理论赖以产生的基石。优点有：n理论方法体系相对完整n所涉及到的数学模型以及参数的概念和估计方法易理解和掌握n标准化技术在控制测验误差等方面有明显的效果一、经典测验理论n基本假设难以成立：真分数与观测分数间存在线性关系的假定不合理；平行测验的假设难以成立；误差与真分数独立的假设难以满足。 2、CTT在理论体系和方法体系方面存在许多其本身难以克服的缺点，具体表现为：n项目统计量严重依赖于测验所实施的被试样组。n被试测验分数依赖于所施测项目的难度。 n测验信度观存在严重问题。CTT的信度是针对被试全体的，只代表平均测量精度，假设所有被试测量标准误相等，而实际上，不同能力水平的被试不可能具有同样的测量标准误。 n缺乏预测力n对测验等值、适应性测验、标准参照性测验的编制等问题不能给以满意的解决。n尽管存在以上缺点，CTT仍在广泛地应用。CTT、IRT和概化理论是当今最有影响的三种测验理论。n简单地说，IRT在处理微观问题（即被试水平与答题目之间的实质性关系）时优势明显，CTT在处理中观问题（如处理常见的标准化考试等）时方便易懂，GT则在处理宏观问题（如对结果作推论）时更显出色。n三种测验理论体系有内在联系，各有长短，应相互促进，互相补充。项目反应理论概念n项目反应理论（Item Response Theory，简称 IRT），又称潜在特质理论潜在特质理论（Latent Trait Theory)或项目特征项目特征曲线理论曲线理论（Item Characteristic Curse Theory)，是为了克服经典测验理论（CTT）的局限而提出的现代测验理论。n从测验的内部或微观方面入手，采取数学建模和统计调整的方法，重点讨论被试的能力水平与测验项目之间的实质性关系，测验的每一个项目都有自己的项目特征曲线，描述了每一个特定能力水平的被试答对或答错该项目的概率。（二）、基本思想及基本思路潜在特质：n把表现在一个人身上所特有的相对稳定的行为方式称为心理特质（trait)，由于这种心理特质是隐含于其行为之中的，所以也称做潜在特质。在认知测量中，潜在特质通常被称作为被试能力（与心理学常用的能力意义不同）。n与CTT一样，IRT也认为被试的潜在特质是不能被观察和测量的，但却可以通过其外显行为表现出来。 n不同的是，CTT是以被试对所有测验项目的反应总和（测验总分）为显变量来预测被试的潜在特质的，并不认为被试对单个项目的反应与其特质间有任何有意义的联系。nIRT则认为被试的能力与其对某一特定项目的反应（以正确或错误反应概率表示）有某种函数关系存在，确定这种关系就是IRT的基本思基本思想和出发点想和出发点。n所以IRT可以被理解为一种探讨被试对项目的反应与其潜在特质间关系的概率性方法。n用(theta)表示被试的潜在特质或能力，用Pi()表示其对项目i正确反应概率，项目反应理论的关键就是确定与Pi()间的函数关系。表1 某个项目假设的项目特征曲线1.000.000.50潜在特质：正确反应的概率： Pi()潜在特质空间（Latent Trait Space）n对于某一特殊行为的发展起作用的所有潜在特质的集合。维度n在潜在特质空间中互相独立的潜在特质的个数。n一个K维的潜在特质空间可以表示为：H =(1， 2， 3，.，k)总之，潜在特质理论是一切心理测量理论研究的基础。IRT的优点与不足优点：n能力参数估计的不变性；n项目参数估计的不变性；n提供被试能力估计值的精确度指标测验信息函数；n为测验编制、测验分数的报告与解释提供便利。不足：n单维性假定难以满足；nIRT建立在更复杂的数学模型之上，依赖更强的假设，计算过程复杂；nIRT对测验条件要求较严格，样本容量要大，被试的能力分布范围要广，测题数量要多，这些条件不满足就会影响其精确性。n对CTT的一些研究领域，如效度问题，并没有提出独到的见解。