标准化测验(Standardized_Tests)--

标准化测验(Standardized Tests),标准化测验,标准化测验从测验蓝图的设计，试题的编拟、分析、选择和组合，整份测验信、效度的研究和分析，到测验常模的建立，都经一定的程序和步骤。就实施过程来说，标准化测验的施测步骤、计分和解释，均受到明订程序的控制，目的在使不同实施情境（如实施者、地点、时间、计分者、解释者和使用者）下的受试者，所得到的测验分数能做有意义和公平的比较。,测验的分类,认知性测验（cognitivetests）衡量个人最佳的(best)行为表现，目的在了解受测者之最高能力水平，又称最大表现测验（maximalperformance tests），通常有标准答案，分数反映程度高下。情感性测验（affectivetests）衡量个人典行型的(typical)行为表现，目的在了解受测者一般的行为倾向，又称典型表现测验（Typical performance tests），受測者依其實況作答，答案並無所謂的對與錯。,测验的分类,1.智力测验(Intelligence Tests)这个老婆找到了补充新内容2.性向测验(Aptitude Tests)没找到的就直接用这个的3.成就测验(Achievement Tests)这个老婆找到了补充4.人格测验(Personality Tests)没找到的就直接用这个的不用每点都讲很细，讲两个很细的可以了,智力测验(Intelligence Tests),智力的意义十分分歧普通的能力适应环境的能力抽象思考的能力学习的能力测量记忆、理解(语文、数理等)、判断、推理(语文、数学、空间等)、顺序思考推理等心智能力。传统智力测验将智力视为一整体性能力，通常以单一智商做为智力的代表。,性向测验（Aptitude Tests）,性向是什么?性向指个体在学习某种事物之前，对学习该事物所具有的潜在能力。（张氏心理学辞典）性向测验泛指用来测量个体潜在能力的测验，或者预测个体接受学习或训练后之成就或表现的测验。,性向测验的分类（1/3）,普通性向测验或学术性向测验普通性向测验通常测量语文、数量、抽象思考、逻辑推理等方面潜能，一般智力测验即属普通性向测验。,性向测验的分类（2/3）,多元性向或多因素性向测验多元性向测验是综合数种性向的测验组合(test battery)，可同时测量多方面的潜能，帮助受试者了解个人能力上的优势和弱势。,性向测验的分类（3/3）,特殊性向测验特殊性向测验测量受试者某方面的特殊潜能，如音乐、美术、数学、科学、机械、文书等。,性向测验vs智力测验,通常智力测验所测得为普通性向，性向测验所测得为特殊性向.由于智力一词具有天赋的内涵且意义分歧,加上近代常用智力测验预测学业成就,故逐渐以学业性向测验取代智力测验的名称.例如 SAT；GRE,成就测验(Achievement Tests),成就测验的目的在测量个体学习或训练后获得之知识和技能的程度。国中基测、大学学测和指考、证照考试、检定考试属之,标准化成就测验分类,综合成就测验多种客别学科测验所组成单科成就测验测量某一特定学科的成就水平诊断测验分析学生学习困难所在或原因,性向测验vs.成就测验,性向测验与成就测验两者取材均为后天学得的性向测验偏重在测量学习新工作的能力,而成就测验偏重在测量学习过的经验性向测验取样范围广,而成就测验取样仅限于特定的学校经验,人格测验(Personality Tests),人格测验(Personality Tests) 人格是由个人的认知、思考、动机、价值、性情、情感、兴趣、信念、态度、自我观念等因素的总和。人格测验内容相当复制，视编制者界定。兴趣测验测量对事物、活动、职业喜好的程度态度/价值观测验测量个人对特定事物的看法或重视程度,如何閱讀測驗手測- 測驗評鑑,測驗名稱編製或修訂者出版者出版日期和版本適用對象（閱讀程度）測驗功能或目的編製的依據或理論基礎測驗內容 (分測驗名稱、題目型式、題數),試題分析過程 (如何抽樣？提供哪些試題指數？)測驗實施方式與時間 (團體還是個別？做完全測驗需多少時間？實施的容易度)信度研究 (提供哪些信度數據？數據分佈的情況)效度研究 (提供哪些信度數據？數據分佈的情標準化樣本、常模建立時間與常模分數表 (如何抽樣？建立常模的時間？提供哪些常模對照表)是否有評論資料？,信度,信度的意義,意義: 信度指測驗分數的一致性、穩定性和可靠性。信度也表示測驗分數受到測量誤差的影響程度。一致性（consistency）表示測驗內部試題間是否相互符合穩定性（stability）不同的測驗時點下，測驗分數前後一致的程度測驗分數的一致性或穩定性，反映測驗分數受到測量誤差的影響程度。,信度的原理,分數構成 X = T + E X：實得分數或觀察分數(observed score)T：真實分數（true score)E：誤差分數（error score）真實分數:又稱普遍性分數（universe score），無法正確測量到，通常以多次重試求取平均數做為真實分數。誤差分數及測量誤差，可正可負可零，理論上多次重試的結果誤差平均數為零。,信度的類型,重測信度（test-retest reliability）估計方法：同一個測驗在不同時間，對同一群受試者重複測量兩次，兩次分數求得的相關，稱為重測信度，又稱穩定係數。重測間隔時間視工具的用途來決定間隔時間缺點易受練習與記憶影響題目的性質因重測而改變，如推理變記憶,信度的類型,複本信度（a1ternate-form reliability ）複本測驗指在內容、型式、題數、難度、指導說、時間限制與例題等方面類似或相等的測驗。通常是根據相同測驗藍圖分別獨立編製而成。估計方法同一時間連續實施反應工具內容所造成的誤差，無法反應受試者本身和測驗情境所造成的誤差，此種複本信度又稱等值係數。間隔一段時間實施可反應工具內容所造成的誤差與受試者本身和測驗情境所造成的誤差，此種複本信度又稱穩定與等值係數。,信度的類型,折半信度（split-half reliability）估計方法用一次測驗結果，測驗題目依題目的單雙數或其他方法分成兩半，計算受測者在兩半測驗上的分數的相關係數。相關係數多採斯布校正係數（Spearman-Brown prophecy formula）,信度的類型,內部一致性係數（coefficient of internal consistency ）KR20(Kuder & Richardson, 1937) 適用於二元計分題Cronbachs 適用於多元計分題,信度的類型,內部一致性係數反映測量題目的內部同質性，一致性越高，越代表量表試題是在測量相同的特質。評分者間信度（inter-rater reliability）估計方法計算不同的評量者間分數的相關係數。計算不同評分者間的同意百分比（percent of agreement）,各種信度估計方法的誤差變異量來源,測量標準誤 SEM（Standard Error of Measurement）,信度表示測量分數的穩定與可靠性，亦表示測量受到測量誤差的影響程度測量分數的變異量，受到測量誤差影響的部分，稱為測量誤差變異量，開方後稱為測量標準誤（e）測量誤差被假設呈常態分配，因此測量標準誤配合常態化機率可以用來進行測量分數的區間估計,rxx X特質的測驗信度,真實分數的95的信心區間,測量標準誤的應用,解釋個人測驗分數的意義-可信賴範圍例如某生智力測驗得到130，此測驗信度為0.96，標準差為15，該生的真實分數落在的可信賴範圍為何？依據常態分配，落在127-133(上下一個標準差)的機率為68.26%落在124-136(上下兩個標準差)的機率為95.44%落在121-139(上下三個標準差)的機率為99.72%,效度,效度的意義,效度是指測驗分數的正確性，也就是測驗能夠測量到它所想要測量的特質的程度，亦即是否名實相符。測驗能夠達到某種目的的程度(Mehrens & Lehmann 1991),效度的種類,內容效度 (content-related validity) ：指測驗內容的代表性或取樣的適切性。內容效度最適合於成就測驗的效度考驗。效標關聯效度(criterion-related validity) ：指測驗分數與一些外在效標間的相關。根據效標取得時間分為同時效度(concurrent validity)與預測效度(predictive validity) 。,效度的種類,同時效度：效標分數和測驗分數同時取得，目的使用測驗分數估計個人在效標方面的目前實際表現。預測效度：效標分數在測驗實施後一段時間取得，目的使用測驗分數預測個人在效標方面的未來表現。,效度的種類,構念效度(construct validity) ：指測驗能夠測量到理論上的構念或特質的程度。換言之，就是指測驗分數能夠依據某種心理學的理論構念加以解釋的程度。因此凡是根據心理學的構念，對測驗分數的意義做的解釋，即為構念效度。簡而言之，效度所要做的就是去驗證測驗所宣稱的事。,信度和效度的關係信度是效度的必要條件而非充分條件,有信度有效度,有信度但無效度,無信度又無效度,測驗信度和效度研究舉例,以中學多元性向測驗為例信度研究一、重測信度間隔24週，各分測驗之穩定係數介於0.380.88之間，中位數為0.64，其數值均達 .01顯著水準。二、內部一致性係數各分測驗的庫李信度(KR 20)係數值介於0.500.90之間，中位數為0.79。,測驗信度和效度研究舉例,以中學多元性向測驗為例效度研究一、與多因素性向測驗的相關二、與高一性向測驗的相關三、與學業成績之相關四、各分測驗之相關五、年級、組別間之差異分析,測驗分數的解釋,測驗結果解釋,常模參照(norm referenced)：採相對位置解釋，即與其他人的表現做比較標準參照(criterion referenced)：與明訂的標準做比較。,測驗分數解釋常模參照,常模(Norm) ：指一個具有代表性的樣本團體在測驗上實際得到的分數之分佈，換言之，就是將測驗施予一群人（標準化樣本），這群人測驗得分的分佈就是常模。常模適當性判斷：時近性、代表性、適切性,測驗分數解釋常模參照,常用常模有兩套系統 1.百分等級和百分位數百分等級以表現可以勝過多少百分比的同儕來解釋。例如 PR = 90 2.標準分數以表現相對於平均數上下若干標準差來解釋。例如資優界定為IQ在平均數上2個標準差，某測驗平均數為100，標準差為15，學生IQ要達多少方為資優？,百分等級常模,常見常態化標準分數,某高一女生的多元性向測驗側面圖,結果解釋（）,測驗結果側面圖,多元性向測驗側面圖,