+ . - + . * ,:A9=;? 6?;D6;9B 6?8 C6?;D6;9B 6?8 C6?;D6;9B 6?8 C9=A C967=?;GEFFK JHL MJGIEL6112 个考试任务的 48( 4 12) 对组合中, 评分员与考试任务发生显著偏差的情况共出现了 3 次, 占 6 25%, 比例很小, 可以忽略不计。这 3 次显著偏差涉及到 3 个不同的评分员, 2、 3、 4号评分员, 以及 3 位不同的考试任务, 分别为听力 3、 语音辨别和改正错误, 表明这 3 位评分员对这 3 个考试任务的评分尺度与她们在其他任务上的尺度不一致, 还需对评分尺度有更好的把握。表 7评分员与考试任务的偏差分析汇总评分员编号显著偏差评分数显著偏差任务类型占总偏差评分比例21听力 333 33%31语音辨别33 33%41改正错误33 33%考生与考试任务发生显著偏差意味着该考生在该任务上的表现不同于他/她在其他任务上的表现, 也不同于其他考生在该任务上的表现。在本研究中, 11 位考生与 12 个考试任务的 132 对组合中, 有 9 对显著偏差作用, 占总数的6 82%。表 8 是所有与考生发生显著偏差的任务类型比例汇总。从表 8 可以看出, 与考生发生显著偏差最多的是任务1, 即拼读单词, 占显著偏差总数的 42 86%; 其次为任务 2, 语音辨别, 占显著偏差总数的 28 57%。这说明这两个考试任务的设计还存在一定问题。如前所述, 由于任务 2 的 infit 值不在允许的取值范围之内, 我们需要剔除这项任务。对于任务 1, 其 infit 值虽然在可接受范围内, 然而却与考生有较多的显著偏差, 也可以考虑删除或者再做更多改进。表 8考试任务 考生显著偏差交互作用比例任务编号任务类型发生显著偏差次数占总偏差比例1拼读单词342 86%2语音辨别228 57%7课堂活动指导语114 29%10听力 2114 29%5 结论本研究以概化理论和多层面 Rasch 模型为基础, 运用GENOVA 和 FACETS 分析了“职前中学英语教师口语考试模型” 试测任务结果数据, 为下阶段考试改进的决策提供了非常重要的信息。综合 GENOVA 和 FACETS 的分析结果,我们可以得出以下结论:1)适当减少考试任务不会对考试的信度有很大影响, 然而减少评分员人数会对信度有很大影响。根据概化研究结果, 我们应该至少采用 10 个任务, 3 位评分员才能得到较好的信度结果, 同时也能适当减少时间和人力的投入, 是比较合理的选择。但具体剔除哪两个任务, 选择哪 3 位评分员,GENOVA 没有给我们答案, FACETS 分析结果在这方面为我们提供了有用的信息。2)FACETS 分析结果显示, 任务 2 语音辨别与模型不符, 属于不拟合任务, 考生在此任务上的得分有太多的不确定性。因此, 此项任务可以直接剔除。任务 1 单词拼读与考生有很多显著偏差, 如果下阶段的研究只需要选取 10 个任务, 任务1 也可以直接删除。在本研究中, 虽然4 位评分员的Infit 值均在可接受范围之内, 但是 3 号评分员和 4 号评分员离上下限都很近, 还需接受进一步的培训。如果只需选用 3位评分员, 而 3 号评分员又与考生有较多的显著偏差, 那她就不用再参加下阶段的评分工作了。参考文献: 1 Bachman, L1990 Fundamental Considerations in Language Testing M Oxford: Oxford University Press 2Bachman, L , B Lynch M Mason 1995 Investigating variability in tasks and rater judgments in a performance test of foreign language speaking J Language Testing, 12( 2) : 238 57 3Brennan, R 2001 Generalizability TheoryM New York: Spring- er 4 Brown, J KBailey1984A categorical instrument for scoring second language writing skills J Language Learning, 34( 4) : 21 42 5 Cronbach, L , G Gleser, H Nanda N Rajaratnam 1972 The De- pendability of Behavioral Measurements: Theory of Generalizability for Scores and Profiles M New York: Wiley 6Elder, C 1993 Language proficiency as predictor of performance in teacher educationJ Melbourne Papers in Language Testing, 2 ( 1) : 1 17 7Kondo- Brown, K2002 A FACETS analysis of rater bias in measur- ing Japanese second language writing performanceJ Language Testing, 19( 1) : 3 31 8Linacre, J1989 Many- facet Rasch Measurement M Chicago: ME- SA Press 9McNamara, T 1996 Measuring Second Language Performance M New York: Addison Welsley Longman 10Myford, C E Wolfe 2004 Understanding Rasch measurement: Detecting and measuring rater effects using many- facet Rasch meas- urement: Part IIJ Journal of Applied Measurement, 5( 2) : 189 227 11Pollitt, A C Hutchinson 1987 Calibrated graded assessments: Rasch partial credit analysis of performance in writingJ Language Testing, 4( 1) : 72 92 12Rasch, G1980 Probabilistic Models for Some Intelligence and At- tainment TestsM Denmark: Danish Institute for Educational Re- search; Chicago: MESA Press 13Sawaki, Y 2007 Construct validation of analytic rating scales in speaking assessment: Reporting a score profile and a compositeJ Language Testing, 24( 3) : 355 390 14 Smith Jr E J Kulikowich 2004 An application of generalizabili- ty theory and many- facet Rasch measurement using a complex prob- lem- solving skills assessment J Educational and Psychological Measurement, 64( 4) : 617 639 15教育部2001 国家基础教育英语课程标准( 3 12 年级) Z 北 京: 北京师范大学出版社 16刘远我 张厚粲 1998 概化理论在作文评分中的应用研究J 心理学报, 30( 2) : 211 217 17 刘建达 2005 话语填充测试方法的多层面 Rasch 模型分析J 现代外语, 28( 2) : 157 169 18刘建达2007 做事测试信度和效度的 Rasch 模型分析J 外语 艺术教育研究, ( 4) : 3 10 19罗娟 肖云南 2008 基于多元概化理论的英语写作评分误差分 析研究 J 中国外语, 5( 5) : 61 66 20谭智2008 应用 Rasch 模型分析英语写作评分行为J 外语教 学理论与实践, ( 1) : 26 30 21杨志明 张雷 2003 测评的概化理论及其应用M 北京: 教育 科学出版社 22徐建平2004 教师胜任力模型与测评研究D 北京: 北京师范概化理论和多层面 Rasch 模型在建立 “职前中学英语教师口语考试模型” 中的应用62大学 23朱正才 杨慧中 杨浩然 2003 Rasch 模型在 CET 考试分数等值 中的应用J 现代外语, 26 ( 1) : 70 75 24赵向民 王占礼 2005 海船船员英语口语评估的概化研究J 大连海事大学学报, 31( 2) : 55 58AbstractAbstract: Taking Generalizability Theory and Many- facet Rasch Model as its theoretical basis, this study investigates the reliabili- ty and validity of a trial test results of a speaking test for pro- spective secondary school English teachers by using GENOVA and FACETS The results of the GENOVA analysis showed that the dependability of the test would not change much if fewer tasks were included in the test, whereas the reliability of the test would have a significant change if fewer raters were employed The results of the FACETS analysis revealed that some tasks were misfitting with the model and one rater was not consistent in her marking These results provide useful complementary in- formation for the improvement of the test
