大数据理念下教育质量监测评价的变革与发展-舟山定海区教师进修-

大数据理念下教育质量监测评价的变革与发展2011 年 5 月，世界著名的麦肯锡全球研究院（McKinsey GlobalInstitute）发布了一篇题为大数据：创新，竞争和生产力的下一个前沿（Big Data:TheNextFrontierforInnovation,Competition,andProductivity）的报告，宣告了“大数据时代的到来”。大数据时代的到来对整个社会都产生了重要的影响，教育也不例外。大数据在教育领域中的应用不仅可以实现对学生的量体裁衣式的教育，而且可以让家长了解到更为详细的教育信息，更加能够为教师的教学提供客观全面的教学反馈信息，而教育管理也能从中获取信息和依据，更好地组织教育资源、制定教育改革发展的措施，从而实现“以学生为中心” 的人本主义教育。其达到上述理想效用有赖于教育质量监测与评价对大数据的利用与挖掘。教育大数据给教育质量监测与评价带来机遇的同时，也给其带来了挑战。在大数据理念和科学技术迅速发展的当下，教育质量监测与评价也正经历着一系列的发展与变革。一、教育大数据给教育质量监测与评价带来的机遇与挑战（一）教育大数据的特点及其在教育质量监测与评价中的应用现状“大数据”不是一个单纯描述数据数量之巨大的概念，其意味着数据来源的多样化、数据类型的多元化以及在数据处理与分析层面的大容量与高速度。更为重要的是， “大数据”立足于对大量数据的深度挖掘与科学分析，寻求数据背后的隐含关系与价值，使得人们可以从基于小样本数据的推测或基于感性的偏好性选择转向基于数据 _分析与理性证据的决策。可见， “大数据”在本质上已经转化为一种新的思维方式、一种新的问题解决方法。由于教育具有成长性、学习性以及受到天生遗传及后天成长环境等诸多因素的影响，所以，教育大数据除了具有数据容量大、多元多样的一般特点，还具有其自身的特点。教育作为以“人”为对象的社会活动，其核心是学生。教育大数据实现了对学生数据的全方位、全过程采集，横向数据覆盖了学生学业、知识技能、身心健康等各个方面，纵向数据贯穿了学生从幼儿园到高中的发展全过程。这些都为对教育展开系统、全面、可持续性、以人为本的教育监测与评价奠定了基础。但是由于数据本身特点的条件限制以及相关教育工作者缺乏专业的统计测量知识，目前对教育大数据的挖掘与利用远远不够。为了解教育大数据的特点，便于教育大数据服务于教育改革与教育的评价应用，将教育大数据的特点总结如下：1. 数据来源多样，不利于不同区域数据间的比较从数据来源来看，教育大数据汇聚了来自不同区域、不同学校的数据。这些数据又包含了学生不同学科的学业测评成绩以及学生身心发展等不同方面及类型的数据。不同来源的数据往往缺乏统一的标准，从而给数据间的比较带来了困难。2. 数据类型多元但不具有一致性，不利于数据的整合教育数据可划分四种基本类型，类别数据、等级数据、等距数据和等比数据。类别数据如学生的性别，等级数据如学生的排名，等距数据如气温，等比数据如学生的跑步速度。这些不同类型数据给考试分数和问卷数据的解释与评价带来了不便，不同学科、不同年级、不同时段的数据需进行转换、归类、整合，然后才可以比较。目前，教育行业对不同类型数据的整合不足，对学生分数及各种指标数据的解释与评价有待完善。3. 数据收集缺乏时间延续性，对纵向数据搜集及分析不足目前，教育监测与评价注重对横断面数据的应用分析，对数据进行横向比较，较少进行纵向的追踪与比较。这一方面是因为纵向数据不易收集，并且在收集的过程中容易出现流失。另一方面，纵向数据的比较与分析从方法上来说也比横向数据的分析复杂得多。这些都是导致目前纵向数据收集与分析不足的重要原因。4. 数据容量大但深层挖掘不够，对数据的利用不够充分教育大数据虽然庞大，但是目前对其挖掘与利用尚且不足，尤其是数据背后深层次的隐性信息的挖掘。在当前的教育监测与评价实践中，对学生往往只凭借一个“分”，对学校只凭借一个“率”。同样的一个“分”和“率”，所代表的能力和层次可能大有不同，背后还有很多的信息可挖掘。由于目前数据的收集缺乏规划，因此不够细致和到位，相关的教育工作者缺乏测量方面的专业知识，不懂得对数据进行深度挖掘与分析。由此可见，尽管教育大数据对学生的数据进行了横向和纵向的全方位采集，但在实际的教育质量监测与评价实践中，对这些大数据的挖掘和利用还需要下大功夫。教育大数据给教育质量监测与评价既带来了机遇，也带来了挑战。（二）教育大数据给教育质量监测与评价带来的机遇与挑战1. 教育大数据丰富了教育质量监测与评价的内涵，测评从碎片化走向系统化（1）测评主体趋向多元化在教育实践活动中，不同省市、区县、学校以及学生个体都希望能够获得自身表现与发展的反馈信息。教育大数据为满足这些不同层面的测评主体需求提供了数据基础。目前，只给区域提供一个“分”和一个“率”，给学校提供一个“分”，给学生个体提供一个“分”，这些远不能满足不同测评主体的需求。单纯的一个“分”或“率”不能实现对不同区域与不同学校的科学、公正评估，需要根据不同层面主体的需求，提供不同的服务与质量监测评价报告。（2）测评结果趋向细致化随着教育的发展，不同测评主体对教育反馈信息的需求已经不满足于一个简单、笼统的分数。他们不但要求获得学生知识掌握、能力发展的反馈信息，也希望进一步了解学生知识与能力的相互作用以及学习方法、习惯、兴趣、人格等因素对知识掌握和能力提升的影响。教育监测评价结果需要根据新的教育形势与客观需求，运用新型测量理论和现代科学技术实现对整体层面的诊断与评估，同时要能够细化到课程的具体章节、单元及具体的单项能力。（3）测评形式趋向多样化随着计算机与信息技术的发展，测验从过去单一的纸笔形式发展到以计算机为载体的在线测试等多种测试形式，同时出现了基于经典测量理论（ Classical Test Theory,CTT ）的传统测验形式和基于项目反应理论（ ItemResponse Theory,IRT ）的自适应测验。而计算机技术与现代测试理论相互结合，又出现了计算机化的自适应测验（ CAT）形式。2. 教育大数据扩展了教育质量监测与评价的维度，测评从横向研究走向纵向研究传统的教育质量监测与评价局限于同一时间段的横向比较与分析，无法提供学生个体纵向发展的信息反馈，而教育大数据为教育质量监测与评价的纵向追踪研究提供了数据基础，从而能够对学生的发展进行追踪，为学生的发展提供更为全面的信息。同时，其能为学生自我对比提供机会，使教育评价更为科学、合理。3. 教育大数据扩大了教育质量监测与评价的深度，测评从宏观走向微观传统的教育质量监测与评价只提供一个笼统的考试分数或能力分数，而对于是什么因素导致学生试题做错及知识掌握情况等信息则无法获取。随着教育的深入发展，各测评主体都已不满足于给学生一个简单的考试分数或能力分数，他们更希望考试能够提供诊断信息，能够报告学生掌握了哪些知识点，哪些知识点未掌握而需要补救。在大数据与信息时代下，教育质量监测与评既有必要也完全能够从宏观走向微观。4. 教育大数据加大了教育质量监测与评价的难度，测评理论和技术从传统走向创新教育的发展对教育质量监测与评价提出了更高的要求。学生个体不仅仅需要一个整体的 “分”，还需要“分” 层面的分析，并能够实现因人而测，因材施教。这不仅对测验命题提出了更高要求，也迫切需要测评与信息技术、计算机技术结合起来，发展出新的测验理论与测验方法，对教育大数据进行更为充分、更加深入的挖掘与分析，提供更加细致、科学的评价结果报告。5. 教育大数据改变了教育质量监测与评价的价值取向，测评从工具主义走向人本主义教育大数据是关乎“人”的数据，其宗旨始终是为学生的发展服务。基于互联网技术的教育大数据采集模式也应遵循 “以人为本” 的基本原则，坚持以人为中心，以互联网为辅助手段，树立“互联网 +”的理念。在教育领域贯彻落实以人为本的科学发展观，就是要确立人在教育中的主体性，以每一个学生的健康成长和终身幸福为本。在教育大数据的形势下，教育质量监测与评价的功能应更多地从“选拔工具”转向“诊断工具”，给出个性化评价结果。这种面向每一个学生的个性化的教育测评，既是新形势下人本主义教育价值观的要求，也是“以学生为中心”的教育思想的体现。二、大数据理念下教育质量监测与评价理论方法的变革与发展随着计算机技术的发展和教育大数据时代的来临，教育测评理论和方法有了新的发展，从传统的经典测量理论（ CTT）到现代的项目反应理论（ IRT），再到新一代的认知诊断理论（ CDT）。（一）经典测评理论与方法的回顾与评述经典测评理论又称真分数理论，是心理和教育测量学发展历史中最早实现数学形式化的测量理论。 CTT经过几十年的发展，形成了一套以真分数理论作为基础的较为完善的测验理论体系，其核心是经典的信度理论。 CTT认为测验作为间接测量，要使测量与评价可靠，编制有恰当难度、区分度的题目和控制测量误差是提高测量信度、效度的有效手段。CTT以弱假设为基础，这些弱假设条件容易被绝大多数测验数据资料所满足。因此 CTT在实际中有着很广泛的应用。同时其对题目和测验作统计分析的方法在计算上较为简单，意义上也明了直观，易于教育工作者理解和掌握，这也使得CTT的应用较具普遍性。但是 CTT的缺陷与不足也是非常明显的：用 CTT方法所求得的题目参数会受到不同考生样本组能力水平的影响，对考生能力的估计也会因测验的不同而不同。由 CTT关于信度公式的分析推导中可知， CTT的信度值只是低限估计，故只能假定测验误差对所有考生都一样。因而在某种意义上说， CTT难以提供考生得到分数的精确信息，也就是说，难以实施与考生实际能力水平相当的考试，故而以“选拔”及突显“专长”为导向的测试难以实施。（二）现代项目反应理论及其优势1963 年发展的项目反应理论是针对CTT的不足加以改进的方法。 IRT 的最大特点就是它找到了一条题目特征曲线（Item Characteristic Curve,ICC），并且以多种数学表达式（或称数学模型）来描述它和逼近它。题目特征曲线的数学模型一般包含两个方面的参数：题目参数和考生能力参数。从理论上说， IRT 有效地解决了 CTT中无法建立考生得分与测验题目参数之间函数关系的问题，题目参数不受考生样本影响，考生能力不因测验改变而改变。在题目分析和估计考生能力的同时， IRT 可以得到题目信息函数和测验信息函数这两个统计量。这两个测验信息量为精确估计每个考生的能力水平提供了标准，也为自适应测验的实施提供了必要的条件。IRT 虽然具有这些优势，但仍只有一个分数（只不过这个分数变成了能力水平）来评价考试结果，无法回答在考试中学生哪方面能力或知识的缺失造成了失分，学生存在哪些不足及应如何补救。（三）新一代认知诊断理论及其优势通常把对个体知识结构、加工技能或认知过程（均简称为“ attribute ”）的诊断评估称为认知诊断评估或认知诊断（ Cognitive Diagnosis Assessment/Cognitive Diagnosis ）。可以说，