课题申报范文：2533-－金锄头文库

大数据驱动下高风险学生预测的研究1、问题的提出、课题界定、国内外研究现状述评、选题意义与研究价值。（1）问题的提出、课题界定为了加强学风建设，提高学生学习的积极性，保证人才培养质量，有必要对高风险学生进行预测。高风险学生是指期末出现多门课程不及格，进而导致留级甚至退学的学生。高风险学生预测可以提醒老师对学生进行及时干预和帮助，降低学生退学的风险。本课题采用大数据技术，拟对学生管理系统、教务管理系统、校园卡消费系统等的数据进行集成、清理和分析，提取和选择高风险学生的特征，构建预测模型，科学、合理、有效地预测出高风险学生，对这些学生进行关心和爱护，采取有效措施帮助学生进步。（2）国内外研究现状述评学生成绩预测一直是教育科学研究的重点，以下我们根据教学环境的不同，分别介绍该课题的研究现状。封闭式教学。封闭式教学系统主要指单机学习系统和基于C/S结构的管理信息系统，这类系统一般仅供内部学生和工作人员使用，学生之间没有互动和交流。这类系统涉及的数据量很小，如 Natek通过决策树算法分析高校信息系统中的数据，找到影响学生课程通过率的关键因素，并成功预测学生最后的考试分数；Caro等人利用蒙特卡罗理论对近10年的学生数据进行模拟，并将学生成绩的分析结果提供给高校管理者作决策支持。开放式教学上世纪末以来，互联网的快速发展推动了网络技术在教育中的应用，网络教育课程开始流行并取得了较大的成功。它们一般基于Web技术，并采用了某种程度的人工智能技术。与封闭式教学环境相比，开放式教学环境允许学生之间相互交流和协作学习，其中最典型的代表是智能导学系统（In telligent tut oring sys tem, ITS）。ITS是一种智能学习系统，提供学生交流的机会，并能够提供给老师管理和记录学习情况等功能。同时，ITS记录的数据十分丰富，包括学生的登陆日志、论坛发言、作业和教学资源等，由于这些数据和学生的学习行为直接相关，受到众多研究者的关注。Lara等通过ITS课程的历史数据建立了参考模型，利用该模型去识别某一个学生是否能够顺利完成课程；Romero等人对学生使用学习论坛的情况进行了分析，利用分类和聚类算法成功预测了学生的最终成绩；Hackey等根据学生在线课程的经验以及他们之前的学习数据进行逻辑回归，发现在线课程的经验是影响学生能否完成后续课程的关键因素。新型教学环境近些年随着技术手段的飞速发展，出现了众多新型教学环境，如基于游戏、社交网络、智能移动设备和增强现实技术的教学环境以及大规模开放在线课程。这些新型的教学环境也引发了一些有趣的课题，如文献16通过47名计算机专业大学生参加电脑游戏的数据来预测学生的学习类型，其准确率超过85%。与国外相比，国内的教育教学数据分析研究起步较晚，且在研究广度和深度上又有较大的差距。近十年以来，国内对该领域的研究取得了一些进展，但总体上还存在不足，主要体现在三个方面：一是创新性不强，研究成果多为对国外研究的评论、跟踪和改进；二是技术深度不够，研究成果多发表在教育类期刊；三是研究范围较窄，研究成果主要集中在智能导学系统和个性化学习两个领域，而国内关于学生成绩预测的研究几乎没有。事实上，由于教育体制和社会习惯的差异，国内高校在数据积累方面更有优势。例如，欧美高校学生的日常消费和互联网服务一般由多个公司提供，而不由学校负责。我们利用这一优势为中国的高校学生提供更好的教学服务。（3）当前研究存在的问题尽管大数据环境下的教育数据挖掘研究发展迅速，且越来越多的研究者开始加入学生成绩预测这一课题的研究，然而当前的研究还比较基础，表现在三个方面：数据来源比较简单目前的研究主要针对简单的数据集，一是数据来源比较单一，数据仅来自一个系统或一门课程；二是数据量较小，只涉及几十到几百个学生，数据量一般不超过1MB。数据出来比较容易从发表的研究成果来看，其涉及的数据在结构和内容上比较简单，含有的噪声数据较少，基本不需要复杂的数据清洗工作；应用范围比较狭窄现有的研究工作是根据一门特定课程的数据进行建模，进而预测学生是否能通过该门课程，这实际限制了研究成果的适用范围。本课题拟对学生管理系统、教务管理系统、校园卡消费系统和网络计费系统等多个数据源中的大数据进行集成、清理和分析，用以预测学生的期末表现。该研究成果可用于学校不同专业的学生，也适用与拥有类似数据的其它高校。然而，这些数据类型繁多，而且存在大量噪声和缺失数据。除了百度文库外，我们发现用户的成绩与其访问视频、游戏和学习类的网站记录也有很强的相关性。然而不同网站的特点各有不同，必须找到一种通用的方法来估计这些网站的浏览时间，进而预测高风险的学生。（4）选题意义与研究价值学生成绩预测可以帮助学生尽早发现问题，改进学习方法或策略，也可帮助教师或辅导员了解学生的整体情况，及时干预和帮助高风险学生。通过本课题的研究，学校积累的海量数据可得到有效利用，使管理人员对校情和学情有更细致的了解，提高教师的教学效果，降低学生退学的风险，因此本课题的研究具有重要的实用价值。我们拟采用大数据技术，从多个数据源的海量数据出发，通过精心设计的数据处理方法提取模型特征，进而构建一个较通用的高风险学生预测模型。本课题的完成可以拓宽教育大数据的研究方法和适用范围，因此具有较强的理论价值。基于大数据的高风险学生预测是一个崭新的课题，目前尚有若干问题亟待解决。通过本课题的研究，不仅有利于学校的教学工作，也可以推动大数据环境下的教育数据挖掘学科的发展，对科学研究和社会发展均发挥其积极作用。该研究成果可用于学校不同专业的学生，也适用与拥有类似数据的其它高校。2、课题理论依据、研究目标、研究内容、研究假设、创新之处。（1）课题理论依据大数据技术可以从海量的数据中发现隐藏的模式与知识，近年来，大数据环境下的教育数据挖掘（Educational Data Mining, EDM）已成为一个新兴的研究领域。EDM是一门跨越教育学、心理学、计算机科学和数学等多个领域的交叉学科。利用教育专业知识和大数据技术，EDM可以发现教育中的新知识，帮助教育机构更高效地实现其教育目标。EDM的应用非常广泛，如学生成绩预测、学生建模和自适应学习等，其中学生成绩预测是EDM最早也是最重要的研究方向之一，它利用学生在学习活动中产生的数据来预测或判断学习效果。学生成绩预测的数据来源十分丰富，可以是学生的个人基本信息、文化背景、社会背景、家庭经济条件、心里状况、受教育程度、之前的学习状况，甚至是学生的人际关系。（2）研究目标本课题的主要研究目标如下: 建立学生数据仓库，集成各系统的数据来源；设计出学生作息规律性判断算法；设计出有状态类网站访问时间的估计算法；解决非均衡样本的学生特征提取问题；构建出学生成绩预测模型。（3）研究内容本课题研究内容主要包括学生特征提取、预测模型构建和预测系统开发三个部分。特征提取是对各种数据源进行集成和分析，从中提取出多学生特征，是整个研究的基础；模型构建基于学生特征构建预测模型；系统开发则是用软件实预测模型。本课题的研究重点为网络日志特征提取与模型特征选择。以下对各个部分进行简要介绍。学生特征提取学生特征提取是指搜集和处理与学生相关的各项数据，为预测模型提供所需要的学生特征。根据数据来源的不同，我们将该项研究内容分为基本特征提取、作息特征提取和网络日志特征提取三个部分。预测模型构建预测模型构建是指选择适当的学生特征和分类器模型，通过历史数据对分类器进行训练和挑战，最终建立性能良好的高风险学生预测模型。该项研究内容又分为模型特征选择、模型选择和模型训练三个部分，其中模型特征选择是本部分的研究重点。预测原型系统开发最后我们将预测模型转换成一个可实际运行的原型系统，以检验和改进理论模型。此部分需要解决的问题包括技术选型、软件架构设计、系统功能设计、多数据源数据接口设计和软件过程管理等。课题重点集中在数据清理和特征选择部分。现有系统包括大量噪声和缺失数据，需要结合计算机、统计学和教育学等多个学科的技术对原数据进行分析。本课题要解决两个关键问题：一是根据原始网络日志文件估计学生访问有状态类网站的时间，二是从非均衡样本的几百个属性中选取少数有代表性的学生特征。（4）研究假设利用来自多个信息系统的大数据，在每学期的中前期识别高风险学生，预测学生在期末时是否会出现多门课程不及格的情况，提醒辅导员和任课老师及时干预和帮助学生，减少学生留级和退学的风险。（5）创新之处本课题的主要创新点包括两个方面：一是使用大数据环境下的多种来源的学生日常记录预测高风险学生，而传统研究的数据主要来自调查问卷和访谈记录；二是对学生网络行为的分析，由于原始记录较为复杂，目前这方面的研究成果较少，需要解决网站访问时间估计以及非均衡样本的特征选择两个问题。高风险学生预测是教育数据挖掘领域的研究热点之一，与当前EDM研究主要采用小样本、单一数据来源及简单处理方法不同，本课题处理的数据来自多个系统、数据量大、结构复杂、数据处理难度较高，因此，本课题的完成有助于拓宽EDM的研究范围和研究方法。基于大数据的高风险学生预测是一项新的研究课题，通过本课题的研究，不仅有利于学校的教学工作，还可推动EDM学科的发展，对科学研究和社会发展均起到积极作用。3、研究思路、研究方法、技术路线、实施步骤。（1）研究思路本课题拟对学生管理系统、教务管理系统、校园卡消费系统和网络计费系统等多个数据源中的大数据进行集成、清理和分析，用以预测学生的期末表现。本课题关键科学问题及其求解方法如下。有状态类网站的时间估算问题有状态类网站是指用户向该网站发送的一系列HTTP请求由一个隐藏的状态机制控制，不同类型的请求之间存在依赖关系。第一种方案是将这个问题看作生成文法的逆问题，生成文法是已知文法规则（状态机），由规则判断一个符号序列（状态序列）是否合法。第二种方案是首先对状态机进行统计，除去那些频率很少的状态，然后根据状态序列构建隐式马尔可夫链。非均衡性样本的特征选取问题高风险学生（正样本）占全体学生的比例很小，通常在 10%以下，有的专业甚至不到1%。不仅如此，高风险学生的绝对数目通常也很小，大多数专业的高风险学生人数在10人以下。如果使用传统的机器学习算法构建预测模型，由于低风险学生的人数远远多于高风险学生，因此传统模型会偏向预测低风险学生（负样本）。同时，高风险学生的大量特征会被低风险学生的特征掩盖。课题组的初步研究表明，通过添加人工构造的正样本，可以获得更好的特征子集。（2）研究方法主要采用的研究方法是：一是调研法，利用互联网、图书馆数据库资源和国际开放联机数据库检索相关文献数据和学术成果，反复研读，提取其精华。二是数据分析法，采用大数据技术，对学生管理系统、教务管理系统、校园卡消费系统等的数据进行集成、清理和分析，提取和选择高风险学生的特征，构建预测模型。三是干预实验法，以检验和改进理论模型。四是实证分析与典型案例法，对大数据技术及教育教学展开调查，并选取具有代表性的案例作深度分析，研究大数据驱动下高危学生的特征。（3）技术路线课题研究拟采用迭代开发的方式，每次迭代均包含数据采集、特征提取、模型构建和系统开发几个步骤，其中特征提取又涉及调研、数据分析和干预实验等研究方法。以下分别说明各个阶段采用的研究方法或实验手段。数据采集。数据采集包括数据导出、数据转换和数据导入3 个过程：第一，数据导出：把不同数据源的数据导出到课题组的存储系统中。第二，数据转换：将导出的数据转换为规定的格式，便于后续导入数据。第三，数