资源预览内容
第1页 / 共56页
第2页 / 共56页
第3页 / 共56页
第4页 / 共56页
第5页 / 共56页
第6页 / 共56页
第7页 / 共56页
第8页 / 共56页
第9页 / 共56页
第10页 / 共56页
亲,该文档总共56页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
关联规则挖掘在学生成绩管理中的应用 摘 要关联规则挖掘用于发现隐藏在大型数据集中的有意义的联系,所发现的联系可以用关联规则或频繁项集的形式表示。目前,关联规则挖掘已经得到了广泛的研究和应用,其中算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。本文针对算法的不足,提出了一种改进算法,并将其应用于挖掘学生成绩,从而对优化课程设置起到一定的指导作用。论文的主要内容如下:(1) 对数据挖掘技术进行了概述和归纳,重点介绍了关联规则的基本理论、思想及产生频繁项集和关联规则的相关技术。(2) 深入研究了算法,并针对该算法的缺陷,提出了一种改进算法。改进算法利用了完美哈希函数,优化的事务压缩技术,分组查询计数和不利用剪枝直接产生候选项集等技术,在一定程度上提升了挖掘频繁项集的效率。同时,通过理论和实验对两种算法进行了性能比较,验证了改进算法的优越性。(3) 将关联规则挖掘应用于学生成绩管理。在原有的教务管理系统学生成绩管理模块的基础上,应用改进算法,采用作为系统开发工具,设计了一个数据挖掘系统用于挖掘学生成绩中的关联规则。该系统包括获取数据,数据预处理,关联规则挖掘和规则结果分析四个模块。通过挖掘学生成绩,进一步证实了改进算法的有效性和可行性,也为教学管理人员进行课程合理设置提供了决策支持。系统试运行后,优化的课程设置使得教师的教学过程有了明显的改善,教学效果有所提高,学生的课程通过率有所上升。关键词: 数据挖掘;关联规则;频繁项集;算法;学生成绩The Application of Association Rules Mining inStudents Performance ManagementAbstractAssociation rule mining is used to find the meaningful connections hidden in large data set, and the connections can be expressed by association rules or frequent itemsets. Currently, the association rule mining has been widely studied and applied, of which Apriori algorithm is one of the most influential mining Boolean association rule algorithms of frequent itemsets. Aiming at the shortcomings of Apriori algorithm, this thesis proposes an improved algorithm and applies it to mine student performances, thus plays a certain guiding role in curriculum optimization.The main contents of this thesis are as follows:(1)Firstly, it discusses and summaries the data mining technology, and emphasizes the basic concepts and ideas of association rules, and related techniques about frequent itemsets and association rules.(2)Secondly, it studies the Apriori algorithm thoroughly. And present an improved algorithm aiming at the flaws. The algorithm uses the perfect hash function, optimized affairs compression technology, the grouping inquiry counting and not using the pruning directly to produce candidate k itemsets technology and so on. The improved algorithm enhances the efficiency of mining frequent itemsets to a certain extent. At the same time, it confirms the superiority of the improved algorithm by comparing the two algorithms from theory and experiment aspect.(3)Finally, it applies the association rules mining to the student performance management. On the foundation of student performance administration module in the original educational administration management system, by applying the improved Apriori algorithm and VB 2010, it designs a data mining system to mine association rule in the student performance. This system includes four modules: the data gain, the data pretreatment, the association rule mining, and the regular result analyzing. Through mining the student performance, it further confirms the validity and the feasibility of improved Apriori algorithm, and also provides decision support for the teaching management to Optimize curriculum. After the operation of the system, the teaching process was improved, the teaching effect was enhanced and the pass rate was increased.Key words: Data Mining; Association Rules; Frequent Itemsets; Apriori Algorithm; student performance目 录第一章 绪论11.1 研究背景11.2 选题的依据和意义11.3 本文的主要内容21.4 本文的组织结构3第二章 数据挖掘技术42.1 数据挖掘的起源42.2 数据挖掘的概念42.3 数据挖掘的任务52.4 数据挖掘的过程52.5 数据挖掘的方法62.6 数据挖掘的发展趋势82.7 本章小结9第三章 关联规则挖掘技术103.1 关联规则的相关定义和性质103.2 关联规则挖掘问题的形式描述113.3 产生频繁项集和规则的相关技术113.3.1 频繁项集的产生策略113.3.2 规则的产生183.4 关联规则挖掘的方法183.5 关联规则挖掘的研究方向193.6 本章小结20第四章 Apriori算法及其改进设计214.1 经典的Apriori算法214.1.1 Apriori算法的基本思想214.1.2 Apriori算法的核心描述和分析214.1.3 Apriori算法中规则的产生234.1.4 Apriori算法的举例演示244.1.5 Apriori算法的特点和缺陷264.1.6 Apriori算法的现有改进技术264.2 一种新的Apriori算法改进设计274.2.1 改进思路274.2.2 Apriori改进算法的描述和实例分析284.2.3 Apriori改进算法的特点和不足334.3 Apriori算法和Apriori改进算法的性能比较344.3.1 性能分析344.3.2 实验分析354.4 本章小结36第五章 Apriori改进算法在学生成绩管理中的应用375.1 关联规则挖掘过程375.2 关联规则挖掘在学生成绩管理中的应用385.2.1 问题定义385.2.2 数据准备385.2.3 建立数据挖掘模型405.2.4 关联规则的解释和评估455.3 本章小结45第六章 总结与展望466.1 论文总结466.2 展望46参考文献48攻读硕士学位期间公开发表的论文51 插图清单图3- 1费力策略示意图12图3- 2基于支持度的剪枝策略的实例13图3- 3 FP-growth算法伪代码14图3- 4 FP-growth算法挖掘流程第一步15图3- 5根据表3-1构建的FP-tree16图4- 1利用Apriori算法产生频繁项集的伪代码22图4- 2 apriori-gen()函数产生候选项集的伪代码23图4- 3 Apriori算法中规则产生的伪代码24图4- 4 Apriori算法寻找D中频繁项集的过程25图4- 5利用完美哈希函数挖掘L230图4- 6利用L2压缩原始数据库D31图4- 7 Apriori改进算法的数据流程图33图4- 8不同支持度下的两种算法效率比较(5000条样本数据)35图4- 9不同样本数据下的两种算法效率比较(min_sup=0.3%)36图5- 1关联规则挖掘过程示意图37图5- 2学生成绩数据挖掘系统模型41图5- 3学生成绩数据挖掘系统挖掘流程图41图5- 4学生成绩数据挖掘系统主界面42图5- 5获取数据模块界面42图5- 6获取挖掘数据成功的界面43图5- 7关联规则挖掘模块的界面43图5- 8规则结果分析模块的界面44图5- 9学生成绩数据挖掘系统应用前后效果对比图45表格清单表3- 1 事务数据库D15表3- 2 按结果集L中的次序处理D中的每个事务的项15表3- 3 挖掘图3-4的FP-tree的结果17表4- 1 原始事务数据库D24表4- 2 中所有2-项集对应的地址表29表4- 3 分组表(3)32表4- 4 分组表(4)32表5- 1 学生成绩表表结构39表5- 2 预处理后的学生成绩表表结构40第一章 绪论1.1 研究背景面临着社会各个领域积累的大量数据,如何从中获取有价值的新发现,目前已成为不同学科的研究者的主要研究方向。虽然录入、查询和统计数据
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号