web数据挖掘技术及其在网络教学中的应用.doc-

网络教学中学生个性化信息服务研究摘要:个性化的网络教学系统是一个智能化的系统，通过对学生学习的情况、需求、能力、进度、兴趣等进行分析，为每位学习个体提供个性化的学习方案。web挖掘为其实现个性化的服务提供了有效地工具。本文介绍了web数据挖掘技术及其在网络教学中的应用，提出了基于web日志挖掘的模型，并对该系统的主要实现模块进行了分析。关键字:web日志挖掘；网络教学；个性化1 引言随着计算机技术和信息技术的发展，以网络为载体、利用数字电子化方式开展的教学活动逐渐成为了目前最为重要的教学形式，这种教学形式的真正优势在于能为学习者个体提供个性化的学习安排，而这种个性化的教育服务也势必会进一步促进网络教学的发展。2 web数据挖掘web数据挖掘，是在web环境下数据挖掘技术的应用，是从web的超链接结构、网页内容和使用日志中提取有用的模式和隐含信息。web上信息的表现具有多样性，这也就决定了web挖掘任务同样也具有多样性。根据处理对象的不同，web挖掘一般可以分为web内容挖掘、web结构挖掘和web日志挖掘三类。本课题重点研究web日志挖掘。web日志挖掘的主要任务是从web的服务器日志中抽取有意义的信息和模式。web日志挖掘处理的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、注册信息、用户对话等。对这些数据进行挖掘和分析可以帮助理解用户的行为，进而改进载体站点的结构或者为用户提供个性化的服务。那么在网络教学中应用web日志挖掘就可以通过挖掘相应站点的日志文件获取学习者的访问内容、停留时间、访问频度等，从而发现其学习访问模式等有用信息，进一步提升整个网络教学的品质。web日志挖掘的研究围绕着分析web站点性能、理解用户意图和改进web站点设计三个应用方面进行，常用的技术主要有统计分析、关联规则分析、序列模式分析、聚类与分类分析等。web日志挖掘一般分为数据预处理、模式发现和模式分析三个基本阶段。2.1 数据预处理阶段服务器端数据、客户端数据和代理服务器端数据收集都是web日志挖掘的数据源。数据预处理阶段的主要任务是将各种数据源得到的使用信息、内容信息和结构信息转换成适合数据挖掘和模式发现所需要的数据模型。数据预处理是在将日志文件转化为数据库文件之后进行的，是为了得到可用于挖掘的可靠和精确的数据。这个过程一般分为数据清洗、用户识别、会话识别和路径补充4个步骤。1）数据清洗是指删除日志文件中一些与挖掘任务无关的数据，包括删除、合并某些记录，处理用户请求访问失败的记录等内容。2）用户识别的主要任务是处理多个用户通过代理服务器或防火墙访问站点的情况，是将用户和请求页面相关联的过程。3）会话识别的任务就是把属于同一个用户的同一次访问请求识别出来，也就是将用户的访问记录划分成单个的会话。一般采用超时识别。4）路径补充就是根据引用日志和网络拓扑结构把访问日志中没有记录的用户补充到用户会话文件之中，确保获得用户完整的访问路径。2.2 模式发现阶段模式发现阶段是web日志挖掘的核心部分。经过数据预处理之后，应用一种合理的挖掘算法或综合应用不同的算法，如关联规则分析、聚类和分类技术等，来处理“消噪”后的数据，最终发现用户的访问模式和规律。2.3 模式分析阶段web日志挖掘的最后一步就是模式分析。通过模式挖掘之后，生成的规则数目庞大，表达晦涩，得不到很好的利用，这就需要对模式发现过程产生的规则和模式进行过滤，通过模式分析和应用技术处理之，选择用户易于理解和棘手的方式显示出来。常用技术有可视化技术、联机分析技术和智能查询机制等。3 网络教学中的web数据挖掘方法3.1 关联分析关联分析是寻找在同一个事件中出现的不同项的相关性。关联分析发现关联规则，运用在web挖掘环境中的关联规则是指发现用户会话中经常被用户一起访问的页面集合，这些页面之间没有顺序关系。购物篮分析就是一个非常典型的关联规则应用，该应用通过发现顾客放入“购物篮”中不同商品之间的联系来分析顾客的购买习惯。在web中，关联规则作为启发式规则，可以发现学习者对内容页面之间的访问关系，调整页面之间的结构关系，预测学习者可能访问的内容，使其最快捷地访问到感兴趣的内容。在网络教学中就可以利用关联分析寻找各门课程之间的内在联系，根据a课程与b课程在一起浏览的情况，推导出和在一起是起着积极作用还是负面影响，进而可以选定课程之间的关联，及时制定策略建立或删除和课程之间的关联。3.2 分类分析分类分析是预先定义好几个类，然后将数据项映射到某个类中去。在web日志挖掘中使用分类能够将用户配置文件归属到特定的用户类别，建立数据各特定类别的用户概图。例如把学生的知识能力水平分成入门级、初级、中级和高级，利用分类技术将学习者投射到某一个级别中，为每个级别提供相应的个性化资源和学习支持服务，还可以用于远程协作的学习小组分配。可以利用有监督的归纳学习算法来实现这种分类。3.3 聚类分析分类与聚类是不同的两种方法，分类中的类及相关属性是预先定义好的，其目的是运用分类算法将没有划分类别的数据标记为特定的类标号；而聚类中的类别事先并没定义，其目的是将大量的个体数据，根据属性之间的相似性，将原始数据集合划分为若干个子集。在网络教学中聚类是一个重要的方面，它帮助网站设计人员从用户数据库中发现不同的用户群，并且用学习模式来刻画不同的用户群的特征。通过聚类分析可以帮助网站设计者更好地了解自己的用户，使教学活动能够在一定程度上满足学生的要求。3.4 序列模式分析序列模式指在事务之间寻找相应的时序关系，在时序数据集中发现在时间上具有先后顺序的数据项。根据序列模式的特点，利用序列模式分析技术我们可以对用户的浏览趋势进行分析，在网络教学中学生的课程学习是循序渐进的，且具有一定的关联和前后顺序，进行序列模式分析可以预测学生的未来访问模式，且有助于针对特定用户群安排特定内容，可以解决远程教育中针对各种层次学生进行因材施教的问题。4 基于web挖掘的个性化网络教学系统网络教学作为一种基于web的，以远程方式进行的教学活动，打破了过去教师、学生面对面、共集一堂的时间和空间的限制，使更多的人能够享受到有限的社会教育资源，而引入个性化后的网络教学将是一个智能化的系统，可以更多且及时地了解到学生的状况、需求、能力差异、学习进度、兴趣爱好，并动态地根据这些因素调整学习计划及进度，让学生得到针对其个性化的教育。4.1 系统模型基于web挖掘的个性化网络教学系统设计思想是：通过获取学习者在web上的个人信息、学习行为信息和web日志数据，如访问频度、内容、访问时间长短及偏好，经过数据预处理、模式发现找出有用的规则和模式进行综合分析，结合教学资源知识库的信息，得出学习者学习过程的一般模式规律，对学习内容和进度进行自动组合，重构页面间链接，为学习者提供良好的个性化服务，使学习者更好地发展自我。根据上述的设计思想，提出一种基于web日志挖掘的个性化远程教育系统模型，如图1所示。4.2 系统结构4.2.1 数据预处理模块数据预处理模块负责对服务器端的访问日志进行预处理，以得到满足web日志挖掘要求的事务数据。主要是根据挖掘任务进行数据清洗、用户识别、会话识别和事务识别。1）数据清洗数据清洗是整个预处理的基础，主要是将有噪声的、不一致的、冗余的数据从web访问日志中清除或合并。可以采用纵向缩减和横向缩减进行清洗，例如当学习者对某个页面发出访问请求时，这个页面中的图形、脚本、图像等资源就会被自动下载，并写入日志数据中，但在网络教学网站中，只有包含教学内容的html文件与用户会话有关，而后缀名为.jpg，.gif和.jpeg的图片文件，后缀名为.wav的音频文件以及后缀名为.js和.cgi的脚本文件都属于噪声信息。这时我们就可以利用纵向缩减中的后缀过滤法进行数据清理。2）用户识别用户识别是为了得到同一用户访问的所有路径的集合。用户识别在对用户进行访问模式挖掘或聚类分析时尤为重要，因为群体是由个体组成的，只有对个体有了详细的认识才能清楚地识别群体特征。3）会话识别一个会话是学习者从进入到离开网络教学站点这段时间内的一组网页访问，可以根据学习者登陆系统、完成学习、最后退出的过程来识别会话。web日志中存储着大量的访问信息，时间跨度大，一名学习者可能在此期间多次访问了该站点，那么会话识别的意义就在于可以将不同时间段内的学习者访问区分开，将学习者多次访问的页面划分成多次用户会话。会话的划分有多种方法，有基于时间划分的，有基于站点拓扑结构划分的。而最为常用的方法就是通过设置一个用户在站点的持续时间或页面停留时间阈值来识别用户会话，如果请求时间超过阈值则认为新会话开始。4）路径补充：由于本地缓存和代理服务器缓存的存在，使得难以识别学习者访问的网页序列，而路径补充就是补全那些不完整的学习者访问序列。路径补充可以遵循一些原则，比如通过在网页的标志中设置过期时间，使得本地缓存失效，这样就可以保证web日志记录中保存了用户的真实访问路径；还可以结合访问日志、引用日志、代理日志和网站拓扑结构来实现路径补充。在完成数据预处理之后会就能得到网络教学系统中的web访问事务数据库，学习者对网络教学站点的访问情况都将存储在web访问事务数据库中，每一个事务是一组内容页面的集合，代表着学习者一次有意义的访问。4.2.2 web挖掘引擎模块在web事务库中已经存储了数据预处理的结果，下一步就可以离线利用统计分析和聚类方法进行web事务库挖掘。1）统计分析统计分析是web挖掘中最基本的方法，也是分析用户行为最常用的方法。通过记录学习者经常访问的url，跟踪统计学生访问次数、总停留时间、该学习者的课程数、计算学习者对哪些课程停留时间较长等，得到学习者的学习特征风格，建立和完善学习者学习模型，建立学习者个性数据库，为不同的学习者提供合适的学习策略提供帮助。2）聚类分析将物理或者抽象对象的集合分组成为类似的对象组成的多个类的过程称为聚类，其目标就是在相似的基础上收集数据来分类。聚类分析不需要预先定义类的特点或属性，而是从用户的访问行为中发现潜在性的知识，从而能更好地体现智能性。页面（资源）聚类和学生聚类是实现个性化网络教学最为重要的两种方法。如果通过聚类发现若干个网页属于同一网页（资源）聚类，当学生访问其中一页（资源）时，可推荐类中其它页面（资源）。当学习者具有相似的学习习惯或学习兴趣时，可以利用学生聚类法对他们提供相同的个性化服务。4.2.3 知识库应用模块应用统计分析、关联规则分析、分类和聚类技术和序列模式等挖掘算法对web事务库进行了挖掘和分析，其结果存放在知识库中，此时网站设计者可利用知识库中的信息和模式为学习者提供合适的学习策略和学习建议，进一步改进网站结构，实现真正意义上的个性化信息服务。5 结语internet技术的发展和网络的普及扩展了数据挖掘的应用范围，利用web数据挖掘技术对网络教学网站上的各种数据源进行挖掘，把握用户的兴趣，有助于开展网站信息推送服务以及个人信息的定制服务。参考文献1 冯春辉.web日志挖掘在网络教学中的应用研究.计算机技术与发展，2010，6.2 于飞，丁华福，姜伦.web日志挖掘中数据预处理技术的研究.计算机技术与发展，2010，5.3 李中，苑津莎，徐小彩.基于web日志挖掘的客户访问兴趣分析.华北电力大学学报，2009，5.4 苏新宁，杨建林，等.数据仓库和数据挖掘.清华大学出版社，2006，4.5 李燕风.web访问信息挖掘系统.计算机工程，2003，29（15）.6