资源预览内容
第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
亲,该文档总共4页全部预览完了,如果喜欢就下载吧!
资源描述
第27卷 第1期 2006年1月 微计算 机应 用 MICROCOMPUIER APPLICATIONSVol. 27 No. 1Jan. 2006本文于2004 - 08 - 16收到。基于Web日志挖掘的个性化服务站点1夏敏捷 2张慧档(1中原工学院计科系 郑州 450007 ;2河南工业大学 郑州 450052)摘 要:介绍个性化站点的概念,并对Web日志挖掘系统体系结构进行分析。其后将关联规则挖掘技术应用到日志 事务会话中,在对日志数据的特性分析的基础上提出类Apriori挖掘算法。对类Apriori挖掘算法得到的频繁项集如 何有效提取关联规则提出了最有效的方法。在实际应用中探讨了如何从多个匹配的关联规则中选择合适的匹配规 则。 关键词:Web日志挖掘 关联规则 数据挖掘Personalize Web Site System Based on Web Log Mining1XIA Minjie ,2ZHANG Huidang(1Department of Computer Science , Zhongyuan Institute of Techndogy , Zhengzhou , 450007 , China ;2Henan University of technology , Zhengzhou , 4500052 ,China)Abstract : The paper introduces the concept of personalize web site first and analysis the system construction of web logmining . Secondly we try to introduce the notion of association rule into the web mining system and provide similarApriori. In this paper , it brings forward the best method about abstracting rules from the frequency item through theexperiment. In the practicality , the paper provides two matching rule idea of choosing appropriate rules.Keywords : Web log mining , association rule , Data Mining目前,国内站点与日俱增,尽管Internet提供大量的信息 和搜索门户网站,但用户往往无法找到自己所需的内容。这 对每个网站提出一个严峻的问题:网站如何设计和组织自己 网站的网页使用户迅速找到所需要的内容,这样可以节省用 户的上网访问时间。但是大部分站点设计人员根据站点的需 要根据自己的经验对网站信息分类,并未考虑Web访问用户 的浏览行为,然后从使用者角度对站点进行优化和为用户提 供个性化服务。1 个性化服务Web站点个性化服务Web站点:利用Web服务器日志获取用户 的访问模式,根据当前用户的浏览模式,定制个性化页面内容 和修改站点结构,为用户提供个性化服务1 ,4。 虽然Web服务器日志记录每一位访问者的请求信息,站 点的维护人员可以根据日志数据改进站点结构和内容,但是 对于一个日访问量上万个页面的小型网站,直接分析这些原 始的日志数据一般不可能的,为此我们借助于数据挖掘技术, 将之运用于日志数据中,自动、 快速的发现访问者的浏览模式(如频繁访问页组、 用户聚类等) ,在得到访问者的浏览模式下,高效的、 自动的根据每个访问者的浏览模式,动态的调整、定制站点的结构与页面的内容,为每个访问者提供个性化服务。只有提供个性化服务才能较好的吸引大量的访问者。如果个性化服务Web站点技术应用在商务网站,企业决策层对WWW上的访问模式进行分析,这样可以帮助企业确定用户的消费模式和消费心态,制定市场策略,还可以根据客户的兴趣提供个性化服务。如可以为每个用户推荐不同的可能购买的商品等。1. 1 个性化服务Web站点体系结构个性化服务Web站点利用Web日志挖掘技术从Web日志中获取用户的访问模式,根据用户的访问情况,实时推荐用户可能感兴趣的超链接。个性化服务Web站点也称为自适应站点(Adaptive web site) ,主要分两个模块实现:(1)离线部分(见图1) :此部分主要从日志文件中发现网站访问者的浏览模式,对这些模式筛选后,建立模式库。(2)在线部分(见图2) :实时推荐引擎识别用户的当前会话(session) ,得到每个用户的当前访问序列,然后把序列送入模式库中,运算得到用户的下一些可能访问的页面,这些页面的地址可以附加到用户当前访问页面的底部,以进行推荐。微 计 算 机 应 用2006年图1 离线部分图2 在线部分2 Web日志挖掘离线部分主要使用WEB日志挖掘技术。WEB日志挖 掘(Web Usage Mining) :也为WEB使用挖掘,日志记录了网 页被使用的信息,如IP地址、 访问时间、 哪一页、 字节大小等。 日志挖掘从服务器的log文件或其他数据中分析用户的访问 模式。这些信息可以作为优化站点的依据,也可以作为设置 页面中广告投放点的依据等。 讨论Web日志挖掘,它是个性化站点技术的基础。Web 日志挖掘在国内外处于起步阶段,虽然出现了一些日志分析 与挖掘的工具,但大多数是试验室产品或是对日志简单统计,Web日志挖掘技术在许多方面有待提高。2. 1 Web日志挖掘系统的体系结构Web日志挖掘过程大体分为:数据预处理2、 挖掘算法 实施。经过挖掘算法分析得到用户感兴趣的规则和模式,以 友好的界面展示给用户。2. 2 Web日志挖掘的预处理 现在,越来越多的企业利用Internet进行商务活动,客户 在Web站点上的商业活动和浏览访问的大部分信息都记录 在log文件中,典型的Web服务器日志包括以下信息:c - IP地址:访问服务器的客户机的IP地址。 用户ID (cs - username) :是在被访问页面需要进行用户 认证时才有的,该例中并没有对任何一个页面进行认证,所以 为空。s - ip :被访问服务器的IP地址。s - port :被访问服务器的端口。cs - method:是指客户访问的方式,例如是GET还是POST;有些还记录所采用的协议如http或ftp等。cs - uri - stem:是指访问的统一资源定位,即所访问的页 面。sc - status:反映了访问的最后状态(结果) ,典型的有,200代表成功,404代表找不都所请求的页面。Size:代表请求的页面的大小。Referer :反映了所请求页面的引用。cs(User - Agent) :表示客户机的浏览器的类型,版本,以 及所运行的操作系统。 以下是中原工学院计算机科学系Web服务器2002 - 10- 29的日志片断:2002 - 10 - 29 00 :03 :51 202. 196. 32. 79 - 202. 196. 35.1 80 GET / movie/ movie. asp page = 1 + MSIE + 6. 0 ; + Windows + NT+ 5. 0)2002 - 10 - 29 00 :03 :51 202. 196. 32. 79 - 202. 196. 35.1 80 GET / movie/ images/filmtop. gif -200 Mozilla/ 4. 0 + (compatible ; + MSIE + 6. 0 ; + Windows + NT + 5. 0)2002 - 10 - 29 00 :03 :51 202. 196. 32. 79 - 202. 196. 35.1 80 GET / movie/ images/filmtop_jc. gif -200 Mozilla/ 4. 0+ (compatible ; + MSIE + 6. 0 ; + Windows + NT + 5. 0)Web日志挖掘主要提供面向用户的信息分析,首先要从Web日志中识别用户会话作为信息分析的基础。我们用 “用 户会话” 的概念表示一个用户在一段时间内访问某个网站的 网页的有序集合。我们可根据某段时间内(比如一天,一周) 的所有 “用户会话”,得到一些规则,例如DiDj ,这里Di ,Dj 都是(URLs)。这个规则的理解是如果当Di被请求后,过了 一段时间很可能Dj就会被请求,因为历史情况记录的是如 此。 通常情况下,Web日志挖掘的预处理2就是将原始的日 志文件经过一系列的数据处理转化为用户会话,主要包括:数 据净化、 用户识别、 会话识别。(1)数据净化:主要是过滤掉无关项或冗余项。例如:在log文件中,扩展名为. gif、. ico、. css、. jpg的log记录可删去, 而并不会对挖掘分析产生影响。例如,通常首页中会有一个 计数器的脚本文件 “count. cgi”,同样可以删除。(2)用户识别和会话识别:用户识别是Web挖掘的重要一环,它的成功与否直接关系到挖掘结果的准确性,同时也是 用户个性化聚类分析和个性化智能推荐服务的基础。会话识 别的目的是划分用户的访问到不同的会话。最简单的方法是 时间窗方式,如果两个不同访问之间的时差超过某值,则认 为,用户开始了另一个新的会话。例如采用60分钟作为缺省 的时间窗。2. 3 实施数据挖掘算法 数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数 据内部知识的关键。通过对用户访问网站的历史数据应用各 种数据挖掘技术,得到高层知识,提供给用户作决策支持,或 利用这些知识动态生成网页,为用户提供访问建议。本文重631期夏敏捷 等:基于Web日志挖掘的个性化服务站点点介绍用关联规则应用于个性化站点。 利用类似购物篮的分析思想,发现用户浏览时相关页面, 站点自动推荐用户喜好的页面的链接。此部分可以利用类Apirior算法实现。主要提供给予当前用户可能不同的各类 用户频繁访问的页面。2. 3. 1 类Apriori算法 类Apriori算法5应用到Web页面会话中发现频繁访问 路径,该过程和挖掘关联规则时的Apriori算法3类似,但在Apriori算法中,只要两个频繁(k - 1) -项集有k - 2个项相 同就可合并成一个频繁k -项候选集。在网页频繁访问路径 的挖掘中,会话数据库中的会话记录的各项代表的是访问页 面,且访问的页面是有序的,因此不能简单的只要k - 2项元 素相同就行,需要以下处理: 两个频繁(k - 1) -项集m1和m2中的一个去掉第一个 元素,另一个去掉最后的元素后完全相同,则m1和m2可合 并。 例如:m1和m2代表两个网页频繁访问路径即频繁(k -1) -项集,其中每一项代表一个访问页面,在实现时使用页面 序号字符串存储。m1 =“1 ,2 ,5 ,9 ,3”;m2 =“2 ,5 ,9 ,3 ,8” 则m1和m2可以 合并。类Apriori算法合并后为 “1 ,2 ,5 ,9 ,3 ,8”,假如:m1 = “1 ,2 ,5 ,9 ,14”;m2 =“1 ,2 ,5 ,9 ,18”,在Apriori算法中可以合 并,而在类Apriori算法中m1和m2不可以合并。 在Apriori算法中,求出所有的候选集合集Ck需要剪枝 操作。 如令频繁3项L3为1 2 3 ,1 2 4 ,1 3 4 ,1 3 5 ,2 3 4 ,联合阶段后,候选4项C4将为1 2 3 4 ,1 3 45。在剪枝阶段1 3 4 5将被删除,因为它的一个子集1 45不在L3之中。这样我们得到的C4中只剩下1 2 3 4。但 是在类Apriori算法中,联合阶段后,C4将为
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号