资源预览内容
第1页 / 共70页
第2页 / 共70页
第3页 / 共70页
第4页 / 共70页
第5页 / 共70页
第6页 / 共70页
第7页 / 共70页
第8页 / 共70页
第9页 / 共70页
第10页 / 共70页
亲,该文档总共70页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
学校代号:1 0 5 3 2 学 密 号:G 0 7 1 0 0 0 8 9 级:普通 湖南大学工程硕士学位论文 基于显露模式的流数据集成加权 分类算法研究 途文签趱目期;2 Q ! ! 玺! 月鱼旦 签趱委员金圭廑;奎盏童熬援 | l I I II II III I I II II I IIIIl Y 19 0 7 4 4 2 R e s e a r c ho nt h ee m e r g i n gp a t t e r n s b a s e di n t e g r a t i v ew e i g h t e d c l a s s i f i c a t i o na l g o r i t h mf o rs t r e a md a t a b y M A O X i a o y a n B E ( H u n a nU n i v e r s i t yO f A r t sA n dS c i e n c e ) 2 0 0 5 At h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e R e q u i r e m e n t sf o rt h ed e g r e eo f M a s t e ro fE n g i n e e r i n g C o m p u t e rA p p l i c a t i o n i nt h e G r a d u a t eS c h o o l o f H u n a n U n i v e r s i t y S u p e r v i s o r L e c t u r e rC H E NZ U O S e n i o rE n g i n e e rP E N GS h u d o n g D e c e m b e r ,2 0 10 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:毛丑屯舷日期:力,f 年f 月易日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“4 ”) 作者签名:毛疗毛整日期:加1 年1 月6 日 导师签名:下忑穆日期:工o f f 年,月6日 彭拣 基于显露模式的流数据集成加权分类算法研究 摘要 近年来,随着证券交易、网络安全检测、电话通讯记录、无线传感网络等领 域各种应用形式的不断出现,一种不断变化、连续到达且规模巨大的流式数据逐 渐进入人们的视野,这即是流数据。流数据颠覆了数据库中传统静态的数据存在 形式,它具有分布形态不断变化、数据元素连续到达等一系列不同于传统数据的 特点,这使得流数据环境下的数据挖掘技术对挖掘算法提出了更高的要求。 通过对流数据单分类器算法和集成分类算法进行比较,我们发现,流数据集 成分类算法可以有效提高分类性能。进一步的研究指出,应用基本显露模式构建 的单分类器算法可以取得很好的分类效果。基于上述研究,本文采用对多个流数 据基分类器进行集成加权的方法来提高分类性能,并采用具有很好区分性能的基 本显露模式来构建流数据集成分类算法的基分类器成员,最终提出了一种基于显 露模式的流数据集成加权分类算法。在训练基分类器时,为了使基于e E P s 的基分 类器具有较好的分类性能,算法通过训练e E P s 实现e E P s 权值的自适应,确保当 发生概念漂移时,基分类器可以快速收敛;在生成集成分类器时,通过在对基分 类器加权之前首先对其进行模型更新,使得构造的集成分类器算法可以很好地反 映数据分布特征和有效地适应概念漂移现象。 实验结果表明,相同流数据环境下,本文算法分类精度略优于基于其他方法 构建基分类器的集成分类算法;并且本文算法性能明显优于基于基本显露模式构 建的单分类器算法。 关键字:数据挖掘,流数据,概念漂移,分类 硕上学位论文 A b s t r a c t I nr e c e n ty e a r s ,w i t ht h ee m e r g e n c eo fa l lk i n d so fa p p l i c a t i o n s ,s u c ha st h es t o c k m a r k e tt r a d i n g ,t h es e c u r i t yt e s t i n gf o ri n t e r n e t ,t h et e l e c o m m u n i c a t i o nr e c o r d s ,a n d t h ew i r e l e s ss e n s o rn e t w o r k s ,p e o p l ep a yt h e i ra t t e n t i o n so n a ne v e r - v a r i a t i o n a l , c o n t i n u o u sa n dl a r g e s c a l es t r e a m i n gd a t a ,n a m e l y , s t r e a md a t a T h es t r e a md a t a c h a n g e dt h ee x i s t i n gf o r mo ft h et r a d i t i o n a ls t a t i cd a t a ,a n di th a sm a n yp r o p e r t i e s d i f f e r e n tf r o mt h et r a d i t i o n a ld a t a ,f o re x a m p l e ,t h ed i s t r i b u t i o np a t t e r n so fs t r e a m d a t aa r ec h a n g i n gc o n s t a n t l y , a n di t sd a t ae l e m e n t sa r er e a c h i n gc o n s e c u t i v e l y , w h i c h m a k e si td i f f i c u l tt od od a t am i n i n gi nt h ee n v i r o n m e n to fs t r e a md a t a B yc o m p a r i n gt h es i n g l ec l a s s i f i e ra n dt h ee n s e m b l ec l a s s i f i c a t i o na l g o r i t h mi n t h ee n v i r o n m e n to fs t r e a md a t a ,W ef i n dt h a t ,w ec a ni m p r o v et h ep e r f o r m a n c eo f c l a s s i f i c a t i o na l g o r i t h m sf o rs t r e a md a t ab yi n t e g r a t i n gt h e m I na d d i t i o nt ot h i s ,W e a l s of i n dt h a tah i g hc l a s s i f i c a t i o np r e c i s i o nc a nb ea c h i e v e db yu s i n gac l a s s i f i e r c o n s t r u c t e dw i t ht h ee s s e n t i a l e m e r g i n gp a t t e r n s ( e E P s ) B a s e do nt h e s eb a s e s m e n t i o n e da b o v e ,w ep r o p o s et oi m p r o v et h ec l a s s i f i c a t i o np r e c i s i o nb yi n t e g r a t i n g a n dw e i g h t i n gm u l t i p l ec l a s s i f i e r sf o rs t r e a md a t a ,a n da d o p tt h ee s s e n t i a le m e r g i n g p a t t e r n s t oc o n s t r u c tt h eb a s i cc l a s s i f i e r so fi n t e g r a t e d a l g o r i t h m F i n a l l y ,a n i n t e g r a t i v ew e i g h t e dc l a s s i f i c a t i o na l g o r i t h mf o rs t r e a md a t ai sp r o p o s e db a s e do nt h e e m e r g i n gp a t t e r n s i nt h i st h e s i s O nt r a i n i n gt h eb a s i cc l a s s i f i e r ,t h ee s s e n t i a l e m e r g i n gp a t t e r ni st r a i n e di no r d e rt h a ti tc a nh a v ea na d a p t i v ew e i g h t ,i nt h i sw a y , w ec a nc o n s t r u c tab a s i sc l a s s i f i e rw i t hag o o dd i s t i n g u i s h a b i l i t y , w h i c hc a nb e c o n v e r g e dq u i c k l yw h e nt h ep h e n o m e n o no fc o n c e p td r i f t i n ga p p e a r s O ni n t e g r a t i n g t h e s ec o n s t r u c t e db a s i cc l a s s i f i e r s ,w eu p d a t et h e mc o n t i n u a l l yb e f o r ew e i g h t i n gt h e m , w h i c hm a k e si t p o s s i b l ef o rt h ei n t e g r a t e dc l a s s i f i c a t i o na l g o r i t h mt of i tf o rt h e d i s t r i b u t i o no fs t r e a md a t a
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号