资源预览内容
第1页 / 共62页
第2页 / 共62页
第3页 / 共62页
第4页 / 共62页
第5页 / 共62页
第6页 / 共62页
第7页 / 共62页
第8页 / 共62页
第9页 / 共62页
第10页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据流离群数据挖掘的研究与应用摘要离群数据可能隐藏着一些真实的、而又出乎人们意料的知识,需要研究人员认真地对待。数据流由一系列有序到达的、趋于无限的、动态的数据组成。在数据流上进行离群数据挖掘则是数据挖掘的一个新兴课题,在同常工作中有广泛的应用。目前由于众多应用领域的需求,数据流挖掘正逐渐成为数据库、机器学习、统计学等领域的研究热点,并已成为许多研究领域的有用工具。当数据流这一数据模型在商业和个人信息中被广泛使用时,一些现有的应用软件需要对快速变化的数据流进行在线分析和处理。而现有数据流系统的局限性以及数据流的单遍特性,导致很难有效地在海量的流数据中提取有用数据,并对其进行进一步操作。传统数据挖掘算法在支持数据流挖掘时所表现出来的局限性已被广泛认识,这也促进了对改进现有数掘挖掘算法和构建新的数据流挖掘算法的研究。本文共分为六章。第一章“前言”简单介绍了数据流的基本概念、原理和处理技术特点等,以及数据挖掘的基本概念、方法和分类等。第二章“离群数据挖掘概述”是关于离群数据挖掘以及常用离群数据挖掘方法的介绍。在第三章“数据流聚类分析”中,介绍了主要的数据流聚类方法及其与数据流离群数据挖掘的紧密联系。第四章“基于分布式反向k 近邻算法的数据流离群数据挖掘研究”是运用C l u S t r e a m 算法的结构提出一种适用于数据流离群数据挖掘的算法,并将算法扩展到了分布式环境中进行数据流数据离群数据的挖掘,最后描述了实验过程和实验结果。第五章“基于数据流离群数据挖掘技术的农业气象灾害实时预警系统,将前几章的研究内容应用到了农业气象领域,并设计了一个农业气象灾害实时预警系统,详细分析了系统的体系结构和系统运行流程。最后一章是对全文工作的总结以及对今后研究工作的展望。关键字:数据流;离群数据挖掘;聚类;分布式数据挖掘I l lR e s e a r c ha n dA p p l i c a t i o no nD a t a - s t r e a mO u t l i e rD a t aM i n i n gA b s t r a c tO u t l i e rd a t as h o u l db et r e a t e ds e r i o u s l y , f r o mw h i c hp e o p l ec a nd i s c o v e rs o m er e a la n du n e x p e c t e dk n o w l e d g e D a t a s t r e a mc o n s i s t so fas e r i e so fo r d i n a lc o m i n g ,b o u n d l e s s ,d y n a m i cd a t a O u t l i e rd a t am i n i n gi nd a t a s t r e a mi san e wt a s ko fd a t am i n i n g ,w h i c hh a sb e e nb r o a d l ya p p l i e di nd a i l yl i f e A tp r e s e n t ,d a t a s t r e a mm i n i n gi sb e c o m i n gah o tt o p i ci nt h ed o m a i n so fd a t a b a s e ,m a c h i n el e a r na n ds t a t i s t i c s ,a n dau s e f u lt o o li nm a n yr e s e a r c hf i e l d s W h e nt h ed a t am o d e 】o fd a t a s t r e a mi Sb r o a d l yu s e di ni n d i v i d u a la n dc o m m e r c i a li n f o r m a t i o n ,s o m ee x i s t i n ga p p l i c a t i o ns o f t w a r en e e dt oa n a l y z ea n dd e a lw i t ht h e s ef l e e t l yc h a n g i n gd a t a B u tt h el i m i t a t i o no fe x i s t i n gd a t a - s t r e a ms y s t e ma n dt h eo n e - - p a s sc h a r a c t e ro fd a t a - s t r e a ml e a dt h a ti ti sh a r d l yt om i n eu s e f u li n f o r m a t i o ne f f e c t i v e l y ,a n dt od e a lw i t hi tm o r ef r o mh u g ed a t a s t r e a m T h ed i s a d v a n t a g e so ft r a d i t i o n a ld a t am i n i n ga l g o r i t h m si nm i n i n gd a t a s t r e a mi si n d i c a t e db ym a n yr e s e a r c h e r s ,m e a n w h i l e ,t h e s ed i s a d v a n t a g e sa l s op r o m o t et h er e s e a r c h e so fi m p r o v i n go fe x i s t i n gd a t am i n i n ga l g o r i t h m sa n dc r e a t i n gn e wd a t a s t r e a mm i n i n ga l g o r i t h m s T h i st h e s i si Sd i v i d e di n t os i xc h a p t e r s T h ef i r s tc h a p t e r F o r e w o r d b r i e f l yi n t r o d u c e st h eb a s i cc o n c e p t i o n s ,t h e o r i e s ,a n ds o m ec h a r a c t e r so fm i n i n gt e c h n o l o g y ,e t e T h es e c o n dc h a p t e r , S u m m a r yo fO u t l i e rD a t aM i n i n g ,i sa b o u tt h ep r e s e n t a t i o no fo u t l i e rd a t am i n i n ga n do u t l i e rd a t am i n i n gm e t h o d si nc o m m o nu s e T h et h i r dc h a p t e r , D a t a s t r e a mC l u s t e r i n gA n a l y s i s ,i n d i c a t e sm a i nd a t a - s t r e a mc l u s t e r i n gm e t h o d sa n dt h ec l o s er e l a t i o n s h i pb e t w e e nd a t a - s t r e a mc l u s t e r i n ga n dd a t a s t r e a mo u t l i e rd a t am i n i n g T h ef o u r t hc h a p t e rp r e s e n t sar e v e r s ekn e a r e s tn e i g h b o r ( R k N N ) b a s e dd i s t r i b u t e dd a t a s t r e a mo u t l i e rd a t am i n i n ga l g o r i t h m T h i st h e s i se x p l o i t st h ef r a m eo f C l u S t r e a m ”a l g o r i t h m d e s i g n sa na l g o r i t h mb a s e d “C l u S t r e a m f o rd a t a s t r e a mo u t l i e rd a t am i n i n g ,a n de x t e n d st h ea l g o r i t h mt od i s t r i b u t e dd a t a s t r e a me n v i r o n m e n t A tl a s to ft h i sc h a p t e re x p e r i m e n t a lp r o c e s sa n dr e s u l t sa r eg i v e n T h ef i f t hc h a p t e rd e s i g n sa na g r i c u l t u r a lw e a t h e rd i s a s t e r sr e a l t i m ef o r e c a s ts y s t e m T h er e s e a r c h e so ff o r m e rc h a p t e r sa b o u td a t a s t r e a mo u t l i e rd a t am i n i n ga r eu s e di na g r i c u l t u r a lw e a t h e rf i e l d s ,a n dt of r a m et h i ss y s t e m T h i sc h a p t e rd e t a i l e d l ya n a l y s e st h es y s t e ms t r u c t u r ea n ds y s t e mf l o w T h el a s tc h a p t e ri sas u m m a r ya b o u tt h i st h e s i sa n dap r o s p e c to ff u t u r es t u d y K e yW o r d :D a t a s t r e a m ;O u t l i e rD a t aM i n i n g ;C l u s t e r i n g ;D i s t r i b u t e dD a t aM i n i n gV插图清单图1 1K D D 发现过程8图2 1 离群数据示意图1 8图4 ,l 传统的基于数据仓库的数据挖掘框架3 0图4 2 分御式数据挖掘体系结构3l图4 3 反向k 近邻查询示例3 2图4 4R K N N 与离群数据检测3 3图4 5k N N 有向图
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号