资源预览内容
第1页 / 共92页
第2页 / 共92页
第3页 / 共92页
第4页 / 共92页
第5页 / 共92页
第6页 / 共92页
第7页 / 共92页
第8页 / 共92页
第9页 / 共92页
第10页 / 共92页
亲,该文档总共92页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
WEB MININGWEB MINING 绪论绪论绪论绪论刘 均电信学院系统结构与网络研究所,西一436 liukeenmail.xjtu.edu.cnliukeenmail.xjtu.edu.cnhttp:/liukeen.gr.xjtu.edu.cn/ http:/liukeen.gr.xjtu.edu.cn/ 关于关于这门课这门课 程程 课程的目的 课程内容与时间 安排 参考书、考试、作业、课件 学科定位课课程目的程目的n 为在Web Mining或Data Mining、 Text Mining等领域的深入研究奠定基础;能够利用所学理论与技术解决Web Mining相关的实际问题 。 掌握Web Mining的基本概念;了解Web Mining产生背景、目前研究现状、研究方向以及主要应用领域。 掌握Data Mining与Text Mining等领域的基本概念以及较成熟的算法。 掌握Web Content Mining、Web Structure Mining、Web Usage Mining等领域的基本概念以及较成熟的算法,并具有一定的分析、应用能力。课课程内容程内容Web结构挖掘Web内容挖掘Web日志挖掘数据挖掘文本挖掘课程内容与时间安排课程内容与时间安排 绪论 (2学时) Data Mining与Text Mining理论与技术(20 学时) Web Structure Mining (4学时) Web Content Mining (4学时) Web Usage Mining (4学时) Web Mining应用举例(2学时)教材与参考书教材与参考书1.Web知识识挖掘:理论论、方法与应应用, 郑庆华 ,刘均,田锋 等著, 科学出 版社,20102.Mining the Web: Analysis of Hypertext and Semi Structured Data, by Soumen Chakrabarti, Morgan Kaufmann, 20023.数据挖掘:概念与技术术 , Jiawei Han ,Micheline Kamber 等著,范明, 孟小峰译. 机械工业出版社,2001考考试试试试与作与作业业业业n考试试 作业成绩的加权和n作业业作业1:试验,提交试验报 告、程序、数据等。( 60,人)作业2:专业翻译(40%,每人)n提交方式、时间时间liukeenmail.xjtu.edu.cn下学期开学两周内课课件下件下载载 ftp:/202.117.15.158 u:web p:web学科定位学科定位 科学世界观、认识世界、完整严密的体系结构 技术方法论、改造世界 WEB MINING(DATA MINING )是一门 技术类 学科。引用说说明明课件的部分内容引用了国内外同行的PPT 页面或其他资料。 Web Mining的定义 Web Mining的背景 分类 Web Structure Mining、Web Content Mining、Web Usage Mining的研究现状 与应用本本节课节课 主要内容主要内容Web MiningWeb Mining的定的定义义Web MiningWeb Mining的定的定义义 Web mining - data mining techniques to automatically discover and extract information from Web documents/services (Etzioni, 1996). Data mining (knowledge discovery from database) Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of dataSome DM tasksSome DM tasks Classification: mining patterns that can classify future data into known classes. Association rule mining mining any rule of the form X Y, where X and Y are sets of data items. Clustering identifying a set of similarity groups in the dataSome DM tasksSome DM tasks Sequential pattern mining: A sequential rule: A B, says that event A will be followed by event B with a certain confidence Deviation detection: discovering the most significant changes in dataWeb MiningWeb Mining的其它定的其它定义义l Jaideep Srivastava借鉴数据挖掘的定义将Web挖 掘定义为“从Web文档和Web活动中抽取感兴趣的 潜在的有用模式和隐藏的信息” 。l 维基百科:Web 挖掘被定义为“利用数据挖掘技术 从Web中发现模式” (Wikipedia) Web MiningWeb Mining的定的定义义 对对Web Mining定义义的理解(五个方面) 信息与知识 数据分析技术 支撑技术: Data Mining(DM)、Text Mining(TM)、Multimedia Mining (MM) 目标:获取有用的信息或知识rules, patterns, constraints 数据源: Web documents/services 隐藏在半结构化数据中的模式和数据实体 超链接关系 Web日志Web MiningWeb Mining的定的定义义n 我们们的定义义: 利用数据挖掘、文本挖掘、机器学习等技 术从Web页面数据、日志数据、超链接关 系中发现 感兴趣的、潜在的、有用的规则 、模式、领域知识等。 Information and KnowledgeInformation and Knowledge Information is data that has been organized into a meaningful context. Negentropy(负熵) n entropy(熵) n 1944,薛定谔(Schrdinger),生命是什么。n 负熵是物质系统有序化、组织化的一种量度。 信息是负熵 信息是系统有序度的量度。 信息用于消除不确定性。 Knowledge is defined as re-usable information in a specific context. Data pyramidData pyramid智慧信 息数据数 据知 识识 信 息数据是计算机中对事 实、概念或指令进行 描述的一种特殊格式赋以语义的数 据称为信息知识是适用面 更广的信息智慧则是通过对过 去知识和新信息的 整合,形成决策的 能力。Data Analysis Data Analysis EvolutionEvolutionConfluence of Multiple DisciplinesConfluence of Multiple DisciplinesWEB MiningDatabase Information retrievalData Mining Text MiningNatural languageprocessingMachine LearningWeb or InternetWeb mining research integrate research from several research communities (Kosala and Blockeel, July 2000)WebWeb挖掘与数据挖掘、信息挖掘与数据挖掘、信息检检检检索、索、 信息抽取的区信息抽取的区别别别别n Web挖掘与数据挖掘 数据挖掘的对象的不同:结构化数据、(非/半)结构 化数据n Web 挖掘与信息检检索 从特定文档集中返回与检索需求相关的文档 包括文档建模、分类、索引、结果排序与可视化Web 等流程,Web挖掘技术一般用于分类、索引以及结果 排序 信息检索的结果往往也是Web挖掘的对象 WebWeb挖掘与数据挖掘、信息挖掘与数据挖掘、信息检检检检索、索、 信息抽取的区信息抽取的区别别别别n Web 挖掘与信息抽取 从给定的文档中抽取特定类别的信息,如元数据信息 抽取方法能够自动或半自动的方法建立抽取模式 利用信息抽取可以建立文档的压缩版本以提高挖掘效 率 Web MiningWeb Mining的背景的背景History of the WebHistory of the Web 1965 Ted Nelson proposed “Literary Machines,” allow writing and publishing of nonsequential text hypertext Late 1960s Doug Engelbart at SRI developed the oNLine System (NLS), software for the about-to-be ARPANET that allowed hyperlinking between files on different computers 1965,Doug Engelbart ,MouseHistory of the WebHistory of the Web 1989-90 Berners-Lee “global hypertext system” 第一台Web服务器:nxoc01.cern.ch 三大支撑技术:HTML(Hyper Text Markup Language)信息与信息的链接、URL(Uniform Resource Locator)信息定位、HTTP(Hyper Text Transfer Protocol)分布式的信息共享 10/90 TBL first browser program, names it “World Wide Web” 8/91 software released on the Internet 9/93 “Mosaic” browser for PC; Web traffic measures 1% of traffic on NSFnet backboneWebWeb技技术发术发 展展n 客户户端 集成于Web浏览器的技术,涉及HTML语言、Java语言 、CSS(Cascading Style Sheets)、DHTML( Dynamic HTML)以及浏览器插件等 由静态向动态逐渐发展。n 服务务器端 由静态向动态逐渐发展。 NCSA :CGI(Common Gateway Interface)可执行程 序到脚本程序 PHP(Personal Home Page Tools)语言 Microsoft:ASP Servlet和JSP,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号