资源预览内容
第1页 / 共38页
第2页 / 共38页
第3页 / 共38页
第4页 / 共38页
第5页 / 共38页
第6页 / 共38页
第7页 / 共38页
第8页 / 共38页
第9页 / 共38页
第10页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
计算机软件与理论专业毕业论文计算机软件与理论专业毕业论文 精品论文精品论文 基于频繁模式树的基于频繁模式树的XMLXML 数据挖掘数据挖掘关键词:数据挖掘关键词:数据挖掘 XMLXML 挖掘挖掘 频繁模式树频繁模式树 模式树匹配模式树匹配摘要:数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐 含在其中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是 解决“数据丰富、信息贫乏”的有效方法。 XML 是由 SGML 发展而来的一种 简单、灵活的文本格式。它已经成为 Internet 上数据描述和交换的标准,越来 越多的数据以 XML 文档进行存储,在这些数据中隐含着大量的知识信息与各类 模式,因此,人们迫切需要一些有效的方法来从中提取出一些潜在的、有价值 的知识,这就是 XML 挖掘。 但是,作为一种树形的半结构化数据,XML 非常 复杂且具有异构性,它不能轻易地被映射到关系模型,这样,传统的面向关系 型数据的挖掘方法如 Apriori 算法等,并不能直接应用到 XML 挖掘上。因此, 研究一种有效的针对 XML 的数据挖掘方法成为数据挖掘领域和 XML 技术领域的 一项重要课题。 本文首先介绍了传统的数据挖掘基本理论、XML 的基本理论、 XML 的特点以及 XML 有关技术规范。 其次介绍了频繁子树挖掘的相关概念和 现有的一些频繁子树挖掘算法。 接着在分析了现有频繁模式树挖掘算法 FREOT 和 Freqttree 的基础上,提出了一种新的频繁模式树挖掘算法-PDOM 算法。 PDOM 算法采用最右路径扩展的思想,然后利用递推式的候选节点集更新技术来 压缩候选节点集,使产生的候选模式数量大大减少,并且在计算候选模式树的 支持数时,采用增量式技术,提高算法效率。通过定理证明了 PDOM 算法的正确 性,并对其进行了实验分析。 最后,考虑到 XML 的树形结构,提出了基于频 繁模式树的 XML 文档分类算法-BFPC 算法。BFPC 算法基于 XML 内容和 XML 结构 两方面。它首先利用 tf*idf 权值法提取 XML 文件中非结构的信息即 XML 内容的 特征代表,接着利用 PDOM 算法提取各个类别的频繁模式树,作为该类别的结构 特征,并赋予每个模式树一定的权值。同时,本文还提出了一种模式树匹配算 法-PMatch,通过最右匹配集来实现模式树的匹配。最后测试阶段,利用 PMatch 算法以及关键字匹配,计算测试文档的得分,判断该文档所属的类别。 通过实验证明,BFPC 算法有较高的查准率。正文内容正文内容数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含 在其中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解 决“数据丰富、信息贫乏”的有效方法。 XML 是由 SGML 发展而来的一种简 单、灵活的文本格式。它已经成为 Internet 上数据描述和交换的标准,越来越 多的数据以 XML 文档进行存储,在这些数据中隐含着大量的知识信息与各类模 式,因此,人们迫切需要一些有效的方法来从中提取出一些潜在的、有价值的 知识,这就是 XML 挖掘。 但是,作为一种树形的半结构化数据,XML 非常复 杂且具有异构性,它不能轻易地被映射到关系模型,这样,传统的面向关系型 数据的挖掘方法如 Apriori 算法等,并不能直接应用到 XML 挖掘上。因此,研 究一种有效的针对 XML 的数据挖掘方法成为数据挖掘领域和 XML 技术领域的一 项重要课题。 本文首先介绍了传统的数据挖掘基本理论、XML 的基本理论、 XML 的特点以及 XML 有关技术规范。 其次介绍了频繁子树挖掘的相关概念和 现有的一些频繁子树挖掘算法。 接着在分析了现有频繁模式树挖掘算法 FREOT 和 Freqttree 的基础上,提出了一种新的频繁模式树挖掘算法-PDOM 算法。 PDOM 算法采用最右路径扩展的思想,然后利用递推式的候选节点集更新技术来 压缩候选节点集,使产生的候选模式数量大大减少,并且在计算候选模式树的 支持数时,采用增量式技术,提高算法效率。通过定理证明了 PDOM 算法的正确 性,并对其进行了实验分析。 最后,考虑到 XML 的树形结构,提出了基于频 繁模式树的 XML 文档分类算法-BFPC 算法。BFPC 算法基于 XML 内容和 XML 结构 两方面。它首先利用 tf*idf 权值法提取 XML 文件中非结构的信息即 XML 内容的 特征代表,接着利用 PDOM 算法提取各个类别的频繁模式树,作为该类别的结构 特征,并赋予每个模式树一定的权值。同时,本文还提出了一种模式树匹配算 法-PMatch,通过最右匹配集来实现模式树的匹配。最后测试阶段,利用 PMatch 算法以及关键字匹配,计算测试文档的得分,判断该文档所属的类别。 通过实验证明,BFPC 算法有较高的查准率。 数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其 中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解决 “数据丰富、信息贫乏”的有效方法。 XML 是由 SGML 发展而来的一种简单、 灵活的文本格式。它已经成为 Internet 上数据描述和交换的标准,越来越多的 数据以 XML 文档进行存储,在这些数据中隐含着大量的知识信息与各类模式, 因此,人们迫切需要一些有效的方法来从中提取出一些潜在的、有价值的知识, 这就是 XML 挖掘。 但是,作为一种树形的半结构化数据,XML 非常复杂且具 有异构性,它不能轻易地被映射到关系模型,这样,传统的面向关系型数据的 挖掘方法如 Apriori 算法等,并不能直接应用到 XML 挖掘上。因此,研究一种 有效的针对 XML 的数据挖掘方法成为数据挖掘领域和 XML 技术领域的一项重要 课题。 本文首先介绍了传统的数据挖掘基本理论、XML 的基本理论、XML 的 特点以及 XML 有关技术规范。 其次介绍了频繁子树挖掘的相关概念和现有的 一些频繁子树挖掘算法。 接着在分析了现有频繁模式树挖掘算法 FREOT 和 Freqttree 的基础上,提出了一种新的频繁模式树挖掘算法-PDOM 算法。PDOM 算法采用最右路径扩展的思想,然后利用递推式的候选节点集更新技术来压缩 候选节点集,使产生的候选模式数量大大减少,并且在计算候选模式树的支持 数时,采用增量式技术,提高算法效率。通过定理证明了 PDOM 算法的正确性,并对其进行了实验分析。 最后,考虑到 XML 的树形结构,提出了基于频繁模 式树的 XML 文档分类算法-BFPC 算法。BFPC 算法基于 XML 内容和 XML 结构两方 面。它首先利用 tf*idf 权值法提取 XML 文件中非结构的信息即 XML 内容的特征 代表,接着利用 PDOM 算法提取各个类别的频繁模式树,作为该类别的结构特征, 并赋予每个模式树一定的权值。同时,本文还提出了一种模式树匹配算法- PMatch,通过最右匹配集来实现模式树的匹配。最后测试阶段,利用 PMatch 算 法以及关键字匹配,计算测试文档的得分,判断该文档所属的类别。通过实验 证明,BFPC 算法有较高的查准率。 数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其 中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解决 “数据丰富、信息贫乏”的有效方法。 XML 是由 SGML 发展而来的一种简单、 灵活的文本格式。它已经成为 Internet 上数据描述和交换的标准,越来越多的 数据以 XML 文档进行存储,在这些数据中隐含着大量的知识信息与各类模式, 因此,人们迫切需要一些有效的方法来从中提取出一些潜在的、有价值的知识, 这就是 XML 挖掘。 但是,作为一种树形的半结构化数据,XML 非常复杂且具 有异构性,它不能轻易地被映射到关系模型,这样,传统的面向关系型数据的 挖掘方法如 Apriori 算法等,并不能直接应用到 XML 挖掘上。因此,研究一种 有效的针对 XML 的数据挖掘方法成为数据挖掘领域和 XML 技术领域的一项重要 课题。 本文首先介绍了传统的数据挖掘基本理论、XML 的基本理论、XML 的 特点以及 XML 有关技术规范。 其次介绍了频繁子树挖掘的相关概念和现有的 一些频繁子树挖掘算法。 接着在分析了现有频繁模式树挖掘算法 FREOT 和 Freqttree 的基础上,提出了一种新的频繁模式树挖掘算法-PDOM 算法。PDOM 算法采用最右路径扩展的思想,然后利用递推式的候选节点集更新技术来压缩 候选节点集,使产生的候选模式数量大大减少,并且在计算候选模式树的支持 数时,采用增量式技术,提高算法效率。通过定理证明了 PDOM 算法的正确性, 并对其进行了实验分析。 最后,考虑到 XML 的树形结构,提出了基于频繁模 式树的 XML 文档分类算法-BFPC 算法。BFPC 算法基于 XML 内容和 XML 结构两方 面。它首先利用 tf*idf 权值法提取 XML 文件中非结构的信息即 XML 内容的特征 代表,接着利用 PDOM 算法提取各个类别的频繁模式树,作为该类别的结构特征, 并赋予每个模式树一定的权值。同时,本文还提出了一种模式树匹配算法- PMatch,通过最右匹配集来实现模式树的匹配。最后测试阶段,利用 PMatch 算 法以及关键字匹配,计算测试文档的得分,判断该文档所属的类别。通过实验 证明,BFPC 算法有较高的查准率。 数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其 中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解决 “数据丰富、信息贫乏”的有效方法。 XML 是由 SGML 发展而来的一种简单、 灵活的文本格式。它已经成为 Internet 上数据描述和交换的标准,越来越多的 数据以 XML 文档进行存储,在这些数据中隐含着大量的知识信息与各类模式, 因此,人们迫切需要一些有效的方法来从中提取出一些潜在的、有价值的知识, 这就是 XML 挖掘。 但是,作为一种树形的半结构化数据,XML 非常复杂且具 有异构性,它不能轻易地被映射到关系模型,这样,传统的面向关系型数据的 挖掘方法如 Apriori 算法等,并不能直接应用到 XML 挖掘上。因此,研究一种 有效的针对 XML 的数据挖掘方法成为数据挖掘领域和 XML 技术领域的一项重要 课题。 本文首先介绍了传统的数据挖掘基本理论、XML 的基本理论、XML 的特点以及 XML 有关技术规范。 其次介绍了频繁子树挖掘的相关概念和现有的 一些频繁子树挖掘算法。 接着在分析了现有频繁模式树挖掘算法 FREOT 和 Freqttree 的基础上,提出了一种新的频繁模式树挖掘算法-PDOM 算法。PDOM 算法采用最右路径扩展的思想,然后利用递推式的候选节点集更新技术来压缩 候选节点集,使产生的候选模式数量大大减少,并且在计算候选模式树的支持 数时,采用增量式技术,提高算法效率。通过定理证明了 PDOM 算法的正确性, 并对其进行了实验分析。 最后,考虑到 XML 的树形结构,提出了基于频繁模 式树的 XML 文档分类算法-BFPC 算法。BFPC 算法基于 XML 内容和 XML 结构两方 面。它首先利用 tf*idf 权值法提取 XML 文件中非结构的信息即 XML 内容的特征 代表,接着利用 PDOM 算法提取各个类别的频繁模式树,作为该类别的结构特征, 并赋予每个模式树一定的权值。同时,本文还提出了一种模式树匹配算法- PMatch,通过最右匹配集来实现模式树的匹配。最后测试阶段,利用 PMatch 算 法以及关键字匹配,计算测试文档的得分,判断该文档所属的类别。通过实验 证明,BFPC 算法有较高的查准率。 数据挖
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号