资源预览内容
第1页 / 共14页
第2页 / 共14页
第3页 / 共14页
第4页 / 共14页
第5页 / 共14页
第6页 / 共14页
第7页 / 共14页
第8页 / 共14页
第9页 / 共14页
第10页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据仓库与数据挖掘数据仓库与数据挖掘决策树算法 7103218 王维光 07103224 郑辰07103229 刘倩 07103230 宋琛数据仓库与数据挖掘一背景最 早 的 决 策 时 算 法 是 由 人 于 1966 年 提 出 的 当 前 最 有 影响 的 决 策 树 算 法 是 1986 年 提 出 的 1993 年 提 出 能 处 理 离 散 型 描 述 属 性 , 它 选 择 信 息 增 益 最 大 的 属 性 划 分 训 练样 本 , 其 目 的 是 进 行 分 枝 时 系 统 的 熵 最 小 , 从 而 提 高 算 法 的 运 算 速 度 和 精 确度 。 法 的 主 要 缺 陷 是 , 用 信 息 增 益 作 为 选 择 分 枝 属 性 的 标 准 时 , 偏 向于 取 值 较 多 的 属 性 , 而 在 某 些 情 况 下 , 这 类 属 性 可 能 不 会 提 供 太 多 有 价 值 的信 息 。 法 的 改 进 算 法 , 不 仅 可 以 处 理 离 散 型 描 述 属 性 , 还 能处 理 连 续 性 描 述 属 性 。 用 了 信 息 增 益 比 作 为 选 择 分 枝 属 性 的 标 准 ,弥 补 了 法 的 不 足 。决 策 树 算 法 的 优 点 如 下 : ( 1) 分 类 精 度 高 ; ( 2) 成 的 模 式 简 单 ;( 3) 对 噪 声 数 据 有 很 好 的 健 壮 性 。 因 而 是 目 前 应 用 最 为 广 泛 的 归 纳 推 理 算法 之 一 , 在 数 据 挖 掘 中 受 到 研 究 者 的 广 泛 关 注 。二法存在的缺点( 1) 法 在 选 择 根 节 点 和 各 内 部 节 点 中 的 分 支 属 性 时 , 采 用 信 息 增 益 作为 评 价 标 准 。 信 息 增 益 的 缺 点 是 倾 向 于 选 择 取 值 较 多 的 属 性 , 在 有 些 情 况 下这 类 属 性 可 能 不 会 提 供 太 多 有 价 值 的 信 息 。( 2) 法 只 能 对 描 述 属 性 为 离 散 型 属 性 的 数 据 集 构 造 决 策 树 。2 法做出的改进(1)用信息增益率来选择属性克服了用信息增益来选择属性时偏向选择值多的属性的不足。信息增益率定义为: 其中 ,A)与 法中的信息增益相同,而分裂信息 ,A)代表了按照属性 A 分裂样本集 S 的广度和均匀性。数据仓库与数据挖掘其中,S 1到 c 个不同值的属性 A 分割 S 而形成的 c 个样本子集。如按照属性 A 把 S 集(含 30 个用例)分成了 10 个用例和 20 个用例两个集合则 ,A)=*)*)(2) 可 以 处 理 离 散 型 描 述 属 性 , 也 可 以 处 理 连 续 性 描 述 属 性 。 在 选 择 某 节点 上 的 分 枝 属 性 时 , 对 于 离 散 型 描 述 属 性 , 处 理 方 法 与 同 ,按 照 该 属 性 本 身 的 取 值 个 数 进 行 计 算 ; 对 于 某 个 连 续 性 描 述 属 性 假 设在 某 个 结 点 上 的 数 据 集 的 样 本 数 量 为 作 以 下 处 理 。 将 该 结 点 上 的 所 有 数 据 样 本 按 照 连 续 型 描 述 属 性 的 具 体 数 值 , 由 小 到 大进 行 排 序 , 得 到 属 性 值 的 取 值 序 列 在 取 值 序 列 中 生 成 分 割 点 。 第 i( 0# 10;数据仓库与数据挖掘 i = 0;/列 数j = 0;/行 数(_)a = 0;b = 0;/a,b 是 循 环 变 量 c:r);= n); (n != &(= , = i+;数据仓库与数据挖掘 i+; ()i);k = 0; k= ;k = 0;k (= k);k+;k = 0;l = 0;(= k)&(k j)l = 0;= l)k= l)数据仓库与数据挖掘l+;= l)l = kk+;
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号