资源预览内容
第1页 / 共32页
第2页 / 共32页
第3页 / 共32页
第4页 / 共32页
第5页 / 共32页
第6页 / 共32页
第7页 / 共32页
第8页 / 共32页
第9页 / 共32页
第10页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
北京联合大学 毕 业 设 计I摘 要随 着 Web上 信 息 的 迅 速 扩 展 ,各 项 基 于 Web的 服 务 也 逐 渐 繁 荣 起 来 。 作 为 这 些 信息 服 务 的 基 础 和 重 要 组 成 部 分 ,Web信 息 采 集 正 广 泛 应 用 于 搜 索 引 擎 、 站 点 结 构 分 析 、页 面 有 效 性 分 析 、 用 户 兴 趣 挖 掘 以 及 个 性 化 信 息 获 取 等 多 种 应 用 和 研 究 中 。 然 而 ,随着 人 们 对 提 供 的 各 项 信 息 服 务 要 求 越 来 越 高 ,传 统 的 基 于 整 个 Web的 信 息 采 集 也 越 来越 力 不 从 心 ,它 无 法 及 时 地 采 集 到 足 够 的 Web信 息 ,也 不 能 满 足 人 们 日 益 增 长 的 个 性化 需 求 。 为 此 ,本 项 目 面 向 互 联 网 中 存 在 的 海 量 教 育 资 源 , 对 Web上 满 足 特 定 主 题 的信 息 的 有 效 采 集 进 行 研 究 。基 于 主 题 的 Web教 育 资 源 采 集 技 术 的 研 究 主 要 有 三 个 研 究 内 容 : 本 体 构 建 技 术研 究 、 主 题 爬 虫 技 术 研 究 以 及 网 页 文 本 分 类 技 术 研 究 。网 页 文 本 分 类 技 术 被 广 泛 应 用 到 搜 索 引 擎 中 , 本 文 对 文 本 分 类 技 术 进 行 研 究 , 介绍 文 本 分 类 的 基 本 过 程 , 论 述 文 本 预 处 理 、 分 词 以 及 特 征 提 取 方 法 , 讨 论 朴 素 贝 叶 斯 、K近 邻 、 支 持 向 量 机 、 投 票 等 常 用 的 文 本 分 类 原 理 与 方 法 , 探 讨 网 页 文 本 分 类 技 术 。采 用 支 持 向 量 机 技 术 , 设 计 并 实 现 了 一 个 开 放 的 基 于 主 题 的 网 页 文 本 分 类 系 统 。实 验 表 明 , 它 不 仅 具 有 较 高 的 训 练 效 率 , 同 时 能 得 到 很 高 的 分 类 准 确 率 和 查 全 率 。关 键 词 : 主 题 , 分 词 , 向 量 空 间 模 型 , 文 本 分 类 , 支 持 向 量 机北京联合大学 毕 业 设 计IIAbstractWiththerapidexpansionofinformationontheWeb,theWeb-basedservicesaregraduallyflourished.Asthebasicandimportantcomponentoftheseinformationservices,Webinformationcollectionisbeingwidelyappliedtothesearchenginesitestructureanalysis,analysisoftheeffectivenessofthepage,theuserinterestinformationandpersonalizedaccesstotapavarietyofapplicationsandresearch.However,aspeopleofvariousinformationservicesrequireincreasinglyhigh,thetraditionalinformationcollectionbasedontheentireWebareincreasinglypowerless,itisunabletocollecttimelyinformationtotheWebenough,cannotmeetthegrowingindividualneeds.Tothisend,theprojectfacingmassiveeducationalresourcesontheInternetthatexistontheWebtomeetthespecifictopicofthecollectionofinformationoneffectiveresearch.ResearchtopicsofWeb-basededucationalresourceacquisitiontechnologythreemainresearchcontents:ontologyconstructiontechnologyresearch,technology,andresearchtopicsreptilespagetextclassificationtechnologyresearch.Webtextclassificationtechnologiesarewidelyappliedtothesearchengines,thispaperthebasicprocessoftextclassificationtechnologyresearch,introductorytextclassification,discussesthetextpre-processing,segmentationandfeatureextractionmethodsdiscussedNaiveBayes,Knearestneighbor,supportvectormachines,votingandothercommonlyusedtextclassificationprinciplesandmethodstoexplorepagetextclassificationtechniques.Usingsupportvectormachinetechnology,designandimplementationofaweb-basedopentopictextclassificationsystems.Experimentsshowthatitnotonlyhasahighertrainingefficiencywhiletogethighclassificationaccuracyandrecall.K eywords : theme , word , vector space model, Text categorization ,SupportVector Machine(SVM)北京联合大学 毕 业 设 计III目 录摘 要 .IAbstract.II目 录 .III1 引 言 .-1-1.1 研 究 目 的 及 意 义 .-1-1.2 国 内 外 研 究 现 状 .-1-2 基 于 主 题 的 Web信 息 采 集 .-3-2.1 基 本 原 理 .-3-3 网 页 文 本 分 类 技 术 .-4-3.1 文 本 分 类 系 统 构 建 .-4-3.1.1 自 动 分 词 .-5-3.1.2 特 征 选 择 .-6-3.1.3 向 量 空 间 模 型 .-6-3.1.4 TF*IDF 启 发 式 权 重 算 法 .-6-3.2 文 本 分 类 方 法 .-7-3.2.1 k-近 邻 算 法 ( KNN) .-8-3.2.2 贝 叶 斯 算 法 ( NaiveBayes) .-9-3.2.3 决 策 树 ( DecisionTree) 分 类 .-10-3.2.4 基 于 投 票 的 方 法 .-10-3.2.5 支 持 向 量 机 ( SVM) 方 法 .
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号