资源预览内容
第1页 / 共59页
第2页 / 共59页
第3页 / 共59页
第4页 / 共59页
第5页 / 共59页
第6页 / 共59页
第7页 / 共59页
第8页 / 共59页
第9页 / 共59页
第10页 / 共59页
亲,该文档总共59页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
索取号: TP301/3.554 密级: 公开 硕 士 学 位 论 文深层网中查询入口的填充策略研究研究生 : 马建华指导教师 : 杨晓江 教授培养单位 : 教育科学学院一级学科 : 教育学二级学科 : 教育技术学完成时间 : 2009 年 3 月 10 日答辩时间 :学 位 论 文 独 创 性 声 明本 人 郑 重 声 明 :1、 坚 持 以 “求 实 、 创 新 ”的 科 学 精 神 从 事 研 究 工 作 。2、 本 论 文 是 我 个 人 在 导 师 指 导 下 进 行 的 研 究 工 作 和 取 得 的 研 究 成 果 。3、 本 论 文 中 除 引 文 外 , 所 有 实 验 、 数 据 和 有 关 材 料 均 是 真 实 的 。4、 本 论 文 中 除 引 文 和 致 谢 的 内 容 外 , 不 包 含 其 他 人 或 其 它 机 构 已 经发 表 或 撰 写 过 的 研 究 成 果 。5、 其 他 同 志 对 本 研 究 所 做 的 贡 献 均 已 在 论 文 中 作 了 声 明 并 表 示 了 谢意 。研究生签名: 日 期: 学位论文使用授权声明本 人 完 全 了 解 南 京 师 范 大 学 有 关 保 留 、 使 用 学 位 论 文 的 规 定 , 学 校 有权 保 留 学 位 论 文 并 向 国 家 主 管 部 门 或 其 指 定 机 构 送 交 论 文 的 电 子 版 和 纸质 版 ; 有 权 将 学 位 论 文 用 于 非 赢 利 目 的 的 少 量 复 制 并 允 许 论 文 进 入 学 校图 书 馆 被 查 阅 ; 有 权 将 学 位 论 文 的 内 容 编 入 有 关 数 据 库 进 行 检 索 ; 有 权将 学 位 论 文 的 标 题 和 摘 要 汇 编 出 版 。 保 密 的 学 位 论 文 在 解 密 后 适 用 本 规定 。研究生签名: 日 期: 摘要I摘 要目前搜索引擎索引的绝大部分是表层网的信息,限于一些技术原因,搜索引擎几乎无法索引深层网中的信息。但是深层网具有容量大、质量高和专业性强等诸多优点,它的意义及重要性无法被人们忽略,于是找到一种能够爬行深层网的方式是非常必要的,所以构造一个深层网爬行器来获取深层网中的数据是非常有意义的,而表单自动填充是深层网爬行器的重要组成部分。本文首先介绍了深层网的价值及难以搜索深层网的原因,分析对比了国内外研究现状,介绍了 HTML 表单、文档对象模型(DOM)、抽取方法、本体知识和相似度计算方法,在此基础上本文提出了一套填充深层网入口表单的策略。首先使用改进的启发式规则识别深层查询入口表单,再通过本文提出的就近原则算法提取表单标签,在进行最后的匹配填充之前对抽取到的标签进行标准化,最后通过改进的基于语义的相似度匹配算法对深层网表单标签和本体领域知识库的属性进行匹配,这样就可以模拟用户填充深层网入口表单的过程了。结尾对整个算法进行了实验验证。选取了图书领域的深层网入口表单进行实验,先识别表单查询入口,实验结果表明使用本文总结的启发式规则准确率能达到 90.76%。对表单提取时,使用就近原则算法提取表单标签的准确率能达到 94.23%。接着,使用改进的基于语义相似度计算算法寻找与表单标签相匹配的属性,找到匹配的属性之后,用属性的值对表单控件进行填充。结果表明,匹配的成功率达到 88.83%,填充的成功率达到 95.43%。也就是说,本文提出的填充深层网入口表单的策略是有效的。关键词:深层网,查询入口,表单填充AbstractIIAbstractAt present, limited to some technical reasons, general search engines can only index the information on the surface web instead of the deep web. However, deep web is of great advantage, such as large capacity, high quality and professional character, etc. Thus, its importance and influence should not be ignored. And it is rather necessary to search for an approach to crawl the deep web. Therefore, it is greatly significant to construct a deep web crawler, of which automatic form fill is an essential part, to gain the data on the deep Web.This thesis first introduces the value of the deep web and the reason why searching on the deep web is difficult, analyzes and compares the study of the case at home and abroad. It also introduces the HTML form, Document Object Model (DOM), Ontology knowledge and extraction method. On the basis, the author proposes a strategy of filling a query entrance of the deep web. Firstly, the author uses heuristic rules to identify those forms in deep web. Secondly, with the algorithm of the nearest principia, the author extracts those labels of form. Before filling those forms respectively, standardizing those labels is adopted. At last, employing the algorithm based on improved ontology similar matching, the author matches the label of form with the attribute of semantic domain warehouse. In this way, we can simulate the process of user to fill the forms of deep web.At the end of the paper, the algorithm proposed is verified thorough the experiment. Those websites from library domain is made use of. The first step is to identify those query entrance of forms, and the experiment shows that with those heuristic rules summarized, the veracity rate is up to 90.76%. As for extracting label, the veracity rate is 94.23% according to the nearest rule arithmetic. Then, employing the algorithm based on improved ontology similar matching to match between the label of form and the attribute of semantic domain warehouse, the author can use the value of attribute to fill the form controls when finding the matching attribute. The results show that the matching has a higher success rate of 88.83% and filling form controls is 95.43%. In most cases, the method of automatically filling forms is effective.The future work including some new challenges and technological possibilities is mentioned at the end of this paper.Key words: Deep web, Query entrance, Form fillII目录1目录摘 要 .IAbstract.II第 1章 绪论.11.1 深层网简介.11.1.1 深层网的定义.11.1.2 深层网的信息价值.21.1.3 难以搜索深层网的原因.31.1.4 深层网相关研究.41.2 本文的主要工作.51.2.1 研究目的.51.2.2 研究内容.
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号