资源预览内容
第1页 / 共29页
第2页 / 共29页
第3页 / 共29页
第4页 / 共29页
第5页 / 共29页
第6页 / 共29页
第7页 / 共29页
第8页 / 共29页
第9页 / 共29页
第10页 / 共29页
亲,该文档总共29页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
编号:江江西西理理工工大大学学实实 习习 报报 告告 本本信息工程 学院 计算机科学与技术 专业年级 2006 班号 063 姓名 王 军 实习性质 生产实习 实习地点 校内 实习期限自 2009 年 11 月 30 日 至 12 月 25 日 实习指导教师 刘发升 2009 年 12 月 18 日 任务书任务书开源搜索引擎开源搜索引擎 nutchnutch 的研究的研究主要工作:nutch 是一个使用 java 语言开发的开源搜索引擎,其包含了丰富的搜索引擎思想以及基本的搜索引擎实现,并且可扩展实现个性化搜索引擎。依据Lucene + nutch 搜索引擎开发 ,下载、安装、调试 nutch,使其实现简单的搜索功能,并且,提交开源搜索引擎 nutch 的研究报告。目录目录一.搜索引擎的软件结构.5 1.网页爬取部分.5 1.1.网页信息抓取原理.5 1.2.深度优先搜集策略.6 1.3.IP 段扫描搜集策略.6 1.4.深度优先搜集策略.6 2.数据存储与索引网页爬取部分.7 2.1.数据存储.7 2.2.网页索引.7 3.前端用户查询的处理.8 3.1 用户检索与结果排序.8 3.2 网页检索工具与接口.8 二.开源搜索引擎 nutch 的软件架构.8 1.Nutch 概述.8 2.Nutch 中的索引.9 3.Nutch 中的查询.9 4.Nutch 中的相关度计算.9 4.1Nutch 排序因素.9 4.2Nutch 链接分析.10 4.3Nutch 相关度计算.10 5.Nutch 分词和预处理.11 5.1Nutch 分析器.11 5.2Nutch 中文分词.11 6.Nutch 文档处理.11 7.Nutch 分布式检索.12 7.1Nutch 分布式文件系统.12 7.2Nutch 分布式检索概述.12 7.3Nutch 分布式检索器.12 三.使用 nutch 开发搜索引擎的步骤.13 1.Nutch 开源搜索引擎的部署.13 1.1.Cygwin 软件安装.13 1.2.Nutch 下载与安装.13 1.3.Nutch 系统环境测试.13 1.4.Nutch 搜索页面部署.14 2.Nutch 系统调试与开发.14 2.1.Eclipse 中加载 Nutch.14 2.2.Nutch 工程编译与发布.15 3.Nutch 网站抓取.
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号