基于nutch的新闻主题搜索引擎的设计与实现毕业论文设计.doc-

山东大学本科毕业论文毕业论文(设计)论文（设计）题目: 基于Nutch的新闻主题搜索引擎的设计与实现姓名学号学院专业年级指导教师 2014年 5月 20日山东大学本科毕业论文目录摘要IABSTRACTII第1章绪论11.1 课题研究背景11.1.1 搜索引擎发展史11.1.2 通用搜索引擎面临的问题31.2主题搜索引擎31.2.1 什么是主题搜索引擎31.2.2 主题搜索引擎研究现状41.3 文本组织结构5第2章主题搜索引擎相关技术介绍62.1 JavaCC简介62.2 Tomcat 简介82.3 Nutch介绍92.3.1 系统架构92.3.2 抓取过程详解112.4 中文分词技术132.4.1 基于字典匹配的分词方法142.4.2 基于词频统计的分词方法142.4.3 基于语义理解的分词方法152.4.4 IK分词器简介152.5 本章小结15第3章爬虫搜索策略的研究163.1 基于链接结构特征163.1.1 PageRank算法163.1.2 HITS算法183.1.3 本文实现的算法193.2 基于内容评价203.2.1 Fish Search算法203.2.2 Shark Search算法213.3 其他相关策略233.3.1基于巩固学习的聚焦搜索233.3.2 基于语境图的聚焦搜索233.4 本章小结23第4章主题搜索引擎的实现244.1 开发环境介绍244.2 系统的体系结构244.3 主题爬虫的配置254.3.1 配置Java环境254.3.2 配置Nutch254.4 Tomcat的配置264.5 添加中文分词284.6 系统测试304.7 本章小结31第5章总结与体会32致谢33参考文献34附录：3533摘要互联网上丰富的信息资源给人们的工作和生活带来巨大效益和便利的同时，也带来了巨大的信息冗余。我们在使用传统的通用搜索引擎时，经常会遇到这样的问题，为了搜索到一些专业的基础知识，不得不在众多的网站中，花费大量的时间去寻找，而主题搜索引擎的出现为解决这类问题提供了很好的方法。另外，由于Nutch具有高透明度，任何单位或个人都可以查看搜索引擎的工作原理并且程序设置灵活，用户可以根据自己需求定制，通过长时间的实际应用，结果表明Nutch运行非常稳定，因此选择Nutch为爱好搜索引擎的人们提供了一个很好的研究平台。本课题的主要内容是基于Nutch的新闻主题搜索引擎的设计与实现。现在很多人都喜欢从互联网阅读新闻，但是各大新闻网站为了获得点击率收录了很多低质量新闻，而报纸网站很难满足人们对不同地域和不同类型新闻的需求，所以一个新闻主题的搜索引擎是十分有必要的。论文首先介绍了搜索引擎的发展历史、面临的问题，以及主题搜索引擎的的优势和研究现状，并在了解Nutch工作原理的基础上对主题爬虫抓取策略进了详细的讨论，分析了新闻主题搜索引擎的可行方案，接着介绍了Nutch、Tomcat等各组件的安装配置，测试运行结果并与百度做比较。最后对论文进行了总结分析。关键字：Nutch；搜索引擎；Crawler；抓取策略；新闻ABSTRACTAbundant Internet information resources bring enormous benefits and convenience for our work and life; these also bring a great deal of redundant information. When we use general Search Engine, we often encounter this problem; in order to search some basic professional knowledge, we had to spend a lot of time to find the knowledge in many websites. While the Vertical Search Engine will solve this problem. In addition, Nutch has highly transparent, any unit or individual can view the search engine work, and the program configuration flexibility, Users can customize according to their needs. Through a long period of practical application, the results show that Nutch runs very stable. Therefore, selecting the Nutch Search Engine can provide a good researching platform for the loving people.The object of this project is to set up a News Vertical Search Engine based on Nutch. Nowadays plenty of people read news from the Internet. While the news websites always put some low-quality news to catch readers eyes, and the newspaper websites can hardly feed readers various needs. Thus, it is very necessary to provide a News Vertical Search Engine for them. The paper first introduced the history, present problems of Search Engine, and the advantages, present situation of Topical Search Engine. Then we discussed the strategies of Focused Crawler and proposed a solution of News Topical Search Engine with knowledge in the process of Nutch. After that, we talked about setting up and configuring the components we need. Then we ran the engine so we could compare the results with Baidus. At last, we tested the Search Engine and made a summary of this project.Keywords: Nutch; Search Engine; Crawler; Fetching Strategy; News 第1章绪论1.1 课题研究背景随着社会的进步和科技的发展，人们对信息的需求量越来越大，对质量的要求也越来越高。而互联网已经成为很多人获取信息的主要渠道。怎样从海量的信息和庞大的地址群中找到自己想要的信息呢？搜索引擎的出现很好的解决了这个问题，成为大多数用户的“上网第一站”1。1.1.1 搜索引擎发展史所谓搜索引擎，就是一种能够自动对WWW资源建立索引或进行主题分类，并通过查询为用户返回相关资源的系统。在互联网发展初期，网站相对较少，信息查找比较容易。然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现，但网络中文件传输还是相当频繁的，而且由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此Alan Emtage想到了开发一个可以以文件名查找文件的系统，于是便有了Archie2。 Archie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。由于Archie深受用户欢迎，受其启发，美国内华达大学于1993年开发了另一个与之非常相似的搜索工具System Computing Services，不过此时的搜索工具除了索引文件外，已能检索网页。当时，“机器人”一词在编程者中十分流行。电脑“机器人”（Computer Robot）是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去，因此，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。与Wanderer相对应，Martin Koster于1993年10月创建了ALIWEB，它是Archie的HTTP版本3。ALIWEB不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在我们熟知的Yahoo。随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在Matthew Gray的Wanderer基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是，既然所有网页都可能有连向其他网站的链接，那么从跟踪一个网站的链接开始，就有可能检索整个互联网。到1993年底，一些基于此原理的搜索引擎开始纷纷涌现，其中以JumpStation、The World Wide Web Worm（Goto的前身，也就是今天Overture），和Repository-Based Software Engineering (RBSE) spider最负盛名。然而Jump Station和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果，因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos4。同年4月，斯坦福（Stanford）大学的两名博士生，David Filo和美籍华人杨致远（Gerry Yang）共同创办了超级目录索引Yahoo，并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前，互联网上有名有姓的搜索引擎已达数百家