资源预览内容
第1页 / 共10页
第2页 / 共10页
第3页 / 共10页
第4页 / 共10页
第5页 / 共10页
第6页 / 共10页
第7页 / 共10页
第8页 / 共10页
第9页 / 共10页
第10页 / 共10页
亲,该文档总共10页全部预览完了,如果喜欢就下载吧!
资源描述
目录目录11 引言21.1 课题背景21.2 研究的目的和意义21.3 国内外现状31.3.1 搜索引擎31.3.2 元搜索引擎31.3.3 元搜索引擎的分类31.3.4 元搜索引擎的性能评价指标体系41.3.5 元搜索引擎的国内外相关研究工作51.4 主要研究内容51.5 论文结构62 相关技术72.1 引言72.2 常见元搜索引擎的原理及体系结构72.3 元搜索引擎的检索结果合成技术72.3.1 去重82.3.2 排序82.3.3 结果排序中的主要算法82.3.4 结果排序中存在的问题82.4 元搜索引擎的检索接口技术92.4.1 统一的检索界面92.4.2 查询表达式转换技术92.4.3 成员搜索引擎的调度策略9I个性化元搜索引擎的研究与设计1 引言1.1 课题背景随着Internet以及相关技术的发展和成熟,人们已经进入了信息量极大丰富的时代。自从1991的Internet诞生以来1,它已经发展成为拥有约上亿用户和几千万个站点、十几亿个网页的巨大分布式信息空间,而且这数字仍以每四个月以第六个月翻一番的速度迅猛增长。由Internet Domain Survey统计,从1996年到2001年,Internet上的主机数量从两千万增长到一亿四千万。Internet作为一个信息平台在人们的生活和工作中发挥越来越重要的作用,人们越来越多地通过Internet获取信息。然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。Internet上的信息过于庞杂,而且具有不稳定和变动快的特点,没有也不可能有一个权威机构能对这些信息进行全面的整理和归类,因此,往往用户面对五花八门、扑面而来的各种信息显得无所适从,不知道如何去获取自己需要的内容。如何在浩瀚如海的信息空间里,快速查找并获取所需的信息己成为信息时代最根本的问题之一。网络搜索引擎在网络信息资源检索中起到了重要的作用,它可以帮助用户从数以亿计的网络信息库中找到自己所需要的信息。搜索引擎是Internet上的一种在线服务方式,是一种用于帮助用户查询网络信息的检索工具。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,然后为用户提供检索服务,从而起到了信息导航的目的。1.2 研究的目的和意义因特网上的信息浩如烟海,优劣混杂,缺乏统一的组织和管理,给人们有效地查询和利用信息带来了很大的不便,搜索引擎就是为了开发和利用这些网络信息资源而产生的网络信息查询工具,它己经成为因特网中最重要的部分,是目前网络用户获取网上丰富信息资源的一个重要途径,但传统的独立搜索引擎存在着信息资源覆盖率低、检索效率较低等问题。因为任何一个独立的搜索引擎都无法穷尽所有的Web信息资源,而且对于同一个查询请求,不同的搜索引擎因其工作机制不同,得到的结果中重复率也较低。因此在很多情况下人们为了获得更高的查全率,需要同时使用具有不同数据搜索范围的搜索引擎,这就增长加了检索的不便,元搜索引擎就是在这种情况下诞生并发展起来的。现在己经出现了一大批元搜索引擎,其中以英文元搜索引擎较多,发展较好,而中文搜索引擎发展缓慢。目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。另外很多主流的搜索引擎提供的服务没有考虑每个个体用户的需求,没有考虑用户的差异。本文就是要在研究现有元搜索引擎存在的局限性的基础上,设计出一个结构较合理,功能较优越,同时能够融合很多相关领域技术,体现个性查询的元搜索引擎结构模型,为查询效率更高的检索工具的早日实现做出贡献。1.3 国内外现状1.3.1 搜索引擎搜索引擎是指能够自动地对WWW资源进行分析处理,并通过查询为用户返回匹配资源的系统。它一般是Internet上的一个网站,它的主要任务是将互连网资源存储于可供查询的大型数据库中。当用户输入关键字查询时,搜索引擎依据此关键子在索引数据库中查找相关信息,若索引数据库中有这方面的信息,则将信息反馈给用户;若没有则调用搜索方法进行搜索,并在一定时间界限内向用户反馈信息。1.3.2 元搜索引擎元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个调用的搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返回给用户。一般元搜索引擎技术主要有三部分构成4:查询请求机制、检索接口代理机制、检索结果处理机制。查询请求机制:实现用户的个性化检索设置的要求、成员搜索引擎的调度方案、检索时间的限制、返回结果量的限制;检索接口代理机制:实现将用户的个性化查询请求转化为可被成员搜索引擎识别的固定格式;检索结果处理机制:实现把调用的成员搜索引擎检索到的结果去重、合并、排序和按一定的格式返回给用户。1.3.3 元搜索引擎的分类元搜索引擎是一种基于搜索引擎的搜索引擎,又称为多元搜索引擎或集合式搜索引擎。它可以把多个搜索引擎集合在一起,提供一个统一的检索界面,将查询表达式同时提交给多个搜索引擎,并行检索多个数据库,再对返回的结果进行去重、排序等二次加工后向用户输出搜索结果。元搜索引擎根据不同的标准可以划分为不同的类型5。根据检索机制可以划分为集中罗列式元搜索引擎和统一入口式元搜索引擎,以下对这两种类型的元搜索引擎作详细介绍。集中罗列式元搜索引擎 集中罗列式元搜索引擎按照一定的形式将所有的独立搜索引擎集中呈现在页面上,并提供了一个公共的检索入口,但实际上用户一次只进入一个独立搜索引擎。这种类型元搜索引擎的结果反馈页面多直接引用原始搜索引擎的结果页面。从表面上看,这类元搜索引擎与独立搜索引擎具有更多的相似点,它们的特点是:一次检索一个搜索引擎。检索结果直接调用原始独立搜索引擎的结果页面。只支持原始独立搜索引擎支持的检索语法统一入口式元搜索引擎 统一入口式元搜索引擎为收录的独立搜索引擎建立了一个公共查询入口,用户发出检索请求后,提问表达式被分别提交给多个独立搜索引擎,最终反馈的结果是多个独立搜索引擎查询结果的融合。根据结果显示的不同,这类元搜索引擎又可以分为直接调用原始页面型、混合综合型和分散综合型。直接调用原始页面型元搜索引擎, 检索结果直接来自原始搜索引擎站点的结果页面。混合综合型元搜索引擎,将各个独立搜索引擎中查找的结果进行融合,结果显示以记录为单位,记录描述包括该记录被检出的来源。分散综合型元搜索引擎,这种类型与混合综合型元搜索引擎在结果显示上有所不同,它以独立搜索引擎为单位进行结果显示,在同一个独立搜索引擎得到的结果被集中列在该搜索引擎之下。1.3.4 元搜索引擎的性能评价指标体系作为一种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如查全率、查准率、召回率、响应速度、响应时间、用户负担等。但是元搜索引擎个体差异很大,很难进行精确的评价。元搜索引擎性能评价指标体系主要包含四个部分6:独立搜索引擎的调度策略 有些元搜索引擎固定地调用几个独立搜索引擎,用户不能修改。有些元搜索引擎的高级特性中让用户选择调用哪些搜索引擎。这两种策略都有不足之处,前一种将跟不上搜索引擎的发展潮流。后一种,对于不熟悉搜索引擎的用户来说可能选择不到适合自己需要的搜索引擎。一些学者提出了通过遗传算法实现独立搜索引擎的自动调度方法。这种算法如能融入到元搜索引擎系统中,必会大大提高系统的查准率。是否提供足够的检索选项 包括是否提供高级检索服务,是否可以限定最长检索时间,是否可以设置每个搜索引擎返回的结果数量,是否可以设置每页显示的结果数目,是否可以设置标题大小和摘要大小等。检索选项越多,用户使用的时候就越灵活。这也是衡量一个元搜索引擎性能的一个标准。但是由于元搜索引擎的检索特性向它所调用的独立搜索引擎检索特性的转换所具有的复杂性,许多元搜索引擎不提供复杂的检索特性。对搜索结果的处理能力 对独立搜索引擎返回的搜索结果的处理能力,这也是评价元搜索引擎性能的又一重要指标。它包括结果的处理和结果的显示。不同的元搜索引擎提供不同的结果显示方式。如按照时间、按照搜索引擎、按照相关度等来排序。相比之下按照相关度来显示搜索结果更合理一些。相关度评价 每个搜索引擎开发商为了将最满意的结果放到越前面,不遗余力地创建出各种相关度指标体系,虽然没有一种方法是完美的,但都有创新和独到之处。面对这些众多的相关度评价指标,按照怎样的方式对成员搜索引擎返回的结果进行一致性的排序是元搜索引擎结果处理部分面临的主要问题。1.3.5 元搜索引擎的国内外相关研究工作1.3.5.1 国外的主要元搜索引擎MetaCrawler是一个并行式元搜索引擎,同时调用6个独立Web引擎;提供全面的用户接口与丰富的逻辑检索功能;排序是基于评分策略的,同时有效地消除了大量的重复结果,保证了高质量的搜索结果。ProFusion是并行式元搜索引擎,在智能化的搜索技术、对查询的使用提示和个人化搜索服务方面做得比较优秀,同时调用9个独立Web搜索引擎;可个人化选定几个自己喜欢的搜寻引擎;具有过滤搜索结果,可滤掉重复的链接以及断掉的链接(不存在的链接);可以让你设定个人常用的搜索字符串,一但其数据库中有新的记录ProFusion会主动通过email提示你有新的搜索结果,很适合需要最新科研动态的人员。SavvySearch可以从700多个搜索引擎、Web目录、拍卖站点、门户、新闻资源、讨论组和参考站点返回结果;专注于研究大量的搜索引擎在不同主题或领域的检索效率以及访问一个搜索引擎需要的资源代价,由此为用户选择最优的搜索引擎进行检索。1.3.5.2 国内的主要元搜索引擎3721疯狂搜索是国内做得比较好的商业化元搜索引擎,采取联合搜索的模式,同时检索数10个中文搜索引擎;融合结果是基于URL的唯一性和标题/简介与检索词的相关程度以及标题/简介的文字长度;排序主要考虑检索结果的标题/简介与检索词的相关程度、结果来自多少个独立的搜索引擎、搜索结果在这些引擎中的排列位置、搜索引擎的权威性等;相关性、优先级和权值越高的结果排序越靠前。万纬中文元搜索是并行的中文元搜索引擎,调用9个支持中文检索的Web搜索引擎;可以选择最大等待结果时间;搜索结果可按相关度、时间、域名和引擎分类。根据Google、百度和雅虎等搜索引擎搜索元搜索引擎,并通过一些著名的引擎指南网站所提供的线索来确定有代表性的中外元搜索引擎,然后对检索出的元搜索引擎进行简单的测试。1.4 主要研究内容研究搜索引擎技术。分析独立搜索引擎结构及功能,并对搜索引擎中所采用的主要算法进行研究,探讨其存在的问题及解决方案。研究元搜索引擎技术。介绍元搜索引擎的涵义、特征及其体系结构、实现原理,分析元搜索引擎实现的主要技术,重点论述元搜索引擎的检索接口技术和搜索结果二次排序技术,并选取几个典型的元搜索引擎进行比较,在此基础上讨论元搜索引擎所面临的问题,进一步提出对现有元搜索引擎的改进方案,这是本课题研究的重点部分。改进的元搜索引擎系统设计。设计一个个性化的元搜索引擎系统,并结合实际情况实现一个实验系统,与搜索引擎进行比较,强调个性化元搜索引擎研究的意义。结果的评价与比较。对改进的元搜索引擎结构进行性能分析和评价,利用实验系统进行实验分析、比较,最后给出实验结果及评价。1.5 论文结构本文的主要内容组织如下:第一章是引言,简述了本文的研究背景,通过分析现有传统搜索引擎的发展现状及不足之处,分析了发展个性化的元搜索引擎的必要性及现状。第二章是相关技术,第一部分讲述元搜索引擎的检索接口技术,包括查询表达式转
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号