资源预览内容
第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
亲,该文档总共7页全部预览完了,如果喜欢就下载吧!
资源描述
论网络搜索引擎对个性需求满足的效率分析论网络搜索引擎对个性需求满足的效率分析【论文关键词】:个性化;网络搜索引擎;传统搜索引擎 【论文摘要】:网络搜索引擎的发展必然提出对个性化的需求,对比几个典型的传统搜索引擎,来分析几种新的搜索引擎对提高个性化需求,并提出相应的技术。 1.网络搜索引擎概况 1.1 网络搜索引擎的定义 广义的搜索引擎泛指网络上提供信息检索服务的工具或系统,在网络环境下搜索引擎所扮演的角色与传统的手工检索工具在印刷版时代所扮演的角色很近似,二者都是对信息资源进行搜集、整理并提供各种查询途径,因此,搜索引擎又被称为网络检索工具。搜索引擎主要面向网络信息资源,并通过 Internet 来提供服务。 狭义的搜索引擎主要指利用自动搜索技术软件,对Internet(主要是 Web)网络资源进行收集、组织并提供检索服务的一类信息服务系统。 Internet 上有大量的信息,靠人工来收集、加工、处理是相当困难的,因此人们设计了一种自动搜索技术软件,称之为“机器人“( Robot ) ,“蜘蛛“( Spider) ,“爬行者“( Crawler),“漫游“( Wanderer)或“蠕虫“( Worn)等,机器人是一个程序,首先精选一批高质量的 URL 并遵循 HTTP 协议将这些 URL 所代表的网页抓取回来,从抓取到的这些网页中抽取出所有新的,未访问过的超级链接,并按照一定的算法选择出另一批 URL,继续进行网页信息的收集,如此循环不止,直到满足需要,就可以实现海量网页的自动收集,搜索引擎所扮演的角色相当于传统的二次文献,因此他们的作用都是提供文献资源线索,只不过搜索引擎的检索空间与传统的检索空间相比,已有质的飞跃。 1.2 网络搜索引擎的原理 1.2.1 独立搜索引擎的工作原理 独立搜索引擎可分为四个模块:第一是数据采集模块,即负责按照一定的方式和要求对网络上的 WWW 站点等资源进行收集,并将收集、发现到的,页面信息经网络传输,存人到搜索引擎的临时数据库中。第二是数据标引,即负责对收集到的网页信息进行分析,从中提取有检索价值的内容-网页关键词,并对关键词进行数值计算。第三是数据组织,它负责形成规范的索引数据库或便于浏览的层次型分类目录结构。第四就是数据检索,主要负责帮助用户用一定的形式检索索引数据库,获取符合用户需要的 WWW 信息。 1.2.2 元搜索引擎的工作原理 元搜索引擎分为三个模块,首先是用户接口,它是用户浏览器与元搜索引擎交互的界面,其主要任务是查询请求的分发,即根据用户输人的查询请求,分别生成适用于不同独立引擎的特定请求,完成检索指令的转换功能。其次是查询代理,主要负责元搜索引擎和相应的独立搜索引擎交互,以获取用户需要的查询结果,对于并行工作的元搜索引擎,它所链接的每一个成员引擎都对应着一个查询代理。第三是对检索结果进行汇总输出,负责把各个查询代理获得的检索结果进行必要的调整,从中选择最能满足用户需要的若干条目,并以标准负面的形式呈现给用户。 2.几种典型的网络搜索引擎介绍 2.1Alta Vista(http: / www.altavista.Dinital.com) Alta Vita 拥有最大的、最详细的网址索引,用户在使用不同的索引方法时,会出现不同的检索结果。它采用了 64 位运算技术,搜索速度很快,但返回的大量信息中有大多数是无用的。可对网址和 Usenet Newsgroup 进行检索,对返回的结果可以设置成标准、压缩和详细三种显示方式,提供简单和高级搜索模式,由于简单搜索过于简单,如果想进行有效的检索,最好是输入尽可能多而详细的关键词进行高级搜索,因为高级搜索允许使用响:尔运算符和接近操作符、括号等,例如:与 AND,或 OR,非 NOT,接近操作符NEAR、在索引文件中查寻“、排除关键词“-“、通配符“*“等等,其查找后的显示结果可按关键词排序,将用户可能最感兴趣的结果放在最前面。不过它区分关键词的人小写。 2.2Yahoo( http: / www. yahoo. com) Yahoo 可能是 WWW 上最常用的搜索引擎提供了三种信息查询方式:归类信息浏览、主题查询和关键词搜索。归类信息方式可以浏览如最新消息、当前热点、冷门信息等内容。在主题查询方式中将信息分成 12 人类:艺术、商业和经济、计算机和 Internet、教育、娱乐、政府、健康、新闻、休闲和运动、参考消息、区域、科学和社会科学。每一类又分成多个小类用,用户可以按主题逐步深入,直至列出所需要查询的网址。而进行关键词搜索时只需要输入关键词,指定检索范围(Yahoo 索引网址,Usenet 或 Email 地址)即可。但 Yahoo 提供的关键词搜索功能有限,只能用 AND,OR 控制关键词的关系,进行模糊串检索和精确匹配检索,不能进行更全面、更高级的检索,好在搜索结果较为丰富,包括对应条件的网址指向目录、满足条件的实际网址和相关的网址等信息。 2.3Infoseek( http: / www. Infoseek. com) Infoseek 是 WWW 上第一家收费的查询系统每月查询 100 条收费$9.95。它对 5000 万个 WWW、FTP、Gopher、Newsgroup 的网点进行了个文索引,并提供主题分类查询和关键搜索两种方式。主题分类包括艺术、商业、娱乐、健康、爱好和兴趣、运动、旅行、科学等人类通过主题方式可以逐步深入查找到相关网址或信息。关键词搜索时可以输入一个问题、词组或名字用引号、连字符、加号、减号、括号对的一词进行限定(如“ “表示在其中的单词出现在 100个单词之间,“+“表示的一词出现在结果中),搜索结果依扼主题的相关性排列,并附有描述性内容因此非常便于用户处理。据说,Infoseek 还将选定 DejaNews(网上唯一专门收集、索引和存储新闻讨论区文章的搜寻器)作为其新闻论坛资源的搜寻部分以增强它在新闻搜索方面的能力。但是 Infoseek 区分关键词的人小写对搜索结果输出的版面无法设定,而且用户界面显得有此拥挤。 3.针对传统的网络搜索引擎的个性需求满足实现 3.1 新一代网络搜索引擎系统 CHINA_VIVI 的实现方法 3.1.1 更精确的搜索。用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对少一个查询传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。CHTNA_ VIVI 使用下列方法解决了查询结果过多的现象:一是用正文分类(Text Categorization)技术将结果分类。使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别;一是进行站 l 从聚类或内容类聚,减少信息的总量。 3.1.2 基于智能代理的信息过滤和个性化服务。信息智能代理是另外一种利用 Internet 信息的机制,它使用自动获得的领域模型和用户模型知识进行信息搜集、索引、过滤,并自动地将用户感兴趣的、对用户有用的信息提交给用户,CHTNA_VIVI 通过挖掘用户的浏览模式为用户提供个性化服务。3.1.3 采用分布式体系结构提高系统规模和性能。搜索引擎的实现可以采用集中式体系结构和分布式体系结构。但当系统规模达到一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高系统性能。CHTNA_VIVI 的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的进行检索,以提高检索的速度和性能。 3.2IPv6 优化的新一代网络搜索引擎的实现方法 IP 协处理器主要有两大类型:一是内容检查引擎(CIE),主要作用是提取信息包头、对信息包中的数据进行分类和内容检查等,应用于安全网络和对内容敏感的网络;一是网络搜索引擎(NSE),主要作用是执行复杂的搜索、提供搜索结果、按搜索表中指定的内容转发信息包等,主要应用于宽带交换机和路由器。 3.3 专家咨询搜索引擎的实现方法 (下转第 62 页) 进入 AskMe.com 的主页,经过简单的注册成为普通用户后,立刻可以享用 AskMe.com 提供的各项服务。 3.3.1 直接提问可以在 AskMe.com 的首页直接提问,步骤如下: 在 AskMe. com 的首页,直接在 Enter the subject of your question 的输入框中将所欲提问的主题输入,点击 GO。 在返回页面中将问题输入,在这里也可以选择作为匡匿名用户提问,除了提问者本人,包括专家在内所有人都不知道提问者的情况,如果以这种方式提问,不要忘记在 E-mail 地址栏中填入正确的 E-mail 地址,这样当专家解答后,系统可以 E- mail 的方式通知你。提问问题写完后,点击 Continue。 这时会返回与你所提问题可能相关的类目列表,选择相关类目名,或点击浏览所有类目名,选定后点击 Continue。 在接下来的页面中,为了方便专家答题,系统会给出一些与提问相关的内容以方便用户做进一步限定。选择完毕后,点击Continue。 成功发送后,返回页面将告诉你问题已发送给选定类目的专家,当专家答题后,系统将发 E- mail 通知你。囚为不同专家答题方式可能不同,所以同时会告诉你将以何种方式得到问题答案 3.3.2 按类别提问也可以选择另一种途径提问,在提问的同时浏览其它问题及解答。在 AskMe.com 主页,提供了科学、教育、社会与文化、艺术与体闲等 13 个一级类目名,逐层点击展开直至感兴趣的类目名称。医学科学处于科学类目之下,其下包括多个类目,如感兴趣的类目不在列表之中也可以推荐类目。 在 Medical Science 页面,点击 Ask a question。可以直接提问,提问方式同上。点击 see whats on the Question Board 可以浏览问题版上有哪些问题,也可以浏览这些问题的回答情况。点击Find anExpert,显示该类目所有专家,按已解答问题数量由多至少排序点击 read their previous 可以看到以往该类目问题的提问及回答 3.3.3 查找专家及问题后提问 新用户对类目及专家都不太熟悉,并不清楚是否有用户提供类似问题,建议使用杏找专家及问题的方式。如在医学领域对 medical informatics 比较感兴趣,可以在Medical Science。页面中,在 Enter a topic to find Experts&Answers in Medical Science。之后的检索框中输入,Medical informatics,点击 Go,得到了已提问的 48 个问题。 4.新技术的引入 4.1 智能化中文语言处理技术 搜索引擎使用独特的中文语言处理技术巧妙解决了中文信息的理解问题极人地提高搜索的准确性和查全率信息索引基于字和词较好地解决了单纯基于字或单纯基于词的缺点结合两者的优点更加符合中文用户的搜索习惯搜索引擎支持主流的中文编码标准并且能够在不同编码之间转换这使简体字和繁体字能够自然结合相得益彰。 4.2 智能性、可扩展搜索技术 搜索引擎使用具有智能性的“网络蜘蛛“程序( Spider)自动的在万联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息为用户提供最准确、最广泛、最具时效性的信息奠定了坚实基础。 4.3 分布式结构优化算法与容错设计 保证了系统在大访问量下的高可用性、高扩展性、高风险能和高稳定性每个部分均采用 N+ 1 的冗余设计,1 台服务器时刻处于备用状态因而整个系统能在 99.9%的时间内提供高可用性和高稳定性的服务。 4. 4 智能化相关度算法技术 采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。 4.5
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号