资源预览内容
第1页 / 共47页
第2页 / 共47页
第3页 / 共47页
第4页 / 共47页
第5页 / 共47页
第6页 / 共47页
第7页 / 共47页
第8页 / 共47页
第9页 / 共47页
第10页 / 共47页
亲,该文档总共47页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第4章 搜索引擎,1. 搜索引擎的概念 2. 搜索引擎的类型及特点 3. 常用通用搜索引擎 4. 常用元搜索引擎 5. 常用医学专业搜索引擎,面对网上扑面而来的信息如何是好?,在互联网发展初期,网站相对较少,信息查找比较容易。然而,伴随互联网的迅速发展,网上信息已呈爆炸性增长。目前Internet能找到的网页已多达数千亿之巨,并且仍以每几个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,往往会“大海捞针”无功而返,搜索引擎的出现正是为了解决这种“迷航”问题。目前已有数以千计的Web搜索引擎在 Internet上运行,Web搜索引擎已逐渐成为Web信息检索利用的主要方式之一。,何为搜索引擎?,搜索引擎是指以人工或网络机器人软件的方法采集、标引Web资源和其他类型的网络资源,并将索引信息内容存储于大型数据库中,以Web网站的方式提供给网络用户查询的信息服务系统。,第4章 搜索引擎,1. 搜索引擎的概念 2. 搜索引擎的类型及特点 3. 常用通用搜索引擎 4. 常用元搜索引擎 5. 常用医学专业搜索引擎,索引式搜索引擎 目录式搜索引擎 元搜索引擎,索引式搜索引擎 也称为机器人搜索引擎,主要采用机器人技术,通过“机器人”(Robot)、“蜘蛛”(Spider)、“爬虫”(Crawler)等去网上抓取各个网站、网页的信息,自动化程度高的搜索引擎还利用计算机辅助数据库的建设,如进行自动分类、自动标引、自动文摘等。在前台提供一个检索入口,用户通过检索入口递交查询请求,通过后台对数据库的检索操作将结果反馈给用户,相当于网上资源的主题索引,索引式搜索引擎的主要特点是: 1. 交互性更强,集中体现了客户机/服务器模式的优势。 2. 检索功能强大,一般可进行布尔逻辑检索、词组检索、位置检索、截词检索等 3. 提供二次检索,允许在查询结果中进一步限定,从而缩小检索结果范围,提高查准 率。,目录式搜索引擎 又称目录导引式搜索引擎,主要是指由人工发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据,建立主题树分层目录,并将采集、筛选后的信息分门别类地放入各大类或子类下面。在Web页面上呈现出错落有致的上下位关系,用户通过层层点击,顺链而行,随着范畴的缩小与查询的专指度提高,最终满足用户的查询需求。,目录式搜索引擎的特点 1.比较适合主题浏览、一般主题检索或为用户检索提供有价值的提示,而且通过这种体系分类来归整资源,体现了知识概念的系统性,有利于族性检索。 2.查准率高。一方面人工技术的干预;另一方面用户参与程度高. 3.查全率有限。信息涵盖量不大,更新能力有限是这类检索引擎的一个弊端。 4.分类依据的科学性与标准性。对于这一类搜索引擎,分类标准是其提供优质检索服务底重要保障之一。,目录式搜索引擎与索引式搜索引擎的主要区别在于: 1.目录式搜索引擎的数据库是依靠人工建立起来的,索引式搜索引擎的数据库是用程序自动搜索和积累的。 2.由于目录是依靠人工进行整理搜索,而且只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,其网站信息的更新速度受到一定影响。 3.由于目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得到的结果往往比索引式搜索引擎得到的结果更具参考价值。,网上信息的急剧膨胀往往是单个独立搜索引擎的检索能力所难以招架的。任何一个搜索引擎都不可能100%的覆盖网上信息。据专家评测,目前主要搜索引擎返回的相关结果的比率不超过45%,而且由于机制、范围、算法等差异,导致同样一个查询请求在不同的搜索引擎中的检索结果的重复率不足34%。因此,要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。于是,元搜索引擎应运而生,在一定程度上解决了搜索引擎的这些问题。 元搜索引擎(Metasearch Engine),被称为搜索引擎之上的搜索引擎,是一个要调用其 他搜索引擎的搜索引擎。,元搜索引擎的主要特点 1.查全率大大提高,但查准率更难保障; 2. 一般只支持AND、OR、NOT等简单的操作; 3. 运作机制有别于目录式和索引式; 4.元搜索引擎需要与各个收录的搜索引擎网站建立协作关系,拥有对方数据库的访问权。,第4章 搜索引擎,1. 搜索引擎的概念 2. 搜索引擎的类型及特点 3. 常用通用搜索引擎 4. 常用元搜索引擎 5. 常用医学专业搜索引擎,Google (http:/www.google.com) Hotbot (http:/www.hotbot.com) Yahoo! (http:/www.yahoo.com) Baidu(http:/www.baidu.com),Google 1.概况 Google是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年 9月发明,并于1999年创立了Google公司。 Google 的使命就是要提供网上最好的查询服务,促进全球信息 的交流。Google 开发出了世界上最大的搜索引擎,提供了最便 捷的网上信息查询方法。通过对 多达一万亿网页进行整理,可 为世界各地的用户提供适需的搜索结果。 Google 是由英文单词“googol”变化而来。“googol”是美 国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词, 表示 1后边带有 100 个零的数字。Google 使用这个词代表公司 想征服网上无穷无尽资料的雄心。,2.特点及技术支持 (1)特点 Google支持多语言检索,包括简体中文和繁体中文; Google网站只提供搜索引擎功能,没有花里胡哨的累赘; Google速度极快,有100多万台服务器; Google的专利网页级别技术PageRank能够提供高命中率的搜索结果; Google的搜索结果摘录查询网页的含有关键字的内容,而不仅 仅是网站简介 Google智能化的“手气不错”功能,提供可能最符合要求的网站; Google的“网页快照”功能,能从Google服务器中直接取出缓存的网页。,Google核心软件称为 PageRank(TM),这是由其创始人Larry Page 和 Sergey Brin 在斯坦福大学开发出的一套用于网页评 级的系统。当从网页 A 链接到网页B,Google 就认为“网页 A 投了网页 B 一票”,Google 根据网页的得票数评定其重要性。 除了考虑网页得票数(即链接)的纯数量之外,Google还要分析 投票的网页,“重要”的网页所投出的票就会有更高的权重,有助 于提高其它网页的“重要性”。重要的、高质量的网页会获得较 高的网页级别; 另外,Google还将网页级别与完善的文本匹配技术结合在一 起;采用自动搜索方法,排除了任何人为因素对搜索结果的影响。,网页查询 若要求搜索结果包含两个及两个以上的关键词,只需在 关键词中间留空格即可。如:child nursing 若要求搜索结果不包含某些特定信息时,用“-”紧密地加在作用的关键词前面。如:nursing-child。这里的“-”是英文字符,而不是中文字符,此外,操作符与作用的关键词之间,不能有空格,如加入空格,则搜索引擎将视前后关键词为逻辑与关系,中间的“-”被忽略。 若要求搜索结果至少包含多个关键词中的任意一个时,可用大 写的OR来连接各检索词。如:nursing OR child OR elder Google只支持精确查找,不允许截词检索 Google搜索不区分英文字母大小写。所有的字母均当作小写处理。如:搜索google、GOOGLE、GoOgLe,结果都是一样的。,Google的关键词可以是词组,也可以是句子,但是,用句子 做关键词,必须加英文引号。如“what is allergy” Google会忽略最常用的词和字符,这些词和字符称为忽略词。 如:“http”、 “.com”和“的”等字符以及数字和单字。使用英文双引号可将这些忽略词强加于搜索项,例如:输入“乙肝的治疗”时,加上英文双引号会使“的”强加于搜索项中。 要将搜索结果局限于某个具体网站或者网站频道,可用site, 如:搜索新浪文教频道中关于鲁迅的信息,可采用检索式鲁迅 site:edu.sina.com.cn。需要注意的是:site后的冒号为英文字符,并且冒号后不能有空格,否则,“site:”将被作为一个搜索的关键词。网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀。若想排除某网站或者域名范围内的页面,只需用“_网站/域名”。,若想查询某一类文件(扩展名相同),可使用“filetype:”。 最重要的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档 格式,现在已经成为互联网的电子化出版标准。目前Google检索 的PDF文档大约有2500万左右。PDF文档通常是一些图文并茂的综 合性文档,提供的资讯一般比较集中全面。例如,搜索关于电子 商务的PDF文档,可采用ecommerce filetype:pdf检索式。 若想要搜索的关键词包含在URL链接中,可用“inurl:”。 “inurl”语法返回的网页链接中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名或者网页名称中,比如“MP3”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。如:inurl:mp3 歌曲,要想搜索的关键词包含在网页标题中,可用“intitle”。“intitle:”的用法类似于上面的inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。例如:intitle:sars 如果想知道有多少人对某一网站做了链接,用“link:”语法就能迅速达到这个目的。如:搜索所有含指向华军软件园www.newhua.com链接的网页。可以采用link:www.newhua.com 检索式进行检索。但需要注意,“link”不能与其他语法相混合操作。,查找与某个页面结构内容相似的页面,可用 “related:”。例,搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),可输入related:www.sina.com.cn/index.shtml. 若想从Google服务器上缓存页面中查询信息,可用 “cache:”。搜索Google服务器上某页面的缓存,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。例如,查找Google缓存的中文yahoo首页,可cache:www.yahoo.com.cn.,图像检索 在首页点击“图像”(images)链接就进入了图像搜索界面。在关键词栏内输入描述图像内容的关键字,如“blue sky”,就会搜索到大量的蓝天的图片。Google的图像搜索结果具有一个直观的缩略图,以及对该缩略图的简单描述,如图像文件名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面链接,下祯是该图像所处的页。 其检索同网站检索相似,Google图像搜索目前支持的语法包括“_”、“OR”、 “site”、“filetype” 。,新闻(组)检索 新闻组有详尽的分类主题,某些主题还有专人管理和编辑,具有大量的有价值信息。由于新闻组包含的信息实在是海量,因此不利用工具进行检索是不大可能的。 进入Google新闻组,有两种信息查找方式。一种是一层层地点击进入特定主题讨论组,另一种则是直接搜索。 新闻检索也支持高级检索,分类检索 即目录内检索。如果不想搜索广泛的网页,而是想寻找某些专题网站,就可以访问Google的分类目录。如:查找关于癌症治疗及护理方面的中文资料,先进入中文简体分类目录,再进入“健康”子目录,确定选中“只在健康中搜索”单选项目,在搜索栏
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号