资源预览内容
第1页 / 共111页
第2页 / 共111页
第3页 / 共111页
第4页 / 共111页
第5页 / 共111页
第6页 / 共111页
第7页 / 共111页
第8页 / 共111页
第9页 / 共111页
第10页 / 共111页
亲,该文档总共111页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第四章 搜索引擎与网络信息资源检索 1chapter4搜索引擎与网络信息检索第一节 搜索引擎的原理和发展概况2chapter4搜索引擎与网络信息检索1、网络信息资源种类1.WWW信息资源:web网页2.FTP信息资源:远程计算机上的文件夹3.Blog信息资源:博客、播客等等信息资源4.Telenet信息资源:直接调用远程主机5.BBS 、新闻组信息资源:相当于论坛信息6.P2P信息资源:私人计算机上的信息资源7.数据库和收费网站:如三大库三大馆32、网络信息资源的特点v信息量大、传播广泛v信息类型多样、内容丰富v信息时效性强、变化频繁v信息分散无序、但关联程度高v信息缺乏管理、良莠不齐 所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们“大海里捞针”。43、搜索引擎的概念54、搜索引擎的发展历史67搜索引擎的起源ArchieArchie 所有搜索引擎的祖先,是所有搜索引擎的祖先,是19901990年由年由蒙特利尔的的McGill UniversityMcGill University三名学生发明的三名学生发明的ArchieArchieArchieArchie(Archie (Archie FAQ)FAQ)。Alan EmtageAlan Emtage等想到了开发一个可以用文件等想到了开发一个可以用文件名查找文件的系统,于是便有了名查找文件的系统,于是便有了ArchieArchie。ArchieArchie是是第一个自动索引互联网上匿名第一个自动索引互联网上匿名FTPFTP网站文件的程序,网站文件的程序,但它还不是真正的搜索引擎。但它还不是真正的搜索引擎。ArchieArchie是一个可搜索是一个可搜索的的FTPFTP文件名列表,用户必须输入精确的文件名搜文件名列表,用户必须输入精确的文件名搜索,然后索,然后ArchieArchie会告诉用户哪一个会告诉用户哪一个FTPFTP地址可以下地址可以下载该文件。载该文件。 8 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 现在这个工具主要用在国外大型图书馆的信息检索上。早期的另一个搜索工具Gopher9 1994 1994年年4 4月,斯坦福大学的两名博士生,美籍月,斯坦福大学的两名博士生,美籍华人杨致远和华人杨致远和David FiloDavid Filo共同创办了共同创办了YahooYahoo)。随)。随着访问量和收录链接数的增长,着访问量和收录链接数的增长,YahooYahoo目录开始支目录开始支持简单的数据库搜索。因为持简单的数据库搜索。因为Yahoo!Yahoo!的数据是手工输的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。一个可搜索的目录。Yahoo!Yahoo!中收录的网站,因为都中收录的网站,因为都附有简介信息,所以搜索效率明显提高。附有简介信息,所以搜索效率明显提高。Yahoo!-Yahoo!- -几乎成为几乎成为2020世纪世纪9090年代的因特网的代名词。年代的因特网的代名词。第二代搜索:目录式搜索 Yahoo!10 1995 1995年,一种新的搜索引擎形式出现了年,一种新的搜索引擎形式出现了元元搜索引擎(搜索引擎(Meta Search EngineMeta Search Engine)。用户只需提交)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返索引擎返回的所有查询结果,集中起来处理后再返回给用户。回给用户。 第一个元搜索引擎,是第一个元搜索引擎,是WashingtonWashington大学硕士生大学硕士生 Eric SelbergEric Selberg 和和 Oren Etzioni Oren Etzioni 的的 MetacrawlerMetacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。所以没有哪个元搜索引擎有过强势地位。 好听不好用的元搜索引擎11第三代搜索:网页搜索它们都属于网页自动搜索引擎,有的还带有智能分析或FTP、P2P搜索功能125、搜索引擎的工作原理1314 搜索引擎并不真正搜索互联网,它搜索的实搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。际上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成:搜索引擎至少由三部分组成:v 爬行器(即机器人、蜘蛛等搜索程序)爬行器(即机器人、蜘蛛等搜索程序)v 索引生成器(即网页索引数据库)索引生成器(即网页索引数据库)v 查询检索器(即用户检索界面)查询检索器(即用户检索界面) 随着搜索引擎的发展,许多搜索引擎在此基随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。础上增加特色功能。如百度增加了监控程序。15搜索引擎的工作原理就像超市索引生成器索引生成器(网页数据库)(网页数据库)爬行器爬行器(蜘蛛)(蜘蛛)查询检索器查询检索器(用户查询)(用户查询)因特网16 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。第一步:从互联网上抓取网页第一步:从互联网上抓取网页因特网17第二步:建立索引数据库第二步:建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。18 搜索引擎的搜索引擎的SpiderSpider一般要定期重新访问所有一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。到用户查询的结果中。 19第三步:检索界面的建立 当用户输入关键词搜索后,由搜索系统程序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。址和页面内容摘要等内容组织起来返回给用户。 20 每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录分类目录及关键词关键词两种信息查询途径。212223第二节 两类搜索引擎及网页搜索引擎24chapter4搜索引擎与网络信息检索两类搜索引擎的代表2以以FTPFTP和和P2PP2P资源搜资源搜索为主的搜索为主的搜索引擎索引擎1以网页搜索为主的搜索引擎百度、百度、GoogleGoogle、YahooYahoo等等迅雷、天网迅雷、天网MazeMaze等等25第一类搜索引擎:第一类搜索引擎:网页搜索引擎网页搜索引擎以谷歌和百度为代表以谷歌和百度为代表261、Google搜索引擎 GoogleGoogle搜索引擎诞生于斯坦福大学的一个学搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。生宿舍里,然后迅速传播到全球的信息搜索者。 Google Google 目前被公认为万维网上最大的搜索目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过够访问一个包含超过 80 80 亿个网址的索引。亿个网址的索引。 “ “Google”Google”来自于数学名词来自于数学名词“Googol”Googol”, GoogolGoogol表示一个表示一个 1 1 后面跟着后面跟着 100 100 个零。个零。Google Google Int.Int.使用这一术语体现了公司整合网上海量信息使用这一术语体现了公司整合网上海量信息的远大目标。地址:的远大目标。地址: 27Google 简介:Larry PageLarry Page,创始人之一,主管产品,创始人之一,主管产品的总裁。密西根安娜堡大学的荣誉毕的总裁。密西根安娜堡大学的荣誉毕业生,拥有理工科学士学位。他还因业生,拥有理工科学士学位。他还因其出色的领导才能获得过多项荣誉,以奖励他对工学院其出色的领导才能获得过多项荣誉,以奖励他对工学院的贡献。他曾担任密西根大学的贡献。他曾担任密西根大学 Eta Kappa Nu Eta Kappa Nu 荣誉学会荣誉学会的会长。目前他暂时从斯坦福大学计算机研究所博士班的会长。目前他暂时从斯坦福大学计算机研究所博士班休学,其指导教授是休学,其指导教授是 Terry Winograd Terry Winograd 博士。博士。Google Google 就是由就是由PagePage在斯坦福大学发起的研究项目转变而来的。在斯坦福大学发起的研究项目转变而来的。28Google 简介:Sergey BrinSergey Brin,创始人之一,主管技术的总裁。出,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。博士班休学。29 29 岁的岁的 Sergey Sergey 是美国国家科学是美国国家科学基金会的奖学金得主。他在斯坦福基金会的奖学金得主。他在斯坦福遇到了遇到了 Larry Page Larry Page 并参与了后来成为并参与了后来成为 Google Google 的研究项目。他们于的研究项目。他们于19981998年年共同创立了共同创立了 GoogleGoogle。29注意用“ ”与*功能30Google Google 技术技术 Google 使用 PageRank 技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关,使得搜索方式发生了根本性变化。31Google的特殊功能(部分)查找非HTML文件:可以支持13种非HTML文件的搜索,如PDF, DOC, PPT, XLS, SWF。例如 查找doc文本文件,只需搜索“关键词 ”即可。32网页快照:网页快照:Google Google 在访问网站时,会将看过的网页复在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。制一份网页快照,以备在找不到原来的网页时使用。单击单击“网页快照网页快照”后,将看到后,将看到 Google Google 将该网页编将该网页编入索引时的页面。入索引时的页面。Google Google 依据这些快照来分析网页依据这些快照来分析网页是否符合您的需求。(不好用)是否符合您的需求。(不好用)类似网页类似网页 :如果你对某一网站的内容很感兴趣,但又:如果你对某一网站的内容很感兴趣,但又嫌资料不够,单击嫌资料不够,单击“类似网页类似网页” ” Google Google 会帮你找会帮你找到其他有类似资料的网站;到其他有类似资料的网站;33n按链接搜索:查询 “link:” 显示所有指向该网址的网页。例如,“link:”将找出所有指向 网易主页的网页。n手气不错:按下“手气不错”按钮将自动进入 Google 查询到的第一个网页。n指定网域:如果要在某个特定的域或站点中进行搜索时可输入“* site:*.com”。如在新浪网中搜索“新闻”可输入“新闻 site:sina.com.cn”3435查看哈尔滨工业大学研究生招生简章36其它技巧中英文字典中英文字典:英译汉输入:英译汉输入“fy apple”fy apple” 汉译英输入汉译英输入“翻译翻译 苹果苹果”定义定义:输入:输入“定义:文献定义:文献”或或“define:HTML”define:HTML”计算器计算器:Google Google 为用户提供了一个内置计算器。为用户提供了一个内置计算器。天气查询天气查询:检索:检索“哈尔滨哈尔滨 天气天气”或或“shanghai tq” shanghai tq” GoogleGoogle返回的网站链接会提供最新的当地天气状况和天返回的网站链接会提供最新的当地天气状况和天气预报。气预报。邮编区号邮编区号: :输入输入“邮编邮编 哈尔滨哈尔滨”、“YB 150000”YB 150000”、 “ “区号区号 0451”0451”、“哈尔滨哈尔滨 QH”QH”手机号码手机号码: :输入输入“”可查询手机号的归属地。可查询手机号的归属地。股票查询股票查询:输入:输入“中国石化中国石化 股票股票”或或“GP 600028”GP 600028”可查可查询股票价格及股市行情。询股票价格及股市行情。3738谷歌其他功能392 2、百度百度(baidu)(baidu) 全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。 地址: 4041 一、一、概况概况 百度(百度(Baidu.comBaidu.com,IncInc)于)于19991999年底年底成立于美国硅谷,成立于美国硅谷,20002000年,落户中国。年,落户中国。 20012001年年8 8月,发布月,发布Baidu.comBaidu.com搜索引擎搜索引擎BetaBeta版,版,从后台服务转向独立提供搜索服务,并且在中国首从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式。创了竞价排名商业模式。 20012001年年1010月月2222日正式发布日正式发布BaiduBaidu搜索引擎。搜索引擎。 20052005年年8 8月月5 5日,百度在美国纳斯达克上市。日,百度在美国纳斯达克上市。李彦宏李彦宏42 “百度”二字取自辛弃疾的青玉案 “众里寻她千百度” 。 现在百度已成为世界上最大的中文搜索引擎。用户能够访问超过6亿的中文网页,5000多万张图片、500多万首中文mp3及各种格式的音乐。43百度技术百度搜索引擎由四部分组成:蜘蛛程序、监控程序、百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。索引数据库、检索程序。百度的核心技术:超链分析百度的核心技术:超链分析超链分析技术,是新一代搜索引擎的关键技术,超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,百度总裁李彦宏已为世界各大搜索引擎普遍采用,百度总裁李彦宏就是超链分析专利的唯一持有人。在学术界,一篇就是超链分析专利的唯一持有人。在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。用户欢迎的内容排名越靠前。44网页搜索功能百度快照百度快照 相关搜索相关搜索 拼音提示拼音提示 错别字提示错别字提示 英汉互译词典英汉互译词典 计算器和度量衡转换计算器和度量衡转换 专业文档搜索专业文档搜索 股票、列车时刻表和飞机航班查询股票、列车时刻表和飞机航班查询 高级搜索语法高级搜索语法 高级搜索、地区搜索和个性设置高级搜索、地区搜索和个性设置 45463、其它中文搜索引擎 新浪:新浪:( (现已与谷歌合作现已与谷歌合作) )搜狐:搜狐:网易:网易:雅虎中国:雅虎中国:搜狗:(智能搜索)搜狗:(智能搜索)网格之窗:网格之窗:(元搜索)(元搜索)47 北京正望咨询有限公司48百度 VS Google49第四节搜索引擎使用技巧50chapter4搜索引擎与网络信息检索百度的使用方法和技巧百度的使用方法和技巧1百度的使用方法和技巧百度的使用方法和技巧2百度的使用方法和技巧百度的使用方法和技巧3百度的使用方法和技巧百度的使用方法和技巧451简单搜索输入查询字符串搜索引擎返回结果52搜索结果分析(Google)网页标题标题上下文本标题上下文本 ABC网页地址网页地址 D网页大小网页大小 EF网页快照网页快照 类似网页类似网页 53搜索结果分析(Baidu)网站被搜索引擎收录时间网站被搜索引擎收录时间54 提炼搜索关键词 细化搜索条件 用好逻辑符号 强制搜索如何运用“关键词原则”55提炼搜索关键词提炼搜索关键词 学会从复杂搜索意图中提炼出最具代表性和指示性的关键词,对提高信息查询效率至关重要,这方面的技巧是搜索技巧的基础。如:搜索与秦朝历史文化有关的资料,可提炼关键词:“秦始皇”、“兵马俑”。56搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。如:要了解中国戏剧中京剧的服饰及脸谱知识,搜索条件可为“京剧”、“脸谱”。 细化搜索条件细化搜索条件57用好逻辑符号高级关键字举例:高级关键字举例:空格空格 一般用作增加搜索范围一般用作增加搜索范围“” “” 强制限定检索词强制限定检索词+ + 扩大检索范围扩大检索范围- - 缩小检索范围缩小检索范围( (检索示例:查找天龙八部是指哪八部检索示例:查找天龙八部是指哪八部检索示例:查找天龙八部是指哪八部检索示例:查找天龙八部是指哪八部搜索:搜索:搜索:搜索:“天龙八部天龙八部天龙八部天龙八部 金庸金庸金庸金庸 佛教佛教佛教佛教”)Intitle Intitle 限制关键字在题目里限制关键字在题目里Site Site 限制关键字在某网站里限制关键字在某网站里加入看似无关但和搜索目标具有相关性的关键字。加入看似无关但和搜索目标具有相关性的关键字。58 通过添加英文双引号来搜索短语词,这一方法在查找名言警句或专有名词时显得格外有用。请同学们搜索 电脑课件之家 和”电脑课件之家”,看结果有何不同。强制搜索5960QQqq site:skycn.comVS61杨晨 site:skycn.comVS杨晨 杜章勇62常用搜索引擎使用方法Google手气不错手气不错高级搜索高级搜索图像搜索图像搜索Directory Directory Directory Directory Google groupGoogle groupBaiduMp3Mp3地图地图地图地图 黄页黄页黄页黄页 63Baidu地图搜索64Google Local65Google Local66搜索中常见的错误错误1:错别字经常发生的一种错误是,你输入的关键词含有经常发生的一种错误是,你输入的关键词含有错别字。笔者所做的统计表明,常有大量的错误错别字。笔者所做的统计表明,常有大量的错误搜索,光一个谢霆锋就有搜索,光一个谢霆锋就有“谢霆锋谢霆锋”、“谢庭锋谢庭锋”、“谢霆峰谢霆峰”、“谢廷锋谢廷锋”、“谢庭峰谢庭峰”、“谢廷峰谢廷峰”6 6种查法,还有什么种查法,还有什么“星际争吧星际争吧”、“以以德制国德制国”之类的,这样的关键词能搜索到什么有之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应该有用资料吗?所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否不少、却搜索不到结果时,你应该先查一下是否有错别字。有错别字。67搜索中常见的错误错误2:关键词太常见 如,搜索如,搜索“电话电话”, , 有无数网站提供跟有无数网站提供跟“电话电话”相关的信息,从网上黄页到电话零售商到个人相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似不使用过于通用的词汇来搜索,设计一个类似“上海上海 常用电话常用电话”这样特殊的搜索关键词,会给你这样特殊的搜索关键词,会给你真正有用的结果。真正有用的结果。68错误3:多义词的使用 要小心使用多义词,比如搜索要小心使用多义词,比如搜索“Java”Java”,你,你要找的信息究竟是太平洋上的一个岛、一种著名要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关之前先问自己这个问题,然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词或者用其他的词语来代替多义词作为搜索关键词。比如用键词。比如用“爪哇爪哇 印尼印尼”、“爪哇爪哇 咖啡咖啡”、“Java Java 语言语言”分别搜索可以满足不同的需求。分别搜索可以满足不同的需求。 69 搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。 应该这样搜索:“现代爱情故事 歌词”、“信息早报 济南 发行”、“铃羊车 图案”“上海 成都 列车 时刻表”。 错误4:使用自然语言查询70 又如,“杭州的特色景点与小吃”这么长的关键词实在不如“杭州特色小吃”、“杭州景点”来得准;如果觉得找到的结果还不多,可以进一步改为“杭州 特色小吃”(表示相关页面既包括“杭州”,又包括“特色小吃”)、“杭州 景点”。7120012001年年7 7月月2323日这一天,正逢高考发榜,各大搜索引擎竟有日这一天,正逢高考发榜,各大搜索引擎竟有超过超过100100万次以上的搜索跟高考查分有关。考生们不知道,搜万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带容,如:论坛、数据库内容,以及带frameframe(框架结构)的网(框架结构)的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网站的任务,而是应该去相关的网站寻找,当然,寻找相关网站的任务,搜索引擎是当仁不让的。搜索引擎是当仁不让的。错误5:在错误的地方搜索72关于搜索的一些思想不是互联网上所有的信息都能被搜索引擎搜集。动手前多动脑。不要盲目信任搜索得到的信息。不要期望一次搜索解决问题。73附加资料Baidu帮助中心Google帮助中心搜索引擎列表Google Tutorial中文搜索引擎指南网74文献检索课程作业寻找蒙娜丽莎 、请在网上寻找如下图、请在网上寻找如下图所示世界名画所示世界名画蒙娜丽莎蒙娜丽莎的指定图片和介绍她被偷的的指定图片和介绍她被偷的文章。注意,如不是指定图文章。注意,如不是指定图片则此题不给分!片则此题不给分!提示:可试用以下检索词:提示:可试用以下检索词:Mona Lisa Mona Lisa Louvre museum Louvre museum stolenstolen蒙娜丽莎蒙娜丽莎 500500岁岁 蒙蒙娜丽莎被偷娜丽莎被偷 卢浮宫卢浮宫75、请在网上寻找卢浮宫、请在网上寻找卢浮宫三件三件“镇馆之宝镇馆之宝”的另外的另外两件维纳斯和胜利女两件维纳斯和胜利女神的雕像图片,把有关图神的雕像图片,把有关图片下载到你的作业文件夹片下载到你的作业文件夹中,作业文件名必须是图中,作业文件名必须是图片的主题,否则不给分。片的主题,否则不给分。 76第四节 P2P搜索引擎使用方法77chapter4搜索引擎与网络信息检索第二类搜索引擎:FTP或P2P搜索引擎以迅雷和天网为代表78什么是FTP资源 FTP 是在 Internet 网上使用最广泛的一种服务, 使用FTP几乎可以传送任何类型的文件: 如文本文件、二进制的可执行程序、科学论文、图像文件、压缩文件、声音文件等。因此有大量有价值的信息资源存储在Internet网上的FTP服务器上, 获取这些资源也是信息检索的一项内容。79FTP的工作原理 Transfer Protocol) 是 TCP/IP 协议的一种, 它是在Internet网上使用最广泛的一种服务, 它可被用来在两台位于Internet网上的计算机之间传输文件, 它是一种实时的联机服务, 使用时, 用户应首先登录到对方的主机上, 登录成功后, 可以进行文件搜索和文件传送的操作, 如列文件目录, 改变当前目录, 设置传送参数等。80 像其它像其它InternetInternet服务一样服务一样, FTP, FTP采用采用 Client / Client / Server Server 结构。用户在使用结构。用户在使用FTPFTP服务时服务时, ,需要输入远程需要输入远程主机的用户名和口令才能被允许登录主机的用户名和口令才能被允许登录, , 在在Internet Internet 网上有许多数据服务中心提供一种称为匿名文件传网上有许多数据服务中心提供一种称为匿名文件传送服务送服务 (Anonymous FTP) , (Anonymous FTP) , 用户在登录时用户在登录时, , 以以Anonymous Anonymous 作为用户名作为用户名, , 以自己的邮件地址做为以自己的邮件地址做为 Password Password 即可。一旦主机提供了匿名的即可。一旦主机提供了匿名的FTPFTP服务服务, , 它有限制地允许客户访问远程主机。因此,它有限制地允许客户访问远程主机。因此,网页搜网页搜网页搜网页搜索引擎一般不能访问到索引擎一般不能访问到索引擎一般不能访问到索引擎一般不能访问到FTPFTPFTPFTP服务器上的信息资源。服务器上的信息资源。服务器上的信息资源。服务器上的信息资源。81什么是P2P P2P在IT界最初的含义是Peer-to-peer(点对点)。现在P2P已经被更广泛的理解为Pointer-to-Pointer, PC-to-PC等等。 简单来说,P2P就是指数据的传输不再通过服务器,而是网络用户之间直接传递数据 。82 举一个简单的例子,在举一个简单的例子,在QQQQ出现之前,人们上网出现之前,人们上网聊天大多通过聊天室,信息的传递方式是:用户聊天大多通过聊天室,信息的传递方式是:用户A A聊天室服务器用户聊天室服务器用户B B。这些不是。这些不是P2PP2P的方式。的方式。 在在QQQQ时代,用户与服务器的交互仅用来完成登时代,用户与服务器的交互仅用来完成登陆、维持在线状态等等,信息用户之间的信息传递陆、维持在线状态等等,信息用户之间的信息传递不需要服务器参与,信息传递方式为:用户不需要服务器参与,信息传递方式为:用户A A用户用户B B。这就是典型的。这就是典型的P2PP2P应用。应用。 不过,当信息的接收方不在线时,信息会通过不过,当信息的接收方不在线时,信息会通过服务器中转,这就又变成了上面提到的服务器中转,这就又变成了上面提到的C/SC/S模式模式83第二类搜索引擎 从的工作方式可以看出,它们都不是传统意义上的www网站,而是直接在两台计算机之间进行的远程通信和文件传输。所以象百度和谷歌这类搜索引擎对这两种信息资源的搜索往往不能奏效。这就需要有新的类型的搜索引擎诞生。其中有代表性的是迅雷和天网搜索引擎。84 FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。 由于FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用FTP搜索引擎更加便捷。 85一、迅雷在线搜索引擎8687迅雷在线搜索引擎 迅雷是一款免费下载工具,号称第三代快速下载迅雷是一款免费下载工具,号称第三代快速下载工具,它使用的多资源超线程技术基于网格原理,能够工具,它使用的多资源超线程技术基于网格原理,能够将网络上存在的服务器和计算机资源进行有效的整合,将网络上存在的服务器和计算机资源进行有效的整合,构成独特的迅雷网络,通过迅雷网络各种数据文件能够构成独特的迅雷网络,通过迅雷网络各种数据文件能够以最快的速度进行传递,据说下载速度是网际快车的以最快的速度进行传递,据说下载速度是网际快车的7-7-8 8倍,支持断点续传。倍,支持断点续传。 迅雷还拥有一个强大的资源网络,实际上构成了一迅雷还拥有一个强大的资源网络,实际上构成了一个独特的搜索引擎。任何人都可以将自己在因特网搜索个独特的搜索引擎。任何人都可以将自己在因特网搜索到的资源再次在迅雷上发布,成为迅雷的到的资源再次在迅雷上发布,成为迅雷的“雷友雷友”,拥,拥有自己的迅雷博客。这样,迅雷就可以通过对雷友博客有自己的迅雷博客。这样,迅雷就可以通过对雷友博客的搜索,提供更多的信息资源。的搜索,提供更多的信息资源。88二、天网搜索引擎8990天网中文搜索引擎北大天网 由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在中国教育和科研网CERNET上提供服务。收录网页约6000万,主要搜索CERNET上的信息,有强大的FTP搜索功能。919293主要以P2P资源搜索为主的搜索引擎2北京天网时代科技有限公司()的前身是北大天网(),北大天网是中国第一家为互联网用户提供服务的搜索引擎。 2003年7月,北京天网时代科技有限公司完全收购了北大天网,开展搜索相关业务。94天网资源:Web、FTP、Maze等95“天网妹子”天网资源最具特色的是Maze资源,天网Maze是一款集搜索和下载为一体的、基于P2P底层技术的客户端软件,它的特点是同时具有搜索、下载和共享发布的功能,当你安装此软件并注册后,就可以输入关键词进行搜索。但它搜索的对象主要是所有的Maze用户,你可以直接从找到的在线Maze用户的个人计算机共享文件夹上下载你感兴趣的任何文件。96用天网妹子搜索到的大学课程在线97三、其他P2P搜索引擎BT电驴电骡9899特色搜索引擎1.图像搜索引擎2.FTP搜索引擎3.新闻组搜索引擎4.新闻搜索引擎5.MP3搜索引擎6.Flash搜索引擎100第五节门户网站和“看不见的”网站101chapter4搜索引擎与网络信息检索一、门户网站的概念 中国有三大网站被称为“门户网站”(新浪、搜狐和网易)。之所以他们被称为中国最大的三大门户网站,除了因为它们有搜索引擎以外,还因为它们安排了多种多样的信息服务,使得人们能自觉自愿地登陆这些网站开始“网上冲浪”,恰似因特网的大门一样。102第三代互动式搜索引擎搜狗搜狗是搜狐()推出的第三代互动式搜索引擎,在用户输入一个查询词后,尝试理解用户可能的查询意图,给出多个主题概念的搜索提示,通过人机交互过程,智能展开多组相关的主题概念,引导用户更快速准确定位自己所关注的内容。103104二、新浪网站及其搜索引擎二、新浪网站及其搜索引擎105三、网易网站及其搜索引擎三、网易网站及其搜索引擎Keyword searching106107二、看不见的网站 与门户网站相反,有相当一批网络信息资源是搜索引擎看不到的,譬如天网妹子上的大学视频教程,以及私人服务器上的BT资源,百度、谷歌就对它们无能为力。因而就有了“看不见、搜不着的网站”的说法。但这些信息资源绝不是不重要的。108 “看不见”的网站即指可通过万维网获得的文本网页、文件或其他高质量的权威信息,但由于技术限制,或是由于特定选择而不能或未纳入通用搜索引擎的网页索引,也可以简单地把“看不见”的网站理解成通用搜索引擎及网站指南所无法覆盖的内容。109110ThanksThanks111chapter4搜索引擎与网络信息检索
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号