资源预览内容
第1页 / 共49页
第2页 / 共49页
第3页 / 共49页
第4页 / 共49页
第5页 / 共49页
第6页 / 共49页
第7页 / 共49页
第8页 / 共49页
第9页 / 共49页
第10页 / 共49页
亲,该文档总共49页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
课题三 计算机信息检索 基础理论,1、教学内容 (1)计算机信息检索的发展 (2)计算机信息检索的概念及类型 (3)计算机信息检索系统的构成 (4)计算机信息检索的基本原理及检索技术 (5)数据库的类型及构成 2、重点、难点 计算机信息检索的基本原理及检索技术 3、教学基本要求 (1)了解计算机信息检索的发展,计算机信息检索的概念及类型。 (2)熟练掌握计算机信息检索的基本原理及检索技术。,1、从“图灵实验”说起,大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为“图灵实验”。他并且预言,在20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过“图灵实验”。,2、计算机检索的奥妙:匹配,计算机既然如此“无能”,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢? 原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。,第一节 计算机信息检索概述,一、计算机信息检索的发展概况 1.国外计算机信息检索发展概况 脱机检索阶段 联机检索阶段 光盘检索阶段 网络化联机检索阶段,脱机检索阶段,早期的计算机没有终端设备,输入数据、命令均用穿孔卡片或纸带,存储介质主要是磁带,检索采用顺序检索技术。 受这些客观条件的制约,当时的信息检索是脱机批处理方式,即由用户向计算机操作人员提问,操作人员对提问内容进行主题分析、标引、编写提问式,输入计算机,建立用户提问档,按提问档定期对新到的文献进行批量检索,并将结果及时通知用户。,联机检索阶段,联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。 特点:检索的速度快,检索结果可以得到及时修改。 缺点:检索费用高。,光盘检索阶段,20世纪80年代以来,一种新型信息载体激光光盘在信息检索系统中得到越来越广泛的应用。 光盘网络技术是将多个光盘驱动器连接在一台微机上,再与网络连接。这样,每个工作站都可以通过网络服务器查找存放在任何一个光盘驱动器中的光盘数据库,实现CD-ROM资源共享。,网络化联机检索阶段,随着美国和欧洲的通信网络相继投入商用,通信网络与公用电话线相连,为远距离终端联机检索提供的条件。 通过国际通信网,实际上是许多计算机检索系统一起构成了一个庞大的联机检索网络。在网络中,各检索系统的主机成了网络上的节点,而每个节点又连接着许多终端,这样,可以检索网络中任意一台主机的信息,真正实现了信息资源的共享。,2.我国计算机信息检索发展概况 我国开展计算机检索的研究始于20世纪70年代中期,1975年我国首次引进国外文献数据库进行计算机检索的试验。 与此同时,我国的计算机信息检索系统和数据库的建设也取得了可喜的成绩。,3.计算机检索与手工检索的区别 相同点:手工检索的许多原理和规律都渗透在计算机检索中。 不同点:由于查找的直接执行者不同,所以计算机检索的组配和手工检索的组配存在一定的差别。,二、 计算机信息检索及类型 1、计算机信息检索概述 所以广义的计算机信息检索包括信息的存贮和检索两个方面。 狭义的计算机信息检索就是指人们在计算机和计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示和打印的过程 。,2.计算机信息检索的类型 (1)脱机信息检索系统 这是一种早期应用的系统,是利用单台计算机的输入输出装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索,因此,也称成批检索或定题服务。,(2)联机信息检索系统 联机信息检索系统是由一台主机带多个终端的信息检索系统。这种系统具有分时的操作能力,能够使许多相互独立的终端同时进行检索。通过采用适时操作技术,用户可以使用终端设备直接与计算机“对话”,计算机对用户的提问能及时处理、即刻回答。用户还可以浏览有关信息,随时修改提问,直至得到满意的结果。,(3)光盘信息检索系统 光盘是一种激光记录和读取信息的产品,具有存贮容量大、保存时间长、成本低等优点。光盘数据库从1985年问世以来便很快占领市场,并得到日益广泛的应用。通过塔式光盘驱动器和自动光盘换盘机及局域网,使多个终端用户能实时共享上百张光盘数据库信息,具有联机检索的特征。,(4)网络化信息检索系统 网络化信息检索是指用户使用自己的计算机通过电信系统与网络相连获取信息的一种检索方式。 网络化信息检索系统与联机检索系统所不同的是用户和服务器之间是同等关系,而不是主从关系。在遵守共同的通信协议的前提下,同一个客户可以访问多个服务器,一个服务器也可被多个客户访问。客户既是网络信息的检索者,也是网络信息的提供者。 国际互联网INTERNET就是该系统的典型,3.三种计算机信息检索系统的比较 使用联机检索可直接利用国内外大量规范化的专业数据库进行信息检索,迅速地查找到相关信息。由于检索分辨率高,有较高的查全率和查准率。但联机费用较高,而且需要熟练的检索技能。,使用光盘检索的最大好处是: 用户可以反复进行检索、筛选直至达到最佳的检索效果为止,而不必担心检索时间过长,花大量费用。 光盘检索操作简便,凡具有电脑操作知识的人,都能通过光盘检索获得自己所需要的信息。 与联机检索和网络检索相比,光盘内容的更新时间要长一些。,使用网络化信息检索,信息资源丰富,可以得到最新的大量的数据、动态信息及多媒体信息,是目前人们最乐意接受的检索方式。 通讯费用也低。 但检索速度慢,查全率和查准率底下,检索效果差,信息污染也没有得到有效控制。,三、 计算机信息检索系统的构成 计算机信息检索系统主要有服务器、通信网络、检索终端和数据库组成。,四、 计算机信息检索策略 1.填写检索提问表,列出待检索课题的学科专业范围、主题内容及其检索目标。 2.选择相关数据库,并确定在待检索数据库中的检索途径,以便编制适合所选数据库的检索策略。 3.对信息检索提问进行概念分析。 4.拟定检索表达式。 5.确定具体的检索程序。 6.对检索式进行反馈调整。,第二节 计算机信息检索的基本原理和检索技术,一、 计算机信息检索原理 信息检索的基本原理其本质的部分就是对信息集合和需求集合的匹配和选择。,存 储,检 索,原始文献,加工整理,数据库,提 问,检 索,输 出,“爱因斯坦论文”,“论文”,“爱因斯坦”,“论文”,“爱因斯坦”,二、 计算机信息检索技术 1、布尔逻辑检索 布尔逻辑检索就是采用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问转换成逻辑表达式。 (1)布尔逻辑运算符 逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)。,逻辑与,AND A AND B:检索词A和检索词B同时出现在一条记录中。 其作用是缩小检索范围,提高查准率。,例如查有关“儿童教育”的文献,检索式可写成: child and education,逻辑或,逻辑或(OR) A OR B:记录中出现检索词A或检索词B或两词同时出现在一条记录中。 其作用是扩大检索范围,提高查全率,例如,要检索“计算机”或“机器人”方面的文献,检索逻辑式可表示为:computer OR robot。,逻辑非,NOT A NOT B:记录必须包含检索词A但不能包含检索词B。即在含有A检索词的文献中去除含有B检索词的文献。 其作用是缩小检索范围,提高查准率。,例如,要检索有关“能源”方面的文献,但涉及“核能”方面的文章不要,检索逻辑式可表示为:energy NOT nuclear(energy-unclear)。,(2) 布尔逻辑运算符使用注意事项 在使用逻辑运算符时,可用括号“()”改变执行顺序。 逻辑式中有多个逻辑符时,不同的系统对AND、OR、NOT的运算次序有不同的规定。在有括号的情况下,括号内的逻辑运算先执行。 慎重使用逻辑非,以免排除有用文献信息,造成漏检。 布尔逻辑算符的运算次序: NOT AND OR,2、 截词检索 截词检索是利用计算机特有的指定位对比判断功能,使不完整词能与标引词进行比较、匹配的一种检索,主要用语西文中词干相同的派生词的检索,可大大提高查全率和检索效率。 所谓截词,是指检索者将检索词在他认为合适的地方截断;而截词检索,则是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。,截词的方式有多种,按截断的字符数量来分,可分为有限截词和无限截词;按截断的位置来分,可分为后截断、前截断和中截断。 通常用“*”表示无限截断,用“?”表示有限截断。, 后截断 后截断是最常用的截词检索技术。将截词符号放置在一个字符串右方,以表示其右的有限或无限个字符不影响该字符串的检索。 例如,输入“computer*”,则词典中存储的前8个字符为computer的所有词均满足条件,因而能检索出含computers、computering、computerigation、computered等词的文献。而输入“computer?”,可检索出含computer、computers、computered的文献。 另外应注意:使用后截断有可能检索出无关词汇;尤其是在使用无限截断时,所选词干不能太短,否则将造成大量误检,或是发生溢出,导致检索失败。, 前截断 前截断是将截词符号放置在一个字符串左方,以表示其左方有有限或无限个字符。从检索性质上讲,前截断是后方一致检索。 在检索复合词较多的文献时,使用前截断较多见。 例如,输入“*magnetic”,可以检索出magnetic(有磁性的)、electro-magnetic(电磁的)、patamagnetic(顺磁的)、thermo-magnetic(热磁的)、thermomagnetic(热磁的)等词汇。, 中截断 中截断又称为“通用字符法”或“屏蔽”。这种截断是把截断符号放置在一个检索词的中间。一般地,中截断仅允许有限截断。 中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。在可能变化的字母处加一截词符号“?”,即可简化输入,提高检全率。 例如,输入“m?n”,可以检索出含有词man、men的文献;输入“organi?ation”分别检索了organization和organisation两词。,3词位置检索 词位置检索又称为邻近检索,是用来规定概念相互间的邻近关系,包括在记录中出现的顺序和相对位置。位置运算符都用()括起,其前后不留空格。,1.() 即“”表示、两个概念必须相邻,且词序不变。 可表示为:() 例:Computer(W)Education:Computer Education 2.(nW) 即“n”,表示、两个要概念之间最多可夹着n个单词,词序不变。 可表示为:(nW) 例:Wear(1W)materials:Wear of materials gone(2W)wind-gone with the wind,3.() 即“ear”,表示、两词必须相邻,但词序可变。 可表示为() 例:economic(N)recovery:economic recovery 或者recovery economic 4.(nN) 即“nNear”,表示、两个概念最多可夹着n个单词。但词序可变。 可表示为:(nN) 例:economic(2N)recovery:recovery of the economy,5.() 表示、两个完全相同的概念必须相邻着。 可表示为:() 例:protein(X)protein:protein protein 6.(nX) 表示、两个完全相同的概念之间最多可夹着n个单词。 可表示为:() 例:ship(1
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号