资源预览内容
第1页 / 共50页
第2页 / 共50页
第3页 / 共50页
第4页 / 共50页
第5页 / 共50页
第6页 / 共50页
第7页 / 共50页
第8页 / 共50页
第9页 / 共50页
第10页 / 共50页
亲,该文档总共50页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
现代信息检索现代信息检索MODERNINFORMATIONRETRIEVAL第一章第一章信息检索的相关概念信息检索的相关概念提纲提纲信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程2提纲提纲信息检索的基本概念信息检索的基本概念信息检索的历史信息检索的历史信息检索和其他学科的关系信息检索和其他学科的关系信息检索的基本流程信息检索的基本流程3信息检索的基本概念信息检索的基本概念信息检索产生信息检索简介信息检索概念4信息检索的基本概念信息检索的基本概念信息检索产生信息检索产生信息检索简介信息检索概念5信息过载信息过载(INFORMATIONOVERLOAD)全世界每年产生1到2EB(1EB1018B)信息,相当于地球上每个人大概产生250MB信息,其中纸质信息仅占所有信息的0.3%(Lyman&Hal03)静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。TomLandauer认为人的大脑只能存储量,一辈子只能接触6G的信息量。6INTERNET增长增长(1)7INTERNET增长增长(2)8全球数字化进程加快全球数字化进程加快1998年,美国前副总统戈尔提出数字化地球的概念。1998年,江泽民总书记提出数字中国战略构想。1999年,北京市市长刘淇提出数字北京概念。全世界启动了数字图书馆、数字博物馆在内的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议电视、远程教育、遥感、GPS等在内的服务或应用也产生大量文本和多媒体数据。9问题!问题!一方面,人们可以获得的信息的来源非常广泛。一方面,人们可以获得的信息的来源非常广泛。另一方面,人们如何快速、准确、全面地获得另一方面,人们如何快速、准确、全面地获得自己所需要的信息?自己所需要的信息?非常困难!非常困难!信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多用户需求的表达和理解非常困难信息的理解非常困难自然语言文本、图片、视频1011信息检索是研究如何解决上述问题的一门学科! IR系统用户需求相关结果信息检索的基本概念信息检索的基本概念信息检索产生信息检索简介信息检索简介信息检索概念12信息检索信息检索信息检索简介信息检索简介(1)InformationRetrieval这个术语产生于CalvinMooers1948年在MIT的硕士论文。InformationRetrieval(IR):从文档集合中返回满足用户需求的相关信息的过程。作为一门学科,是研究信息的获(acquisition表示(representation)、存(storage)、组织(organization)和访问(access)的一门学问。13信息检索简介信息检索简介(2)信息检索可以看成计算机科学信息检索可以看成计算机科学Science)和图书情和图书情报学的交叉学科。报学的交叉学科。(Computer(Library&Info.Science)以计算机为手段,处理信息对象和其他学科也融合:语言学、认知科学等检索来自英文单词检索来自英文单词 Retrieval,有些人把它翻译,有些人把它翻译成获取。其本义是成获取。其本义是“获得与输入要求相匹配的输获得与输入要求相匹配的输出出”。和我们平时所理解的搜索意义上的检索不。和我们平时所理解的搜索意义上的检索不一样。一样。14信息检索简介信息检索简介(3)IR不仅仅是搜索,不仅仅是搜索,IR系统也不仅仅是搜索引擎。系统也不仅仅是搜索引擎。例1:返回与信息检索相关的网页搜索引擎(SearchEngine,SE)例2:毛主席的生日是哪天?问答系统(QuestionAnswering,QA)例3:返回联想PC的型号、配置、价格等信息信息抽取(InformationExtraction,IE)例4:订阅有关NBA的新闻信息过滤(InformationFiltering)、信息推荐也可以这样说,狭义的也可以这样说,狭义的IR通常是指通常是指InformationSearch,而广义的而广义的IR包含非常多的内容包含非常多的内容(SE,QA,Search,IE等等)。本课程介绍的是广义。本课程介绍的是广义的的IR.信息检索的基本概念信息检索的基本概念信息检索产生信息检索简介信息检索中的基本概念信息检索中的基本概念16信息检索信息检索中中的基本概念的基本概念用户需求用户需求用户需求用户需求(UserNeed,UN):用户需要获得的信用户需要获得的信息息.严格地说,UN只存在于用户的内心,但是通常用文本严格地说,UN只存在于用户的内心,但是通常用文本来描述,如查找与2006世界杯相关的新闻,有时也称为主题(Topic)UN提交给检索系统时称为查询(Query),如2006世界杯,对同一个UN,不同人不同时候可以构造出不同的Query,比如上述需求也可表示成2006世界杯新闻,Query在IR系统中往往还有内部表示17信息检索信息检索中的中的基本概念基本概念文档与文档集文档与文档集文档文档(Document):检索的对象:检索的对象可以是文本,也可以是图像、视频、语音等多媒体文档,textretrieval/imageretrieval/videoretrieval/speechretrieval/multimediaretrieval可以是无格式、半格式、有格式的文档集合文档集合(Collection):所有待检索的文档构:所有待检索的文档构成的集合成的集合也称为Repository,Corpus18信息检索的基本概念信息检索的基本概念相关度相关度相关相关(relevant、相关度、相关度relevance)相关取决于用户的判断,是一个主观概念不同用户做出的判断很难保证一致.即使是同一用户在不同时期、不同环境下做出的判断也不尽相同19信息检索的基本概念信息检索的基本概念相关度相关度(续续)定义定义“相关性相关性”的两个角度:的两个角度:系统角度:系统输出结果,用户是信息的接受者。这种理解置用户于被动的地位,基于这种理解,研究的重心落在系统本身。主题相关性:检索系统检出的文档的主题即核心内容与用户的信息需求相匹配。系统角度相关并不和用户脱节。系统角度定义的相关简单可以计算。用户角度:观察用户对检索结果的反应,是系统输出向用户需求的投射。相关性被认为是用户方面的属性。用户角度定义的相关目前仍然难以计算。现代信息检索研究中仍然主要采用系统角度定义的现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念,当然也强调考虑用户的认知因素。主题相关性概念,当然也强调考虑用户的认知因素。20信息检索的基本概念信息检索的基本概念相关度相关度(续续)21信息检索的基本概念信息检索的基本概念相关度相关度(续续)形式上说,信息检索中的相关度是一个函数R,输入是查询Q、文档D和文档集合C,返回的是一个实数值R=f(Q,D,C)信息检索就是给定一个查询Q,从文档集合C中计算每篇文档D与Q的相关度并排序(Ranking)。相关度通常只有相对意义,对一个Q,不同文档的相关度可以比较,而对于不同的Q的相关度不便比较相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等等现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖度等度量。或者说这些因子都影响Google中据说用了上百种排名因子22信息检索的基本概念信息检索的基本概念-信息检索和数据库信息检索和数据库检索检索23近年来,随着XML的出现,两种检索已经逐渐融合,边界越来越不明显。信息检索信息检索课程介绍课程介绍本文将主要介绍面向文本对象的检索,即文本检索本文将主要介绍面向文本对象的检索,即文本检索(textretrieval)。文本是人们表达知识(论文)、交流(口语)的最常用的形式。文本可以用于描述其他媒体。其他媒体形式的检索的方法往往借鉴自文本检索。信息检索的两种研究方式:信息检索的两种研究方式:以计算机为中心:IR的工作主要是建立索引、对用户查询进行处理、排序算法等等以用户为中心:IR的主要工作是考察用户的行为、理解用户的需求、这些行为和需求如何影响检索系统的组织本课程主要研究以计算机为中心的IR问题,目前是主流24提纲提纲信息检索的基本概念信息检索的基本概念信息检索的历史信息检索的历史信息检索和其他学科的关系信息检索和其他学科的关系信息检索的基本流程信息检索的基本流程25历史分段历史分段计算机出现以前计算机出现以前计算机出现以后计算机出现以后Internet出现以后出现以后26IR历史历史-计算机出现以前计算机出现以前计算机出现以前:计算机出现以前:约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针。计算机问世以前,人们主要通过手工方式来建立索引。27IR历史历史-计算机出现以后计算机出现以后1948:C.N.Mooers在其MIT的硕士论文中第一次创造了“InformationRetrieval”这个术语。196070年代:年代:人们开始使用计算机为一些小规模科技和商业文献的摘要建立文本检索系统。产生了布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)和概率检索模型(ProbabilisticModel)。康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者。伦敦城市大学的Robertson及剑桥大学的SparckJones是概率模型的倡导者。28IR历史历史-计算机出现以后计算机出现以后(续续)1980年代:年代:出现了一些商用的较大规模数据库检索系统Lexis-NexisDialogMEDLINE29IR历史历史-INTERNET出现以后出现以后1986:Internet正式形成正式形成1990s:第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie第一个WEB搜索引擎:1994年美国CMU开发的Lycos1995:斯坦福大学博士生开发的Yahoo1998:斯坦福大学博士生开发的Google,提出PageRank计算公式。1998:基于语言模型的IR模型提出。30IR历史历史-INTERNET出现以出现以后后(续续1)1990年代的其他重要事件年代的其他重要事件:评测会议NISTTREC推荐系统的出现RingoAmazonNetPerceptions文本分类和聚类的使用31IR历史历史-INTERNET出现以出现以后后(续续2)2000s信息抽取WhizbangFetchBurningGlass问答系统TRECQ/Atrack2001年,百度成立32IR历史历史-INTERNET出现以出现以后后(续续3)2000以来的其他重要事件:以来的其他重要事件:多媒体IRImageVideoAudioandmusic跨语言IRDARPATides文本摘要DUC评测33提纲提纲信息检索的基本概念信息检索的基本概念信息检索的历史信息检索的历史信息检索和其他学科的关系信息检索和其他学科的关系信息检索的基本流程信息检索的基本流程34相关研究领域相关研究领域图书情报学(Library&Info.Science)数据库管理(DatabaseManagement)人工智能(ArtificialIntelligence)自然语言处理(NaturalLanguageProcessing)机器学习(MachineLearning)35图书情报学图书情报学(LIBRARYANDINFORMATIONSCIENCE,LIS)IR最初起源于LISLIS主要关注IR中的用户方(人机交互、用户界面、可视化)LIS关注人类只是的高效分类LIS关注文献的引用分析(citationanalysis)和文献计量(bibliometrics)近年来数字图书馆方面的工作使得LIS和IR日益融合。36数据库管理系统数据库管理系统(DATABASEMANAGEMENT,DM)DM主要面向关系表中的结构化数据而非自由文本。DM主要集中于高效解决形式化语言(如SQL)定义的查询。DM中不论是查询还是数据都具有明确的语义。近年来半结构化的XML数据的出现使DM和IR逐渐融合37人工智能人工智能(ARTIFICIALINTELLIGENCE,AI)AI关注知识的表示、推理和智能行为。AI中知识的形式化表示一阶谓词逻辑(FirstOrderPredicateLogic)贝叶斯网络(BayesianNetworks)近年来Web本体及智能信息Agen方面研究使得IR和AI相互融合。38自然语言理解自然语言理解(NATURALLANGUAGEPROCESSING,NLP)NLP关注自然语言文本的语法(syntactic)、语义(semantic)及语用(pragmatic)分析。NLP可以分析短语结构和语义,使得IR可以在短语上、或者从语义上进行处理,而不是仅仅基于单个关键词。NLP和IR天生就是融合的。39NLP和和IR融合的其他方面融合的其他方面通过上下文词义消歧(wordsensedisambiguation)来确定一个词在某个特定上下文的语义。通过一些NLP方法来获得文档中的一个语言片断(informationextraction).通过NLP方法可以从文档集合中返回一些问题的答案(questionanswering)40机器学习机器学习(MACHINELEARNING,ML)ML关注通过对经验的学习来提高计算机系统的性能。从标注好的例子中学习相关概念,然后进行自动分类(有监督的学习,supervisedlearning)将未标注的例子自动聚集到有意义的不同集合中(无监督的学习,unsupervisedlearning).41ML和和IR融合的方面融合的方面文本分类文本分类(TextCategorization)自动层次分类(如Yahoo目录)自适应过滤或推荐(Adaptivefiltering/recommending)垃圾过滤(Spamfiltering)文本聚类文本聚类(TextClustering)IR结果的自动聚类层次型类别体系的自动构建(如Yahoo).42提纲提纲信息检索的基本概念信息检索的基本概念信息检索的历史信息检索的历史信息检索和其他学科的关系信息检索和其他学科的关系信息检索的基本流程信息检索的基本流程43IR系统示意图系统示意图44IR系统的组成框架系统的组成框架45IR系统的组成部分系统的组成部分(1)用户接口用户接口(UserInterface):用户和:用户和IR系统的人机接口系统的人机接口输入查询(Query)返回排序后的结果文档(RankedDocs)并对其进行可视化(Visualization)支持用户进行相关反馈(Feedback)用户的两种任务:用户的两种任务:retrieval或者或者browsingIR的两种模式:的两种模式:pull(adhoc)或者或者push(filtering)Pull:用户是主动的发起请求,在一个相对稳定的数据集合上进行查询Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进行操作,将满足用户兴趣的数据推送给用户46IR系统的组成部分系统的组成部分(2)文本处理文本处理(TextOperations):对查询和文本进行的预处理操作中文分词(ChineseWordSegmentation)词干还原(Stemming)停用词消除(Stopwordremoval)查询处理查询处理(Queryoperations):对经过文本处理后的查询进行进一步处理,得到查询的内部表示(QueryRepresentation)查询扩展(QueryExpansion):利用同义词或者近义词对查询进行扩展查询重构(QueryReconstruction):利用用户的相关反馈信息对查询进行修改文本标引文本标引(Indexing):对经过文本处理后的文本进行进一步处理,得到文本的内部表示(TextRepresentation),通常基于标引项(Term)向量化、概率计算组成成倒排表进行存储47IR系统的组成部分系统的组成部分(3)搜索(Searching):从文本中查找包含查询中标引项的文本排序(Ranking):对搜索出的文本按照某种方式来计算其相关度LogicalView:指的是查询或者文本的表示,通常采用一些关键词或者标引项(indexterm)来表示一段查询或者文本。48本章小结本章小结信息检索是一门交叉学科,不仅仅是搜索信息检索是一门交叉学科,不仅仅是搜索信息检索中的用户需求、查询、文档、文档信息检索中的用户需求、查询、文档、文档集、相关度概念集、相关度概念信息检索和其他学科领域的关系信息检索和其他学科领域的关系信息检索的组成和流程信息检索的组成和流程49课后思考题课后思考题信息检索的定义是什么?请列举几种信息检信息检索的定义是什么?请列举几种信息检索的应用。索的应用。信息检索的基本流程如何?各组成部分的功信息检索的基本流程如何?各组成部分的功能是什么?能是什么?50
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号