资源预览内容
第1页 / 共106页
第2页 / 共106页
第3页 / 共106页
第4页 / 共106页
第5页 / 共106页
第6页 / 共106页
第7页 / 共106页
第8页 / 共106页
第9页 / 共106页
第10页 / 共106页
亲,该文档总共106页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2 信息检索基础理论信息检索基础理论课件信息检索基础理论课件本章要点信息检索的基本原理查全率查准率信息检索的相关性问题检索系统的评价检索系统/工具的结构及工作原理信息检索的主要数学模型信息检索基础理论课件信息检索基础理论课件2.1 信息检索的基本原理n n通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。n n存储是为了检索,检索又必须先进行存储。信息检索基础理论课件信息检索基础理论课件信息检索的基本原理信息信息集合集合匹配与选择匹配与选择特征化表示特征化表示需求需求集合集合信息检索基础理论课件信息检索基础理论课件计算机信息检索原理示意图信息检索基础理论课件信息检索基础理论课件2.1.2 信息检索的相关性问题n n定义:检索结果与用户需求一致性程度n n影响因素:用户信息需求的表达用户信息需求的表达相关度判断的算法相关度判断的算法用户的主观判断用户的主观判断n n手检相关性、机检相关性信息检索基础理论课件信息检索基础理论课件n n“相关性”(relevance),是指信息检索系统针对用户的查询(query)从文档集中检出的文档与查询之间的一种匹配关系。现代信息检索以自然语言文本为对象,从严格现代信息检索以自然语言文本为对象,从严格意义上讲,意义上讲,文档与查询之间不再是数据库检索文档与查询之间不再是数据库检索文档与查询之间不再是数据库检索文档与查询之间不再是数据库检索中的那种简单的匹配关系中的那种简单的匹配关系中的那种简单的匹配关系中的那种简单的匹配关系。但但“ “匹配匹配” ”这一术这一术语一直在使用,这里也接受这种说法。语一直在使用,这里也接受这种说法。 信息检索基础理论课件信息检索基础理论课件手检相关性n n依赖于用户智能知识结构、项目进展阶段、用户心理、认知行知识结构、项目进展阶段、用户心理、认知行为、认知能力为、认知能力n n提高手检相关性的方法:分析概念及学科属性;对检索工具的了解分析概念及学科属性;对检索工具的了解调整检索策略调整检索策略信息检索基础理论课件信息检索基础理论课件机检相关性n n系统相关性(1)(1)词频方法词频方法(2)(2)位置方法位置方法(3)(3)引用率方法引用率方法(4)(4)点击率方法点击率方法(5)(5)分类或聚类分类或聚类n n用户相关性信息检索基础理论课件信息检索基础理论课件(1) 基于词频统计的相关性n n当用户输入检索词时,搜索引擎去找那些检索词当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现在文章(网页)中出现频率较高的,位置较重要频率较高的,位置较重要频率较高的,位置较重要频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权的,再加上一些对检索词本身常用程度的加权的,再加上一些对检索词本身常用程度的加权的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来最后排出一个结果来( (检索结果页面检索结果页面)。n n早期的搜索引擎结果排序都是基于词频统计的,早期的搜索引擎结果排序都是基于词频统计的,如如InfoseekInfoseek,ExciteExcite,LycosLycos等,它们基本上是等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。相关性排序没有突破。n n词频统计其实根本没有利用任何跟网络有关的特词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。性,是前网络时代的技术。信息检索基础理论课件信息检索基础理论课件(2) 位置方法n n据关键词在文中出现的位置关键词在文中出现的位置来判定文件的相关性。认为关键词出现得越靠前,文件关键词出现得越靠前,文件的相关程度就越高的相关程度就越高。信息检索基础理论课件信息检索基础理论课件(3) 引用率方法n n科学引文分析n n超链分析百度GooglePangRank算法信息检索基础理论课件信息检索基础理论课件信息检索基础理论课件信息检索基础理论课件n nWEBWEB中各页面之间的链接关系是一项可以利用的中各页面之间的链接关系是一项可以利用的中各页面之间的链接关系是一项可以利用的中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析重要信息。基于这种信息的技术被称为链接分析重要信息。基于这种信息的技术被称为链接分析重要信息。基于这种信息的技术被称为链接分析技术技术技术技术。绝大部分链接分析算法都有共同的出发点:。绝大部分链接分析算法都有共同的出发点:更多地被其他页面链接的页面是质量更好的页面,更多地被其他页面链接的页面是质量更好的页面,更多地被其他页面链接的页面是质量更好的页面,更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重并且从更重要的页面出发的链接有更大的权重并且从更重要的页面出发的链接有更大的权重并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。这个循环定义可以通过迭代算法巧妙打破。最著名的链接分析算法是最著名的链接分析算法是StanfordStanford大学提出大学提出并应用到并应用到GoogleGoogle搜索引擎中的搜索引擎中的PageRankPageRank算法以算法以及及IBMIBM用于用于CLEVERCLEVER搜索引擎的搜索引擎的HITSHITS算法。算法。信息检索基础理论课件信息检索基础理论课件n nHITSHITS是是IBMAlmadenIBMAlmaden研究中心开发的另一种链研究中心开发的另一种链接分析算法。接分析算法。它认为每个它认为每个它认为每个它认为每个WEBWEB页面都有被指向、页面都有被指向、页面都有被指向、页面都有被指向、作为权威(作为权威(作为权威(作为权威(AuthorityAuthority)和指向其他页面作为资)和指向其他页面作为资)和指向其他页面作为资)和指向其他页面作为资源中心(源中心(源中心(源中心(HubHub)的两方面属性)的两方面属性)的两方面属性)的两方面属性,其取值分别用其取值分别用A(p)A(p)和和H(p)H(p)表示。表示。A(p)A(p)值为所有指向值为所有指向p p的页面的页面q q的中心权重的中心权重H H(q q)之和,同样,页面)之和,同样,页面p p的中心权的中心权重重H(p)H(p)值是所有值是所有p p所指向的页面所指向的页面q q的权威权重的权威权重A(q)A(q)之和,如下式:之和,如下式:A(p)=H(qi)A(p)=H(qi)(其中(其中qiqi是所有链接到是所有链接到p p的页面)的页面)H(p)=A(qi)H(p)=A(qi)(其中(其中qiqi是所有页面是所有页面p p所链接到的所链接到的页面)页面)信息检索基础理论课件信息检索基础理论课件n n链接分析方法常常和基于内容的检索方法相结合。尽管很多基于较小的数据规模(数十G)网页数据的实验并不能证明链接分析算法能够提高检索的性能。但是,很多人都相信,链接分析方法能够反映链接分析方法能够反映WEB社会的一些最自然的属性社会的一些最自然的属性,应该能够在大规模真实环境下提高检索结果。Google的使用成功也增强了大家的信心砝码。信息检索基础理论课件信息检索基础理论课件n nPageRankPageRank定义的是定义的是在在在在WEBWEB中页面的访问概中页面的访问概中页面的访问概中页面的访问概率率率率。访问概率越大的页面的。访问概率越大的页面的PageRankPageRank值也越大。值也越大。具体的计算公式是:具体的计算公式是:Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+Pr(t2)/C(t2)+Pr(tn)/C(tn)Pr(t2)/C(t2)+Pr(tn)/C(tn)即,每个页面的即,每个页面的PageRank(Pr)PageRank(Pr)是无意中直是无意中直接浏览到的概率和从上一页中继续访问的概率总接浏览到的概率和从上一页中继续访问的概率总和。其中,和。其中,T T是节点(页面)总数,是节点(页面)总数,C(t)C(t)是从页面是从页面t t指出的超链接总数,指出的超链接总数,d d称为阻尼因子(称为阻尼因子(dampingdampingfactorfactor),一般取值为),一般取值为0.850.85。概率。概率Pr(t)Pr(t)反映了节反映了节点点t t的重要程度。的重要程度。信息检索基础理论课件信息检索基础理论课件(4) 点击率方法n n“鼠标投票”代表:DirectHit信息检索基础理论课件信息检索基础理论课件(5) 分类和聚类n n分类:将一篇文章文本自动的识别出来,按照先验的类别进行匹配,确定。n n聚类:将一组的文章文本信息进行相识性的比较,将比较相识的文章文本信息归为同一组的技术。n n模糊聚类:没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等都是不确定因素。信息检索基础理论课件信息检索基础理论课件相关性判断方法的缺点分析缺点分析n n标引停留在字符层次苹果?n n不能区分同形异义词公车?公车?n n不能联想自行车自行车 单车单车 脚踏车脚踏车信息检索基础理论课件信息检索基础理论课件相关性研究的热点n n基于内容的理解n n联想功能及语义处理n n相关反馈技术n n提供信息导引功能信息检索基础理论课件信息检索基础理论课件2.1.3 信息检索的效果评价n n评价指标体系查全率查全率查准率查准率漏检率漏检率误检率误检率信息检索基础理论课件信息检索基础理论课件评价指标体系n n查全率(检全率)查全率(检全率)n n查准率(检准率)查准率(检准率)信息检索基础理论课件信息检索基础理论课件评价指标体系n n漏检率漏检率n n误检率误检率信息检索基础理论课件信息检索基础理论课件影响检索效果的主要因素n n存储存储 检索检索n n信息系统组织结构、检索系统功能问题信息系统组织结构、检索系统功能问题n n检索策略、检索方法问题检索策略、检索方法问题信息检索基础理论课件信息检索基础理论课件提高检索效果的措施n n熟悉各种信息检索系统特征熟悉各种信息检索系统特征n n认真分析课题需求认真分析课题需求n n灵活掌握检索方法和提高制定检索灵活掌握检索方法和提高制定检索策略的能力策略的能力信息检索基础理论课件信息检索基础理论课件网络信息资源检索效果评价n n索引数据库(范围、更新频率、索引建立的方式)n n信息组织管理评价指标n n信息检索功能检索功能评价指标(检索方式、检索技术、检索限定)n n检索结果评价结果评价指标(排序)n n检索界面界面的评价指标信息检索基础理论课件信息检索基础理论课件2.2 信息检索系统和工具n n手工检索系统n n穿孔卡片检索系统n n缩微检索系统n n光盘检索系统n n计算机信息检索计算机信息检索系统n n网络信息检索网络信息检索系统类型信息检索基础理论课件信息检索基础理论课件2.2.2 印刷型检索工具的类型和结构n n文献检索工具目录目录题录题录 索引索引 文摘文摘n n事实和数据检索工具信息检索基础理论课件信息检索基础理论课件信息检索工具信息检索工具/系统的基本结系统的基本结构构信息源用户用户接口创建数据库提问处理/检索匹配词汇管理工具DBDBDB标引处理标引处理信息选择与采集数据库生成数据库查询信息检索基础理论课件信息检索基础理论课件2.2.3 计算机检索系统的结构及工作原理n n联机n n光盘n n网络n n物理结构n n逻辑结构(1)信息选择与采集子系统(2)标引处理子系统(3)建库子系统(4)词表管理子系统(5)用户接口子系统(6)提问处理/检索匹配子系统信息检索基础理论课件信息检索基础理论课件(1)信息选择与采集子系统)信息选择与采集子系统 要求要求要求要求快速、经济、广泛、连续快速、经济、广泛、连续 功能功能功能功能信息选择与采集子系统将决定信息检索系统中信息选择与采集子系统将决定信息检索系统中数据库的类型及收录范围,是信息检索与利用数据库的类型及收录范围,是信息检索与利用的起点。的起点。 工作方式工作方式工作方式工作方式对通常的计算机化检索系统来说,信息选择对通常的计算机化检索系统来说,信息选择与采集主要由人工完成,但对于网络信息检索与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人系统来说,则主要通过网络搜索机器人RobotRobot自动进行,并且可以定期更新。自动进行,并且可以定期更新。信息检索基础理论课件信息检索基础理论课件(2)标引处理子系统)标引处理子系统 功能功能功能功能标引(标引(标引(标引(indexingindexing)是是指对文献主题特征进行分析并指对文献主题特征进行分析并指对文献主题特征进行分析并指对文献主题特征进行分析并使之显性化,以便为存储和检索这两个环节提供某种使之显性化,以便为存储和检索这两个环节提供某种使之显性化,以便为存储和检索这两个环节提供某种使之显性化,以便为存储和检索这两个环节提供某种连接的文献加工操作连接的文献加工操作连接的文献加工操作连接的文献加工操作。标引处理子系统将决定着数据。标引处理子系统将决定着数据库的标引深度(或网罗度)和检索点,并直接影响到库的标引深度(或网罗度)和检索点,并直接影响到系统的检索方式和检索功能。系统的检索方式和检索功能。 标引处理的类型标引处理的类型标引处理的类型标引处理的类型人工赋词标引人工赋词标引机器标引机器标引无标引(或全标引)无标引(或全标引) 标引要求标引要求标引要求标引要求不漏标不漏标全面全面不错标不错标准确准确不滥标不滥标简练简练信息检索基础理论课件信息检索基础理论课件(3)建库子系统)建库子系统 主要作业内容包括:主要作业内容包括:主要作业内容包括:主要作业内容包括:数据录入数据录入错误检查与处理错误检查与处理数据格式转换数据格式转换在程序控制下自动完成。例如,支持联机在程序控制下自动完成。例如,支持联机检索的数据库一般要在主文档基础上再产生出检索的数据库一般要在主文档基础上再产生出主文档索引、倒排文档和词典文档。主文档索引、倒排文档和词典文档。文档更新维护文档更新维护由程序控制,定期进行更新或上载数据。由程序控制,定期进行更新或上载数据。信息检索基础理论课件信息检索基础理论课件(4)词表管理子系统)词表管理子系统 在文本信息检索系统,各种词表系统(如主题词表、后在文本信息检索系统,各种词表系统(如主题词表、后控词表等)通常作为一个重要成分而存在,词表中的控词表等)通常作为一个重要成分而存在,词表中的词汇可以在用户检索信息时实现对检索效果的有效控词汇可以在用户检索信息时实现对检索效果的有效控制。词汇管理子系统有时也可独立存在。制。词汇管理子系统有时也可独立存在。 功能:功能:功能:功能:管理维护系统中已有词表的结构、词汇,使它与标管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产种词汇查询操作;输出各种形式的词汇数据或词表产品等。品等。 类型:类型:类型:类型:主题词表(主题词表(ThesaurusThesaurus)(受控词汇检索系统)(受控词汇检索系统)后控词表(后控词表(post-controlledvocabularypost-controlledvocabulary)(自)(自然语言检索系统)然语言检索系统)信息检索基础理论课件信息检索基础理论课件(5)用户接口子系统)用户接口子系统 功能:功能:功能:功能:用于人机交互,承担用户与系统之间的通讯任务。用于人机交互,承担用户与系统之间的通讯任务。 界面风格(界面风格(界面风格(界面风格(5 5种)种)种)种)命令命令/ /指令语言(指令语言(commandlanguagecommandlanguage)菜单选择(菜单选择(menuselectionmenuselection)表格填充(表格填充(formfill-informfill-in)直接操纵(直接操纵(directmanipulationdirectmanipulation)自然语言(自然语言(naturallanguagenaturallanguage) 接口技术(接口技术(接口技术(接口技术(2 2种):种):种):种):字符用户界面(字符用户界面(CUI-CharacterUserCUI-CharacterUserInterfaceInterface)图形用户界面(图形用户界面(GUI-GraphicUserGUI-GraphicUserInterfaceInterface)WIMPWIMP(WindowWindow、IconIcon、MenuMenu、PointingdevicePointingdevice)信息检索基础理论课件信息检索基础理论课件(6)提问处理)提问处理 / 检索匹配子系统检索匹配子系统(技术核心)(技术核心) 功能:功能:功能:功能:负责处理用户输入的检索词或提问式,并将它们与数据库负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运算,然后把运算结果返回给用户。中存储的数据进行匹配运算,然后把运算结果返回给用户。 主要操作流程:主要操作流程:主要操作流程:主要操作流程:接收用户提问接收用户提问提问校验提问校验对提问式进行语法、格式、用词等的检查。对提问式进行语法、格式、用词等的检查。提问加工提问加工对源提问式进行解释性或编译性的加工,以便机器处对源提问式进行解释性或编译性的加工,以便机器处理。常用的加工方法有:理。常用的加工方法有:表展开法,逆波兰法,准波兰法,表展开法,逆波兰法,准波兰法,表展开法,逆波兰法,准波兰法,表展开法,逆波兰法,准波兰法,范式法范式法范式法范式法等。等。检索匹配检索匹配将提问式与数据库记录进行匹配(精确匹配或局部匹配)。将提问式与数据库记录进行匹配(精确匹配或局部匹配)。信息检索基础理论课件信息检索基础理论课件联机检索系统的工作原理n n联机数据库存取号存取号 基本索引字段基本索引字段 辅助索引字段辅助索引字段n n文档组织顺排文档顺排文档 倒排文档倒排文档n n检索流程信息检索基础理论课件信息检索基础理论课件网络检索系统的结构及工作原理一般结构:n n自动索引程序n n数据库n n检索代理软件工作原理后面章节介绍信息检索基础理论课件信息检索基础理论课件2.3 信息检索模型模型模型信息检索系统的形式化表示信息检索系统的形式化表示布尔检索模型布尔检索模型向量空间模型向量空间模型概率检索模型概率检索模型其他信息检索模型其他信息检索模型信息检索基础理论课件信息检索基础理论课件信息检索的基本原理信息信息集合集合匹配与选择匹配与选择特征化表示特征化表示需求需求集合集合系统对信息集合与需求集合的匹配与选择数学工具-数学模型信息检索基础理论课件信息检索基础理论课件什么是模型?n n模型是采用数学工具数学工具,对现实世界某种事物或某种运动的抽象描述n n面对相同的输入,模型的输出应该能够无限地无限地逼近现实世界的输出逼近现实世界的输出,例如:天气的预测模型n n模型和实现的区别:一个模型可以用多种方法实现,例如,布尔模型可以倒排文档(invertedfile)实现,也可以用B-tree实现。信息检索基础理论课件信息检索基础理论课件信息检索的数学模型信息检索的数学模型:运用数学的语言和工具,对IR中的信息及其处理过程加以翻译和抽象,表达为某种数学公式。信息检索模型决定于:n n从什么样的视角去看待查询式和文档n n基于什么样的理论去看待查询式和文档的关系n n如何计算查询式和文档之间的相似度信息检索基础理论课件信息检索基础理论课件信息检索系统的形式化表示信息检索系统的形式化表示通常,可以把一个信息检索系统形式化地描述为一个通常,可以把一个信息检索系统形式化地描述为一个四元组:四元组: System= System=(DD,T T,QQ, )其中:其中: D= d D= d1 1,d d2 2, d d3 3 d dn n ,表示系统中经过标引表示系统中经过标引的或直接采集的文献集合;的或直接采集的文献集合;n n为数据库容量(为数据库容量(n0n0) T= t T= t1 1,t t2 2,t t3 3ttmm ,表示系统所有可能存在的表示系统所有可能存在的可检项的集合;可检项的集合; Q= q Q= q1 1,q q2 2,q q3 3qqk k ,表示所有提问的集合;表示所有提问的集合; : QD : QDRR, 称为映射函数或匹配函数,称为映射函数或匹配函数, QDQD是是提问集合提问集合QQ与文献集合与文献集合DD的笛卡尔乘积,的笛卡尔乘积,R R为函数值的为函数值的集合。集合。信息检索基础理论课件信息检索基础理论课件信息检索经典模型 1 布尔模型布尔模型(1950s1950s末)末)末)末)布尔逻辑集合论布尔逻辑集合论 扩展布尔模型扩展布尔模型(统一模型)(统一模型)(统一模型)(统一模型)(1980s1980s初)初)初)初) 2 向量空间模型向量空间模型 (VSMVector Space ModelVSMVector Space Model) 模糊模型模糊模型 3 概率模型(概率模型(1980s1980s末)末)末)末)信息检索基础理论课件信息检索基础理论课件1 布尔模型n n最早的IR模型,也是应用最广泛的模型n n目前仍然应用于商业系统中n nLucene是基于布尔(Boolean)模型信息检索基础理论课件信息检索基础理论课件布尔模型描述n n文档表示文档表示一个文档被表示为关键词的集合一个文档被表示为关键词的集合n n查询式表示查询式表示查询式查询式( (Queries)Queries)被表示为关键词的布尔组被表示为关键词的布尔组合,用合,用“ “与、或、非与、或、非” ”连接起来,并用括弧连接起来,并用括弧指示优先次序指示优先次序n n匹配匹配一个文档当且仅当它能够满足布尔查询式时,一个文档当且仅当它能够满足布尔查询式时,才将其检索出来才将其检索出来检索策略基于二值判定标准检索策略基于二值判定标准信息检索基础理论课件信息检索基础理论课件1 布尔模型n n基于特征项的严格匹配模型。首先建立一个二值变量的集合,如果文本中出现了对应的特征项,则变量取“True”,否则取“False”。查询由特征项和逻辑运算符(“AND”、“OR”、“NOT”)组成。文本查询的匹配规则遵循布尔运算的法则。在六、七十年代的许多商用检索系统DIALOG、STAIRS、MEDLARS就是基于布尔模型。信息检索基础理论课件信息检索基础理论课件布尔模型n n文档表示文档表示 一个文档被表示为一个文档被表示为关键词的集合关键词的集合n n查询式表示查询式表示 查询式查询式(Queries)(Queries)被表示为被表示为关键词的布尔组合关键词的布尔组合,用,用“ “与与或非或非” ”连接起来,并用括弧指示优先次序连接起来,并用括弧指示优先次序n n匹配匹配 一个文档当且仅当它能够满足布尔查询式时,才将其一个文档当且仅当它能够满足布尔查询式时,才将其检索出来检索出来n n不同的系统可以使用不同的系统可以使用: : 不同的去除停用词不同的去除停用词(stopwordremoval)(stopwordremoval)策略和策略和stemmingstemming策略策略 索引中不同类型的辅助信息索引中不同类型的辅助信息 不同的实现方法不同的实现方法信息检索基础理论课件信息检索基础理论课件举例n nQ=Q=病毒病毒ANDAND(计算机(计算机OROR电脑)电脑)ANDNOTANDNOT医医n n文档:文档:D1:D1:据报道据报道计算机病毒计算机病毒最近猖獗最近猖獗D2D2:小王虽然是学:小王虽然是学医医的,但对研究的,但对研究电脑病毒电脑病毒也感兴趣也感兴趣D3D3:计算机计算机程序发现了艾滋病程序发现了艾滋病病毒病毒传播途径传播途径n n上述文档哪一个会被检索到?上述文档哪一个会被检索到?信息检索基础理论课件信息检索基础理论课件布尔模型的特点n n主要优点:简单、易于理解,能处理结构化提问,易于表示同义关系(如:电脑OR计算机)和词组(数据AND挖掘AND系统);速度快。n n缺点:不能表示特征项对文本的重要性(词加权);缺乏定量分析(检索结果评价)和灵活性以及不能表述模糊匹配。信息检索基础理论课件信息检索基础理论课件n nClassicalBoolean的最大缺点:只有0和1,没有ranking。要么返回大量结果,要么没有结果。布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回n nClassicalBoolean另一缺点:太僵化,在OR方式中,包含很多查询词的文档和包含少数词的文档是等同的;在AND方式中,即使缺少一个词,结果也是FALSE,等于一个词也没有信息检索基础理论课件信息检索基础理论课件n n非常刚性非常刚性非常刚性非常刚性:“:“与与” ”意味着全部意味着全部;“;“或或” ”意味着任意味着任何一个何一个 如果如果“ “我想要我想要n n个词中个词中mm个词同时出现的文档个词同时出现的文档” ”,怎么,怎么表示?表示? 不可能企望用户自己规定不可能企望用户自己规定mm值值 系统可以从系统可以从m=nm=n开始,然后逐渐减少开始,然后逐渐减少mm,但很麻烦,但很麻烦n n很难表示用户复杂的需求很难表示用户复杂的需求很难表示用户复杂的需求很难表示用户复杂的需求n n很难控制被检索的文档数量很难控制被检索的文档数量很难控制被检索的文档数量很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回原则上讲,所有被匹配的文档都将被返回n n很难对输出进行排序很难对输出进行排序很难对输出进行排序很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式不考虑索引词的权重,所有文档都以相同的方式和查询相匹配和查询相匹配n n很难进行自动的相关反馈很难进行自动的相关反馈很难进行自动的相关反馈很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?样相应地修改查询式呢?信息检索基础理论课件信息检索基础理论课件2 向量空间模型(VSM)n n向量空间模型(VectorSpaceModel)由Salton等人于20世纪60年代末提出,是一种简便、高效的文本表示模型,其理论基础是代数学。 G.Salton等人领导和研制的试验性系统SMART。 信息检索基础理论课件信息检索基础理论课件n nSMARTSMART是由是由CornellUniversityCornellUniversity的的GerardGerardSaltonSalton开发的,是最早的文本检索系统之一。开发的,是最早的文本检索系统之一。n n它具有以下特点:它具有以下特点:(1 1)自动建立索引;)自动建立索引;(2 2)自动生成聚类层次计算聚类中心;)自动生成聚类层次计算聚类中心;(3 3)进行查询)进行查询/ /文档相似度计算并且根据文档与查文档相似度计算并且根据文档与查询的相似程度对文档排序;询的相似程度对文档排序;(4 4)将文档以基于词汇的向量空间表示;)将文档以基于词汇的向量空间表示;(5 5)根据用户反馈自动提高对查询的处理。)根据用户反馈自动提高对查询的处理。信息检索基础理论课件信息检索基础理论课件n n与布尔模型不同,向量空间模型把用户的向量空间模型把用户的查询要求和数据库文档信息表示成由检索查询要求和数据库文档信息表示成由检索项构成的向量空间中的点项构成的向量空间中的点(向量),而通通过计算向量之间的距离来判定文档和查询过计算向量之间的距离来判定文档和查询之间的相似程度之间的相似程度(例如,用它们之间夹角用它们之间夹角的余弦作为相似性度量的余弦作为相似性度量)。然后,根据相似程度排列查询结果。信息检索基础理论课件信息检索基础理论课件模型的描述n n文档文档D(Document)D(Document):泛指文档或文档中的一个片段泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。(如文档中的标题、摘要、正文等)。n n索引项索引项t t(TermTerm):):指出现在文档中能够代表文档性指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指质的基本语言单位(如字、词等),也就是通常所指的检索词,这样一个文档的检索词,这样一个文档DD就可以表示为就可以表示为D(tD(t1 1,t ,t2 2,t,tn n) ),其中,其中n n就代表了检索字的数量。就代表了检索字的数量。n n 特征项权重特征项权重WWk k(TermWeightTermWeight):):指特征项指特征项t tn n能够能够代表文档代表文档DD能力的大小,体现了特征项在文档中的重要能力的大小,体现了特征项在文档中的重要程度。程度。n n 相似度相似度S S(SimilaritySimilarity):):指两个文档内容相关程度指两个文档内容相关程度的大小的大小信息检索基础理论课件信息检索基础理论课件模型的特点n n基于关键词基于关键词( (一个文本由一个关键词列表组成一个文本由一个关键词列表组成) )n n根据关键词的出现频率计算相似度根据关键词的出现频率计算相似度 例如:文档的统计特性例如:文档的统计特性n n用户规定一个词项用户规定一个词项(term)(term)集合,可以给每个词项附加集合,可以给每个词项附加权重权重 未加权的词项未加权的词项: :Q=Q= database;text;informationdatabase;text;information 加权的词项加权的词项:Q=:Q= database0.5;text0.8;database0.5;text0.8;information0.2information0.2 查询式中没有布尔条件查询式中没有布尔条件n n根据相似度对输出结果进行排序根据相似度对输出结果进行排序n n支持自动的相关反馈支持自动的相关反馈 有用的词项被添加到原始的查询式中有用的词项被添加到原始的查询式中 例如:例如:QQ database;text;information;database;text;information;documentdocument 信息检索基础理论课件信息检索基础理论课件模型中的问题n n怎样确定文档中哪些词是重要的词?(索引项)n n怎样确定一个词在某个文档中或在整个文档集中的重要程度?(权重)n n怎样确定一个文档和一个查询式之间的相似度?信息检索基础理论课件信息检索基础理论课件索引项的选择n n若干独立的词项被选作索引项若干独立的词项被选作索引项( (index termsindex terms)o)orr词表词表vocabularyvocabularyn n索引项代表了一个应用中的重要词项索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢计算机科学图书馆中的索引项应该是哪些呢? ?体系结构总线计算机数据库.XML计算机科学文档集文档集中的索引项信息检索基础理论课件信息检索基础理论课件索引项的选择n n这些索引项是不相关的这些索引项是不相关的 ( (或者说是正交的或者说是正交的) ) ,形成一个,形成一个向量空间向量空间vector spacevector spacen n实际上,这些词项是相互关联的实际上,这些词项是相互关联的 当你在一个文档中看到当你在一个文档中看到 “ “计算机计算机” ”, ,非常有可能同时看到非常有可能同时看到“ “科科学学” ” 当你在一个文档中看到当你在一个文档中看到 “ “计算机计算机” ”, ,有中等的可能性同时看到有中等的可能性同时看到 “ “商务商务” ” 当你在一个文档中看到当你在一个文档中看到“ “商务商务” ”,只有很少的机会同时看到,只有很少的机会同时看到“ “科学科学” ”“计算机” “科学” “商务”计算机科学文档集该文档集中的全部重要词项信息检索基础理论课件信息检索基础理论课件词项的权重n n根据词项在文档(tf)和文档集(idf)中的频率(frequency)计算词项的权重tf tfij ij =词项词项j j在文档在文档i i中的频率中的频率dfdf j j=词项词项j j的文档频率的文档频率=包含词项包含词项j j的文档的文档数量数量idfidfj j=词项词项j j的反文档频率的反文档频率=log=log2 2(N/ dfN/ df j j)n nN N:文档集中文档总数文档集中文档总数n n反文档频率用词项区别文档反文档频率用词项区别文档信息检索基础理论课件信息检索基础理论课件文档的词项权重(TFIDF举例)n n文本:“俄罗斯频繁发生恐怖事件,俄罗斯的安全部门加大打击恐怖主义的力度。”TFTF IDFIDFTFIDTFIDF FTFTF IDFIDFTFIDTFIDF F俄罗斯俄罗斯2 2较高较高高高安全安全1 1中等中等高高恐怖恐怖2 2较高较高高高部门部门1 1较低较低低低的的2 2非常低非常低 很低很低加大加大1 1较低较低低低频繁频繁1 1较低较低低低打击打击1 1中等中等高高发生发生1 1较低较低低低主义主义1 1较低较低低低事件事件1 1较低较低低低力度力度1 1中等中等高高信息检索基础理论课件信息检索基础理论课件Idf 计算示例信息检索基础理论课件信息检索基础理论课件查询式的词项权重n n如果词项出现在查询式中,则该词项在查询式中的权如果词项出现在查询式中,则该词项在查询式中的权重为重为1 1,否则为,否则为0 0n n也可以用用户指定查询式中词项的权重也可以用用户指定查询式中词项的权重n n一个自然语言查询式可以被看成一个文档一个自然语言查询式可以被看成一个文档 查询式:查询式:“ “有没有周杰伦的歌?有没有周杰伦的歌?” ” 会被转换为会被转换为: : 查询式:查询式: “ “请帮我找关于俄罗斯和车臣之间的战争以及车臣请帮我找关于俄罗斯和车臣之间的战争以及车臣恐怖主义首脑的资料恐怖主义首脑的资料” ” 会被转换为会被转换为: :1 过滤掉了:过滤掉了:“ “请帮我找请帮我找” ”,“ “和和” ”,“ “之间的之间的” ”,“ “以及以及” ”,“ “的资料的资料” ”n n两个文档之间的相似度可以同理计算两个文档之间的相似度可以同理计算信息检索基础理论课件信息检索基础理论课件由索引项构成向量空间n n2 2个索引项构成一个二维空间,一个文档可能个索引项构成一个二维空间,一个文档可能包含包含0,10,1或或2 2个索引项个索引项 d di i= 0,00,0 ( (一个索引项也不包含一个索引项也不包含) ) d dj j= 0,0.70,0.7 ( (包含其中一个索引项包含其中一个索引项) ) d dk k= 1,21,2 ( (包含两个索引项包含两个索引项) )n n类似的,类似的,3 3个索引项构成一个三维空间,个索引项构成一个三维空间,n n个索个索引项构成引项构成n n维空间维空间n n一个文档或查询式可以表示为一个文档或查询式可以表示为n n个元素的线性个元素的线性组合组合信息检索基础理论课件信息检索基础理论课件文档集 一般表示n n向量空间中的N个文档可以用一个矩阵表示n n矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中没有意义,或该词项不在文档中出现。 T1 T2 . TtD1 d11 d12 d1tD2 d21 d22 d2t : : : : : : : :Dn dn1 dn2 dnt信息检索基础理论课件信息检索基础理论课件图示举例举例: :DD1 1 = 2T = 2T1 1 + 3T + 3T2 2 + + 5T5T3 3DD2 2 = 3T = 3T1 1 + 7T + 7T2 2 + + T T3 3Q = 0TQ = 0T1 1 + 0T + 0T2 2 + + 2T2T3 3T3T1T2D1 = 2T1+ 3T2 + 5T3D2 = 3T1 + 7T2 + T3Q = 0T1 + 0T2 + 2T37325D1比D2更接近Q吗?怎样衡量相似程度?夹角还是投影信息检索基础理论课件信息检索基础理论课件n n在向量空间模型中,首先要建立文本和用户查询的向量,然后进行查询向量和文本向量的相似性计算。并可以在匹配结果的基础上进行相关反馈,优化用户的查询。n n向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。信息检索基础理论课件信息检索基础理论课件相似度计算n n相似度是一个函数,它给出两个向量之间的相似程度相似度是一个函数,它给出两个向量之间的相似程度n n 查询式和文档都是向量,各类相似度存在于:查询式和文档都是向量,各类相似度存在于: 两个文档之间两个文档之间 两个查询式之间两个查询式之间 一个查询式和一个文档之间一个查询式和一个文档之间人们曾提出大量的相似度计算方法,因为最佳的相似度计人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。算方法并不存在。通过计算查询式和文档之间的相似度,可以:通过计算查询式和文档之间的相似度,可以: 可以根据预定的重要程度对检索出来的文档进行排序可以根据预定的重要程度对检索出来的文档进行排序 通过强制设定某个阈值,控制被检索出来的文档的数量通过强制设定某个阈值,控制被检索出来的文档的数量 检索结果可以被用于相关反馈中,以便对原始的查询式进行修正。检索结果可以被用于相关反馈中,以便对原始的查询式进行修正。( (例如:将文档向量和查询式向量进行结合例如:将文档向量和查询式向量进行结合) )信息检索基础理论课件信息检索基础理论课件n n用向量空间模型计算向量距离时,一般采用向量用向量空间模型计算向量距离时,一般采用向量的夹角余弦来表示,两个文档之间相同的词越多的夹角余弦来表示,两个文档之间相同的词越多且这些词的权重越高,则其距离越近。且这些词的权重越高,则其距离越近。n n计算权重的目的是要正确突出每个索引项在文章计算权重的目的是要正确突出每个索引项在文章中的重要程度,一般来讲,某个词在某文本中经中的重要程度,一般来讲,某个词在某文本中经常出现且在其他文本中不常出现,就说明该词对常出现且在其他文本中不常出现,就说明该词对该文本或该类文本更具有代表性,应具有更高的该文本或该类文本更具有代表性,应具有更高的权重。另一方面,如果一个索引项在很多文档中权重。另一方面,如果一个索引项在很多文档中都出现,那么这个索引项则不能很好地代表某一都出现,那么这个索引项则不能很好地代表某一类文档,其权重应较小。类文档,其权重应较小。 信息检索基础理论课件信息检索基础理论课件向量空间模型及其基本原理向量空间模型及其基本原理(1)文献向量和文献矩阵的构造)文献向量和文献矩阵的构造(2)提问向量的构造)提问向量的构造(3)提问与文献的匹配函数)提问与文献的匹配函数(4)相似度阈值的确定)相似度阈值的确定信息检索基础理论课件信息检索基础理论课件 优越性(相对于布尔模型)优越性(相对于布尔模型)优越性(相对于布尔模型)优越性(相对于布尔模型) VSMVSM只是提供了一个理论框架,具有只是提供了一个理论框架,具有广泛的适应性;广泛的适应性;采用部分匹配策略;采用部分匹配策略;检索不是以倒排档技术为基础,而是检索不是以倒排档技术为基础,而是基于聚类文档;基于聚类文档;检索结果可以采用排序输出方式。检索结果可以采用排序输出方式。将文本和查询简化为特征项及权值集合的向将文本和查询简化为特征项及权值集合的向量表示,从而把检索操作变成向量空间上的向量表示,从而把检索操作变成向量空间上的向量运算。向量的权重可以通过简单的统计来完量运算。向量的权重可以通过简单的统计来完成,即通过定量的分析对查询和文本进行匹配。成,即通过定量的分析对查询和文本进行匹配。 对向量空间模型的评价与分析对向量空间模型的评价与分析信息检索基础理论课件信息检索基础理论课件n n该模型的权重计算方法能够提高系统的检索性能;n n模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档;n n在模型中用余弦方法进行距离度量,因此可以根据检索出的结果与查询条件的相关程度对结果进行排序。信息检索基础理论课件信息检索基础理论课件对向量空间模型的评价与分析(续)对向量空间模型的评价与分析(续) 缺陷与不足缺陷与不足缺陷与不足缺陷与不足 相似度计算量巨大;相似度计算量巨大;对可检项两两正交的假设不切合实际。对可检项两两正交的假设不切合实际。n n这一模型的基本假设是特征项之间无关(索引项这一模型的基本假设是特征项之间无关(索引项是不相关的是不相关的un-correlated(un-correlated(或者说是正交的或者说是正交的orthogonal)orthogonal),形成一个向量空间(,形成一个向量空间(vectorvectorspacespace),但很明显在自然语言中,词或短语之),但很明显在自然语言中,词或短语之间存在着十分密切的联系,所以这一假设对计算间存在着十分密切的联系,所以这一假设对计算结果的可靠性造成一定的影响。结果的可靠性造成一定的影响。信息检索基础理论课件信息检索基础理论课件计算机科学文档集n n实际上,这些词项是相互关联的当你在一个文档中看到“计算机”,非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”信息检索基础理论课件信息检索基础理论课件n n在该模型中有一个假定:所有的索引项之间是相互独立的。在权重计算公式中就没有考虑索引项之间的相互关系,但人们发现,在实践中,这些检索项的相互依赖性对系统的性能将造成影响。因为在某些文档中,很多索引项都是相互依赖的,如果将它们不加选择地应用于语料库所有的文档中,必将损害系统的性能。信息检索基础理论课件信息检索基础理论课件 向量空间模型在文本信息处理中的应用:向量空间模型在文本信息处理中的应用:向量空间模型在文本信息处理中的应用:向量空间模型在文本信息处理中的应用:向量空间模型对信息检索具有非常重要的理论贡献。自向量空间模型对信息检索具有非常重要的理论贡献。自1960s1960s末末期至今期至今3030余年的时间里,余年的时间里,VSMVSM获得了广泛的应用,并一直主导着获得了广泛的应用,并一直主导着文本信息处理领域的研究。文本信息处理领域的研究。VSMVSM的价值在于将非结构化的文本信的价值在于将非结构化的文本信息表示为向量,这使得随后的各种数学处理成为可能。目前,息表示为向量,这使得随后的各种数学处理成为可能。目前,VSMVSM在以下文本信息处理分支领域均有重要应用,并取得了良好在以下文本信息处理分支领域均有重要应用,并取得了良好的效果:的效果: 文本检索(文本检索(文本检索(文本检索(Text RetrievalText Retrieval) 文本分类(文本分类(文本分类(文本分类(Text Text Categorization/ClassificationCategorization/Classification) 文本挖掘(文本挖掘(文本挖掘(文本挖掘(Text MiningText Mining) 文本过滤文本过滤文本过滤文本过滤 (Text FilteringText Filtering) 文本可视化(文本可视化(文本可视化(文本可视化(Text VisualizationText Visualization)信息检索基础理论课件信息检索基础理论课件向量空间模型的发展:Latent Semantic Indexing(LSI)n n中心思想:解决一词多义和同义词问题,尽力挖中心思想:解决一词多义和同义词问题,尽力挖掘语义信息。掘语义信息。n n用用conceptconcept(orfeatureorfeature)代替)代替termtermn n输入:输入:term-by-documentmatrixterm-by-documentmatrixn n输出:输出: T:concept-by-termmatrixT:concept-by-termmatrix D:concept-by-documentmatrixD:concept-by-documentmatrix S:elementsassignweightstoconceptsS:elementsassignweightstoconceptsn n实质上起到了查询扩展的作用实质上起到了查询扩展的作用信息检索基础理论课件信息检索基础理论课件布尔检索示例“飞碟”AND “小说”:只能检索出D4,无法显现D1,D2,D3的差异“飞碟”OR “小说”:可以检出D1,D2,D4,但无法显现它们的差异信息检索基础理论课件信息检索基础理论课件布尔模型和向量空间模型相结合n n布尔模型可以和向量空间模型相布尔模型可以和向量空间模型相结合,先做布尔过滤,然后进行结合,先做布尔过滤,然后进行排序:排序: 首先进行布尔查询首先进行布尔查询 将全部满足布尔查询的文档汇集成一个将全部满足布尔查询的文档汇集成一个文档文档 用向量空间法对布尔检索结果进行排序用向量空间法对布尔检索结果进行排序布尔过滤排序文档向量空间表示的查询式结果布尔查询式如果忽略布尔关系的话,向量空间查询式和布尔查询式是相同的信息检索基础理论课件信息检索基础理论课件先“布尔”,后“排序”存在的问题n n如果“与”应用于布尔查询式,结果集可能太窄,因而影响了后面的排序过程n n如果“或”应用于布尔查询式,就和纯向量空间模型没有区别了n n在第一步,如何最佳地应用布尔模型呢?n n提出扩展布尔模型信息检索基础理论课件信息检索基础理论课件扩展布尔模型中的“或”关系n n给定一个或关系的查询式:给定一个或关系的查询式:x x y yn n假设文档假设文档d di i中中x x和和y y的权重被归一化在的权重被归一化在(0,1)(0,1)区间内区间内: : wwx x, ,j j=(tf tfx x, ,j j/maxmaxl l tf tfl l, ,j j ) (idfidfx x/maxmaxi i idf idfi i) sim(sim(q qoror, , d dj j)=()=(x x2 2+y y2 2)/2)/20.50.5wherewherex x= wwx x, ,j j andandy y= wwy y, ,j j (1,1)wx,jwy,j(1,0)(0,1)(0,0)最不期望的点dx yn一个文档在(1,1)处获得最高的权重,此时意味着文档包含了全部两个查询词,并且查询词在文档中的权重也是最高的n函数sim()度量了从原点出发的文档向量长度信息检索基础理论课件信息检索基础理论课件扩展布尔模型中的“与”关系n n给定一个联合的查询式给定一个联合的查询式 x x y yn nsim(sim(q qandand, , d dj j)=1)=1 (1(1 x x) )2 2+(1+(1 y y) )2 2/2/2 0.50.5n n函数函数sim()sim()表示从表示从(1,1)(1,1)出发到出发到d d的向量长度的向量长度(1,1)wx,jwy,j(1,0)(0,1)(0,0)最期望的点dx y信息检索基础理论课件信息检索基础理论课件扩展的布尔检索相似度计算示例信息检索基础理论课件信息检索基础理论课件观察n n如果权值是布尔型的,如果权值是布尔型的,x x出现在文档出现在文档d dj j中,则中,则x x在文档在文档d dj j中具有权重中具有权重1 1,否则,否则为为0 0n n当当d dj j 包含包含x x和和y y时时sim(sim(q qandand, ,d dj j)=sim()=sim(q qoror, ,d dj j)=)=1 1n n当当d dj j 既不包含既不包含x x 也不包含也不包含y y时时sim(sim(q qandand, ,d dj j)=sim()=sim(q qoror, ,d dj j)=)=0 0n n当当d dj j 包含包含x x 和和y y二者之一时二者之一时sim(sim(q qandand, ,d dj j)=1)=1 1/21/20.50.5=0.2930.293sim(sim(q qoror, ,d dj j)=1/2)=1/20.50.5=0.707=0.707(1,1)wx,jwy,j(1,0)(0,1)(0,0)信息检索基础理论课件信息检索基础理论课件观察n n一个词项的存在将对一个词项的存在将对“ “或或” ”关系查询式提供关系查询式提供0.7070.707的的增益值,但对增益值,但对“ “与与” ”关系查询式仅提供关系查询式仅提供0.2930.293的增益的增益值值 一个词项不存在,将给一个词项不存在,将给“ “与与” ”关系的查询式提供关系的查询式提供0.7070.707的罚分的罚分n n当当x x 和和y y 有权值有权值0.5,sim(0.5,sim(q qandand, ,d d)=sim()=sim(q qoror, ,d d)=)=0.50.5 在一个在一个“ “与与” ”关系查询中,两个词项的权重均为关系查询中,两个词项的权重均为0.50.5,则相似度为,则相似度为0.50.5。其中一个权重为。其中一个权重为1 1,另一个,另一个为为0 0,相似度为,相似度为0.2930.293。 在在“ “或关系或关系” ”查询中,情况恰好相反查询中,情况恰好相反n n在在“ “与关系与关系” ”查询中,如果一个词项的权重低于查询中,如果一个词项的权重低于0.50.5,将给相似度贡献一个较大的罚分将给相似度贡献一个较大的罚分信息检索基础理论课件信息检索基础理论课件p-norm 模型n n扩展布尔模型可以被泛化为扩展布尔模型可以被泛化为mm 个查询项个查询项: :sim(sim(q qoror, , d d)=()=(x x1 12 2+x x2 222+.+.+x xmm22)/)/mm0.50.5sim(sim(q qandand, , d d)=1)=1 (1(1 x x1 1) )2 2+(1+(1 x x2 2) )2 2+.+(1+.+(1 x xmm) )2 2/mm0.50.5n n它可以被进一步地它可以被进一步地 泛化为泛化为p p-normmodel:-normmodel:sim(sim(q qoror, , d d)=()=(x x1 1p p+x x2 2p p +.+.+x xmmp p )/)/mm1/1/p psim(sim(q qandand, , d d)=1)=1 (1(1 x x1 1)p p+(1+(1 x x2 2)p p+.+.+(1(1 x xmm)p p/mm1/p1/pn n当当p p=1=1时时,sim(,sim(q qoror, , d d)=sim()=sim(q qandand, , d d)=()=(x x1 1+x x2 2 +.+.+x xmm )/)/mm 通过语词通过语词- -文献权值的和来求合取和析取查询的值,和向量空文献权值的和来求合取和析取查询的值,和向量空间中的内积相似间中的内积相似n n当当p p= ,sim(,sim(q qoror, , d d)=)=maxmax( (x xi i);sim();sim(q qandand, , d d)=)=minmin( (x xi i) ) 模糊逻辑模型模糊逻辑模型( (Fuzzylogicmodel)Fuzzylogicmodel)信息检索基础理论课件信息检索基础理论课件-概率模型n n信息检索系统与其他类型信息系统的主要区别在信息检索系统与其他类型信息系统的主要区别在于信息检索系统内在的不确定性。对一个数据库于信息检索系统内在的不确定性。对一个数据库系统来说,要查询的信息总是(至少对标准的应系统来说,要查询的信息总是(至少对标准的应用来说)能被精确地映射到系统的查询格式上,用来说)能被精确地映射到系统的查询格式上,而且数据库中的哪些元素能够构成答案也能被精而且数据库中的哪些元素能够构成答案也能被精确定义。而信息检索系统中的情况显然不同,所确定义。而信息检索系统中的情况显然不同,所需要查询的信息既不能被精确地表示,也没有一需要查询的信息既不能被精确地表示,也没有一个清晰的过程来判别一个数据对象是否就是所需个清晰的过程来判别一个数据对象是否就是所需要的。处理非确定性最成功的方法就是概率模型要的。处理非确定性最成功的方法就是概率模型(ProbabilisticModel)(ProbabilisticModel)。目前研究者已经提出。目前研究者已经提出了很多不同的概率检索模型,不过所有概率模型了很多不同的概率检索模型,不过所有概率模型都存在着一般性的问题,即参数估计、查询扩展都存在着一般性的问题,即参数估计、查询扩展和文档、查询的表示等。和文档、查询的表示等。 信息检索基础理论课件信息检索基础理论课件概率模型n n主要针对信息检索中相关性判断的不确定性以及查询信息表示的模糊性。它主要是基于概率排序原则:对于给定的用户查询Q,对所有的文本D计算概率P(R|D,Q)并从大到小进行排序。其中R表示文本D与查询Q的相关性。文本D可以表示为D=(d1,d2,dN),N为特征个数,di=1表示特征项i在文本中出现;di=0表示特征项i在文本中不出现(文本的布尔表示)。信息检索基础理论课件信息检索基础理论课件贝叶斯定理n n贝叶斯定理是计算概率的一种方法,即认为一个事件会不会发生取决于该事件在先验分布中已经发生过的次数。n n贝叶斯定理指出,对于事件X和Y,已知Y的概率时X发生的概率(用pX|Y表示)等于已知X的概率时Y发生的概率(用pY|X表示)乘以X的概率(pX)再除以Y的概率(pY)。信息检索基础理论课件信息检索基础理论课件贝叶斯定理的公式表述:n npX|Y=pXpY|X/pY信息检索基础理论课件信息检索基础理论课件这个原理的大致意思:某件事情发生的概率大致可以由它过去发生的频率近似地估计出来。基因研究、基因研究、过滤过滤电电子子邮邮件件 信息检索基础理论课件信息检索基础理论课件n nThomas Bayes,一位伟大的数学大师,一位伟大的数学大师,他的理论照亮了今天的计算领域,和他的他的理论照亮了今天的计算领域,和他的同事们不同:他认为上帝的存在可以通过同事们不同:他认为上帝的存在可以通过方程式证明,他最重要的作品被别人发行,方程式证明,他最重要的作品被别人发行,而他已经去世而他已经去世241年了。年了。n n18世纪牧师们关于概率的理论成为应用发展的数学基础的一部分。信息检索基础理论课件信息检索基础理论课件如果一枚硬币被连续抛100次,每次都是正面朝上,那么,抛第101次时,正面朝上的概率是多少?n n传统统计学观点的推论是:50%。n n而贝叶斯概率论则认为:100次连续正面朝上,证明该硬币不均衡或两面均为正面,所以抛第101次时正面朝上的概率会大大高于50%。信息检索基础理论课件信息检索基础理论课件 近几年中,在这三种基本模型的基础上还发展出近几年中,在这三种基本模型的基础上还发展出了许多新的模型方法,主要可分为以下三类:了许多新的模型方法,主要可分为以下三类:n n基于集合理论基于集合理论(settheoretic)(settheoretic)的检索模型,如模的检索模型,如模糊糊(fuzzy)(fuzzy)集合方法和扩展布尔集合方法和扩展布尔(extended(extendedboolean)boolean)模型模型; ;n n基于代数学理论基于代数学理论(algebraic)(algebraic)的模型,如生成向量的模型,如生成向量(generalizedvector)(generalizedvector)模型、隐含语义索引模型、隐含语义索引(latentsemanticindex)(latentsemanticindex)和神经网络和神经网络(neural(neuralnetworks)networks)模型;模型;n n基于概率论的检索模型,如推理网络基于概率论的检索模型,如推理网络(inference(inferencenetwork)network)和信任网络和信任网络(beliefnetwork)(beliefnetwork)模型。模型。 信息检索基础理论课件信息检索基础理论课件IR模型的分类体系结构图信息检索基础理论课件信息检索基础理论课件提高系统相关性的技术n n中文分词技术n n动态分类n n综合搜索n n内容过滤n n人工干预信息检索基础理论课件信息检索基础理论课件用户相关性n n文档与用户需求的一致性n n即时性、个性化n n改进:对检索工具的了解;对检索工具的了解;查询表达式的构造查询表达式的构造多元搜索多元搜索信息检索基础理论课件信息检索基础理论课件相关性研究的热点系统相关性系统相关性n n基于内容的理解(多媒体)n n联想及消岐n n相关反馈技术n n信息导引信息检索基础理论课件信息检索基础理论课件IIR的研究难点n n知识的获取和表示,多义词的含义,用户真正的信息需求n n自然语言处理技术信息检索基础理论课件信息检索基础理论课件 文本分类的基本处理流程文本分类的基本处理流程文本分类的基本处理流程主要包括以下文本分类的基本处理流程主要包括以下5 5个环节:个环节:(1 1)获取训练文本文档集合)获取训练文本文档集合)获取训练文本文档集合)获取训练文本文档集合训练文本选择是否合适对文本分类器的性能有较大影响。目前,训练文训练文本选择是否合适对文本分类器的性能有较大影响。目前,训练文档集大都是经人工分类的文本语料库。档集大都是经人工分类的文本语料库。(2 2)建立文本文档表示模型)建立文本文档表示模型)建立文本文档表示模型)建立文本文档表示模型 即选择什么样的属性来表示文本文档。即选择什么样的属性来表示文本文档。(3 3)文档属性选择或特征提取)文档属性选择或特征提取)文档属性选择或特征提取)文档属性选择或特征提取 文档属性选择或特征提取的标准是:保留或选择尽可能少但和文本文档文档属性选择或特征提取的标准是:保留或选择尽可能少但和文本文档类别概念密切相关的文档属性。类别概念密切相关的文档属性。(4 4)选择分类模型)选择分类模型)选择分类模型)选择分类模型 这是文本分类的一个核心问题,涉及到用什么样的方法建立从文本属性这是文本分类的一个核心问题,涉及到用什么样的方法建立从文本属性/ /特征到文本类别的映射关系。特征到文本类别的映射关系。(5 5)确定性能评估模型)确定性能评估模型)确定性能评估模型)确定性能评估模型/ /指标指标指标指标 性能评估模型性能评估模型/ /指标一方面可用于对分类系统的性能或分类结果进行评指标一方面可用于对分类系统的性能或分类结果进行评价,另一方面也可以作为改进和完善非类系统的目标函数。价,另一方面也可以作为改进和完善非类系统的目标函数。信息检索基础理论课件信息检索基础理论课件 文本挖掘与文本检索的区别文本挖掘与文本检索的区别可以从以下可以从以下3 3个方面进行比较:个方面进行比较:(1 1)方法论的不同)方法论的不同)方法论的不同)方法论的不同检索是目标驱动的,用户需要明确提出查询要求;而挖掘是机会主义,检索是目标驱动的,用户需要明确提出查询要求;而挖掘是机会主义,其结果独立于用户的信息需求,也是用户所无法预知的。其结果独立于用户的信息需求,也是用户所无法预知的。(2 2)侧重点的不同)侧重点的不同)侧重点的不同)侧重点的不同检索着重于文档中显式存储的字词和链接,其目的在于帮助用户发现检索着重于文档中显式存储的字词和链接,其目的在于帮助用户发现资源;而挖掘则试图更多地理解其内容,其目的是为了揭示文档中隐含的资源;而挖掘则试图更多地理解其内容,其目的是为了揭示文档中隐含的知识。知识。(3 3)评价方法的不同)评价方法的不同)评价方法的不同)评价方法的不同检索一般使用查全率(检索一般使用查全率(R R)和查准率()和查准率(P P)来评价其效果,要求返回尽)来评价其效果,要求返回尽可能多的相关文档,同时不相关的文档尽可能的少;而挖掘则是采用收益可能多的相关文档,同时不相关的文档尽可能的少;而挖掘则是采用收益(gaingain)、置信度()、置信度(certaintycertainty)、简洁性()、简洁性(simplicitysimplicity)等来衡量所发现)等来衡量所发现知识知识的有效性、可用性和可理解性。的有效性、可用性和可理解性。信息检索基础理论课件信息检索基础理论课件2.3.2 结构化文本检索模型课本52页n n基于非重叠链表n n基于邻接节点信息检索基础理论课件信息检索基础理论课件2.3.3 浏览模型n n交互式检索模型平坦浏览模型结构向导浏览模型超文本浏览模型信息检索基础理论课件信息检索基础理论课件信息检索基础理论课件信息检索基础理论课件
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号