资源预览内容
第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
第9页 / 共28页
第10页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
从SIGIR看信息检索技术的过去与未来马少平,张敏 清华大学计算机系; 智能技术与系统国家重点实验室 2007年3月10日,海口缘起n过去三十五年中,我们在信息检索的路上走 了多远?n在IR舞台上,什么是长盛不衰的?哪些已经渐渐谢幕?哪些即将登场?nSIGIR 19712006年所有正式论文主要内容n检索模型的发展n关键技术n检索任务的演变n人机交互与用户分析n信息检索的评价n信息检索中的自然语言处理n更多思考与讨论检索模型的发展信息检索模型n从一开始就沿两条路发展n来源于结构化数据处理的灵感nE.g. 数据库n直接从自由文本处理的角度n前10年,并驾齐驱,结构化方法占有一定的 主导地位n进入90年代之后,结构化数据存储相对沉寂n进入2000年,开始复苏n思路转变 xml IRn两条路逐渐呈现融合趋势IR modelsn自由文本模型三个阶段n向量空间模型 80年代初的重点n概率模型 80年代末兴起,90年代逐渐成为主流n基于语言模型的检索 1998年,里程碑n更多模型 近两三年开始,标志IR进入新的阶段关键技术关键技术n实现 n早期n倒排索引的提出 与研究n2000后n大规模检索n最近n垃圾 n走出实验室n面向海量数据、 实时处理、真实 网络环境关键技术n相关反馈n经久不衰的话题n3个阶段n早期n建立反馈机制n90年代中nCBIRn最近n区分不同主题n区分不同词关键技术n集中式不能满足要求n分布式系统架构n3个阶段n早期:n通用系统设计n90年代中n分布式n大规模n扩展性、效率n最近n自适应系统n系统融合 检索任务的演变检索任务 nWeb IRn80年代末期nWebpagenWeb与传统文本相区 别的特性n1998年开始nPage, Kleinbergn链接分析n把Web作为完整的拓 扑结构n2000年后n更宏观站点级n更微观Block级检索任务 n多媒体检索n很早被提出 n语义鸿沟问题n图像检索n实验室结果n利用文本信息n最近5年 n视频n音乐n检索任务 n多语言检索nTRECn日语n汉语n阿拉伯语nNTCIRn亚洲多语言n英文n主要技术n自然语言处理技术n词语翻译技术检索任务 n由国际标准评 测提出,有效 推动了信息检 索研究的发展nTDTnTRECnNoveltynHARDnGenomicsnBlognLegal n人机交互与用户分析人机交互与用户分析n人们始终青睐有加的研究领域n早期:可视化表示 (查询、文档的可视化)n自然语言交互界面n2002年以后:n用户日志分析,Social Network,快速学习能力信息检索的评价检索的评价 nTRECnPooling技术n更紧接本质的评价技术n评价与技术的共同发展信息检索中的 自然语言处理NLP and IRn最早被提出的问题之一nStemming, 分词,词典使用,词义消歧,命名实体n近年来:更深层次的使用n句子完整性重构(更自然的语言表达)n2005年,将NLP信息融合到检索的语言模型中更多思考与讨论IR 的发展n来源之一:实际应用n分布式系统n系统设计与实现的可扩展性、鲁棒性nWeb IR, 链接分析n用户分析:搜索日志分析 IR 的发展n来源之二:国际标准评测n跨语言检索n信息检索的评价与测试集的构建n话题检测与跟踪n新信息发现IR 的发展n来源之三:二者共同推动nQAn检索模型发展nSpamnIntranet信息检索nBlog检索与情感分析n总结n缘起n信息检索模型n关键技术的发展n检索任务的演化n人机交互/用户分析n检索的评价 n信息检索与自然语言处理n其他思考 关于IR的发展谢谢!
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号