资源预览内容
第1页 / 共39页
第2页 / 共39页
第3页 / 共39页
第4页 / 共39页
第5页 / 共39页
第6页 / 共39页
第7页 / 共39页
第8页 / 共39页
第9页 / 共39页
第10页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
目 录前 言3第一章绪 论41.1研究背景及现状41.2对话知识库构建方法概述41.3本文的主要工作及创新点51.4本文的组织结构5第二章对话知识库构建方法72.1理论基础72.1.1方法的形成72.1.2方法思路82.1.3方法可行性分析82.2语句模板生成92.2.1词性标注集简介92.2.2语句特征选取102.3提取问题与答案关联特征112.4生成对话知识库122.4.1知识库存储方式122.4.2知识库存储结构132.4.3.知识库生成过程142.4.4知识库更新过程152.5本章小结15第三章知识库构建系统173.1系统需求分析173.2系统可行性分析173.3系统结构183.4使用工具介绍193.5系统编码实现203.5.1词性标注模块203.5.2知识库生成模块233.5.3知识库检索模块273.5.4人机交互模块293.6本章小结30第四章实验结果分析314.1实验结果展示314.1.1对话过程展示314.1.2知识库构建结果展示354.2实验结果分析36第五章总结与展望37参考文献38致谢39摘 要本文提出了一种基于模板自动生成的面向机器人学习的对话知识库构建方法,并且实现了一个基于这种知识库构建方法的对话系统。该构建方法的核心思想是利用句子中的词性,根据句子中有意义实词的词性来完成模板的生成。知识库构建系统对首次被问及的某一个问题,会请求用户告知这个问题该如何回答。此后,系统会根据用户输入的问题和答案尝试学习同类问题和答案的表达方式并建模。并且采用一定策略,从问题和答案中尝试提取出该问题和对应答案相关联的细节特征。然后在语料库中匹配满足答案表达方式的语句,利用这些语句来建立和该问题同属一类问题的答案知识库。当再次被问及这一类问题时,系统就会先将问题建模,找到此类问题对应的知识库,然后利用前面学到的此类问题和答案关联特征,尝试在知识库中找到这个问题的答案。该构建方法可以用来实现简单的对话机器人系统,同时也可以为刚投入使用的复杂对话机器人系统快速构建常规问题的对话知识库。实验结果表明,本文提出的模板自动生成知识库构建方法是有效的,基于模板生成的对话知识库构建方法能够利用用户提供的问题,答案快速建立这一类问题的答案知识库。关键词: 知识库构建;机器人学习;模板生成;对话机器人AbstractIn this paper, we propose a method, based on automatically generating patterns, to construct dialogue knowledge base oriented on robot learning. We also implement a dialogue system based on this knowledge base construction method. The core idea of the construction method is to use the part-of-speech of words, which completes the formation of patterns by using the part-of-speech of meaningful words in the sentence.The knowledge base building system asks the user how to answer a question that was first asked. After that, the system will try to learn the expressions and models of similar questions and answers based on user input question and answer. And it also adopts a certain strategy to try to extract corresponding feature between question and answer. Then it picks out the target sentences which fit that answer model in the corpus, and uses these sentences to set up knowledge base which can be used to answer questions that have same type with question inputting by user. When asked about this kind of problem again, the system will generate pattern with inputting problem first, and then it find the corresponding knowledge base which are established with this question pattern. Next, it use the features learned in the early step to find exact answer of this question in the knowledge base.This construction method can be used to realize a simple dialogue robot system, and it can also quickly build a conversation knowledge base of conventional questions for the complex dialogue robot system that has just been put into use. The experimental results show that the method proposed in this paper is effective, and the method of building a dialogue knowledge base based on pattern generation can make use of the question, answer provided by users to quickly establish the answer knowledge base to this kind of problems.Keywords: Knowledge Base Construction; Robot Learning; Pattern Generation; Conversational Robot前 言随着信息化时代的到来,日常生活中会产生大量的数据,而且每天产生的数据量正在以指数式增长。这些数据中记录了各种各样的信息,涵盖了日常生活中的方方面面,其中含有许多简单、事实性问题的直观答案。常规的搜索引擎能完成信息的检索,即搜索引擎根据关键字进行检索,它返回出现了给定关键字的文档。这些含有问题答案的文档集合为问答系统的答案抽取提供了基础。目前,已经有多种方法用来从文本信息中抽取答案,比较典型方法有基于模板匹配算法、基于信息检索和信息抽取算法、基于统计学习的算法、基于自然语言处理的算法1,能利用这些技术,能够从含有答案的文档中提取出准确答案完成对话,如周博通等实现的InsunKBQA: 一个基于知识库的问答系统2。但是,这些技术只是对针对一个具体的问题完成了答案的提取,无法抽取同属一类问题的所有问题的答案。面对海量的问题,如果对每一个问题都采用只针对本问题的答案抽取方式,那么构建一个对话知识库就要完全依赖人工手动输入每一个问题,然后知识库构建系统再依据具体的问题建立对话内容,这显示是费力不可行的。对于海量的问题,我们渴望对问题进行分类,然后从“类”的角度入手,找到一种通用的方式来建立这一类问题的答案知识库。本文从词性的角度对句子进行分类,根据用户提供的问题,答案,尝试自动生成该问题和答案的词性模板,并利用答案语句的词性模板在语料库中搜索满足该模板的语句,然后再根据这些语句来构建这一类问题的答案知识库。当下次输入的问题符合特定的问题,答案中“问题”模板时,就可以尝试从这个“答案”模板生成的知识库中寻找正确答案。第一章 绪 论本章首先介绍了对话知识库构建方法的研究背景和研究现状,其次概述了本文构建对话知识库所用的方法,并说明了本文所做的主要工作及创新点。最后介绍了本篇文章的组织结构。1.1 研究背景及现状随着人工智能时代的到来,人们希望机器人能像人一样用自然语言来完成对话。目前市面上也已经有了很多能用自然语言来对话的机器人,代表作品有微软公司的娱乐聊天机器人小冰、苹果的语音助手Siri、京东客服机器人JIMI等。对话系统可以根据应用场景的不同分为开放域(open-domain)问题和封闭域(closed-domain)问题 2种类型3。.就机器人回答内容的来源上划分,可以将聊天机器人分为检索式聊天机器人和生成式聊天机器人。检索式对话机器人根据用户的输入和上下文内容,使用预先存储好的知识库来完成对话;生成式对话机器人则更加复杂,它不依赖于事先定义好的内容,自动生成新的回答内容。目前的对话机器人主要还是以检索式为主,因此构建知识库是完成检索式对话机器人的关键内容。当前关于构建对话知识库的主要方法分为三种,分别为手工编辑、基于本体的知识库构建方法、半自动或自动知识提取构建方法4。手工编辑主要表现形式为直接手动编辑和互联网众包机制,通过人们手动将知识结构化写入计算机的方法来得到对话知识库。起源于哲学的本体论近年来在信息领域也得到了广泛的应用,特别是W3C国际标准本体描述语言OWL(ontology Web language)5使本体论方法在构建知识库方面成为现实。半自动或自动知识提取则是事先设计好自动或半自动提取算法,然后让计算机利用该算法去语料库中抽取知识。1.2 对话知识库构建方法概述本文所提出的对话知识库构建方法是面向机器人学习的自动知识库构建方法,即不需要提供大量的训练数据,基于用户提供的一例问题,答案,尝试学习同类问题和答案的表达方式并建模,借以从自由文本或知识库中搜集大量同质异构的问答对子,形成知识库并辅助问题的高效检索。该构建方法的核心思想是同一类问题虽然有很多不同的具体问题,但是就问题中实词的词性而言,属于同一类的问题,它们的词性是相同的。比如“张明昨天去哪儿了?”,这一具体的问题,其中实词的词性向量为张明_人名,昨天_时间,去_动词,哪儿_代词,因此这一类问题的共词性同模板向量就是人名,时间,动词,代词。对于这个具体的问题,一个正确答案可能是“张明昨天去北京了。”,同理这个答案的词性向量依次为张明_人名,昨天_时间,去_动词,北京_地名,我们可以得到这类问题的答案语句模板向量为人名,时间,动词,地名。因而,我们可以用这个答案模板去语料库中检索,符合这个模板的句子,它可能就是这类问题中某个具体问题的答案。基于这样的假设,我们将这些句子用来建立这类问题的答案知识库。当下次有符合人名,时间,动词,代词模板的问题,就尝试从这个答案知识
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号