问答系统的设计实现-

.1 目录引言1第一章研究背景21.1问答系统研究背景21.2传统的问答系统的不足21.3问答系统研究现状21.4问答系统的类型区分41.5问题的类型进行区分41.6中文问答系统研究51.7相关评测5第二章系统分析62.1市场调查62.2问答系统的问题分析62.3问题分类62.4问题相似性判定72.5关键词扩展8第三章数据库设计103.1数据库的需求分析103.2数据库表结构设计103.3E-R模型12第四章系统详细设计与实现154.1系统工作原理介绍154.2系统数据流图164.3系统的实现算法164.4注册模块的设计与实现194.5注册模块的设计与实现324.6 系统首页的设计与实现344.7用户提问模块的设计与实现384.8问题显示模块的设计与实现414.9问题回答模块的登录与实现444.10后台管理模块的设计与实现45第五章系统测试47第六章总结48致谢49参考文献50引言问答系统的设计目标是用简治、准确的答案回答用户用自然语言提出的问题。在人工智能和自然语言处理领域，问答系统都有着较长的历史。1950年英国数学家图灵(AMTurin8)在论文“Computing Machinery and Intelligence”中形象地指出了什么是人工智能，以及机器应该达到的智能标准。也就是通过自然语言问答的方式，判断机器是否具有智能。20世纪70年代随着自然语言理解技术的发展，出现了第一个实现用普通英语与计算机对话的人机接口LUNAR，该系统是伍德(WWoods)于1972年开发用来协助地质学家查找、比较和评价阿波罗一号飞船带回的月球岩石和土壤标本的化学分析数据的系统。本文将简要介绍国内外问答系统研究的进展情况。并且针对问答系统中的一个难点以及实现方法进行了讨论。并给出如何识别用户搜索关键字的方法。第一章研究背景1.1问答系统研究背景随着因特网的快速发展，网络上流通的信息日益增加，它已俨然成为巨大的讯息流通交换平台，要在如此大量的数据库中找寻有用的数据着实不易，通常会藉助于搜索引擎的功能来达成，然而以关键词为主的搜索引擎常会找出所有相关的信息，但是其中也包含许多无用的数据，用户浪费很多时间浏览不相关的网页。随着互联网的发展，网络已成为人们获取信息的重要手段。目前，世界上最大的搜索引擎Google能够搜索的网页数量已经超过了百亿。传统的搜索引擎存在很多不足的地方，其中主要有三个方面：一是以关键词的逻辑组合来表达检索需求二是返回的相关性信息太多三是以关键词为基础的索引，停留在语言的表层，而没有触及语义，因此检索效果很难进一步提高。以上两点使得人们在互联网上的海量信息中快速准确地找到自己所需要的信息变得越来越困难。1.2传统的问答系统的不足传统的问答系统虽然可以对用户提出的问题给出确定的答案，但是这些问答系统的数据源是基于一个固定的文档集合，尚且不能满足用户的各种各样的需求。利用互联网上的资源是有效的解决之道互联网上具有丰富的信息，是问答系统数据源的理想资源，因此将问答系统与互联网结合起来，就变得非常必要。这也就促使了基于互联网的问答系统的出现和发展的问答系统的出现和发展。1.3问答系统研究现状问答系统的概念虽然提出的时间并不长，但已经形成发展出了一些比较成熟的系统。美国麻省理工学院人工智能实验室于1993年开发出来的START，系统(http:/www.ai.mit.edu/projects/infolab/start.html)是全世界第一个基于Internet的问答系统。START系统旨在为用户提供准确的信息，它能够回答数以百万的英语问题，主要包括与地点相关的问题(城市、国家、湖泊、天气、地图、人口统计学、政治和经济等)、与电影相关的问题(片名、演员和导演等)、与人物相关的问题(出生日期、传记等)以及与词典定义相关的问题等。该系统采用基于知识库和基于信息检索的混杂模式，系统还保留着原来的两个知识库，START KB”和“Internet Public Library。如果用户提出的问题属于这两个知识库的范畴，START就直接利用知识库中的知识返回比较准确的回答。反之，START系统将问题解析得到查询的关键词，通过搜索引擎得到相关信息，通过后续处理得到准确而简洁的回答返回给用户。比如提出一个问题“Who was Bill Gates? , START系统回答“Cofounder,Microsoft. Born William H. Gates on October 28, 1955，Seattle,Washington. 。同时系统还返回一个关于“Bill Gates网页链接，如果用户希望了解更详细的信息时就可以浏览改网页。美国华盛顿大学开发的MULDER系统(http:/mulder.cx/)是最早实现的基于Internet的全自动的问答系统。该系统没有知识库，而完全利用Internet上的资源得到答案。对于一个问题，MULDER系统返回的不是唯一的答案，而是一组候选回答，并利用统计的方法给每一个回答赋值一个权重，称之为置信度。比如，对于一个问题“Who was the fast American in space? ,MULDER系统的返回的候选答案中，Alan Shepard”具有70%的置信度，John Glenn”具有15%的置信度。同时在每一个答案下面给出相关的网页链接和该网页内容的摘要。AskJeeves (http:/ask.com/)是美国一个比较著名的商用问答系统。对于自然语言提出的问题，AskJeeves系统采用多种方式进行回答，直接返回一段文本，并返回一系列文档链接及其内容摘要，同时还采用多媒体文件的形式提供相关信息。比如对于问题 Who was Bill Gates?，系统在文本回答的基础上还将显示一张Bill Gate的照片。作为一个商用系统，AskJeeves的服务种类很多，不仅仅可以查找Web网页，也可以采用图片、新闻、产品作为数据源，从而得到所需的信息。AskJeeves系统中的问题分析部分是依赖手工完成的，为了能够正确理解用户的查询AskJeeves雇佣了数百专职人员构造问题模板，并为这些问题模板中常见的问题进行了缓存。系统的问题模板虽然能够细化和明确用户的需求，但由于需要人工产生和维护的，工作量非常大。美国密歇根大学开发的AnswerBus （http:/www.answerbus.com/)系统在多语种问题上进行了一些尝试，可以回答英语、西班牙语、德语、意大利语、葡萄牙语的问题。Microsoft公司的Encarta (http:/encarta.msn.com/)系统作为一个在线百科全书式的问答式搜索引擎，也提供了多语种的支持。对于用户的每一次查询，AnswerBus将返还5个网页链接，并给出XML和TXT的Possible answers。新加坡开发的LAMP为了更加正确的理解用户的查询意图，列出了person，organization，location，date，time。money，percent等7种查询类别让用户进行选择，LAMP不是返回网页链接，而是直接返还答案。LAMP所在网址http:/hal.comp.nus.edu.sg/cgi-bin/smadellz/lamp_query.pl此外，南加州大学利用自然语言处理、文本摘要等技术，开发的Webclopedia系统在各项评测中也取得了很好的效果;美国Language Computer公司的问答系统(http:/www.languagecomputer.com/demos/question_answering)在TREC评测中一直名列前茅。国内复旦大学开发的原型系统（FDUQA）己经具有了初步的效果，同时哈尔滨工业大学（金山客服）和中国科学院计算技术研究所也在从事该领域的研究。1.4问答系统的类型区分问答系统(Question Answering System, QA)是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。1.5问题的类型进行区分问答系统问答问题的类型进行区分：询问人(如:谁发现了北美洲?)、询问时间（如：人类哪年登录月球？）、询问数量（如：珠穆朗玛峰有多高？）、询问定义（如：什么是氨基酸？）、询问地点和位置（如：芙蓉江在重庆市哪个县？）、询问原因（如：天为什么是蓝的？）。问答系统分类如图1.1问答系统限定域问答系统开发域问答系统基于常用提问集问答系统机构数据库问答系统自由文本问答系统网络问答系统固定资料库问答系统单文本问答系统图1.1 问答系统分类从系统的设计与实现来看，自动问答系统一般包括三个主要组成部分:问题分析、信息检索和答案抽取。目前国际上，问答系统的研究方兴未艾，许多大的科研院所和著名公司，都积极参与到该领域的研究，其中比较著名的如MICROSOFT、IBM、MIT、University of Amsterdam、National University of Singapore、University of Zurich、University of Southern California、Columbia University等等，国内在问答系统方面的研究相对国外较为不足，主要有中科院计算所、复旦大学、哈尔滨工业大学、沈阳航空工业学院、香港城市大学、台湾中研院等一些单位。1.6中文问答系统研究中文问答系统相对于英文有如下几个方面的难点或不足之处：连写：中文是连续书写，分词是汉语言处理的基础。中文问答系统由于是句子级别的信息检索，要分析句子，首先要分词。形态：汉语缺乏狭义的形态变化，如英文中的主动被动语态，完成时进行时等，形态对于计算机就是标记，有利于计算机的处理。语法：汉语语法灵活，句子各成分之间的关系靠词序、“意合”、虚词，变化较多。语义：一词多义、同音词、同义词、近义词等，以及丰富的表达方式，上下文依赖度高，省略语等都是计算机处理的难点。语法研究：面向计算机处理的中文语法研究不足，如中文问答系统需要的关于中文句型形式化、不同句型之间的转换的研究资料极少。相关资源：缺乏包括语法、语义词典等中文语言学资源和相关生熟语料，国外这方面强得多，如TREC就提供的相当数量的可用于英文问答研究和评测的语料。中文问答系统需要在现有的中文信息处理技术基础上，充分研究和利用问答的特性与需求，通过各种方法解决和克服(或暂时回避)以上难点和困难，设计和开发问答系统。1.7相关评测自1999 年文本检索会议( Text Retrieval Conference ,简称TREC) 引入问答系统评测专项(Question Answering Track ,简称QA Track) 后,人们对基于自然语言的问答系统再次产生了浓厚的兴趣,在近些年的TREC 比赛中,QA Track 是最受关注的评测项目之一。日语问答评测平台Question Answering Challenge (QAC) 是从2002 年开始的,每两年举办一届。自NTCIR-5开始，其CLQA专项中加入中文评测语料，但目前尚未见有简体中文。由IST Programme of the European Union 资助的