资源预览内容
第1页 / 共27页
第2页 / 共27页
第3页 / 共27页
第4页 / 共27页
第5页 / 共27页
第6页 / 共27页
第7页 / 共27页
第8页 / 共27页
第9页 / 共27页
第10页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
问答系统问题分类文勖 2004-6-20问答系统总体框架问答系统总体框架 问答系统的简单流程问题分类查询扩展文本检索答案抽取答案排序和选择目前问答的小组成员 1. 张老师总体指导负责 2. 文勖问题分类 3. 王丽娟查询扩展 4. 赵世奇答案抽取 5. 汤云山答案排序和选择陈儒负责调用google api,去掉导航信息, 负责几个模块的连接和 界面设计,调试等等具体例子 1. 系统输入:用户输入问题“第一个进入太空的中国人是谁” 2. 问题分类:HUM_PERSON 3. 查询扩展(王丽娟讲解) 4. 文本检索: (1)杨利伟是第一个进入太空的中国人,他于2003年10月15日乘神州 五号进入太空,开始了21个小时的太空之行 (2)杨利伟是第一个进入太空的 中国人,第431位进入太空的地球人。. 当飞船绕地球运行第八圈时 5. 答案抽取(世奇讲解) 6. 答案排序和选择(根据编辑距离进行聚类) 7. 系统输出:杨利伟问题分类 我所用的两种算法 SVM算法(用的是 http:/www.csie.ntu.edu.tw/cjlin/libsvm/所提供 的libsvm-2.6程序包 ) 简化贝叶斯算法利用布尔权值的SVM 布尔权重的数学表示: 具体操作: 类似于文本分类,首先去掉停用词,把同一类型 的所有问题实例都作为一个文本Libsvm的输入格式 : . : . : .输入格式的一个例子 HUM_PERSON 谁/r 发现/v 镭/n HUM_PERSON 谁/r 发现/v 美洲/ns 谁/r (323) 发现/v(4523) 镭/n(23355) 谁/r(323) 发现/v(4523) 美洲/ns(132) Libsvm要求的输入格式为: 1 323:1 4523:1 23355:1 1 323:1 4523:1 132:1训练和测试 假设训练文件为index_file,通过svmtrain.exe 进行训练得到训练模型index_file.model 假设测试文件为test_file,通过svmpredict.exe 进行测试得到测试结果存放到result_file简化贝叶斯分类 假设词与词之间是相互无关的 对一个问句Q,首先进行分次和词性标注, 去掉停用词,得到如下形式:Q1 Q2Qn。 qc为问题类型的变量 我们的目标:简化贝叶斯分类(续)因为分母相同,只需处理我们假设有下式成立简化贝叶斯分类(续)如何计算权值?N=65类别总数目表示term和qci的共现频率Tf-idf权值处理 对P(qc,term)进行降低权值的处理,处理理由 如下: 1.如果一个词在某个问题类型中出现的次数 越多,那么它与该问题主体的关联性越强; 2.如果一个词在集合中很多问题类型中都出 现多次,那么它对分类的贡献就小。 基于此,我们采用了tf-idf进行权值处理。Tf-idf公式 Tf-idf公式 参数含义: 其中N和上面的一样,N=65,M表示term在 M种问题类型中出现。 Tf-idf二次处理 首先看看不太均匀的语料库训练语 料中实例最多的几个 类别训练库 中的实例数HUM_PERSON345OBJ_OTHER235DES_OTHER252LOC_OTHER209DES_REASON164Tf-idf二次处理(续)训练语 料中 实例最多的 几个类别实 例总数总的实例数 目占的比例345+235+252 +209+164=12 0533001/3Tf-idf二次处理(续) 针对我们语料库分布不太均匀和汉语的特点 ,对某些特定的词项再次降低了权值 ,DES_OTHER中的什么/r,LOC_OTHER中 的什么/r,哪个/r,DES_REASON中的什么/r ,OBJ_OTHER中的什么/r,TIME_OTHER 中的什么/r,我们再次运用tf-idf。Tf-idf二次处理(续) 例如在考虑DES_OTHER类型中的“什么/r” counter(DES_OTHER, 什么/r)= counter(DES_OTHER, 什么/r)*log X为语料库中DES_OTHER的问题实例数目 ,Y为“什么/r”在DES_OTHER出现的次数, 即通过这样的降低权值以后,性能有了一定 的提高。 确定问题类型 找到使 取最大值的问题 类型qc* 例子 用户输入(系统输入): 中国哪个地区的气候最好 预处理后得到: 中国/ns 哪个/r 地区/nz 气候/n 最好/d 假设只有两个问题类型 LOC_OTHER(0),DES_OTHER(1)进行分类 具体为: 比较 和实验结果及分析 分类器训练集数目测试集数目分类 然而SVM的分类结果却让人非常遗憾,对很多的测 试问题都分到训练集中问题实例较多的那5个类。 实验结果让人沮丧。 以上的测试集是小百科全书的问题集的一部分,问 题分布不太均匀。分类器训练 集数 目测试 集数 目分类正确 数准确率简化贝叶 斯329598071072.4%实验结果分析 产生分类结果不好的原因主要有以下这些: 1. 训练集实例分布极其不均匀 2. 由于文本分类和问题 分类存在一些差异, 所以单纯 的借用文本分类的思想还有一些缺 陷,比如单纯 的利用布尔权值 已经损 失了很 大一部分信息,这样势 必会对分类有很大影 响。实验结果分析 3. 分词和词性标注的错误对分类有一些影响 ,例如对于“他的大作为什么会出名” 这个问 题,若分词分成了“他 的 大 作为 什么 会 出 名” 或者“他 的 大作 为什么 会 出名”,前者分 词错误,所以很可能不能正确的分类到原因 类 实验结果分析(续) 4. 定义问题类型的数目较多N=65,一般是20 左右个类,(17个类,87%的准确率) 5. 算法也需要改进The endThanks
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号