资源预览内容
第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
第9页 / 共25页
第10页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
毕业论文答辩毕业论文答辩题目:基于文本语义的复杂实体识别系统的 设计与实现答辩人:XXX导 师:XXX (副)教授1课题研究的主要内容2系统相关技术与算法3系统功能结构与模块设计4训练数据集与结果分析答辩提纲课题研究内容本课题研究的是复杂数据上的实体识别技术,即基于文本在 语义上的特征来实现对文本数据的识别,具体可分为以下两个 方面:(1)构建文本向量空间模型,分析两个文本在语义上的相 似性,判断是否同一类型。(2)构建词向量空间模型,分析文本-类别相似度,对未知 文本进行分类。相关技术复杂数据上的实体识别技术(XML数据、图数据、文本数据)(1)成对的实体识别:相似性算法实现(2)成组的实体识别:构建分类模式实现相关算法 (1)余弦相似算法: 基于文本向量空间模型的分析方法,利 用向量运算简化文本运算。 (2)Jaccard相似算法:从集合角度分析文本相似的方法,利 用集合运算简化文本运算。 (3)基于词向量空间模型(WVSM)的文本分类算法:构建分类 模式来进行文本分类。对训练文 本进行预 处理,生 成词列表计算信息 增益(IG ),选择 特征词根据特征 词列表, 生成特征 词向量根据特征 词向量, 计算支持 度矩阵根据支持 度矩阵, 计算文本 -类别相 似度系统功能结构主窗体文本分类模块相似分析模块预处理模块文 本 浏 览分 词 处 理词 性 过 滤词 频 分 析文 本 浏 览余 弦 相 似 分 析杰 卡 德 相 似 分 析单 个 文 本 分 类批 量 文 本 分 类系统处理流程 文本数据预处理相似分析文本分类计算相似系数相似结论计算文本-类别 相似度分类结果余弦相似分析 Jaccard相似分析输入阈值或选择 默认阈值计算支持度矩阵 生成分类模式选择相似度最大 值对应的类别(成对的实体识别 )(成组的实体识别 )预处理模块设计预处理模块用例图预处理模块设计预处理模块类图(1)分词处理流程图 (2)词性过滤流程图调用系统内 部集成的分 词软件进行 处理利用停用 词表进行 过滤(3)词频分析流程图统计特征词 频数相似分析模块设计相似分析模块用例图相似分析模块设计相似分析模块类图(1)余弦相似分析流程图余弦相似算 法计算特征 词向量之间 的余弦值(2)Jaccard相似分析流程图Jaccard相似 算法计算相 似系数文本分类模块设计文本分类模块用例图文本分类模块设计文本分类模块类图(1)单个文本处理流程图 (2)批量文本处理流程图相关分类算 法计算文本- 类别相似度相关分类算 法依次计算 文本-类别 相似度训练文本数据集对于本文所研究 的文本分类算法,采 用的训练文本数据是 复旦大学自然语言处 理小组所收集的训练 语料。本文只截取了 该训练语料的一部分 ,共15个类别每个类 别15篇,共225篇训 练文本。训练文本数 据来源分布如右图所 示。训练文本集来源分布图文本相似结果分析(应用成对的实体识别技术)默认阈值0.5默认阈值0.4结论:这两篇文本相似度很高,可以认为是相同类型。文本分类结果分析(应用成组的实体识别技术)训练数据集统计表文本分类结果图训练集 类别/个 文本数/篇1 15 1002 15 1553 15 225附录:词性过滤测试结果 词频分析测试结果附录:相似分析测试结果 附录:文本分类测试结果 恳请各位老师批评指正 !
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号