资源预览内容
第1页 / 共78页
第2页 / 共78页
第3页 / 共78页
第4页 / 共78页
第5页 / 共78页
第6页 / 共78页
第7页 / 共78页
第8页 / 共78页
第9页 / 共78页
第10页 / 共78页
亲,该文档总共78页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
意见目标网络与意见 目标抽取研究 Theoretical Analysis on Opinion Target Network and Opinion Target Extraction (申请清华大学工学硕士学位论文) 培 养 单 位 : 计算机科学与技术系 学 科 : 计算机科学与技术 研 究 生 : 郝 博 一 指 导 教 师 : 郑 方 研 究 员 二一年六月 意 见 目 标 网 络 与 意 见 目 标 抽 取 研 究郝 博 一关于学位论文使用授权的说明 本人完全了解清华大学有关保留、使用学位论文的规定,即: 清华大学拥有在著作权法规定范围内学位论文的使用权, 其中包括: (1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文; (2)为教学和科研目的, 学校可以将公开的学位论文作为资料在图书馆、 资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容。 本人保证遵守上述规定。 作者签名: 导师签名: 日 期: 日 期: 摘 要 I 摘 要 意见目标抽取是意见挖掘领域的重要子任务,同时由于意见目标抽取的对象是客观性信息,又使得它与信息抽取技术有着密切的关系。先前的意见目标抽取研究,存在四个主要弊病:1)对意见目标定义含糊。2)对意见目标管理低效。3)意见目标扩展抽取时使用的种子颗粒度偏大。4)过分依赖统计方法,句法分析不足。针对以上问题,本文在首先明晰了意见目标定义的基础上,提出了一种能结构化表示意见目标的高效管理体系意见目标网络,以及一套基于泛化与繁殖的自举式意见目标抽取算法。 意见目标网络是一个双层有向图,它以原子意见目标(广义实体和属性)同义词集为结点,通过意见目标模式实现了对复合意见目标的表示。意见目标网络的构建过程恰恰是未知意见目标抽取过程,配合基于泛化和繁殖的多轮自举处理,显著提高了意见目标抽取覆盖率。本文在中文评价文本上进行了实验,结果表明:意见目标网络对发现未知意见目标具有很好的性能。 关键词:意见目标抽取 意见挖掘 信息抽取 术语抽取 意见目标网络 Abstract II Abstract Opinion Target Extraction (OTE) is an important subtask of Opinion Mining (OM). Meanwhile, as opinion targets carry factual information, OTE task has a close relationship with Information Extraction (IE). There are four disadvantages in previous research: 1) Having no clear definition of opinion target. 2) Inefficient management of opinion targets. 3) Manually compiled opinion targets are too large to be sound seeds. 4) Depending too much upon statistical methods, lack of parsing. To deal with this, a definition of opinion target is proposed first in this paper, followed by a structual management model of opinion target with high efficiency and a new method for opinion target extraction based on generalization, propagation and bootstrapping. The opinion target network (OTN) is proposed in this paper to organize atom opinion targets (AOT) of generalized entity and attribute in a two-layer directed graph. OTN use nodes to show synsets of AOT and paths to show compound opinion targets (COT). With multiple cycles of OTN construction, a higher coverage of opinion target extraction is achieved via generalization and propagation. Experiments on Chinese opinion target extraction show the OTN is promising in handling the unknown opinion targets. Keywords: opinion target extraction opinion mining information extraction term extraction opinion target network 目 录 III 目 录 第 1 章 引言 . 1 1.1 事实与意见 . 1 1.2 信息抽取 . 2 1.3 意见挖掘 . 3 1.4 意见目标抽取 . 7 第 2 章 相关技术综述 . 9 2.1 术语抽取 . 9 2.1.1 基于统计的术语抽取 . 9 2.1.2 统计与规则相结合的术语抽取. 12 2.2 意见目标抽取 . 13 2.2.1 基于规则的意见目标抽取. 13 2.2.2 基于同现的意见目标抽取. 14 2.2.3 基于关系的意见目标抽取. 14 2.3 其他 . 15 第 3 章 问题分析 . 16 3.1 任务目标 . 16 3.2 难点分析 . 17 3.3 解决思路 . 19 3.3.1 意见目标 . 19 3.3.2 现有方法的弊病 . 21 3.3.3 解决方案 . 24 3.4 解决思路后文结构. 24 第 4 章 统计与句法分析相结合的意见目标抽取方法 . 26 4.1 介绍 . 26 4.2 算法架构 . 27 4.2.1 算法结构及流程 . 27 目 录 IV 4.2.2 候选意见目标抽取 . 28 4.2.3 特征向量生成 . 31 4.2.4 候选意见目标排队 . 33 4.3 实验 . 34 4.3.1 实验数据与评测标准 . 34 4.3.2 实验方法 .
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号