资源预览内容
第1页 / 共61页
第2页 / 共61页
第3页 / 共61页
第4页 / 共61页
第5页 / 共61页
第6页 / 共61页
第7页 / 共61页
第8页 / 共61页
第9页 / 共61页
第10页 / 共61页
亲,该文档总共61页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
词义排歧的提出及其意义毕业论文目录摘要IAbstractII引言11 问题描述31.1 词义排歧的提出及其意义31.1.1 词义排歧31.1.2 词义排歧研究的意义41.2 国外的研究状况51.2.1 有指导排歧方法51.2.2 基于词典的排歧方法91.2.3 无指导的排歧方法101.3 面临的主要问题111.3.1 上下文选择111.3.2 词义的划分121.4 词义排歧的评测方法121.5 本文的工作122 面向WSD的AdaBoost.MH算法模型142.1 基本概念142.2 AdaBoost.MH算法简介152.2.1 AdaBoost算法背景152.2.2 AdaBoost算法基本思想162.2.3 算法误差的分析182.2.4 多类分类问题202.2.5 AdaBoost算法的优缺点202.3 面向WSD的AdaBoost.MH算法描述212.4 弱学习器的设计及的选取223 上下文特征的选择253.1 相邻词的词性标注(POS)253.2 局部搭配信息263.3 语义畴信息263.3.1 同义词词林简介263.3.2 对同义词词林中未登录词的处理283.3.3 语义畴信息的选取294 汉语AdaBoost.MH - WSD实验304.1 语料库304.1.1 人民日报语料304.1.2 SENSEVAL3 中文语料304.2 实验评测及结果314.2.1 人民日报语料实验结果与评测324.2.2 SENSEVAL3 中文语料实验结果与评测324.3 算法中迭代次数的确定344.4 语义信息的引入对排歧效果的影响354.4.1 人民日报语料实验354.4.2 SENSEVAL3 中文语料实验365 自动建立带标注的语料库的方法385.1 自动构建标注语料库的模型385.1.1 搜索关键字的建立395.1.2 语料库的建立和修剪405.2 语料库可用性的评测实验与分析425.2.1 语料库425.2.2 语料库中搜索到的新搭配425.2.3 上下文特征的选取425.2.4 实验结果及评测42结论45参 考 文 献46附录ASENSEVAL3中文语料示例49附录B标注语义畴信息的语料示例51附录C同义词词林语义信息示例53附录D同义词词林扩展版语义信息示例54攻读硕士学位期间发表学术论文情况55致谢56理工大学学位论文使用授权书57 .专业.专注. 引言计算语言学(Computational Linguistics)是一个横跨语言学、数学和计算机科学的新兴交叉学科1。它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的2。计算语言学的研究工作分为两个方面。第一,从计算的角度来研究语言的性质;第二,将语言作为计算对象来研究相应的算法。所谓从计算的角度来研究语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。所谓将语言作为计算对象来研究相应的算法,就是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括识别一个语言片断(比如词组、句子或篇章)中的大小语言单位,分析该语言片断的结构和意义(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等。自然语言处理(Natural Language Processing)是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。它属于计算语言学的算法部分1,并经过如下的过程把需要研究的语言学问题加以形式化,使之能以一定的数学形式或者接近于数学的形式,严格而规整地表示出来;把这种严格而规整的数学形式表示为算法,使之在计算上形式化;根据算法编写计算机程序,使之在计算机上加以实现。自然语言处理是人工智能研究的最重要的课题之一。人类知识大都是以语言的形式表示并流传下来的,据统计,在信息领域中80%以上的信息是以语言文字为载体的。自然语言处理的重大突破,将为知识获取开辟重要来源。同时它也将触发人机接口革命。它将使计算机具有听、说、读、写的能力,人们可以用自然语言和计算机交流,这将给使用者带了极大的方便。自然语言处理系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。机器翻译将使人们跨越语言壁垒,让全世界的人顺利交流,让每个用户都能共享因特网的浩瀚信息和无限商机。语言是音义结合的符号系统,而词是语言中能够独立运行的最小符号。因此,研究语言符号的意义都以词作为基本单位3。在自然语言处理领域,词义排歧在机器翻译、信息检索、句子分析和语音识别等自然语言处理的许多领域有十分重要的用途。因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。任何一个课题的研究与它所在的领域的研究方法息息相关,与当时所具有的各种条件密切相关,词义排歧问题的研究也不例外。它经历了基于直觉的理性主义方法,即定性的方法到基于观察的经验主义方法,即统计方法5的发展过程。进入九十年代以后,随着计算机事业的蓬勃发展,计算机存储容量和运算速度的飞速提高,计算语言学的研究也进入了一个崭新的历史阶段,即语料库语言学的时期3。通过使用大规模的语料库,计算机能够自动获得各种统计数据,以此来解决规则方法中知识空缺问题。在大规模真实文本处理中,基于统计的方法与基于规则的方法相比体现出以下优势:(1)统计方法获取的知识一致性好。而规则方法,由于每个人思考问题的不同,而会采取不同的处理方法,当需要添加新的规则时,又必须注意协调与已有规则的关系,避免规则之间产生矛盾。(2)统计方法比较灵活,覆盖面比较广,可以获取语言中那些经验性的、小粒度的知识,能更好的覆盖各种复杂纷繁的语言现象。目前在语言处理的各个层面上,基于统计的方法几乎都在发挥着重要的作用。机器学习是对具有学习能力的计算机算法以其经验不断改进其完成任务效果的研究。它是人工智能的一个领域,是知识获取的一个过程。机器学习是一种归纳学习,即对已分类的数据,通过归纳其分类的原因,产生一些概念性描述作为学习的结果。在词义排歧领域,近几年国外许多研究人员将统计学和机器学习引入到词义消歧的处理中,提出基于语料库的多义词处理方法。从语料库中学习的方法主要有有指导学习和无指导学习两种。一般来说,有指导的消歧方法要比无指导的方法有更好的效果。本文的主要工作是研究在标注语料库支持下的有指导的词义排歧算法和利用WWW资源自动构建标注语料库两个方面。1 问题描述1.1 词义排歧的提出及其意义1.1.1 词义排歧词义指一个词所具有的意义,文本的词义标注就是给文本中每个词表上在所属上下文环境中对应的意义编码。这个意义编码可以有以下四种形式4: 1)是某个义类词典中的词条所对应的一类代码(如 同义词词林中的义类代码);2)是普通词典中一个词条下释义文本对应的编号(如 现代汉语通用词典中对词条的义项编号);3)是在转换词典中一个词条对应得目标词,即一种语言中的词对另一种语言的翻译词;4)是在概念词典中概念的定义项(如How-Net中概念的定义)。如“材料”一词,在辞海里面共有3个不同的义项:义项1:可以直接造成成品的东西;义项2:可供写作或参考的事实或文字资料; 义项3:比喻适于做某种工作的人。例如,在机器翻译过程中,当翻译系统遇到如下含有“材料”的句子时,系统就要根据上下文的信息,给句子的多义词 “材料” 选择一个合适的义项,作为多义词的词义。这个过程就是词义排歧。以/p/Kb05 树叶/n/Bh11 、/wp/-1 彩布条/n/Bq01 和/c/Kc01 香烟盒纸/n/Bp17 为/v/Ja01 材料/n/Ba06 的/u/Kd01 贺卡/n/Bp18 ,/wp/-1 做工/v/Hj21 虽/c/Kc04 简/a/Ed37 ,/wp/-1 其/r/Ba10 情/n/Df04 却/d/Ka33 浓/a/Eb12 。/wp/-1对于这个句子,翻译系统中的词义排歧就是指系统根据上下文信息给出多义词“材料”对应的上述正确义项1(可以直接造成成品的东西)的过程。多义词情况,无论是汉语还是西方语言(如英语、法语)一词多义现象普遍存在。本文对同义词词林中的多义词情况进行了统计(参见表1.1)。因此,词义标注的任务就是在某个特定的上下文中,确定多义词所属意义代码,因此词义标注方法的研究实际上就是词义排歧方法的研究。表1.1 同义词词林中多义词的分布情况表一个义类二个义类三个义类三个义类以上总数歧义比例一字词1973833397571377448.0%二字词2815438375721183268116.0%二字以上词12597999966136989.0%总计42724566910656955015414.8%1.1.2 词义排歧研究的意义词义排歧一直是自然语言处理研究领域十分重要的问题和研究热点之一。它的研究从50年代初期机器翻译的研究起一直收到人们的关注。 词义排歧任务本身是一个中间任务,是大多数自然语言处理任务的一个必不可少的中间层次,在自然语言中有着重要用途5。例如:1) 机器翻译:机器翻译中的词义排歧有其特殊性,它以目标词区分单词词义。在机器翻译中找一个词的目标词是一重要问题,词义排歧问题解决的好坏直接影响译文质量。例如:在汉英机器翻译系统中,“interest”在汉语中对应两个目标词“利益”或“利息”,在具体翻译时必须根据当前的上下文确定“interest”的正确词义,以翻译成正确的目标词。2) 信息检索和信息分类:在信息检索和信息分类中,受一词多义的影响,系统可能检索出一些包含同义词但是具有不同意义的文本。如:想检索一些与文档相关的参考资料时,可能以“材料”作为检索词。若只根据词型检索,则检索出来所有含有“材料”的文章,在这些文章中有些可能是关于“生产材料”的文本,得到不必要的检索结果。因此在信息检索中词义排歧也具有重要作用。3) 句法分析:在识别句子的语法结构时,词汇的语义也起着重要作用。因为语法歧义现象在各种语言中普遍存在,而解决这一问题的关键方法就是引入词义,也就是要依靠句子中词的意义来确定此时句子的结构。如“参观 图书馆 的 大厅”和“参观 图书馆 的 人们”同样具有“V+N+的+N”的词性序列,但却有着不同的句法结构,标上词义后可以靠这些词性之间的不同语义搭配确定它们的结构。4) 自然语言理解:确定句子的语义结构时,必须考虑句子中每个词的词义。在已知句子中每个词的词义前提下,通过语义分析能够得到句子的语义结构,如句子的格结构。5) 语音识别和音字转换:基于词的N元模型只考虑了词之间的接续关系,在识别结果中存在词之间无意义联系的句子,造成识别错误。在引入词义后,可以得到意义之间的接续关系,提供词在意义一级上的接续关系,在一定程度上避免这样的错误。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号