资源预览内容
第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
亲,该文档总共8页全部预览完了,如果喜欢就下载吧!
资源描述
汉英机器翻译扩充词典的建造汉英机器翻译扩充词典的建造*刘群1,2 张彤21北京大学计算语言学研究所2中国科学院计算技术研究所liuqunict.ac.cn摘要:摘要:本文首先介绍了我们在“面向新闻领域的汉英机器翻译系统”中语言资源建设的总 体框架,然后着重介绍了其中扩充词典的建设方法。扩充词典是相对于核心词典而言的, 特点是词汇量大,每个词的信息相对较少。扩充词典的建设包括以下几个阶段:收集;格 式整理;词条拆分;词性标记归一化;词性标记补齐;词条合并。实验结果表明,采用这 种方法,利用较少的人工,就可以得到规模很大、并初步可用的双语机器翻译词典,并且 这部词典可以大大减少翻译中未定义词的数量,提高翻译的质量。关键词:关键词:机器翻译,双语词典获取引言引言现在的机器翻译研究,从一种劳动密集型的研究方式逐步过渡到了一种资源密集型的 研究方式。这二者的区别在于,在劳动密集型的研究方式中,语言学家的工作是为某个具 体的机器翻译系统开发词典、规则库等语言知识库,其工作依附于某个具体的机器翻译系 统,不具有独立性。而在资源密集型的研究方式中,语言学家和计算机工作者的分工更加 明确。语言学家的研究成果以语言资源的形式呈现出来,而不是仅仅为某一个机器翻译系 统服务,其工作具有一定的独立性。同时,这种分工导致了语言资源的共享,也使得计算 机工作者在算法的研究中对于语言资源的使用有了更广泛的选择余地。 本文简要介绍了我们在“面向新闻领域的汉英机器翻译系统”开发过程中语言资源建 设的总体规划和实施情况,然后详细介绍了其中一个子任务“扩充词典”建设的工作 流程、算法设计、实施过程和结果评价。1 语言资源建设的总体规划语言资源建设的总体规划我们在“面向新闻领域的汉英机器翻译系统”的开发过程中,非常重视语言资源的建 设。我们建立了一套完整的,覆盖语言知识各个层面的机器翻译语言资源建设规范,并启 动了一系列的语言资源建设子任务。这些子任务包括: 1.1汉语语义词典子任务汉语语义词典子任务:在原有语义词典基础上,完善规范、修改错误、补充词 语,构造一部完整的机器翻译用汉语语义词典。目前此项工作正在进行,目标 是将北京大学语法信息词典中的七万多汉语词语加入到语义词典中; 1.2汉英扩充词典子任务汉英扩充词典子任务:在原有核心词典的基础上构造一部机器翻译用扩充词典, 本文后面将详细介绍;* 本项目接受国家重点基础研究项目(973)资助,课题号为:G1998030507-4。1.3汉英短语库子任务汉英短语库子任务:收集汉英对照的短语,标记出短语结构信息,此项工作已 告一段落,目前收入短语 5 万余条; 1.4汉英双语语料库收集整理子任务汉英双语语料库收集整理子任务:收集、整理双语语料库、进行格式整理、篇 章标注、篇章对齐,此项工作第一阶段已经完成,收录大约 100 万汉字的汉英 对照新闻语料以及大量的其他类型语料,目前正在进行第二阶段工作; 1.5汉英双语语料库句子对齐子任务汉英双语语料库句子对齐子任务:在篇章对齐语料库基础上,完成段落对齐和 句子对齐,与上一个子任务一样,第一阶段已完成,完成了 100 万汉字的汉英 对照新闻语料的句子对齐(约 4000 句对) ,并整理其他类型句子对齐语料约 18 万句对。目前正在进行第二阶段工作; 1.6汉英双语语料库短语对齐子任务汉英双语语料库短语对齐子任务:在句子对齐语料库基础上,完成子句、最长 名词短语、基本名词短语以及其他一些特定类型短语的对齐,此项工作第一阶 段已经完成,大约完成了 3000 汉英句对的短语对齐工作。第二阶段还没有开始。本文主要介绍其中的第二项子任务:汉英扩充词典子任务。2 机器翻译的词典建设机器翻译的词典建设双语词典建设是机器翻译系统开发中的一个重要环节。 常见的机器翻译词典开发有以下几种方法: 1.人工开发:组织人力物力,从头开始开发。这种方法费时费力,但可以根据自己 的需要任意裁减所需信息,易于和翻译算法紧密结合; 2.利用已有的电子词典资源:目前通过各种方式可以获取的双语电子词典已有很多, 通过对这些词典进行收集整理,可以得到机器翻译用的双语词典。这种方法 的优点是可以充分利用已有资源,省时省力,缺点是各种不同来源的词典格$ 背 *vA v $=义项:“驮;负担“,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO, 补助动词:NO,语义类:搬移,配价数:2主体:语义类:人|动物,客体:语义类:具体事物, 处所:语义类:空间|集体 = V $=VSUBC:VO,VMORF:IREG,VD:bore,VN:borne,OBJTYPE:NP *vB1 v $=义项:“向;避“,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO, 补助动词:NO,语义类:自移|自为,配价数:1主体:语义类:人,客体:语义类:人类 = D $=DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE = V( !V P N ) %V=VSUBC:VI,VMORF:IREG,VD:did,VN:done *vB2 v $=义项:“诵“,谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动 词:NO,形式动词:NO,语义类:对待,配价数:2主体:语义类:人,客体:语义类:人为事物| 抽象事物 = V $=VSUBC:VO,VMORF:REGU,OBJTYPE:NP|CS *n n $=名词子类:na,前名:NO,前动:NO,后名:NO,名状语:NO,临时量词:NO,语义类: 构件 = N $=NSUBC:NCONT,GEND:NONE图 1:核心词典示例式、体例、属性字段等都不一致,词典质量参差不齐,整理加工比较麻烦; 3.从双语语料库中抽取词典:在各种双语对齐语料基础上,利用统计方法,从中抽 取双语对照词语。这种方法的优点是直接从语料中抽取,可以学习到一些活 的翻译方法,而这些译法很可能在词典中是找不到的,特别适用于一些专业 领域的词典抽取,或新词语的学习。不过这种方法依赖于学习算法的好坏, 会产生很多垃圾信息,要得到高质量的词典也需要较多的人工校对;学习到 的词典信息依赖于语料库,往往信息不够全面,最好作为已有词典的补充。 在我们的汉英机器翻译系统中,已经有了一部核心机器翻译词典,这部词典含汉语词 条(以词形 word type 计算)约五万,这部核心词典含有丰富的词法、句法、语义搭配信息 如图 1 所示。这部词典是采用上面所述的第一种方法,通过自己组织人力物力从头开发的。 词典采用文本形式存储,使用我们专门编写的词典管理工具进行管理。不过,在面对真实 的文本的时候,这个词典的规模就显得有点太小了,远远不能满足实际翻译的需要。在我 们的新版本机器翻译系统中使用了一个独立的分词程序,而这个分词程序所用的分词词典 就有词语 8 万多条,这样就导致很多分词程序切分出的词语无法翻译。面对这种情况,我 们决定采用上述的第二种方法,构造一部扩充的汉英机器翻译词典。3 扩充词典的收集与整理扩充词典的收集与整理3.1扩充词典的目标扩充词典的目标扩充词典(下面我们又称目标词典)应该满足以下三方面要求: 1.面向通用领域:扩充词典不是专业词典,不应该收入专业性太强的词语; 2.词汇量足够大:扩充词典的词汇量不应太少,按照我们事先的估计,至少应达到 2030 万词对的数量级; 3.每个词对的信息虽然不必像核心词典那么丰富,至少应该含有以下几个字段:汉语词语、汉语词性、英语词语、英语词性、置信度 而且汉语词性和英语词性的标记集应该与核心词典一致。我们称之为一个五元组。4.通过在多部词典中出现的频次的统计,也可以得到双语词对的置信度信息。这种 置信度信息虽然不是直接从双语语料库统计得到的,但也有一定的概率意义。 词典在收集过程中采用数据库进行管理,这样便于利用成熟的数据库管理工具进行操 作。最后得到的词典再通过文本形式提交给翻译程序,由翻译程序建立索引、进行查询。3.2扩充词典的收集扩充词典的收集确定了目标以后,我们开始从各种途径收集一些的英汉和汉英词典,加上我们原先的 一些积累,总共得到 6 部电子版的词典,本文把这六部词典称为原始词典。这些词典的总 体情况如下表所示:词典方向规模类型A英汉12 万词对背单词软件(各类大中学学英语课本、 英语学习类书籍共 30 余本)B汉英18 万词对书面词典C汉英17 万词对书面词典D汉英12 万词对网络词典E汉英8 万词对网络词典F汉英693 词对一些常用新词语表 1:扩充词典的来源3.3扩充词典的整理扩充词典的整理利用原始词典并不能通过简单合并得到所需的扩充词典。由于词典来源不一,导致了 很多问题。其中的主要问题包括: 格式不一致:由于词典来源不一,格式、体例都不一致,有的格式比较规整,有 的就比较混乱; 录入排版错误和格式错误:录入、排版、格式方面的错误很多,需要认真清理; 词性标记不一致:每部词典的词性标记都不一致,而且都与核心词典的词性标记 不一致; 词性标记不完整:很多词典甚至没有词性标记。 可以看到原始词典面临的问题是非常杂乱的,由于数量巨大,如果都采用人工校对的 方法,人力、物力的消耗都是难以承受的。为此我们主要采用了人机互助的办法,以自动 处理为主,对于一些自动处理无法解决的问题,辅以人工校对。实践证明,这种方法是成 功的,我们只采用了较少的人工校对,就得到了一部规模较大、初步可用的机器翻译扩充 词典。 扩充词典的整理按照以下几个步骤进行: 1.词条拆分:由于我们的目标词典的每个词条是一个五元组(汉语词语,汉语词性, 英语词语,英语词性,置信度) ,而原始词典中,往往是将一个源语言 词语解释成词性相同或不同的多个目标语词语,因此需要将一个原始词 典的词条拆分成一个或多个目标词典的词条。通过词条拆分,词典就可 以装入数据库中,后续的步骤都是在数据库上面进行操作。 2.格式整理:原始词典中存在大量的格式错误,需要校正,还有很多的附加信息(如 领域信息、解释性信息)需要滤掉。 3.词性标记归一化:由于每部原始词典的词性标记信息都不一致,而且与核心词典的 词性标记也不一致,因此要将原始词典的词性标记映射到核心词典的词 性标记; 4.词性标记补齐:由于原始词典中很多词没有词性标记,而目标词典中所有词条(五 元组)都必须有完整的词性标记,因此对于原始词典中缺少的词性标记 要补上,并给出置信度信息; 5.词条合并:将来自不同原始词典的相同词条合并为一个词条,同时将置信度求和。 下面我们分别就以上五个步骤介绍我们的具体做法。3.3.1 词条拆分词条拆分原始词典的词条可能是以下形式: complex=a. 复杂的, n. 复合体;综合建筑通过词条拆分,要变成以下形式:汉语词条汉语词性英语词条英语词性复杂的a.complex复合体n.complex综合建筑n.complex当然,实际操作并不这么简单,会遇到很多复杂的格式问题,有时还需要引入人工校 对。 通过这种方式,将原始词典从文本形式转换成了数据库形式,便于后面的进一步处理。3.3.2 格式整理格式整理每一部原始词典的格式都不相同,所以处理的方法也不尽相同。图 2 是其中一部词典 的格式处理过程。这种做法的好处有两点:1.自动处理阶段处理了大部分的格式问题。比如方括号的处 理,很大一部分的方括号都是领域信息,而领域信息的种类是有限的,只要把表示领域信 息的方括号处理好,剩下需要人工校对的工作量就很小了;2.通过这种逐级处理的方式, 每一次人工校对的工作都变得非常单一,这一方面减轻了校对者在工作中的大脑思维活动 的负担,使得校对国内工作的速度和质量都有所提高,同时也使得校对的工作量计算更为 合理,有利于控制成本。写入.ykh文件省略号自动处理或吗?写入.slh文件输出结果人工校对人工校对人工校对写入.fkh文件写入.err文件圆
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号