资源预览内容
第1页 / 共99页
第2页 / 共99页
第3页 / 共99页
第4页 / 共99页
第5页 / 共99页
第6页 / 共99页
第7页 / 共99页
第8页 / 共99页
第9页 / 共99页
第10页 / 共99页
亲,该文档总共99页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
机器翻译原理与方法 第二讲 机器翻译方法概述 中国科学院计算技术研究所2009年秋季课程 刘群 中国科学院计算技术研究所 liuqunict.ac.cn 2机器翻译原理与方法(02) 机器翻译方法概述 内容提要 机器翻译方法(按转换层面划分)机器翻译方法(按转换层面划分) 直接翻译方法直接翻译方法 句法转换方法句法转换方法 语义转换方法语义转换方法 中间语言方法中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法 3机器翻译原理与方法(02) 机器翻译方法概述 按转换层面划分的机器翻译方法 源语言 目标语言 中间语言 直接翻译 句法转换 语义转换 形态分析形态生成 句法分析句法生成 语义分析语义生成 4机器翻译原理与方法(02) 机器翻译方法概述 内容提要 机器翻译方法(按转换层面划分) 直接翻译方法直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法 5机器翻译原理与方法(02) 机器翻译方法概述 直接翻译方法 通过词语翻译、插入、删除和局部的词序调整来 实现翻译,不进行深层次的句法和语义的分析, 但可以采用一些统计方法对词语和词类序列进行 分析 早期机器翻译系统常用的方法,后来IBM提出的 统计机器翻译模型也可以认为是采用了这一范式 著名的机器翻译系统Systran早期也是采用这种方 法,后来逐步引入了一些句法和语义分析 6机器翻译原理与方法(02) 机器翻译方法概述 内容提要 机器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法 7机器翻译原理与方法(02) 机器翻译方法概述 转换方法 (1) 整个翻译过程分为“分析”、“转换”、“生成”三个 阶段; 分析:源语言句子?源语言深层结构 相关分析:分析时考虑目标语言的特点 独立分析:分析过程与目标语言无关 转换:源语言深层结构?目标语言深层结构 生成:目标语言深层结构?目标语言句子 相关生成:生成时考虑源语言的特点 独立生成:生成过程与源语言无关 8机器翻译原理与方法(02) 机器翻译方法概述 转换方法 (2) 理想的转换方法应该做到独立分析和独立生 成,这样在进行多语言机器翻译的时候可以大 大减少分析和生成的工作量; 转换方法根据深层结构所处的层面可分为: 句法层转换:深层结构主要是句法信息 语义层转换:深层结构主要是语义信息 分析深度的权衡 分析的层次越深,歧义排除就越充分 分析的层次越深,错误率也越高 9机器翻译原理与方法(02) 机器翻译方法概述 转换方法 (3) 形态生成 源文结构 源文词串 源文句子 译文结构结构转换 结构分析 基于转换方法的翻译流程 结构生成 形态分析 译文词串 译文句子 词语转换 10机器翻译原理与方法(02) 机器翻译方法概述 句法层面的转换方法 (1) 她把一束花放在桌上。 She put a bunch of flowers on the table. 她/r 把/p-q-v-n 一/m-d 束/q 花/n-v-a 放/v 在/p-d-v 桌/n 上/f-v 。/w 她/r 把/p 一/m-d 束/q 花/n 放/v 在/p-v 桌/n 上/f-v 。/w 切分标注 标注排歧 11机器翻译原理与方法(02) 机器翻译方法概述 句法层面的转换方法 (2) 句法分析 她/r 把/p 一/m-d 束/q 花/n 放/v 在/p-v 桌/n 上/f-v 。/w 她 zj dj vp 。 vp pp 放 ps 上桌在 pp pnp mpn 一束花把 n 12机器翻译原理与方法(02) 机器翻译方法概述 句法层面的转换方法 (3) R/她 NP/np SS/zj CS/dj VP/vp VP/vp NP/pp PP/pp V/放 #/pPP/sp P/上 N/桌 #/pNP/np NP/mp P/#NP/np T/一 N/束 of N/花W/。她 zj dj vp 。 vp pp 放 ps 上桌在 pp pnp mpn 一束花把 n 句法结构转换 13机器翻译原理与方法(02) 机器翻译方法概述 句法层面的转换方法 (4) N/她 NP/np SS/zj CS/dj VP/vp VP/vp NP/pp PP/pp V/放 #/pPP/sp P/上 N/桌 #/pNP/np NP/mp P/#NP/np T/一 N/束 of N/花W/。N/她 NP/np SS/zj CS/dj VP/vp VP/vp V/放W/。 NP/pp #/pNP/np NP/mp P/#NP/np T/一 N/束 of N/花 PP/pp #/pPP/sp P/上 N/桌 句法结构生成 14机器翻译原理与方法(02) 机器翻译方法概述 句法层面的转换方法 (5) She puts a bunch of flowers on table . N/她 NP/np SS/zj CS/dj VP/vp VP/vp W/。 V/放 NP/pp #/pNP/np NP/mp P/# NP/np T/一 N/束ofN/花 PP/pp #/p PP/sp P/上N/桌 词语 转换 与 词语 生成 15机器翻译原理与方法(02) 机器翻译方法概述 内容提要 机器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法 16机器翻译原理与方法(02) 机器翻译方法概述 中间语言方法 (1) 利用一种中间语言(interlingua)作为翻译的中介 表示形式; 整个翻译的过程分为“分析”和“生成”两个阶段 分析:源语言?中间语言 生成:中间语言?目标语言 分析过程只与源语言有关,与目标语言无关 生成过程只与目标语言有关,与源语言无关 17机器翻译原理与方法(02) 机器翻译方法概述 中间语言方法 (2) 中间语言方法的优点在于进行多语种 翻译的时候,只需要对每种语言分别 开发一个分析模块和一个生成模块, 模块总数为2*n,相比之下,如果采用 转换方法就需要对每两种语言之间都 开发一个转换模块,模块总数为n*(n-1) 18机器翻译原理与方法(02) 机器翻译方法概述 中间语言方法 (3) 语言1语言2 语言4语言3 中间 语言 中间语言方法 语言1语言2 语言4语言3 转换方法 19机器翻译原理与方法(02) 机器翻译方法概述 中间语言方法 (4) 中间语言的类型 自然语言:如英语、汉语 人工语言:如世界语 某种知识表示形式:如语义网络 以某种知识表示形式作为中间语言的机器 翻译方法有时也称为基于知识的机器翻译 方法 20机器翻译原理与方法(02) 机器翻译方法概述 中间语言方法 (5) Makoto Nagao (Kyoto University) said: “ when the pivot language i.e. interlingua is used, the results of the analytic stage must be in a form which can be utilized by all of the different languages into which translation is to take place. This level of subtlety is a practical impossibility.” (Machine Translation, Oxford, 1989) Patel-Schneider (METAL system) said: ”METAL employs a modified transfer approach rather than an interlingua. If a meta-language an interlingua were to be used for translation purposes, it would need to incorporate all possible features of many languages. That would not only be an endless task but probably a fruitless one as well. Such a system would soon become unmanageable and perhaps collapse under its own weight.” (A four-valued semantics for terminological reasoning, Artificial Intelligence, 38, 1989) 21机器翻译原理与方法(02) 机器翻译方法概述 中间语言方法 (6) 基于中间语言方法一般都用于多语言的机器翻译系统中; 从实践看,采用某种人工定义的知识表示形式作为中间语言进 行多语言机器翻译都不太成功,如日本主持的亚洲五国语言机 器翻译系统,总体上是失败的; 在CSTAR多国语口语机器翻译系统中,曾经采用了一种中间 语言方法,其中间语言是一种语义表示形式,由于语音翻译都 限制在非常狭窄的领域中(如机票预定),语义描述可以做到 比较精确,因此采用中间语言方法有一定的合理性。 在统计机器翻译中,很多研究人员开始采用某种自然语言作为 中间语言(这时又称“枢纽语言”,或Pivot Language),枢纽 语言目前以英语为主,主要原因是英语到其他语言的双语语料 库比较容易获得,而其他语言直接的双语语料库很难获得。 22机器翻译原理与方法(02) 机器翻译方法概述 中间语言示例语义网络 英语:He bought a book on physics. 汉语:他买了一本关于物理学的书。 #one #physics #book#buy#he 施事受事 数量 领域 说明:这里#后面表示的是概念,而不是英语词。 23机器翻译原理与方法(02) 机器翻译方法概述 中间语言示例语义网络 英语:He bought a book on physics. 汉语:他买了一本关于物理学的书。 谓词概念#buy 施事概念 概念 数量 领域 #he 受事#book #one #physics 说明:这里#后面表示的是概念,而不是英语词。 24机器翻译原理与方法(02) 机器翻译方法概述 中间语言示例概念词典 概念语义类 中文词 英文格框架 #he指代词 获得 出版物 学科 他 数量 #buy买 he buy book physics 施事,受事 #book书 one #physics物理 #one一 25机器翻译原理与方法(02) 机器翻译方法概述 内容提要 机器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分)机器翻译方法(按知识表示形式划分) 基于规则的方法基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法)基于实例的方法(含模板方法、翻译记忆方法) 统计方法统计方法 26机器翻译原理与方法(02) 机器翻译方法概述 按知
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号