资源预览内容
第1页 / 共63页
第2页 / 共63页
第3页 / 共63页
第4页 / 共63页
第5页 / 共63页
第6页 / 共63页
第7页 / 共63页
第8页 / 共63页
第9页 / 共63页
第10页 / 共63页
亲,该文档总共63页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
自然语言理解(Natural Language Understanding, NLU),也称为计算语言学 (ComputationalLinguistics),是研究如何利用计算 机来理解和生成自然语言的理论和方法 它是人 工智能三大研究方向之一;是一门自然科学和社会 科学交叉的学科,特别是计算机科学、数学、语言 学、心理学和哲学相互交叉的科学。自然语言理解与机器翻译Date1 自然语言就是我们生活中使用的语言,如汉语、 英语、日语等等它是相对于人工设计的形式化 的计算机语言如Basic、Fortran、C、Lisp等等 而言的随着社会信息化程度的提高,人们越来 越重视NLU技术的研究其研究成果已经在机器 翻译、信息检索、自然语言人机接口等重要领域 得到应用。 机器翻译(Machine Translation,MT)是自然语 言处理中的一个最早的研究分支, 它是利用计 算机把一种自然语言转变成另一种自然语言的过 程。用以完成这一过程的软件叫做机器翻译系统 。Date2机器翻译和自动文摘Date3机器翻译内容提要 机器翻译定义 机器翻译的发展历史 机器翻译现状 机器翻译方法 机器翻译发展趋势 机器翻译应用系统类型 结语Date4什么是机器翻译 机器翻译(machine translation)是使用电子计算机 把一种自然语言(源语言,source language)翻译成 另外一种自然语言(目标语言,target language)的 一门学科 这门新学科同时也是一种新技术.它涉及到语言学 、计算机科学、数学等许多部门,是非常典型的多 边缘的交叉学科Date5一些研究领域 -在语言学中,机器翻译是计算语言学的一 个研究领域 -在计算机科学中,机器翻译是人工智能的 一个研究领域 -在数学中,机器翻译是数理逻辑和形式化 方法的一个研究领域.Date6机器翻译的发展历史 机器翻译的发展经历了兴起、低落和重新 兴盛的曲折历程。在昌盛的时候,人们为 研究成果的精彩纷呈和应用的成功而欢呼 ,即使在低潮时,人们也在不断地反思, 为重新发展积蓄力量。 国外的状况 国内的状况Date7国外状况(1) 机器翻译最早开始于美国, 自本世纪4O年代电 子计算机诞生之日起就开始了将计算机应用于语 言翻译的探索。 1949年,美国工程师WWeaver散发了题为“翻 译” 的备忘录,对机器翻译的重要性及可行性进 行了论证。Weaver 首先提出了用统计方法进行 机器翻译的想法。 1952年,第一次全美机器翻译会议召开。Date8国外状况(2) 1954年机器翻译创刊,同年,Georgeton( 乔治城大学)大学成功研制了第一个机译系统, 由此机器翻译掀起热潮。 1966年,Barlill在美国全国科学院的ALPAC报告 中指出:机器翻译速度慢,准确率差, 比人工 翻译费用高得多,在近期或可以预见的未来, 开发出实用的机器翻译系统是不可能的。各部门 纷纷停止了对机器翻译研究的经费支持,从而导 致机译走向低潮。Date9国外状况(3)-低潮期机译研究 GETA(Grenoble-France)在 Bernard Vauquois 教授 领导下,开发了基于配价语法的机器翻译系统,研 制了机器翻译专用软件ARIANE,推动了逻辑程序 设计的研究。 TAUM-METEO (University of Montreal, 从1977 开 始研制了实用性机器翻译系统(English-French,) TAUM,翻译天气预报文献,在技术上,TAUM 继 承了 GETA 的机器翻译方法。 SYSTRAN:这个系统在Apollo-Soyuz 空间研究方 面承担了机器翻译的任务,立下汗马功劳,后来被 EEC 正式采用,作为重要的翻译工具。Date10Date11国外状况(4)-复苏1970年代末,机器翻译进入了它的第三个 时期-繁荣期(1976年1980年代末)。繁荣期的最重要的特点,是机器翻译研究 走向了实用化,出现了一大批实用化的机 器翻译系统,机器翻译产品开始进入市场 ,变成了商品,由机器翻译系统的实用化 引起了机器翻译系统的商品化。Date12机器翻译的平台期 整个1990年代,机器翻译进入了一个 平台期 基于规则的机器翻译方法理论上无法 突破 在应用上,机器翻译由于受到翻译质 量制约,难于进一步扩展,反而是基 于翻译记忆思想的计算机辅助翻译获 得了巨大进展Date13 就在机器翻译进入平台期的时候,一 些新的因素也在萌芽 基于实例的机器翻译思想 基于统计的机器翻译思想 互联网的出现大大促进了机器翻译 的需求Date14机器翻译新热潮 1999年开始,出现了一个机器翻译的 新热潮,其最主要的特征是统计机器 翻译方法开始占据主导地位,机器翻 译的质量出现了一个跨越式的提高Date15机器翻译的新热潮 1980年代末IBM首次开展统计机器翻译研究 年IBM首次提出统计机器翻译的信源信道模型 1993年IBM提出五种基于词的统计翻译模型IBM Model 1 -5 1994年IBM发表论文给出了Candide系统与Systran系统 在ARPA评测中的对比测试报告 1999年JHU夏季研讨班重复了IBM的工作并推出了开放 源代码的工具 2001年IBM提出了机器翻译自动评测方法BLEU 2002年NIST开始举行每年一度的机器翻译评测 2002年第一个采用统计机器翻译方法的商业公司 Language Weaver成立Date16机器翻译新热潮 2002年Franz Josef Och提出统计机器翻译的对数线性模 型 2003年Franz Josef Och提出对数线性模型的最小错误率 训练方法 2004年Philipp Koehn推出Pharaoh(法老)标志着基于 短语的统计翻译方法趋于成熟 2005年David Chiang提出层次短语模型并代表UMD在 NIST评测中取得好成绩 2005年Google在NIST评测中大获全胜,随后Google推 出基于统计方法的在线翻译工具,其阿拉伯语-英语的翻 译达到了用户完全可接受的水平,目前已经可以支持40 多种语言的互译 2006年NIST评测中USC-ISI的串到树句法模型第一次超 过Google(仅在汉英受限翻译项目中)Date17Date18国内状况 我国机器翻泽的研究从一开始就得到了国 家的高度重视。早在1956年它便以“机器 翔 译自然语言的数学理论”列入了当时的 科学发展纲要。以后则列为“六五”、“七 五”。 以及“863” 等重大科研项目但因为“文革” 有过1O年的停滞。Date19国内状况 7O年代中期,我国机器翻译研究从停滞走 向了复苏8O年代中期到9O年代初期产 生丁两个在中国机译史上具有重要意义的 实用化系统它们分别是军事科学院研制 的” KYl”英汉机译系统和中科院计算所 研制的”863一IMT”英汉机译系统Date20国内状况90年代初期至今,中国的机器翻译走入了 快速发展的时期,出现了许多商品化系统 。近期的机译系统大体上有这样一些持点 :多数配有大规模的多种领域的专业词典 ,多数能在网上运行,有相当不错的方便 用户的界面。新的应用领域的机器翻译研 究,如对话翻译系统的研发等也已开始Date21机器翻译现状(面临问题)1、影响机器翻译质量的核心是歧义的处 理。在词汇的层面上,词汇的歧义主要是 一词多义,如英语单词“note”可以指“笔记” 、“短信”、“注释”、“纸币”等。以下是词汇 歧义的例子: 原文:Thank-you notes are heart- warming. 机器译文:感谢笔记温暖人心。人工 译文:感谢信温暖人心。 Date22在结构层面上,常见的结构歧义有 and(和 )结构,如 nice girls and boys, 它既可表示 “好女孩和男孩”,也可表示“好女孩和好男 孩”,这种歧义只有人工翻译才能消除,计 算机无法识别此歧义,可见歧义的处理是 影响机器翻译质量的关键。 Date232、人类翻译目标集中于目标语言,如果 有必要的话,译者会采用灵活的方式以使 翻译传情达意,有的时候会使用意译的方 法,这是机器翻译所无法达到的。 Date24 例1,文学翻译是“传达作者的全部意图,即作者 对在读者思想感情上产生艺术作用的全部意图” 。即使对于专业翻译工作者来说,文学翻译也不 是件容易的事,更何况是对于没有任何认知能力 的机器。以下是美国19世纪著名作家爱默森长篇 散文Beauty中的原句。 原文:“But this beauty of Nature which is seen and felt as beauty, is the least part.” Beauty Ralph Waldo Emerson 机器译文:但是这哪个看见并且作为美丽感 到的自然的美丽,是最小部分。 夏济安译文:可是凡是耳目所能辨认出来的 美,只是自然之美的最低部分。 Date25 例2:美国著名作家马克.吐温早期优秀小 说竞选州长中的原句。 原文:“I hauled down my colors and surrendered.“ Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。 张有松译文:我偃旗息鼓,甘拜下风。 由于机器没有思维、推理、判断能力 ,缺乏人工译者的综合知识和长期积淀下 来的文化知识等,无法对原文产生全面的 了解,做的只是机械转码,无法突破思维 障碍。要获得地道完整的译文,必须对机 器译文进行人工修改、加工。 Date26机器翻译的方法 机器翻译的基本过程 机器翻译的总任务可以描述为:将一种语言(源 语言)的文本送入计算机,通过计算机程序生成 另一种语言(目标语言)的文本,且源语言文本与 目标语言文本具有相同的含义。机器翻译系统的 类型很多,采取的策略和技术也有差别,但它们 的基本工作过程大体上是一致的。机器翻译的第 一步是在不同层次上分析源文本,而后是目标语 文本的生成这两个步骤是机器翻译系统基本实 现过程中的两个主要组成部分。Date27机器翻译的四种实现方法 基于分析和转换的机器翻译方法 基于中间语言的翻译方法 基于统计的机器翻译方法 基于实例的机器翻译方法Date28基于分析和转换的机器翻译方法 机器翻译系统的操作过程与人做翻译过程 一样,有检索、分析、转换和生成的主要 四个阶段这被称为基于分析和转换的机器 翻译系统, 也被认为是模拟人类翻译活动 最恰当的机制Date29基本原理 一般情况下,分析以句法为主、语义为辅 , 正确的句法结构转换加正确的词汇译文 可以从源语言向目标语言传递完整的正确 信息。因此,以句法结构转换附加一定的 语义信息, 能够构成转换的基本层次,就 标准的机器翻译系统来说, 句子和短语层 次的结构转换是机器翻译转换部分的研究 重点, 这方面一般采用一下产生式方式的 转换规则形式。Date30 转换规则形式:S:S1+S2+SiT1+T2+Tj:T 上式理解为S是SL(源语言)的某个待翻译单位(句 子、短语等等),S1S2 是S中的下一级组成单 位;对于S,如果满足条件 , 则TL(目 标语言)中有T1Tj译文构成了相应的等价物T。 上述方法称为基于句法的转换方法, 因为S1+S2+Si一般来说就是源语言的的句法结构表 示;也可以称为直接转换方法, 因为对于每个 源语言的翻译组块, 都马上给出一个目标语言 组块与之对应。应该说, 这种转换方法符合人 的直觉认识, 也能够实现。Date31基于中间语言的翻译方法 基于中间语言的翻译方法是对源语言进行 分析以后产生一种称为中间语言的表示形
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号