5计算语言学——厦大应用语言学-

计算语言学,一、计算语言学的定义：是利用计算计研究和处理自然语言的学科。,狭义：指的是通过建立形式化的计算模型，用计算机分析、处理、理解并生成自然语言的学科。例：“有意见分歧” 算一算怎么切分合理是“有意见分歧” 还是 : “有意见分歧” ？广义：包括狭义的内容；还包括利用计算机对语言文字进行的各种定量化和精密化的研究。例1：中国红楼梦的作者：前八十回和后四十回是不是一个人。例2：方言亲属关系的计量：,二、计算语言学的发展：,计算语言学的研究首先是从机器翻译开始的。 1、圣经创世纪中“巴比塔”的传说。 2、17世纪中叶展开的“普遍语言”的运动，旨在运用逻辑原则和图形符号的基础上，创造出一种无歧义的语言。3、20世纪30年代，法国工程师提出了用机器进行语言翻译的想法，并在1933年7月获得了一项“翻译机”的专利，叫做“机械脑”。,4、1946年，美国研制出第一台电子计算机，人们开始用计算机进行翻译的尝试，当时采用的是词对词的策略，所以翻译效果不理想。如：I dont know the boy who is waiting outside.5、在1960年代初期，计算语言学曾因做机器翻译的应用研究，受到各国政府的大力支持而风光一时，然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出：当时的研究是没有希望做好机器翻译的。,6、人们在失败中得到启发，认为要搞好自动翻译，必须在语言理论和计算机科学两方面下足功夫，其中尤其语言处理理论的研究，人们认识到，如果计算机无法理解自然语言，机器翻译等只能是空中楼阁。7、计算语言学的进一步发展音字转换：语音识别自动文摘：自动给出一篇或多篇文章的摘要信息检索：在海量的信息准确找到你所需要的信息信息过滤：从信息流中筛选出特定的的信息（信息安全、突发事件）,三、计算语言学的学科分类：就理论研究来看，计算机语言学还可以分为计算语音学、计算词汇学、计算语法学、计算语义学、语料库语言学等不同的分支学科。,（一）、计算语音学：研究如何用计算机对语音信息进行处理，实现语音的自动识别和合成。语音识别：机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音合成：将可视的文本信息转化为可听的语音信息。,一般来说，完整的语音识别要经历三个步骤：（1）、语音特征提取：目的是从语音波形中提取随时间变化的语音特征序列。（2）、声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。（3）、计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。,清华大学电子工程系，非特定人汉语连续语音识别系统的识别精度，达到948，接近实用水平,语音识别,特定人,非特定人,大词汇量,小词汇量,孤立发音,连续发音,中小词汇量非特定人语音识别系统识别精度已经大于98,满足通常应用的要求,一些用户交换机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。,5000词邮包校核非特定人连续语音识别系统的识别率达到9873。,（二）、计算词汇学：研究如何用计算机处理自然语言的词汇。他笑了桌子笑了桌子搬走了。（三）计算语法学：研究如何用计算机来分析自然语言的语法。这种研究在计算语言学中叫做自动语法分析。花开了花钱了,（四）语料库语言学：语料库(corpus)亦称语库或素材，是收集并科学地组织起来的一套语言材料，这种材料是某种语言中自然出现的，可以是书面的，也可以是口头的。语料库语言学(corpus linguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。,四、汉字的信息处理（一）、汉字与信息处理,笔、墨、纸、砚,甲、骨、金、木,泥、木印刷术；铅、打字机,磁、光、电子计算机,汉字,面向人阅读笔画书写,人机互动、编码输入、自动识别,约公元1915年汉字机,约公元1050年,机械性质的整字书写,（二）、汉字输入,汉字输入,汉字键盘输入,汉字识别（OCR）,语音识别,印刷体：单体、多体,联机手写,脱机手写,1、汉字键盘输入,汉字形码输入,汉字音码输入,音形码|形音码输入,汉字键盘输入,王码五笔字型郑码 T9笔画输入法,全拼，双拼，智能ABC，微软拼音，紫光拼音，智能狂拼,极点五笔五码智拼输入法大众形音输入法母字全能码,字词、词组句子；普通话地方拼音输入（广东拼音）,编码的优缺点（1）,形码的优点按字型编码，重码率低，最多四码（不超过1万字，理论上讲可以做到一码一字），适合专业录入员录入写好的文本；无需顾及读音，对讲不好普通话的人适用；不认识的汉字照“样”可以输入。形码的缺点要记忆的东西较多，难学难记；对字形不同人之间都会有不同的认识，易拆错。,编码的优缺点（2）,音码的优点与人的语音思维一致，边进行文章的构思边用音码输入音码的码键就在英文键盘上，不需要改造键盘。1958年以后出生的人，大多数学过汉语拼音，无需专门学音码。音码的缺点汉字同音字太多，重码率高，输入速度受限；不认识的汉字无法输入，甚至读不准也一样输入不了；比如：ji有109个同音字：几及急既即机鸡积记级极计挤己季寄纪系基激吉脊际汲肌嫉姬绩缉饥迹棘蓟技冀辑伎祭剂悸济籍寂期其奇忌齐妓继集给革击圾箕讥畸稽疾墼洎鲚屐齑戟鲫嵇矶稷戢虮诘笈暨笄剞叽蒺跻嵴掎跽霁唧畿荠瘠玑羁丌偈芨佶赍楫髻咭蕺觊麂骥殛岌亟犄乩芰哜,2、汉字识别,电脑的汉字识别功能，是指用计算机对印刷在纸上和手写在纸上汉字的自动辨识，它是中文信息处理中的一项重要功能。一个实用的汉字识别系统由扫描器，计算机主机，显示器，识别软件和字库等部分组成。工作过程：文稿，书刊等通过扫描器输入计算机，提取识别特征后与字库进行比较，并把识别结果显示出来。大陆和台湾地区的汉字识别研究都已经巧妙地解决了单字印刷体汉字识别，多体印刷体汉字识别和特定手写汉字识别。打印稿识别的准确率一般可达95%。,印刷汉字识别技术主要包括：,(1) 扫描输入文本图象。 (2) 图象的预处理，包括倾斜校正和滤除干扰噪声等。 (3) 图象版面分析和理解。区分出文本段落及排版顺序，图象、表格的区域；对于文本区域将进行识别处理，对于表格区域进行专用的表格分析及识别处理，对于图象区域进行压缩或简单存储。(4)行字切分：图象的行切分和字切分。 (5)特征提取：提取单字图象统计特征或结构特征。 (6)文字识别：基于单字图象特征的模式分类。将被分类的模式赋予识别结果。 (7)后处理：识别结果的编辑修改后处理。利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。其中(4)、(5)和(6)，是印刷汉字识别中最为核心的技术。,五、词语的信息处理,（一）、自动分词的必要自动分词：让计算机把以字为单位的书面语流串变为以词为单位的形式就叫做自动分词。英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串。自动分词是汉语自动分析中的一项基础性工作。中文信息处理的各个领域，无论是在词频统计、情报检索、人机对话、机器翻译等方面，都是在词的基础上进行的。,分词不当的例子：,在Google上输入“和服”搜索所有中文简体网页，总共结果507,000条，前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误： “通信信息报：瑞星以技术和服务开拓网络安全市场” “使用纯HTML的通用数据管理和服务- 开发者- ZDNet .” “陈慧琳心口不一化妆和服装自己包办” “外交部：中国境外领事保护和服务指南(2003年版) .” “产品和服务”备注：现在已经好多了,（二）、自动分词的方法：机械切分、智能切分、统计切分。1、机械切分：运用简单的模式匹配技术的无条件切分。（1）、正向最大匹配法：机器中存在一个词表，其中词长的最大值是N；根据从前到后的顺序，首先选取一个连续的文本中的前N个字符作匹配字段，如果词表中有这个词，那么，就把文本中的这前N个字符作为一个词处理，如果没有，那么匹配文本中的前N-1个字符作为匹配字段如此下去，直到匹配成功。例子：“我们应该开展计算语言学的研究”。词长是7的切分。,正向最大匹配法的缺点：a、词表设计困难：目前对什么是词还没有一个定论分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据。b、如果N设计的过大，就会影响效率。c、如果N设计的过小，就会影响正确性。d、有些歧义不能解决。如：有意见分歧：正向最大匹配法的分词结果是：有意/ 见/ 分歧/ e：未登录词无法解决。,（2）、逆向最大匹配法：一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。逆向最大匹配法的分词结果是：有/ 意见/ 分歧/但是还是有些词是两种方法都不能解决：结合成分子时,2、智能切分：模拟人的思维，采用词法、句法、语义、语用等各种知识的有条件切分。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。,3、基于统计的分词方法：通过对大规模真实文本的统计，让计算机自己判断什么是词，这样就产生了基于统计的分词方法，又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。但是也有缺陷，如：了解答题的方法、他想出了解答的办法。,（三）、自动分词的问题：1、歧义字段（1）、交集型歧义字段：汉字串AJB被称作交集型切分歧义，如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串。例“结合成” ：结合/成，结/合成让位移等于50厘米（让位移：让位/移、让/位移）这种歧义字段占全部歧义字段的以上。,交集型歧义字段的消解：伪歧义：虽然有歧义的可能，但是在真实的文本中只有一种切分结果，如：挨/批评; 爱/国家。这一种占约92.6。准歧义：通常只有一种切分结果：其/实质、解除/了。占5.5。真歧义：经常有两种切分结果：应用于; 从小学。占1.9%。因此可以把伪歧义的切分结果预先放到一张表中，其歧义消解可以通过直接查找实现。,（2）、组合型歧义字段：汉字串AB被称作多义组合型切分歧义，如果满足A, B, AB同时为词。他/站/起/身/来/。他/明天/起身/去/北京/。我一看他的/穿着/就直到他不是等闲之辈。她今天是穿/着/一身礼服出去的。你们/后天/再来吧到/家/后/天/就黑了。,2、未登录词的处理：未登录词：词典中未列入的词汇。包括固有名词、数词、时间词、专业及文化新词等。吴立德4在他的书上讲：一个经过人工分词的、含有15,000个词的法律语料库，其中竟然有30%的词没有登录在含70,000个词条的词典里，这个比例远远高于各种歧义字段在全文所占的比例1/110。因此在文本在计算机处理时，把汉语未登录词从文本中摘出来可能比一般的分词问题更重要。,