资源预览内容
第1页 / 共93页
第2页 / 共93页
第3页 / 共93页
第4页 / 共93页
第5页 / 共93页
第6页 / 共93页
第7页 / 共93页
第8页 / 共93页
第9页 / 共93页
第10页 / 共93页
亲,该文档总共93页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
计算语言学 第 3 讲 词法分析(一) 刘群 中国科学院计算技术研究所 liuqun 中国科学院研究生院 2011 年春季课程讲义 计算语言学讲义 (04) 词法分析 I2 内容提要 计算语言学讲义 (04) 词法分析 I3 内容提要 计算语言学讲义 (04) 词法分析 I4 问题与方法 计算语言学主要问题: 机器翻译 自动问答 音字转换 自动文摘 信息抽取 计算语言学讲义 (04) 词法分析 I5 问题与方法 计算语言学问题的抽象: 序列评估问题 序列标注问题 序列结构化问题 序列转换问题 计算语言学讲义 (04) 词法分析 I6 序列评估问题 输入:一个符号序列 输出: 合法性评估:是否合法 可能性评估:概率值 常见具体问题: 文本校对 汉语词语切分、音字转换等很多问题都可以 转化成序列评估问题 计算语言学讲义 (04) 词法分析 I7 序列标注问题 输入:一个符号序列 输出:给每一个输入符号赋予一个标记 常见具体问题: 音字转换:拼音序列 汉字序列 词性标注:词语序列 词性序列 词义排歧:词语序列 词义标记序列 计算语言学讲义 (04) 词法分析 I8 序列结构化 输入:一个符号序列 输出:一个结构,刻划符号之间的关系 常见具体问题: 成分句法分析:词语序列 短语结构树 依存句法分析:词语序列 依存树 语义分析:词语序列 语义网络 计算语言学讲义 (04) 词法分析 I9 问题与方法 计算语言学常用方法: 规则方法 形式语法理论 形式逻辑 统计方法 n 元语法模型 隐马尔科夫模型 最大熵模型 计算语言学讲义 (04) 词法分析 I10 本课程的组织 按问题组织 词法分析 句法分析 语义篇章分析 机器翻译 计算语言学讲义 (04) 词法分析 I11 本课程的组织 问题中穿插方法的介绍 词法分析: 语言模型、 HMM 模型、最大熵 句法分析: 概率语法 机器翻译: 计算语言学讲义 (04) 词法分析 I12 内容提要 计算语言学讲义 (04) 词法分析 I13 语言的形态 形态: Morphology The study of the internal structure of words, and of the rules by which words are formed, is called morphology. ( from V. Fromkin & R. Roman: An Introduction to Language) 单词的内部结构的研究,以及单词形成的规律 ,被称之为形态学。 ( 选自 V. Fromkin & R. Roman :语言介绍 ) 计算语言学讲义 (04) 词法分析 I14 语言的形态 形态:又叫词形变化,同一个词在造句时,因 其句法位置的差异而发生的不同变化,是表达 语法意义的重要手段。这些不同的变化形成一 个聚合。包括词尾,内部曲折,异根等方面。 语法范畴:词的变化形式所表示的意义方面的 聚合。常见的语法范畴有:性、数、格、体、 时态、人称、级等。 形态跟语法范畴有对应关系,但不是一回事。 计算语言学讲义 (04) 词法分析 I15 语言的分类 传统语言学根据词的形态把语言分为四大类: 分析语:每个词只有一个词素 孤立语(词根语):词基本上没有专门表示语法意义的附加成 分,形态变化很少,语法关系靠词序和虚词来表示。如汉语。 综合语:每个词有多个词素 黏着语:词内有专门表示语法意义的附加成分,一个附加成分 表达一种语法意义,一种语法意义也基本上由一个附加成分来 表达,词根或词干跟附加成分的结合不紧密。如芬兰语、日语 、蒙古语等。 屈折语:用词的形态变化表示语法关系,一个形态成分可以表 示若干种不同的语法意义,词根或词干跟词的附加成分结合得 很紧密,往往不易截然分开。如:英语、德语和法语等。 多式综合语(编插语):最复杂的综合语,一个词语通常非常 长,由很多词素组成。 计算语言学讲义 (04) 词法分析 I16 内容提要 计算语言学讲义 (04) 词法分析 I17 屈折型语言的词法分析 Tokenization :把字符串变成词串( tokens ) Im a student. I m a student . Stemming :对词的内部结构进行分析,并还原到词典 形式。实际包括两个层次 是对屈折进行还原。 takes take + s took take + ed 对派生进行还原。 tokenization token + ize + tion Stemming 也称为 Lemmatization 。 POS-Tagging: 词性标注 计算语言学讲义 (04) 词法分析 I18 Tokenization 数字: 123,456.78 90.7% 3/8 11/20/2000 缩略(包含不同的情况): 字母点号字母点号组成的序列,比如: U.S. i.e. 等等; 字母开头,最后以点号结束,比如: A. b. Mr. eds.prof. ; 包含非字母字符,比如: AT&T Micro$oft 带杠的词串,比如: three-year-old , one-third , so- called 带瞥号的词串,比如: Im cant dogs lets 带空格的词串,比如: “and so on“ , “ad hoc“ 其他:如网址( )、公式等 计算语言学讲义 (04) 词法分析 I19 Tokenization 问题 例外较多,跟文本来源有关 歧义现象(如点号的句子边界歧义) 计算语言学讲义 (04) 词法分析 I20 数字的识别 数词的识别一般可以用有限状态自动机来实现 识别分数的正则表达式: 0-9+ / 0-9+ e.g. 12/21 识别百分数的正则表达式: (+ | -) ? 0-9+ ( . 0-9* ) ? % e.g. -5.9% 91% 识别十进制数字的正则表达式: ( 0-9+( , )? )+ ( . 0-9+ )? e.g. 12,345 计算语言学讲义 (04) 词法分析 I21 Tokenization 算法 输入:一段文本 输出:单词串 算法:(略) 计算语言学讲义 (04) 词法分析 I22 Stemming 屈折型语言的词语变化形式: 屈折变化:即由于单词在句子中所起的语法作用的不同而 发生的词的形态变化,而单词的词性基本不变的现象,如 ( take, took, takes )。识别这种变化是词法分析的最 基本的任务。 派生变化:即一个单词从另外一个不同类单词或词干衍生 过来,如 morphological morphology ,英语中派生变 化主要通过加前缀或后缀的形式构成;在其他语言中,如 德语和俄语中,同时还伴有音的变化。 复合变化:两个或更多个单词以一定的方式组合成一个新 的单词。这种变化形式比较灵活,如 well-formed, 6- year-old 等等。 Stemming 的目的:将上述变化还原 计算语言学讲义 (04) 词法分析 I23 Stemming 常见的问题 半规则变化 flied fly + ed rebelled rebel + ed 不规则变化 good, better, best child, children 歧义现象 better good + er or well + er ? works work + s or works ? 计算语言学讲义 (04) 词法分析 I24 Stemming 规则示例 (1) 名词复数 *s *, (PLUR) *es *, (PLUR) *ies *y, (PLUR) 动词第三人称单数 *s * (SINGULAR) (THIRDPERSON) (PRESENT) *es * (SINGULAR) (THIRDPERSON) (PRESENT) *ies *y (SINGULAR) (THIRDPERSON) (PRESENT) 计算语言学讲义 (04) 词法分析 I25 Stemming 规则示例 (2) 动词现在分词 *ing * (VING) *ing *e (VING) *ying *ie (VING) *?ing *? (VING) 动词过去分词、过去式 *ed * (PAST,VEN) *ed *e (PAST,VEN) *ied *y (PAST,VEN) *?ed *? (PAST,VEN) 计算语言学讲义 (04) 词法分析 I26 Stemming 算法 输入:一个单词 输出:一个或多个单词,其中每个单词 还原为原形加前后缀(可以有多个) 算法:(略) 计算语言学讲义 (04) 词法分析 I27 基于有限状态自动机的 Stemming 有限状态自动机是 Stemming 中的常用 算法 有限状态自动机的优点是表现形式直观 ,效率高 计算语言学讲义 (04) 词法分析 I28 Stemming 要做到何种程度 词干层。如: impossibilitiesimpossibility+ies 词根层。如: impossibilitiesim+poss+ibil+it+ies 分析程度取决于自然语言处理系统的 深度: 不解决未定义词,分析到词干层 解决未定义词,要分析到词根层。 计算语言学讲义 (04) 词法分析 I29 内容提要 计算语言学讲义 (04) 词法分析 I30 汉语词法分析所面临的问题 汉语词形变化: 重叠词、离合词、词缀 缩合词、四字格 汉语词语的切分歧义 汉语未定义词 词性标注 计算语言学讲义 (04) 词法分析 I31 汉语双字形容词的重叠形式 形容词 (AB)ABAB 式AABB 式A 里 AB 式 高兴高兴高兴高高兴兴 明白明白明白明明白白 热闹热闹热闹热热闹闹 潇洒潇洒潇洒潇潇洒洒 糊涂 糊糊涂涂糊里糊涂 流气 流里流气 粘乎粘乎粘乎粘粘乎乎 凉快凉快凉快凉凉快快 计算语言学讲义 (04) 词法分析 I32 汉语单字形容词的重叠形式 形容词( A )AA 式ABB 式ABCD 式 黑黑黑黑压压黑不溜秋 白白白白花花白不呲咧 红红红红彤彤 亮亮亮亮晶晶 恶恶狠狠 香香香香喷喷 滑滑滑滑溜溜 计算语言学讲义 (04) 词法分析 I33 汉语双字动词的重叠形式 动词 (AB)ABAB 式AABB 式 研究研究研究 讨论讨论讨论 哆嗦哆哆嗦嗦 唠叨唠叨唠叨唠唠叨叨 嘀咕嘀嘀咕咕 计算语言学讲义 (04) 词法分析 I34 汉语单字动词的重叠形式 动词( V )VV 式V 一 V 式V 了 V 式V 了一 V 式 听听听听一听听了听听了一听 想想想想一想想了想想了一想 玩玩玩玩一玩玩了玩玩了一玩 醒醒醒醒一醒 试试试试一试试了试试了一试 笑笑笑笑一笑笑了笑笑了一笑 讲讲讲讲一讲讲了讲讲了一讲 计算语言学讲义 (04) 词法分析 I35 汉语其他词类的重叠形式 名词 哥哥,人人 山山水水,是是非非,方方面面,头头脑脑 数词 一一做了回答,两两结伴而来 量词 个个都是好样的,回回考满分 副词 常常,仅仅,的的确确 计算语言学讲义 (04) 词法分析
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号