资源预览内容
第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
亲,该文档总共4页全部预览完了,如果喜欢就下载吧!
资源描述
1央金藏文分词系统央金藏文分词系统 史晓东*2 卢亚军*3 *厦门大学人工智能研究所 361005 E-mail:mandelxmu.edu.cn *西北民族大学科研处 730030 E-mail:zxdl365gmail.com 摘摘 要要:藏文分词是藏文信息处理的一个基本步骤,本文描述了我们将一个基于 HMM 的汉语分词系统 segtag 移植到藏文的过程,取得了 91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。 关键字关键字:藏文分词、自然语言处理、HMM A Tibetan Segmentation System Yangjin Xiaodong Shi*, and Yajun Lu* *Institute of Artificial Intelligence, Xiamen University, Xiamen 361005, China *Northwest University for Nationalities, Lanzhou 730030, China Abstract: We described the porting of a Chinese segmentation system to handle Tibetan. The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small. We also described more processing upon error analysis which led to further improvement. Keywords: Tibetan Segmentation, natural language processing, HMM 1 引言引言 随着少数民族语言(主要是藏、维、蒙)到汉语的机器翻译研究逐渐进入人们的视野 实验, 相关的少数民族语言基础法分析工具也亟待完善。 藏文分词是藏语到其他语言的基础 性工具。虽然研究的时间也不算短(2002 年陈玉忠1是较早的一篇研究) ,已经有至少 10 年的历史,但是还没有公开可用的工具。第一作者在研究汉语分词方面有丰富的经验,从 2005 年就开发的 segtag 汉语分词系统,虽然没有发表相关的论文,但是在北京大学公开的 1998 年人民日报一个月的语料上的准确率约为 98%。因此将其移植到藏文,并加以公开, 是我们的一个想法。经过与第二作者密切合作,已经成功地开发出了藏文的分词标注系统, 在一个测试集上的准确率约为 93%, 取得了较为令人满意的效果。 本文描述该系统的基本算 法,并对藏文所作的特殊改进。 本文下面的内容如下:首先综述一下国内外的相关工作,然后介绍了央金藏文分词系 统的基本结构,然后再描述为了改进性能对藏文所作的特殊处理,最后得出结论,并指出了 进一步的工作。 由于第一作者一点也不懂藏文,因此本文对想开发一个未知语种(如蒙语、泰语、彝 语等)的分词系统的人,有一定的借鉴意义。 1 基金项目:863 项目 2006AA010108,国家社科基金重点项目 05AYY001 2 史晓东,男,1966.12,教授,主要研究方向:自然语言处理 3 卢亚军,男,1956.10,教授,主要研究方向:语料库语言学,藏汉机器翻译 1 2 相关工作相关工作 陈玉忠1在 2002 年提出了基于格助词和接续特征的藏文分词算法。从此文中作者得 出,其实藏文和日语类似,有很多格助词,表示一定的句法语义功能。扎西加等2给出了 藏文分词的词类划分。Huidan Liu 等3研究了藏文分词中的数字识别问题。才智杰4描 述了班智达藏文分词系统的设计和实现。 苏峻峰5描述了一个基于 HMM 的藏文分词模型。 刘智文6做过一个基于 CRF 的藏文分词系统。国内的藏文相关工作基本上集中在青海师 大、西北民大、西藏大学等单位。 与采用机器学习为主的汉语分词相比,目前藏文分词系统显得落后一些。在汉语方面 一般都采用 HMM、ME、CRF 等模型,很少采用相对原始的规则或最大匹配模型。 3 央金藏文分词系统介绍央金藏文分词系统介绍 HMM 模型由于其简单高效已经成为了分词系统的基准模型,虽然 ME 或者 CRF 的准 确率比 HMM 略高一些,但是其训练却相对复杂一些,而且当标注语料库比较小的时候, 并不见得有优势。所以我们便用 HMM 模型来做藏文分词。 分词和标注一体化完成,Segtag 的结构如下: 图 1. segtag 分词系统(其中词典为央金系统所加) 由于segtag本身已经是基于Unicode的,所以对Unicode的藏文处理毫无困难,主要是参 照74修改了词性表,并增加了对藏语Unicode的未登录词识别。因为,与汉语相比,在 0 平面内,一个汉字只需双字节表示码位,藏文很多字(有些文章称之为字丁9,其实指一 个可纵向叠加的书写单位,我们仍然称为字)是多个双字节构成的序列。此外,专门针对藏 文数字修改替换了原汉字数字识别, 使之能处理藏文数字。 移植后的系统由第二作者命名为 央金藏文分词系统。 如果纯粹用训练语料来生成分词词典,由于训练语料很小,得到的词条仅有 13200 余 条,根本无法对藏文进行分词。所以我们又合并了几本藏文词典。大约有 9 万词。简单地把 词典中的词条以频率 1 加到训练语料,从中训练出分词词典,一共 97800 余条。 4 实际上我们参考的主要规范是青海师范大学才让加、吉太加、扎洛等起草的拟作为教育部标准的“信息处理用藏语词类标记规范” 。 2 央金系统的性能如下(此处 2.7M 指 UTF16 编码的文件大小) : 表 1. 央金分词系统的性能表 1. 央金分词系统的性能 训练语料 测试语料 精确率 召回率 F 值 备注 92.215% 90.041% 91.115 分词 2.7M+词典 25K 79.342% 79.647% 79.494% 标注 这些训练语料都是在央金系统的分词结果的基础上,由第二作者校对修正而滚雪球一 样得到。 另外,虽然 Unicode 目前已经是国际标准,国内仍然存在着部分班智达和同元编码的 文档,我们集成了编码识别和自动转换功能,以方便用户使用。 此外,我们还集成了鼠标藏汉词典,以方便作者校对分词结果。 由于第一作者一点也不懂藏文,所以很多央金分词系统的很多功能都是为了方便用户 能够在系统内便于进行分词校对而设。 4 分词系统的错误分析和改进分词系统的错误分析和改进 2.1 分词系统错误分词系统错误 通过文件比较,对测试语料中的错误进行了分析。首先我们注意到,标注的准确率偏 低。结果发现,训练出词典中的有些词的不同词性之间的频率差异很大,如 gj 1 tt 1 nn 9 vi 20 gl 3413 其中 gj 和 gl 都是格助词,怀疑 gj 这个词性是训练语料中的标注错误而混进来的,因 此在装入词典的时候做了一个简单的处理: 如果某个词的频率低的词性与该词的频率最高的 词性之频率比小于阈值(目前取 1%),则舍弃该词性。经过这样处理以后,分词的准确率 没有任何变化,而标注的准确率有所提高: 表 2. 舍弃低频词性以后央金分词系统的性能表 2. 舍弃低频词性以后央金分词系统的性能 训练语料 测试语料 精确率 召回率 F 值 备注 79.342% 79.647% 79.494% 原系统 2.7M+词典 25K 82.632% 82.949% 82.790% 改进 1 简单的分析表明:分词错误大部分是由于未登录词而造成的。而很多标注错误是因为 训练生成的词典中根本没有测试答案中的词性造成的。 其实这些错误大部分是训练语料的不 一致性造成的。 2.2 汉语人名识别汉语人名识别 藏文新闻中经常出现人名。相对于地名等其他专名,人名是最丰富并且变化的。因此, 分词系统最好能自动识别人名。从来源分,人名基本上可以分为藏语人名、汉语人名、欧美 人名等三大类。目前我们只考虑了汉语人名的自动识别。 汉语人名翻译成藏语,基本上都是采用音译。也就是说, “王东”和“王栋”翻译成藏 语应该是一样的。当然,不同的译者可以选择不同的藏文字来对同一个汉字(或同音汉字) 进行译音。目前我们已经收集了一个汉藏人名对照表 TC(目前只有 300 条) ,我们可以把 它改为藏音对照表(这里音指汉语拼音) 。另外我们还有一个常用汉语人名表 C,有 20 多万 条。此外还有一个海量的汉语语料库。那么藏文中的汉语人名识别算法可简单地描述如下: 假设藏文的音节序列 ABC,其中每个音节都是一个可能的汉字译音 ABC,而且不是 藏文单词,P(ABC)作为汉语人名的概率大于一定的阈值,那么可把 ABC 识别为一个藏 文中的汉字人名译音。 3 4 人名识别和数字识别都在图 1 的构造词图中进行,与其他处理无关。其实实现的时候 就是和数字识别一样增加一个加权自动机即可。 表 3. 人名识别后的央金分词系统的性能表 3. 人名识别后的央金分词系统的性能 训练语料 测试语料 精确率 召回率 F 值 备注 92.119% 92.473% 92.296 分词 2.7M+词典 25K 83.015% 83.333% 83.174% 改进 2 尽管有所改进,但和汉语分词相比差距不小,训练语料库太小可能是一个主要原因。 5 结论和进一步的工作结论和进一步的工作 本文描述了一个基于 HMM 的藏文分词系统。就我们和同类系统比较而言,该系统的 分词速度快, 准确率也基本达到了可以使用的水平, 目前已经用于我们的藏汉统计机器翻译 系统。 下一步要做的主要工作是:继续扩大训练语料规模;进行地名和机构名的自动识别; 克服 n 元模型的局部性,利用藏文句法特性处理长距离语义相关性。 参考文献参考文献 1 陈玉忠,李保利. 俞士汶.藏文自动分词系统的设计与实现J,中文信息学报,2003,17(3):15-20. 2 扎西家,珠杰. 面向信息处理的藏文分词规范研究J,中文信息学报,2009,23(4) :113-117. 3 Haidian Liu, Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation C/ Chu-Ren Huang, Dan Jurafsky. Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010). Beijing:Tsinghua University Press. 2010:719-724. 4 才智杰. 班智达藏文自动分词系统的设计与实现J,青海师范大学民族师范学院学报,2010,12(2) :7577. 5 苏峻峰. 祁坤钰,本太. 基于 HMM 的藏语语料库词性自动标注研究J. 西北民族大学学报(自然科学版),2009,30(1) :42-45. 6 刘智文. 藏汉统计机器翻译研究(厦门大学硕士论文)D. 厦门大学,2010. 7 才让加. 藏语语料库词语分类体系及标记集研究J,中文信息学报,2009,23(4) :107-112. 8 Yuan Sun et al, Design of a Tibetan Automatic Word Segmentation Scheme C/ Proceedings of International Conference on Inform
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号