资源预览内容
第1页 / 共1页
亲,该文档总共1页全部预览完了,如果喜欢就下载吧!
资源描述
龙源期刊网 http:/www.qikan.com.cn上海外语教育出版社英汉双语平行句对语料库的构建作者:贺敏 张春明 来源:辞书研究2012年第 05期摘要 上海外语教育出版社英汉双语平行句对语料库建设是该社承担的上海市科委课题“双 语词典编纂系统的研发”的子课题。该语料库是该社双语词典编纂系统的在线辅助语料库之 一,为双语词典编纂提供英汉平行句对例证,并为词典编纂提供语言统计信息、分析信息等。 文章综述了该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面,同 时也探讨今后如何进一步开发与利用该语料库。关键词 平行语料语料库建设双语词典编纂系统上海外语教育出版社(以下简称“外教社”)承担的上海市科委课题“双语词典编纂系统的 研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目,该课题的总体目标是开发一个 基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编 纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。该语料库以英语为 原语、以汉语为译语,以XML (extensible Markup Language)为标注语言,对英语原文语料的 标注做到分词(tokenization)、主词标注(lemmatization) 及词性赋码 (part ofspeech tagging),对汉语译文语料的标注做到分词及词性赋码。基于该语料库,词典编纂者及词典用 户可以通过在线检索平台提取有效的词典例证,统计具体词语的词频信息,了解词汇的分布情 况,获得具体词语或结构的用法信息(包括语义、语法、搭配等方面)。经过三年多的建设, 该语料库一期工程已建成收录68万英汉双语平行句对的语料库,总字数达5455万。本文将综 述该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面。一、语料库前期设计课题研究开始时,外教社课题组与各合作单位进行了较为广泛的调查工作,并以此为基础 制订了详细的语料库建设实施方案,确定语料库设计阶段的主要任务为:(1)确定标注语 言;(2)确立语料选取的原则及语料来源;(3)制订语料储存方案与各项工作流程;(4) 编制语料库技术开发需求规约。1.标注语言英汉双语平行句对语料库的标注语言采用了 XML,即可扩展标记语言。XML是目前通用 的数据标记语言,它能描述多种类型的文本逻辑结构,能创建不受平台或格式化协定限制的开 放数据。XML的设计宗旨是传输数据,使其成为独立的信息传输与集成工具。XML文件没有
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号