资源预览内容
第1页 / 共63页
第2页 / 共63页
第3页 / 共63页
第4页 / 共63页
第5页 / 共63页
第6页 / 共63页
第7页 / 共63页
第8页 / 共63页
第9页 / 共63页
第10页 / 共63页
亲,该文档总共63页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
强大的社会需求 推动应用语言学快速发展苏新春 2009-11-25语言学学科 体系应用语言学理论语言学语言学结构语言学 生成语言学 功能语言学 语音学语法学词汇学 语义学社会语言学 文化语言学语言教学计算语言学数理语言学心理语言学交际语言学语言研究句法学 形态学 词法学 词义学 词源学 语汇学 法律语言学语言语言观察病理语言学地理语言学 实验语音学人类语言学语言风格学人名学 地名学体态语研究传播语言学儿童语言学规范语言学对外汉语教学侦察语言学广告语言学汉语语言学 英语语言学应用语言学的三大活跃学科 语言教学 社会语言学 计算语言学 下面就对外汉语教学、计算语言学两 个领域各举一例以观其貌。 最近得到来自美国的信息: 2009年11月20-21日召开的外语教学会议 有6000人参加。 有许多要学习汉语的大学生,因政府拨款 不够而得不到满足。 奥巴马在最近的访华中提出:要派10万人 来中国学汉语。 如何评价世界上的汉语热? 为什么这么多美国人要学汉语? 学习什么?(语言?文化?) 先学什么,后学什么? 用什么方法来教学?什么样的方法效果最 好? 推广汉语对世界的影响? 推广汉语对中国的影响? 中国影响的硬实力?软实力? 韩国教育部计划2005-2007在全国中小学普遍 开设汉语课; 日本从2004上起,中文学校的高中学历首次获 得文部科学省的承认; 印尼2004-2007在全国8039所高中全部开设中 文课; 泰国开设汉语课的中小学超过400所; 欧美学汉语的人数年增40%,尤以美、俄、英 增速最快; 在美国,汉语成为仅次于西班牙语的第二大外 语; 在俄罗斯,莫斯科大学等校汉语专业录取比例 达201国家的措施1.为海外培训汉语教师。 2005年培训人数达50个国家的14393人。 2.派遣汉语教师出国任教。 “国际汉语教师中国志愿者计划”。派出 1029人,分布在35个国家 3.拓宽教师来源渠道 4.启动孔子学院计划 已成立300多所,计划成立1000所.面对汉语热的语言学者的历史使 命 汉语“热”中有“冷”,“外热内冷”的局面 “三教”问题突出: 教师:全球汉语教师资源需要充实。 国外的师生比是1:100,按1:20来算,预测2010年全 球学汉语的人数将达1亿,这样需要教师达500万,缺 400万。目前国内从事对外汉语的教师约6000人,仅有 一半获得对外汉语教学资格证;美国仅有汉语教师2000 多人,出身语言专业的仅占43% 教材:汉语教材有待改进 教法:汉语教学急需引导美国侨报:外媒热报: 欧洲学汉语潮如火如荼 中新社24日消息, 法国费加罗报22日报道说,把汉语定为第二外语的 初中生2001年还不足4000人,但在20052006学年度突 增至12628人。今年,法国选择汉语的学生人数超过了俄语、葡萄 牙语、阿拉伯语和希伯来语,升至第五位。排行前4位依 次是英语、西班牙语、德语和意大利语。位于伦敦东部哈克尼的劳里斯顿小学就是其中的 代表。去年,该校面向10岁,11岁的31名儿童开设了10 周的汉语课程。在朝鲜,不论是上班族还是大学生,都利用闲暇时 间在学习班学中文。大型书店FNAC内,很容易购买到成 人汉语教材,和儿童汉语教材。 http:/www.chinapressusa.com/dongnanya/2006112501 48.htm耶鲁大学将在美推出汉语学习教 材 中国国际出版集团与美国耶鲁大学14日在北 京共同宣布,双方高层于近期商定,它们将利 用双方优势,共同为美国学生编写出版中文语 言教材,并为中国学生编写出版英语教材。 耶鲁大学校长莱文对记者说,不仅在美国, 甚至全球,越来越多的学生开始学习中文,正 是这样一个广阔的市场促成了双方的合作。 根据教育部的统计,迄今海外学习中文的人 数超过3000万,100个国家的2500多所大学开 设了中文课,“汉语热”在全球升温。计算语言学 对语言文字信息的处理,是当前计算机使 用的主要内容之一。 对语言处理的能力,是计算机发展的关键 。 计算机对语言的处理已经走完了“字”的阶 段, 走过了“词”的大部分阶段,正在进入” 句”的阶段. 计算机处理中的标准问题,将决定我国在 下一阶段的国际竞争中处于何种地位。计算语言学 语言信息加工、标注、统计 字处理:字量、字频、字级、字序 词处理:分词、词量、词级、词义、 词频、词种 句处理:句式、句型、句长、句子难 度 机器翻译: 下面介绍计算机为多义词自动标注的课题 研究情况: 词义标注就是用计算机为真实语境中的每 个词选择、确定并标示一个适切、对应的 义项。 北大计算语言学所对这一研究进行了卓越的研究 。 吴云芳、俞士汶信息处理用词语义项区分的原 则和方法(2007) 吴云芳词义消歧研究:资源、方法与评测 (2009) 。 国内学者在这一领域发表了重要成果的还有黄昌 宁、童翔、李涓子、金澎、卢志茂、刘挺、李生 、鲁松、白硕、段慧明、郭涛、杨尔弘、张国清 、张永奎等先生。详见吴文(2009) 我们开始此项研究的缘起: 承担了国家社科基金课题:基于国家语委 “通用语料库”之上的汉语义频词库的开 发(04BYY009)。2004年以来经历过的阶段:建设语料库;讨论理论模型; 提取规则; 修订义项; 验证库; “现代汉语多义词词义自动标注系统” Automatic Polysemous Sense Tagging of Modern Chinese 简称WST WST包括以下七个分库: 语料库 义项库 规则库 语法库 语义库 验证库 义频库1语料库全称为“现代汉语语料库”。 容量达1.9亿字,包括新闻语料、文学作 品、教材、科普作品等。义项标注提取规 则的来源库,所有词的使用规则的提取都 是根据对该库里词语真实状态进行概括、 提炼的结果。2义项库全称为“现代汉语词义标注用义项库”( Word Sense Base for Automatic Polysemous Sense Tagging of Modern Chinese),简称 WSB。 包括词8万余条,义项9万余个。有多义词近9千 条。主要吸收了现代汉语词典第3版、第5 版的内容,个别参考了汉语大辞典,另增 加了2万余条语文性词语及部分义项。义项库是 词义标注的来源,也是衡量词义标注效果的主 要标准,更是寻找词义特征、确定规则时的依 据。3语义库全称为“现代汉语语义分类库”(A Thesaurus of Modern Chinese),简称 TMC。 分一级类9个,二级类62个,三级类516个 ,四级类2086个,五级类12602个。嵌于 其中,起帮助识别义项语义特征的辅助作 用。在标注工作中能起到鉴别作用的最低 可至3或4级类。4语法库全称为“现代汉语语法信息词典” ,北大俞先生主持研制。起帮助识别义项 语法特征的辅助作用。5规则库全称为“现代汉语多义词词义搭配知识 库(Polysemy Word Sense Collocation Knowledge Base of Modern Chinese)”,简 称PCKB。 是确定一个词在具体语境中使用义项的条件与 依据。该库保存了对高频、义项在2-5之间、词 频在100以上的3700多条双音节多义词所提取 的全部使用规则。为每个词语描绘出具体规则 ,平均每个词9条规则共27000条。6验证库全称为“现代汉语词义标注验证库 ”(Word Sense Tagged Corpus of Modern Chinese),简称WSTC。 是人工标注了义项的语料库,主要作为对 词义标注效力进行检验,对规则提取、修 订、完善起校正、验测作用的实验库。7义频库全称为“现代汉语多义词词义频级库”( Polysemous Senses Frequency Rank base of Modern Chinese),简称PFRD。 是一个动态数据库。最初根据语感、简单语料 调查以及词典义项属性标识给义项进行粗糙义 频分级,并在词义标注过程中起帮助作用。最 后根据标注结果不断调整、细化,最终形成精 细、准确的义频调查结果库。语法库语义库规则库义频库义项库自动标 注语料库分词语 料标注语 料验证库形式特征标 注 过 程资 源 建 设 过 程 义项库WSB是词义标注时义项选择的来源。但 又不仅仅是如此。WSB对研究中的几乎所有环 节都起着重要的制衡作用: 机器识别的对象; 提取规则的依据; 标注的对象; 对语料进行识读的语义单位; 标注义项的应用目的;义项库在整个系统中的作用: 来源于语料库; 延伸至语法库语义库; 衍生出规则库; 服务于验证库; 最后显示于大规模的真实文本语料库。 根据中文信息处理的目的、条件、需求, 在改造、完善传统词典义项的基础上来建 构机用义项库成为当务之急。 传统词典义项与机用词典义项有何不同? 收录对象?功能与目的?识别能力?识别 手段? 义项来源于何处: 传统词典的义项是否符合机用词义标 注的需要?义项底库为现代汉语词典 多义词12400个; 复音多义词8300个; 双音多义词7278; 词频在100次以上、义项在2-5个之间的双 音词3774个; 3774个多义词共有义项8608个。 对3774个多义词中的每个词都人工进行 了义项特征的提取工作。 词义标注所有工作的重点与难点都集中于 下面两个问题:一、什么样的义项 义项库是否齐备?有无缺损?是否与真实语料 相符? 义项如何划分?根据什么标准? 义项分立是否清晰? 二、如何让计算机能识别 义项有无形式特征? 什么样的特征能为计算机所识别? 目前机用词典的义项内容一般都是借用了 面向人的传统词典。这是一种取巧,也是 不得已而为之的办法。 由于机用词典与传统词典有着完全不同的 服务对象,使用环境、识别条件、实现目 标也各不相同,将传统词典简单地套用于 机用词典肯定会扞格不入,面临着许多的 困难。 在词义标注之路上的先行者已经关注到了 机用词典的特征问题,并试图寻找解决的 问题。如有的认为传统语文词典义项切分 太细,应该调整义项粒度;有的主张以用 法代替词义辨析(吴云芳、俞士汶, 2007)。 在“第十届汉语词汇语义研讨会”(山东烟台 ,2009-7-25),有多篇论文都以词义标注为题 : 肖航的多义词义项关系对语料库词义标注的影响 王宏显等的构建词汇语义关联度人工标注集 王莉等基于语料库的多义动词标注方法研究 乔剑敏等的面向语义标注一致性检验的汉语词义相似 度计算 俞士汶、贾玉祥关于隐喻的报告。 都把问题的焦点指向“义项”。问题还有: 既有词义颗粒太细的问题,也有词义颗粒 太粗,甚至义项缺损的问题; 既有义项包含与被包含问题,还有上下位 交叉覆盖的问题; 有语料库有义项库无,也有语料库无义项 库有,彼此阙如的问题。 传统词典义项存在问题分析词数义项数动词14852064名词14814592形容词8081952总计37748608存在问题的类型:(一)义项包含 (二)义项交叉 (三)义项边缘模糊 (四)语义连贯 (五)义项过近 (六)义项过窄 (七)义项缺损 (八)罕用义(一)义项包含【封面】线装书指书皮里面印着书名和 刻书者的名称等的一页。新式装订的书 刊指最外面的一层,用厚纸、布、皮等做 成。特指新式装订的书刊印着书刊名称 等的第一面。也叫封一。 【噪音】音高和音强变化混乱、听起来 不谐和的声音。是由发音体不规则的振动 而产生的(区别于乐音)。噪声。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号