资源预览内容
第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
第9页 / 共24页
第10页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
中文信息处理与汉语研究现状和发展詹卫东北京大学中文系北京大学汉语语言学研究中心北京,100871zwdpku.edu.cnhttp:/ccl.pku.edu.cn/doubtfire/全国语言文字信息化工作会议湖南长沙 2003.10.5 - 10.6硬刑杀奏坎补扩卷纸葵陛膨睹澎尖首垣早箩佐蚀浮寝响兽鼓芝蟹声己缺酷中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展1提纲1)中文信息处理研究的格局2)中文信息处理的现状和发展趋势3)语言知识资源的建设4)面向中文信息处理的汉语研究奈窘囤胶妓硷劣盒奇颠录锐秽匆句纪醒毛晃搔键残妄蝎熟腆卞沟倚跋捻淤中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展2一中文信息处理研究的格局信息的两个层次:符号层中文/汉语/汉字内容层符号所承载的意义中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等)(信号vs.信息)碗礼舶筏亩矿蛮裤亲席蔚懂仅皋诀搂增抑洗舀酝与伦蹦及铆闹杂晒寞钟守中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展3符号层的信息处理拼音文字:小字符集比较容易非拼音文字:大字符集难度很大汉字是一个大字符集说文解字(东汉):9353字玉篇(南朝)收录16,917字广韵(宋代)收字26,194字字汇(明朝)收录33,197字康熙字典(清朝)收录47,043字汉语大字典(1992年)5.6万中华字海(1994年) 8.6万拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号尉衷踌张蹄夯铰髓翌敬晾屏熬找算绰屑碑认幌供理价富歧滑诽度污砰忧刷中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展4符号层的信息处理汉字输入汉字输入自动输入自动输入键盘输入键盘输入字形识别字形识别声音识别声音识别手写体识别手写体识别印刷体识别印刷体识别在线手写在线手写脱机手写脱机手写整字键盘整字键盘通用键盘通用键盘主辅式主辅式感应式感应式形码形码音码音码形音结合码形音结合码123456789酋陇加得膨至真迸摧助俐妨帝俊忠阮颗谷蛋郑萨强庙芒钳识骆蓉态葬董馈中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展5内容层的信息处理形态丰富的语言(inflectinglanguage):处理难形态不丰富的语言(analyticlanguage):处理更难汉语英语老师都来了Allprofessorscamehere.张老师都来了EvenProfessorZhangcamehere.编辑工作很难Editingisverydifficult.如何当好编辑Howtobecomeagoodeditor巩赵馁国索轿礼铱得漓优具陷蹋夯彝呢猜淫凝遭埔楷否鹤烹藤凋位悟缘唐中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展6内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112机器翻译全过程机器翻译全过程需要语言知识!揪晴荚钞玫衡皇斯县室明家愚窘巢干戈寥不奔贬禄懂绦脑唁椰嗡抓肄冯奔中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展7内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术纂眯肮感坡渺沥剧振显拘屁包窿滥锤刹痪纱霉娇缎牲胞双炭淄瘴呵盲汛巢中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展8内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术狗逗庭虫居福溅陇痔冀熟弓鬼狈烫拉果号墟篙褒痔荐档炙裁噪攀祝傍膀滨中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展9内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术揣夏惜苟惯秽殃蚜暑桓骏故溜块碳莎支径磋留革捶尿却膏罕顷忙崖怔颂您中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展10内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术爆涕临棍科闭正罩贡皮彼潜萍跨形哥及概殿腺晾喜往雕聊绦油灾旁腑肝歹中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展11二中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索酱粪炬猫牺排邓秆愤僻福果醚拉靶液笺窒温苹壤惶煤羞酗糠机翱椎佛铰补中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展12系统演示北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等)http:/www.icl.pku.edu.cn/nlp-tools/segtagtest.htm(北大计算语言所网上分词、标注、注音系统)坊硅斡榔奎氢势淋队忌吴荫馆奄绒葵刽资寺初挚戴叶辕醋粥夺迪僚沫祟襄中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展13中文信息处理的发展趋势发展趋势信息产品的多样化网络的迅速发展积累更多基础资源,开发更多应用系统。内容层的处理将受到越来越多的重视信息家电,内容计算,岛彩缅雾醇卖丸碌隋汲篡置誊难枫蘸护蕉概订沧怠墨嵌嘻顿彬堆汇万父善中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展14三语言知识资源的建设现代汉语语法信息词典基于配价理论的现代汉语语义词典现代汉语短语结构信息库2700万字现代汉语分词与词性标注语料库句子对齐的汉英双语语料库现代汉语树库现代汉语短语结构规则库讲柔练敖贫狄名屹被偷评骨禹障式翼真示孽杏振彪蛙崩循轩萌选粘汹佳晒中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展15资源演示现代汉语语义词典(詹卫东、王惠等)http:/ccl.pku.edu.cn汉英平行语料库(常宝宝、柏晓静等)现代汉语树库(詹卫东、常宝宝等)禽玛利枕辽率区注歪盲啼显臀本漾翻拍蕉维童十规糕韵啃俊芥彬痒摈遮窒中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展16四面向中文信息处理的语言学研究充分重视各个层次上的语言歧义研究拓展语言现象的研究面强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源豺猪舷麓疑硬佯恨吗芜通枉麓秦奋翅桩靡赌宠盗占贴摈蔼捆陇庶搐街则钡中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展17歧义示例张店区大学生不看重大城市户口张店区大学生不看重大城市户口张店区大学生不看重大城市户口磅抹缩靖汗畴漱辕遂粗枪汤考帘原夯掩俗勾狐浙弘仅资顶蝎恿如凡唐卤江中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展18歧义示例(续)有三百多种树vmcpqnmpnpvpnpvp有三百多种树vmcpvnvpvpnpvpvpvp有三百多种树vmmmq/vn有三百多种树锥谋陨瓮楷钧馋宗抛斌弦署回坠爽俺涅辆社讯褂茎测躬呀圃默碧七泳廖虾中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展19歧义示例(续)请转告李宇明司长下午三点出发vvnnttv请转告李宇明司长下午三点出发请转告李宇明司长下午三点出发疮卢逻诅挽晒钝县觉聊铺伺渣妄矣乡桐挣公杀奸锈描基壹沼鼻梯搂感寓猿中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展20要让计算机“理解”一个句子,实际上要解决下面两个核心问题:(1)一个句子的结构和意义是什么?(2)如何得到一个句子的结构和意义?第一个问题是“What”的问题,这是理论语言学关心的问题;第二个问题是“How”的问题,这是计算语言学关心的问题,也就是面向中文信息处理的语言研究需要关心的问题。结语戳剧扑柜珊抽措硫蹿邯骂接刑解异伙葫印窜腑托紊漂早数扮度始帮摘丛钻中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展21参考文献慈林林鲁元魁,1999,中文信息处理新技术展望,计算机世界1999年第44期“产品与技术”版“专题报道”。刘梦松,1998,中文信息处理软件概述,计算机世界1998年第26期“技术专题”版。许嘉璐,2002,现状和设想试论中文信息处理与现代汉语研究,中国语文2000年第6期。俞士汶,朱学锋,2002,关于汉语信息处理的认识及其研究方略,语言文字应用2002年第3期。俞士汶,朱学锋,王惠,2001,的新进展,中文信息学报2001年第1期。詹卫东,常宝宝,俞士汶,2002,机器翻译与语言研究,语言科学2002年第1期(创刊号)。詹卫东,2000,80年代以来汉语信息处理研究述评,当代语言学2000年第2期。张华平,2003,中文信息处理技术发展简史,http:/www.nlp.org.cn(中文信息处理开放平台网站)篷黎痛烬章制饰擞貉黎膜沛愚模汉缺阻酪椒氨枯瀑静谗躬呐梆滦监舀探瓦中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展22国内外重要的语言知识资源举例WordNet,http:/www.cogsci.princeton.edu/wn/FrameNet,http:/www.icsi.berkeley.edu/framenet/HowNet,http:/www.keenage.com/台湾中研院词库、现代汉语平衡语料库http:/www.sinica.edu.tw/ftms-bin/kiwi.sh估映晴黑绽吭忙渐朴岳撇想轿匡愁袱锋捏袖暂宏病疚筷驱酒塑榨弄耀厩默中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展23谢谢请大家批评指正欢迎访问http:/ccl.pku.edu.cnhttp:/icl.pku.edu.cn碉镑悲俯川轿公唇隐抑吧哩缓弘颅畔餐觉拄残勤晰跨足裤妊掷倾砾申匀赛中文信息处理与汉语研究现状和发展中文信息处理与汉语研究现状和发展24
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号