第六章中文信息处理-

第六章第六章中文信息处理中文信息处理概概述述一、中文信息处理一、中文信息处理计算机科学技术百科全书(清华大学出版社，1998)中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作，包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。中文信息处理分为汉字信息处理与汉语信息处理两部分中文信息处理是自然语言信息处理的一个分支，是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。参考文献参考文献中文信息处理技术原理与应用，李宝安等，清华大学出版社，2005年7月第1版中文信息处理技术教程，朱巧明，清华大学出版社，2005年版计算语言学概论，俞士汶主编，商务印书馆，2003年9月第1版计算语言学，刘颖，清华大学出版社，2002年版中国语言文字网http:/www.china-language.gov.cn/ 中文信息处理中文信息处理中文信息处理分为汉字信息处理与汉语信息处理两部分信息的两个层次：符号层中文 / 汉语 / 汉字内容层符号所承载的意义中文信息处理的两个层次：字符处理（输入、存储、输出等）内容处理（词语切分，词性标注，结构分析，意义理解，推理，翻译等等）符号层的信息处理符号层的信息处理拼音文字：小字符集比较容易非拼音文字：大字符集难度很大汉字是一个大字符集说文解字（东汉）：9353字玉篇（南朝）收录16,917字广韵（宋代）收字26,194字字汇（明朝）收录33,197字康熙字典（清朝）收录47,043字汉语大字典（1992年）5.6万中华字海（ 1994年） 8.6万拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号符号层的信息处理符号层的信息处理汉字输入汉字输入自动输入自动输入键盘输入键盘输入字形识别字形识别声音识别声音识别手写体识别手写体识别印刷体识别印刷体识别在线手写在线手写脱机手写脱机手写整字键盘整字键盘通用键盘通用键盘主辅式主辅式感应式感应式形码形码音码音码形音结合码形音结合码123456789内容层的信息处理内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112机器翻译全过程机器翻译全过程需要语言知识！中文信息处理的现状和发展趋势中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用；中文输入/字库/字处理软件/排版/内容层的处理目前在词语识别和词性标注方面已经取得重要进展，句子结构分析和语义分析方面仍有待探索二、文字信息处理的二、文字信息处理的基本问题基本问题文字信息的计算机处理过程要用计算机来处理文字，必须解决如何把文字输入计算机并在计算机中存储起来，进行适当处理之后再输出文字等问题。文字信息的输入文字信息的输入文字信息的处理文字信息的处理文字信息的输出文字信息的输出二、文字信息处理的二、文字信息处理的基本问题基本问题文字信息处理的实质，是先把文字信息数字化，即用一个固定的数码代表一个字母或文字。在英文信息中，以26个字母作为文字信息处理的单位，因此要对26个字母逐个地确定代替它的数码。汉字一般是以一个整字作为文字信息处理的单位，因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)在计算机内部处理文字信息时，就像处理数据一样对待。处理完毕后，再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能，使文字信息处理也能够分享计算机技术的这一独特优点，从而实现文字信息处理的高效化。二、文字信息处理的二、文字信息处理的基本问题基本问题英文字符的编码标准是ASCII码，即美国信息交换标准代码。这是七位的二进制代码，它是美国国家标准学会（ANSI）为计算机的信息交换提出的标准，后来由国际标准组织（ISO）确定为国际标准字符编码。为了和国际标准兼容，我国根据它制定了英文字符编码国家标准，即GB1988。其中除了将货币符号置换为人民币符号外，其他都与ASCII码相同。计算机的键盘原本就是为英文输入设计的，只要按照字母击键，就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码，输入到计算机的内存中。经过编辑的文本仍然以ASCII码表示。输出时，这些代码必须转换成字符字形的点阵，以便显示或打印。因此，计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。汉字信息的计算机处理过程与英文信息处理过程是类似的。不过，由于汉字信息的特点，以及要考虑与英文信息处理系统兼容等问题，处理的难度更大。我国经过多年的研究，汉字处理的基本问题已经解决。汉字信息处理的基本问题汉字信息处理的基本问题三、中文信息处理主要研究对象三、中文信息处理主要研究对象基础研究：汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等输入技术：中文输入法、中文手写输入、中文语音输入、光学字符识别等。输出技术：汉字字模技术（字体库）、汉字激光照排、汉语语音合成、动态组字等。外字处理：动态组字、造字、电子书等。存储技术：汉字库标准中文、字符编码等。转换技术：繁简转换等三、中文信息处理主要研究对象三、中文信息处理主要研究对象信息处理：中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等中文化：软件的国际化（internationalization）和本土化（localization）。中文编程：目前有两种发展，一种是英文coding直接翻译，以降低开发人员的语言学习成本；一种是根据中文特点，发展出融合中国人思维模式的新的计算机语言。为了用0、1代码串表示汉字，在汉字系统或通信系统之间交换信息，必须给每个汉字规定一个统一的代码。这就是汉字的交换码。1981年5月，我国国家标准总局颁布信息交换用汉字编码字符集(GB 2312-80)，作为汉字交换码编码的国家标准，简称国家标准汉字编码，或国标码。收进该标准的字符共有7 445个。其中一级汉字3 755个，二级汉字3 008个，共计6 763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。为便于查找，一级汉字按汉语拼音顺序排列；二级汉字一般不易熟记它们的发音，故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。四、汉字编码标准累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实际应用的需要，我国在GB 2312-80的基础上扩大收字的范围，制定了“汉字内码规范”GBK，包含了20 902个汉字，又称为扩展的国标码。在Windows 95/98和其后的Windows 2000中，装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法。由于汉字的字符多，一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的ASCII 码混淆，在微型机汉字系统中，国标码的每个符号都用两个字节（十六位）代码来表示，并作为转换为机内码或其他汉字处理代码的依据。汉字编码标准汉字国标码就是GB 2312-80为汉字规定的代码，也称为交换码。国标码是汉字编码的国家标准。在GB 2312-80代码表中，纵向分为093，共94行；横向也是093，共94列。行与列分别用七位二进制码表示，第一字节表示行，第二字节表示列。其值都从0100001到1111110。这正是ASCII 码的可打印字符的编码。其范围为十六进制的217E。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长，通常用十六进制表示。例如：汉字第一字节第二字节十六进制区位码啊 0110000 0100001 3021 1601 保 0110001 0100011 3123 1703 播 0110010 0100101 3225 1805国标码国标码还可以表示成区位码的形式。在GB2312-80代码表中，将行号称为区号，列号称为位号，分别有94个区和94个位。将汉字置于其中，由区号与位号标识出汉字在代码表中的位置。区号与位号都用两位十进制数表示，不足两位的前面补零。每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码。这样，每个汉字或其他符号都可以用位十进制数表示。因此，区位码可以用来作为汉字输入的编码。区位码区位码区位码在区位码表中，19区为字母、数字、特殊图形符号等；1015区是未定义的空区；1655区为一级汉字区；5687区为二级汉字区。例如，“啊”字的区位码是1601，“保”字的区位码是1703，“播”字的区位码是1805，等等。区位码与国标码之间有一定的对应关系：将区位码的区号和位号分别由十进制转换成对应的十六进制数，然后加上十六进制数2020H（H表示2020为十六进制数码），就得到对应的国标码。例如，“啊”字的区位码是1601，分别将区号和位号转换成对应的十六进制数得1001H，再加上2020H就得到“啊”字的国标码为3021H。汉字机内码是在计算机内部实际用来表示汉字的代码。不同的计算机系统使用的机内码是不同的。在微型机中，多采用两字节代码作为机内码。在大、中型机中，多采用三字节或四字节代码作机内码。制订机内码必须考虑下列因素：汉字与西文易于区别；中、西文兼容；码长短，每个汉字所占字节数少；与国标码有较简单的对应关系，便于信息转换。机内码机内码目前，多数微机汉字系统的机内码是以国标GB 2312-80规定的双七位代码为依据，经一定转换后用两个字节表示一个汉字。每个字节的最高位均为，以此作为汉字的标记，以便于与ASCII码编码的符号相区别。由国标码转换为机内码的规则是：将十六进制的国标码加上8080H，就得到对应的机内码。如“大”字的区位码为2083，国标码为3473H，机内码为3473H+8080H=B4F3H。将B4F3H 化为二进制数得：1011010011110011，这就是在计算机中实际使用的机内码的二进制形式。8080H等于二进制的1000000010000000，国标码加上8080H，可以保证机内码每个字节首位均为。机内码机内码五、汉字编码字符集五、汉字编码字符集按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间具有一一对应关系。在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传输、处理、存储、输入及显示。在国际标准化组织ISO的定义中，“无歧义的规则”很重要，制定这些规则的目的是为了确保编码的唯一性，避免重码。汉字编码的关系汉字编码的关系00 FF00FF00 FF00FF00 FF00FF27484汉字20902汉字6763汉字GB180302000GBK95GB231280GB12345902个扩充的汉字字符集 GB2312GBK-95GB18030-2000虚线外的汉字，4字节表示六、中文信息在计算机内的表示六、中文信息在计算机内的表示在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂家的计算机中开始，但采用的编码形式互不兼容。为了能使汉字能够在计算机中通行，国际标准组织（ISO）、国际电子电气工程师协会（IEEE）以及各个使用汉字的国家和地区，在计算机技术发展中，都制定了各种各样的汉字编码字符集。ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。绝大多数计算机系统所采用的字符集，都是以ISO/IEC 2022为基础的。一般汉字在计算机内部的表示都是通过扩充编码长度实现的。ISO/IEC 10646ISO/IEC 10646一个国际标准编号,国际标准化组织（ISO）1993年正式颁布英文全称：Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称：信息技术-通用多八位编码字符集，亦称大字符集宗旨:全球所有文种统一编码UnicodeUnicode英文Universal Code的缩略语统一编码是对国际标准ISO/IEC 10646编码的一种称谓是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码就内容而言，Unicode和ISO/IEC 10646是一致的，并行的ISO10646/UnicodeISO10646/UnicodeISO10646的第0群组第0字面（群和面的值都为00h）称为基本多语种文字面（Basic Multi-lingual Plane, BMP），其编码字元与Unicode相同。ISO10646的BMP和Unicode的编码字符。ISO/IEC 10646中中CJK汉字组成汉字组成CJK统一编码汉字（20902）CJK扩充集A(6585)CJK扩充集B(4万-)ISO 10646/UnicodeISO 10646/Unicode的实现及其重要意义的实现及其重要意义在全球范围内建立起实时、无障碍的信息交换模式推动了汉字典籍的数字化为数字化图书馆的建立铺平了道路为弘扬汉字文化提供了舞台Single Binary技术的诞生：同一套基本程序用于多个语言环境的技术使汉字关联活起来：正-异关联、中-日关联、繁-简关联，正-讹关联以及古今、新旧字形关联Windows Windows 操作系统汉字输入法的使用操作系统汉字输入法的使用Windows操作系统提供了多种汉字输入法。其中全拼、智能ABC、微软拼音、双拼、表形码、郑码等都是较常用的输入法。其他扩充的汉字输入法，如五笔字型，需要另行安装后方可使用。本本章章结结束束