字符与编码95788-－金锄头文库

字符，字节和编码字符，字节和编码原创文章，转载请保留或注明出处：http:/www.regexlab.com/zh/encoding.htm级别：中级摘要：本文介绍了字符与编码的发展过程，相关概念的正确理解。举例说明了一些实际应用中，编码的实现方法。然后，本文讲述了通常对字符与编码的几种误解，由于这些误解而导致乱码产生的原因，以及消除乱码的办法。本文的内容涵盖了“中文问题”，“乱码问题”。掌握编码问题的关键是正确地理解相关概念，编码所涉及的技术其实是很简单的。因此，阅读本文时需要慢读多想，多思考。引言引言“ 字符与编码”是一个被经常讨论的话题。即使这样，时常出现的乱码仍然困扰着大家。虽然我们有很多的办法可以用来消除乱码，但我们并不一定理解这些办法的内在原理。而有的乱码产生的原因，实际上由于底层代码本身有问题所导致的。因此，不仅是初学者会对字符编码感到模糊，有的底层开发人员同样对字符编码缺乏准确的理解。1.1. 编码问题的由来，相关概念的理解编码问题的由来，相关概念的理解1.11.1 字符与编码的发展字符与编码的发展从计算机对多国语言的支持角度看，大致可以分为三个阶段：系统内码系统内码说明说明系统系统阶段一ASCII计算机刚开始只支持英语，其它语言不能够在计算机上存储和显示。英文 DOS阶段二ANSI 编码（本地化）为使计算机支持更多语言，通常使用 0x800xFF 范围的 2 个字节来表示 1 个字符。比如：汉字中在中文操作系统中，使用 0xD6,0xD0 这两个字节存储。不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSIANSI 编码编码。在简体中文系统下， ANSI 编码代表 GB2312 编码，在日文操中文 DOS，中文 Windows 95/98，日文 Windows 95/98作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSIANSI 编码编码的文本中。阶段三UNICODE （国际化）为了使国际间信息交流更加方便，国际组织制定了 UNICODEUNICODE 字符集字符集，为各种语言中的每一个字符设定了统一并且唯一的数字编号，以满足跨语言、跨平台进行文本转换、处理的要求。Windows NT/2000/XP，Lin ux，Java字符串在内存中的存放方法：在 ASCII 阶段，单字节字符串单字节字符串使用一个字节存放一个字符（SBCS）。比如， “Bob123“ 在内存中为：42 6F 62 31 32 33 00Bob123 0在使用 ANSI 编码支持多种语言阶段，每个字符使用一个字节或多个字节来表示（MBCS），因此，这种方式存放的字符也被称作多字节字符多字节字符。比如，“中文 123“ 在中文 Windows 95 内存中为 7 个字节，每个汉字占 2 个字节，每个英文和数字字符占 1 个字节：D6 D0 CE C4 31 32 33 00中文123 0在 UNICODE 被采用之后，计算机存放字符串时，改为存放每个字符在 UNICODE 字符集中的序号。目前计算机一般使用 2 个字节（16 位）来存放一个序号（DBCS），因此，这种方式存放的字符也被称作宽字节字符宽字节字符。比如，字符串 “ 中文 123“ 在 Windows 2000 下，内存中实际存放的是 5 个序号：2D 4E 87 65 31 00 32 00 33 00 00 00 在 x86 CPU 中，低字节在前中文1230 一共占 10 个字节。回页首1.21.2 字符，字节，字符串字符，字节，字符串理解编码的关键，是要把字符的概念和字节的概念理解准确。这两个概念容易混淆，我们在此做一下区分：概念描述概念描述举例举例字符人们使用的记号，抽象意义上的一个符号。1, 中, a, $, ￥, 字节计算机中存储数据的单元，一个 8 位的二进制数，是一个很具体的存储空间。0x01, 0x45, 0xFA, ANSI 字符串在内存中，如果“字符”是以 ANSIANSI 编码编码形式存在的，一个字符可能使用一个字节或多个字节来表示，那么我们称这种字符串为 ANSIANSI 字符串字符串或者多字节多字节字符串字符串。“中文 123“ （占 7 字节）UNICODE 字符串在内存中，如果“字符”是以在 UNICODE 中的序号存在的，那么我们称这种字符串为 UNICODEUNICODE 字字符串符串或者宽字节字符串宽字节字符串。L“中文 123“ （占 10 字节）由于不同 ANSI 编码所规定的标准是不相同的，因此，对于一个给定的多字节多字节字符串字符串，我们必须知道它采用的是哪一种编码规则，才能够知道它包含了哪些 “字符”。而对于 UNICODEUNICODE 字符串字符串来说，不管在什么环境下，它所代表的“字符”内容总是不变的。回页首1.31.3 字符集与编码字符集与编码各个国家和地区所制定的不同 ANSI 编码标准中，都只规定了各自语言所需的 “字符”。比如：汉字标准（GB2312）中没有规定韩国语字符怎样存储。这些 ANSI 编码标准所规定的内容包含两层含义：1. 使用哪些字符。也就是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集字符集”。 2. 规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做“编码编码”。各个国家和地区在制定编码标准的时候，“字符的集合”和“编码”一般都是同时制定的。因此，平常我们所说的“字符集”，比如：GB2312, GBK, JIS 等，除了有“字符的集合”这层含义外，同时也包含了“编码”的含义。“UNICODEUNICODE 字符集字符集”包含了各种语言中使用到的所有“字符”。用来给 UNICODE 字符集编码的标准有很多种，比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。回页首1.41.4 常用的编码简介常用的编码简介简单介绍一下常用的编码规则，为后边的章节做一个准备。在这里，我们根据编码规则的特点，把所有的编码分成三类：分类分类编码标准编码标准说明说明单字节字符编码ISO-8859-1最简单的编码规则，每一个字节直接作为一个 UNICODE 字符。比如，0xD6, 0xD0 这两个字节，通过 iso-8859-1 转化为字符串时，将直接得到 0x00D6, 0x00D0 两个 UNICODE 字符，即 “。反之，将 UNICODE 字符串通过 iso-8859- 1 转化为字节串时，只能正常转化 0255 范围的字符。ANSI 编码GB2312, BIG5, Shift_JIS, ISO-8859-2 把 UNICODE 字符串通过 ANSI 编码转化为 “字节串”时，根据各自编码的规定，一个 UNICODE 字符可能转化成一个字节或多个字节。反之，将字节串转化成字符串时，也可能多个字节转化成一个字符。比如，0xD6, 0xD0 这两个字节，通过 GB2312 转化为字符串时，将得到 0x4E2D 一个字符，即中字。“ANSI 编码”的特点： 1. 这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。 2. “UNICODE 字符”与“转换出来的字节” 之间的关系是人为规定的。UNICODE 编码UTF-8, UTF-16, UnicodeBig 与“ANSI 编码”类似的，把字符串通过 UNICODE 编码转化成“字节串”时，一个 UNICODE 字符可能转化成一个字节或多个字节。与“ANSI 编码”不同的是： 1. 这些“UNICODE 编码”能够处理所有的 UNICODE 字符。 2. “UNICODE 字符”与“转换出来的字节” 之间是可以通过计算得到的。我们实际上没有必要去深究每一种编码具体把某一个字符编码成了哪几个字节，我们只需要知道“编码”的概念就是把“字符”转化成“字节”就可以了。对于 “UNICODE 编码”，由于它们是可以通过计算得到的，因此，在特殊的场合，我们可以去了解某一种“UNICODE 编码”是怎样的规则。回页首2.2. 字符与编码在程序中的实现字符与编码在程序中的实现2.12.1 程序中的字符与字节程序中的字符与字节在 C+ 和 Java 中，用来代表“字符”和“字节”的数据类型，以及进行编码的方法：类型或操作类型或操作C+C+JavaJava字符wchar_tchar字节charbyteANSI 字符串charbyteUNICODE 字符串wchar_tString字节串字符串mbstowcs(), MultiByteToWideChar()string = new String(bytes, “encoding“)字符串字节串wcstombs(), WideCharToMultiByte()bytes = string.getBytes(“encoding“)以上需要注意几点：1. Java 中的 char 代表一个“UNICODE 字符（宽字节字符）”，而 C+ 中的 char 代表一个字节。 2. MultiByteToWideChar() 和 WideCharToMultiByte() 是 Windows API 函数。回页首2.22.2 C+C+ 中相关实现方法中相关实现方法声明一段字符串常量：/ ANSI 字符串，内容长度 7 字节 char sz20 = “中文 123“;/ UNICODE 字符串，内容长度 5 个 wchar_t（10 字节）wchar_t wsz20 = L“x4E2Dx6587x0031x0032x0033“;UNICODE 字符串的 I/O 操作，字符与字节的转换操作：/ 运行时设定当前 ANSI 编码，VC 格式 setlocale(LC_ALL, “.936“);/ GCC 中格式 setlocale(LC_ALL, “zh_CN.GBK“);/ Visual C+ 中使用小写 %s，按照 setlocale 指定编码输出到文件 / GCC 中使用大写 %S fwprintf(fp, L“%sn“, wsz);/ 把 UNICODE 字符串按照 setlocale 指定的编码转换成字节 wcstombs(sz, wsz, 20); / 把字节串按照 setlocale 指定的编码转换成 UNICODE 字符串 mbstowcs(wsz, sz, 20);在 Visual C+ 中，UNICODE 字符串常量有更简单的表示方法。如果源程序的编码与当前默认 ANSI 编码不符，则需要使用 #pragma setlocale，告诉编译器源程序使用的编码：/ 如果源程序的编码与当前默认 ANSI 编码不一致， / 则需要此行，编译时用来指明当前源程序使用的编码 #pragma setlocale(“.936“)/ UNICODE 字符串常量，内容长度 10 字节 wchar_t wsz20 = L“中文 123“;以上需要注意 #pragma setlocale 与 setlocale(LC_ALL, “) 的作用是不同的，#pragma setlocale 在编译时起作用，setlocale() 在运行时起作用。回页首2.32.3 JavaJava 中相关实现方法中相关实现方