国际化安全课件-－金锄头文库

第六章第六章国际化安全国际化安全国际化(internationalization)，是为了保证软件产品适应不同区域语言要求的一种方式。由于英文单词 internationalization的首末字符i和n之间的字符数为18，因此业界内常把I18N作为“国际化”的简称。以WEB应用为例，随着经济的发展，全球经济一体化已经慢慢成为一种主流趋势，WEB应用要求必须能够支持多国语言。对于同一个WEB应用，在不同的语言环境下需要显示不同的效果，来方便用户。我们经常看到，一些网站都有各个不同的语言版本，在运行时，能够根据客户浏览器所在的国家和语言的不同，显示不同的用户界面。软件支持多种不同的语言，绝不是开发了软件的多个版本。业界具有一定的规则让信息进行复用，即对同样信息进行各种代码的转换。这样可以使得当需要在应用程序中添加对一种新的语言的支持时，不需要重新再开发一个软件，造成重复劳动。而安全问题就存在于代码转换的过程之中。本章主要针对国际化过程中的安全问题进行讲述，首先讲解常见的国际化过程，然后讲解国际化转码中需要注意的安全问题。6.1 国际化的基本机制随着经济全球化的发展，软件也应该具有支持各种语言和地区的能力。国际化的主要目的，是调整软件，使之能适用于不同的语言及地区。如图所示是一个表单在中国和美国的两个显示效果。从以上界面上看出，两个页面功能相同，但是在不同的地区，为了照顾不同的用户，显示界面不同，这就需要在开发的过程中充分考虑国际化问题。与国际化类似的另一个概念是本地化(localization)。在业界内，两个概念一般一起讲，有时候甚至被等同起来。不过，从概念上说，本地化是实现国际化的一些手段的集合。国际化的概念，比较偏向表达软件的设计思想，要求当软件被移植到不同的语言及地区时，软件的业务逻辑和程序源代码不用作改变或修正，但是软件又必须让该地区和语言的用户方便地使用；本地化的概念偏向对软件进行加工，使之满足特定地区和特定语言的用户对语言和功能的特殊要求，实际上是一指一系列工作的过程。软件本地化工作，可能涉及文字的翻译、用户界面布局调整、本地特性开发、联机文档和印刷手册的制作，以及保证本地化版本能正常工作等，实际上也算是软件质量保证活动的一部分。国际化简称为I18N，本地化由于其单词localization的L和N之间有10个字母，因此也被简称为L10N。国际化和本地化这两个工作，一个是设计思想，一个是工作的手段，相辅相成，互为补充。在有些企业中，也使用全球化(globalization)来表示国际化和本地化的合称，使用 G11N作为简称。从具体的工作内容上说，国际化与本地化工作，实际上包括的细节很多，也很繁杂。以下列举一些常见的工作：不同语言表达方式；不同语言表达方式；电子文件的编码；电子文件的编码；数字命名系统的不同；数字命名系统的不同；文字书写方向文字书写方向(如英语是从左到右，阿拉伯语从右到左如英语是从左到右，阿拉伯语从右到左)；语言细微差别（如英国英语中的语言细微差别（如英国英语中的Colour和美国英语中的和美国英语中的Color）；）；货币；货币；日期格式；日期格式；数字格式；等等。数字格式；等等。 6.1.2 国际化过程开发软件时，国际化和本地化对开发者是一个有挑战性的任务。很多软件，在件刚开始设计时，并没有考虑到需要在不同的语言和地区使用，于是就没有按照国际化的思想去设计，但是一段时间之后，软件突然出现要在其他地区使用的任务，国际化和本地化的工作将会十分艰难。怎样让程序从一开始就为国际化和本地化提供开发基础呢？我们知道，软件的难度在于程序的业务逻辑，一般情况下不应该随便对业务逻辑进行改动。程序在不同地区运行的过程中，实际上，程序的逻辑只有一份，只是界面的表示有所不同，而应该避免的是程序逻辑的修改。因此，通常作法是：将文本和其他与环境相关的资源单独编写，和程序代码相分离。这样，在理想的情况下，应对变化的环境时，无需修改代码，只需要修改资源，从而显著简化了工作。以下是国际化（本地化）的基本过程。从上面的图中可以看出，国际化过程包括3个部分：1：资源文件。是一个文件，能够保存各种不同：资源文件。是一个文件，能够保存各种不同语言所对应的资源。语言所对应的资源。2：读取工具。能够根据语言来读取资源文件。：读取工具。能够根据语言来读取资源文件。3：应用程序。调用读取工具，读取资源文件。：应用程序。调用读取工具，读取资源文件。在很多软件里面实现了国际化，以Java框架为例，要开发一个支持英文和中文的欢迎界面，该界面标题根据系统语言的不同而自动变化，可以利用接下来的一些代码来实现。以下是支持英文显示的资源文件：messageResource_en_US.properties以下是支持中文显示的资源文件(在Java中实现了转码，将“欢迎您来到本系统”转化成了ASCII码表示，用native2ascii来实现。这是Java的语言特点，其他语言不一定相同)：messageResource_zh_CN.propertiesP06_01.java为界面类。welcomeMessage=Welcome to visit our system! welcomeMessage=u6B22u8FCEu60A8u6765u5230u672Cu7CFBu7EDF 首先，将系统语言变为中文(中国)。如果使用的是windows系统，你可以通过控制面板中的“区域和语言选项”来修改：运行，得到如下界面；然后将系统语言变为“英语”，运行，得到如下界面。 6.2 国际化中的安全问题6.2 国际化中的安全问题国际化过程中，遇到的最重要的问题是不同的语言文字，在不同的系统中具有不同的表达方式，也就是通常所说的编码。编码是不同国家的语言在计算机中的一种存储和解释规范，在各个不同规范中，存储了相应能够表达一定内容的的若干字符，称为字符集。最原始的字符集是美国国家标准学会(American National Standards Institute, ANSI)的美国信息交换标准码(American Standard Code for Information Interchange，ASCII字符集)，它使用7个比特来表示一个字符，总共表示128个字符；不过，由于一个字节一般占用8个比特，为了充分利用一个字节所能表达的最大信息，IBM公司对ASCII字符集进行了扩展，用一个字节来表示一个字符，这样，让ASCII码字符集总共可以表示256个字符。不过，我们常说的ASCII码字符集表达的还是128个字符，常见的ASCII码字符集表也是基于128字符的ASCII码字符集编写的。由于英文和大部分的西方语言都是以字母拼写为基础的，需要的字母数量不多。因此，以上ASCII码字符集对这些语言的表达，基本能够胜任。但是，世界上的语言种类多种多样，如中文、日文、韩文等，语言中含有的文字就几千个，ASCII字符集就无法胜任其表达。因此，在ASCII字符集的基础之上，又派生出了一些新的字符集，如：GB2312、UTF-8、UTF-16等，称为MBCS（Multi-Byte Chactacter System，多字节字符系统。提示：提示：注意，同一个字，在不同的系统中可能有不同的表达方式。如“中国人”，在GB2312字符集和UTF-8字符集中，其表达方式完全不一样，读者可以编写相应的程序进行验证。有人可能会问，为什么不将这些字符集统一成为一个呢？这是因为各种字符集都有其发布的历史，一个字符集发布一段时间，功能需要扩充，于是出来了新的字符集，但是原有的项目要改成新的字符集，需要花费一些成本。久而久之，就造成了很多字符集并存的局面。6.2.2 字符集转换在实际的项目中，源数据可能来自于不同的字符集(如支持不同字符集的数据库)，而源数据需要以某种方式被目标程序使用，如显示在界面上、或者被目标程序进行加工等等。这时候遇到的最大问题就是：目标程序所支持的字符集和源数据属于的字符集可能不一致。此种情况下，可能造成系统显示出错。根据情况的不容，这里进行一个分类：1：当目标程序所支持的字符集和源数据属于的字符集完全不兼容时，数：当目标程序所支持的字符集和源数据属于的字符集完全不兼容时，数据无法显示据无法显示(或者以乱码形式显示或者以乱码形式显示)。例如，对于中文来说，如果如源数据。例如，对于中文来说，如果如源数据库使用字符集库使用字符集GBK，从数据库中查出来的中文内容，想要在目标程序上使，从数据库中查出来的中文内容，想要在目标程序上使用，而目标程序默认支持用，而目标程序默认支持ASCII，由于，由于GBK是是16位字符集，而位字符集，而ASCII是是7位位字符集，两者完全不兼容，或者说没有任何关系，每一个中文字符在字符集，两者完全不兼容，或者说没有任何关系，每一个中文字符在ASCII中，都不能够找到对等的字符，所以所有中文字符都会丢失而变成中，都不能够找到对等的字符，所以所有中文字符都会丢失而变成乱码形式。乱码形式。2: 当目标程序所支持的字符集是源数据属于的字符集的子集时，当目标程序所支持的字符集是源数据属于的字符集的子集时，信息会部分丢失。例如，如果源数据库使用信息会部分丢失。例如，如果源数据库使用GBK，而目标程序字，而目标程序字符集使用符集使用GB2312，这个过程中绝大部分字符都能够正确转换，但，这个过程中绝大部分字符都能够正确转换，但是由于是由于GB2312字符集小于字符集小于GBK，因此一些超出，因此一些超出GB2312字符集的字符集的字符变为乱码。字符变为乱码。在这些情况下，就必须进行字符集转换，俗称转码。各种语言中都有不同的转码支持。本节以Visual C+为例来讲解转码问题。在Visual C+中，有如下两个函数对转码进行支持： MultiByteToWideChar； WideCharToMultiByte。在这两个函数中，“MultiByte”称为短字符，一般为8bit或8bit以内来表示的字符，如ASCII码。“WideChar”称为宽字符，一般是指用16bit或以上(如果有的话)表示的字符，如UNICODE。MultiByteToWideChar函数的功能是：将一个由短字符组成的字符串转换为一个宽字符组成的字符串。函数原型是： int MultiByteToWideChar(UINT CodePage, DWORD dwFlags, LPCSTR lpMultiByteStr, int cchMultiByte, LPWSTR lpWideCharStr, int cchWideChar) 由于本书内容所限，不对该函数进行详细的讲解，有关各参数，在此进行简单的阐述：w1：CodePage：指定执行转换的代码页(实际上就是字符集或编码方式)，这个参数可以为系统已安装或有效的任何代码页所给定的值。你也可以指定其为下面的任意一值：CP_ACP：ANSI代码页；代码页； CP_MACCP：Macintosh代码页；代码页； CP_OEMCP：OEM代码页；代码页； CP_SYMBOL：符号代码页；：符号代码页； CP_THREAD_ACP：当前线索：当前线索ANSI代码页；代码页； CP_UTF7：使用：使用UTF-7转换；转换； CP_UTF8：使用：使用UTF-8转换。转换。 w2：dwFlags：一组标记，用以指出字符的处理方式。可以是以下标记常量的组合，含义如下： MB_PRECOMPOSED：由一个基本字符和一个非空字符组成的字符只有：由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与一个单一的字符值。这是缺省的转换选择。不能与MB_COMPOSITE值一值一起使用。注意，推荐使用该标志，因为这会在某种程度上消除产生组合字起使用。注意，推荐使用该标志，因为这会在某种程度上消除产生组合字符的可能并加速规范化。符的可能并加速规范化。MB_COMPOSITE：由一个基本字符和一个非空字符组成的字符分别有不：由一个基本字符和一个非空字符组成的字符分别有不同的字符值。这是缺省的转换选择。该选项不能与同的字符值。这是缺省的转换选择。该选项不能与MB_PRECOMPOSED值一起使用。值一起使用。MB_ERR_INVALID_CHARS：如果函数遇到无效的输入字符，它将运行：如果函数遇到无效的输入字符，它将运行失败。该标记能够捕获未定义的字符，因此，在不大于失败。该标记能够捕获未定义的字符，因此，在不大于50000的的CodePage中，推荐使用该标记。中，推荐使用该标记。MB_USEGLYPHCHARS：使用象形文字替代控制字符。：使用象形文字替代控制字符。w3：lpMultiByteStr：将被转换字符串的字符。w4：cchMultiByte：指定由参数lpMultiByteStr指向的字符串中字节的个数。如果这个值为-1，字符串将被设定为以NULL为结束符的字符串，并且自动计算长度。w5：lpWideCharStr：指向接收被转换字符串的缓冲区。w6：cchWideChar：指定由参数lpWideCharStr指向的缓冲区的字节个数。若此值为零，函数返回缓冲区所必需的宽字符数。w该函数返回值含义为：如果函数运行成功，并且如果函数运行成功，并且cchWideChar不为零，返回不为零，返回值是由值是由lpWideCharStr指向的缓冲区中写入的宽字符数；指向的缓冲区中写入的宽字符数；如果函数运行成功，并且如果函数运行成功，并且cchMultiByte为零，返回值是为零，返回值是接收到待转换字符串的缓冲区所需求的宽字符数大小；接收到待转换字符串的缓冲区所需求的宽字符数大小；如果函数运行失败，返回值为零。如果函数运行失败，返回值为零。 WideCharToMultiByte函数功能是：将一个由宽字符组成的字符串转换为一个由短字符组成的字符串。函数原型是： int WideCharToMultiByte(UINT CodePage, DWORD dwFlags, LPWSTR lpWideCharStr, int cchWideChar, LPCSTR lpMultiByteStr, int cchMultiByte, LPCSTR lpDefaultChar, PBOOL pfUsedDefaultChar ) w1：CodePage：指定执行转换的代码页(字符集或编码方式)，意义和MultiByteToWideChar中类似。w2：dwFlags：一组位标记用以指出字符的处理方式，意义和MultiByteToWideChar中类似；不过，该参数还有一个WC_NO_BEST_FIT_CHARS标记推荐使用，该标记可以防止函数将字符映射到相似但语义完全不同的字符上。w3：lpWideCharStr：指向将被转换的unicode字符串。w4：cchWideChar：指定由参数lpWideCharStr指向的缓冲区的字符个数。如果这个值为-1，字符串将被设定为以NULL为结束符的字符串，并且自动计算长度。w5：lpMultiByteStr：指向接收被转换字符串的缓冲区。w6：cchMultiByte：指定由参数lpMultiByteStr指向的缓冲区最大值（用字节来计量）。若此值为零，函数返回lpMultiByteStr指向的目标缓冲区所必需的字节数，在这种情况下，lpMultiByteStr参数通常为NULL。w7：lpDefaultChar和pfUsedDefaultChar：只有当WideCharToMultiByte函数遇到一个宽字节字符，而该字符在CodePage参数标识的代码页中并没有它的表示法时，WideCharToMultiByte函数才使用这两个参数。lpDefaultChar意义如下：如果宽字节字符不能被转换，该函数便使用如果宽字节字符不能被转换，该函数便使用lpDefaultChar参数指向的字符；参数指向的字符；如果该参数是如果该参数是NULL（这是大多数情况下的参数值），那么该函数使用系统的默认（这是大多数情况下的参数值），那么该函数使用系统的默认字符。字符。pfUsedDefaultChar参数指向一个布尔变量：参数指向一个布尔变量：如果如果Unicode字符串中至少有一个字符不能转换成等价多字节字符，那么函数就将字符串中至少有一个字符不能转换成等价多字节字符，那么函数就将该变量置为该变量置为TRUE；如果所有字符均被成功地转换，那么该函数就将该变量置为如果所有字符均被成功地转换，那么该函数就将该变量置为FALSE；当函数返回以便检查宽字节字符串是否被成功地转换后，可以测试该变量。当函数返回以便检查宽字节字符串是否被成功地转换后，可以测试该变量。 w该函数的返回值意义为：如果函数运行成功，并且如果函数运行成功，并且cchMultiByte不为零，返回值是由不为零，返回值是由 lpMultiByteStr指向的缓冲区中写指向的缓冲区中写入的字节数；入的字节数；如果函数运行成功，并且如果函数运行成功，并且cchMultiByte为零，返回值是接收到待转换字符串的缓冲区所必需的为零，返回值是接收到待转换字符串的缓冲区所必需的字节数；字节数；如果函数运行失败，返回值为零。如果函数运行失败，返回值为零。在Java语言中，字符集的转换也具有一定的支持，列举如下：1：编译阶段：一般javac根据当前操作系统区域设置，自动决定源文件的编码，可以通过-encoding强制指定。如：2：资源文件：资源文件一般为.properties文件，可由Properties用ISO-8859-1编码读取，需要使用JDK 的native2ascii工具转换汉字为uXXXX格式，才能正确读取里面的汉字。如：如例P06_01.java中，中文资源文件messageResource_zh_CN.properties的内容如下(可用文本编辑器打开阅读)：等号右边的内容实际上就是“欢迎您来到本系统”经过native2ascii命令转码之后的结果。native2ascii -encoding GBK source native2ascii -encoding GBK source javac -encoding gb2312 Hello.java 3：字节数组：可使用new String(byteArray,encoding) 和 String.getBytes(encoding) 在字节数组和字符串之间进行转换。如下例子，如果我们得到的字符串string是由ISO-8859-1转码方式产生的，要在支持GB2312中文的界面上显示，可以以如下方式转为正确的中文： 4：JSP：如果要支持汉字，可在头部加上：这样的标签。JSP表单的过程中，经常会出现乱码问题，如表单中的中文汉字无法被获取之后成为乱码，此时可以采用上面字节数组的处理方法，也可以使用：来处理，当然，也可以编写过滤器，将该内容放在过滤器中。string = new String(string.getBytes(ISO-8859-1), GB2312); string = new String(string.getBytes(ISO-8859-1), GB2312); request.setCharacterEncoding(gb2312); 6： Servlet：如果要输出中文，确定设置：另外，在标记语言中，也可以设置其编码方式：1：XML文件：XML文件读写同于文件读写，如果有汉字，应注意确保XML头中声明如：与文件编码保持一致。2：HTML：在head中加上：让浏览器正确确定HTML编码。 response.setContentType(text/html; charset=GB2312); 6.2.3 I18N缓冲区溢出问题在转码时，如果使用不当，就会出现缓冲区溢出问题。这种情况在使用MultiByteToWideChar和WideCharToMultiByte函数时更容易出现，在此进行讲解。如下函数：函数的参数5中，定义了目标字符串的指针。怎样定义目标字符串呢？一种方法是，事先定义一个足够大的宽字符数组，但是可能有如下的缺陷：当当lpMultiByteStr占用空间较小时，可能会造成空间浪费；占用空间较小时，可能会造成空间浪费；如果为了避免空间浪费，分配的数组空间较小，当如果为了避免空间浪费，分配的数组空间较小，当lpMultiByteStr占用的空间超过占用的空间超过了预分配空间时，又可能造成缓冲区溢出。了预分配空间时，又可能造成缓冲区溢出。因此，该方法不是一个最好的办法。int MultiByteToWideChar(UINT CodePage, DWORD dwFlags, LPCSTR lpMultiByteStr, int cchMultiByte, LPWSTR lpWideCharStr, int cchWideChar) 此种情况下，我们需要通过一些手段来获知转码的目标数组lpMultiByteStr所需要的数组空间。方法是：将MultiByteToWideChar函数的第四个形参设为-1，即可返回所需的短字符数组空间的个数。下面就是一个例子：nLen中得到的就是所需的短字符数组空间的个数。因此，完整的安全的代码结构如下： int nLen = MultiByteToWideChar (CP_UTF8, 0, lpMultiByteStr, -1, NULL, 0); /获得需要分配的内存大小，存入nLen int nLen = MultiByteToWideChar(CP_UTF8,MB_ERR_INVALID_CHARS, lpMultiByteStr,-1, NULL,0); if(nLen=0) /函数调用异常，作异常处理 /跳出 /为新的字符串分配内存LPWSTR lpWideCharStr = (LPWSTR)GlobalAlloc(0,sizeof(WCHAR)*nLen); if(lpWideCharStr=NULL) /内存分配失败，作相应处理 /跳出 /正式转换nLen = MultiByteToWideChar(CP_UTF8,MB_ERR_INVALID_CHARS, lpMultiByteStr,-1, lpWideCharStr,nLen); if(nLen=0) /函数调用异常，作异常处理 /跳出 /其它收尾操作6.3 推荐使用Unicode 实际上，理想的情况是，在软件开发的过程中，全程使用某一种编码。并且不在这种编码和别的字符集之间进行转换，自然不会出现字符集转换中信息丢失的问题。在我们要选择的编码中，Unicode(Universal Multiple-Octet Coded Character Set)是一种值得推荐的字符集。随着信息化交流的迅速发展，个体之间进行的数据交换越来越频繁，不同的编码体系渐渐成为信息交换的障碍；虽然我们可以进行编码转换，但是由于多种语言的文档共存的现象不断增多，编码转换也成了一件麻烦的事情。因此，设计一种统一的编码显得非常重要，此种情况下，Unicode应运而生。Unicode又称统一码、万国码或单一码，是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode于1990年开始研发，在1994年正式公布。随着网络的发展和信息交流的增强， Unicode也在面世以来的十多年里得到普及。作为一种在计算机上使用的字符编码，针对每种语言中的每个字符，Unicode为都设定了统一并且唯一的二进制编码，这样，不管在什么语言，什么平台下，Unicode不需要转码，满足了跨语言、跨平台进行文本转换、处理的要求。在Unicode公布之前，对于同一个字符，可能出现多种不同的编码，由于无法知道信息的来源，任何一台特定的计算机(特别是服务器)都必须安装多个字符集，需要支持许多不同的编码。但是有了Unicode，每个字符的编码就唯一了。Unicode是采用16位编码体系，一律使用两个字节表示一个字符，特别值得强调的是，对于ASCII字符它也使用两字节表示。它覆盖了美国、欧洲、中东、非洲、印度、亚洲和太平洋的语言，以及古文和专业符号。由于支持Unicode的成员，一般都是全球主要系统及软件制造商，因此Unicode很快就成为事实上的工业标准。Unicode制定了三套编码方式。分别是UTF-8，UTF-16和UTF-32(使用较少)。因此，如果在开发软件的过程中使用Unicode，并且不将Unicode和其他字符集进行转换，就基本上不会遇到转码过程中的安全问题。不过，以上情况只是理想状态，实际操作的过程中，由于软件产品的生产商繁多，本软件使用了Unicode编码，无法保证其它软件(如数据库软件)使用的也是Unicode编码，因此要保证自己不遇到转码的问题，基本很难。但是，Unicode的推荐使用，也为软件国际化难度的降低提供了一个较好的解决方案。小结本章对国际化(internationalization)，进行了介绍，首先阐述了国际化和本地化的需求和基本原理，然后主要基于Visual C+语言，讲解了国际化转码中需要注意的安全问题，最后对Unicode的使用进行了推荐。练习1：一个软件能够有多种语言版本，并不是开发了多个版本。(1) 用用JSP完成一个页面，包含一个登录表单完成一个页面，包含一个登录表单(参考参考6-1-1)，要求能够在英文、简体中文、繁体中文，要求能够在英文、简体中文、繁体中文之间切换。之间切换。(2) 资源文件的命名有何讲究？资源文件的命名有何讲究？ 2：在用Visual C+进行转码的过程中，会出现缓冲区溢出的问题，请用Visual C+对转码中缓冲区溢出的问题进行测试。3：同一个字符在不同的字符集中可能有不同的表达方式。编写代码： (1) 查看查看“安全编程安全编程”的的Unicode表示方法；表示方法； (2) 查看查看“安全编程安全编程”在在gb2312字符集中的表示方法。字符集中的表示方法。4：书中提到，如果使用Unicode就可以避免转码问题。(1) 为什么统一使用为什么统一使用Unicode就没有转码问题？就没有转码问题？ (2) 实际上实现起来有何难度？实际上实现起来有何难度？ 5：很多语言都支持国际化资源文件。请用.Net系列编写若干个不同的资源文件，并且可以用资源文件改变网页上内容，以不同的语言显示。