服务器维护网站维护数据维护系统安全配置
专业定制网站企业建站一条龙、软件定制开发、系统集成
稳定虚机备案一条龙，稳定快捷通道
服务理念诚信守诺客户至上专业精神专心贯注

深入剖析关于J 和Servlet对中文的处理(2)

作者：黑客防线网安JSP教程基地来源：黑客防线网安JSP教程基地浏览次数：0

黑客防线网安网讯： 这是ASCII字符），“u00bb”没找到，得到“3f”，最后，“u00f9”对应着“a8b4”。把这个字符串println一下，得到的结果是“?ìéF?ù”。看到没？这里并不全是问号，因为GBK与Unicode...

各位看到了，同样的Unicode字符，可以解释成不同的样子。当然，这其中有一种是我们期望的结果。以上例而论，“D6 D0 CE C4”应该是我们所想要的，当把“D6 D0 CE C4”输出到IE中时，用“简体中文”方式查看，就能看到清楚的“中文”两个字了。（当然了，如果你一定要用“西欧字符”来看，那也没办法，你将得不到任何有何时何地的东西）为什么呢？因为“00D6 00D0 00CE 00C4”本来就是由ISO8859-1转化过去的。

给出如下结论：

在Class输出字符串前，会将Unicode的字符串按照某一种内码重新生成字节流，然后把字节流输入，相当于进行了一步“String.getBytes(???)”操作。???代表某一种字符集。

如果是Servlet，那么，这种内码就是在HttpServletResponse.setContentType()方法中指定的内码，也就是上文定义的＜Servlet-charset＞。

如果是JSP，那么，这种内码就是在＜%@ page contentType=""%＞中指定的内码，也就是上文定义的＜Jsp-charset＞。

如果是Java程序，那么，这种内码就是file.encoding中指定的内码，默认为ISO8859-1。

当输出对象是浏览器时

以流行的浏览器IE为例。IE支持多种内码。假如IE接收到了一个字节流“D6 D0 CE C4”，你可以尝试用各种内码去查看。你会发现用“简体中文”时能得到正确的结果。因为“D6 D0 CE C4”本来就是简体中文中“中文”两个字的编码。

OK，完整地看一遍。

JSP：源文件为GB2312格式的文本文件，且JSP源文件中有“中文”这两个汉字

如果指定了＜Jsp-charset＞为GB2312，转化过程如下表。

表4　Jsp-charset = GB2312时的变化过程

序号步骤说明结果

1 编写JSP源文件，且存为GB2312格式 D6 D0 CE C4

（D6D0=中 CEC4=文）

2 jspc把JSP源文件转化为临时JAVA文件，并把字符串按照GB2312映射到Unicode，并用UTF格式写入JAVA文件中 E4 B8 AD E6 96 87

3 把临时JAVA文件编译成CLASS文件 E4 B8 AD E6 96 87

4 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 4E 2D 65 87（在Unicode中4E2D=中 6587=文）

5 根据Jsp-charset=GB2312把Unicode转化为字节流 D6 D0 CE C4

6 把字节流输出到IE中，并设置IE的编码为GB2312（作者按：这个信息隐藏在HTTP头中） D6 D0 CE C4

7 IE用“简体中文”查看结果 “中文”（正确显示）

如果指定了＜Jsp-charset＞为ISO8859-1，转化过程如下表。

表5　Jsp-charset = ISO8859-1时的变化过程

序号步骤说明结果

1 编写JSP源文件，且存为GB2312格式 D6 D0 CE C4

（D6D0=中 CEC4=文）

2 jspc把JSP源文件转化为临时JAVA文件，并把字符串按照ISO8859-1映射到Unicode，并用UTF格式写入JAVA文件中 C3 96 C3 90 C3 8E C3 84

3 把临时JAVA文件编译成CLASS文件 C3 96 C3 90 C3 8E C3 84

4 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 00 D6 00 D0 00 CE 00 C4

（啥都不是！！！）

5 根据Jsp-charset=ISO8859-1把Unicode转化为字节流 D6 D0 CE C4

6 把字节流输出到IE中，并设置IE的编码为ISO8859-1（作者按：这个信息隐藏在HTTP头中） D6 D0 CE C4

7 IE用“西欧字符”查看结果乱码，其实是四个ASCII字符，但由于大于128，所以显示出来的怪模怪样

8 改变IE的页面编码为“简体中文” “中文”（正确显示）

奇怪了！为什么把＜Jsp-charset＞设成GB2312和ISO8859-1是一个样的，都能正确显示？因为表4表5中的第2步和第5步互逆，是相互“抵消”的。只不过当指定为ISO8859-1时，要增加第8步操作，殊为不便。

再看看不指定＜Jsp-charset＞时的情况。

表6　未指定Jsp-charset 时的变化过程

序号步骤说明结果

1 编写JSP源文件，且存为GB2312格式 D6 D0 CE C4

（D6D0=中 CEC4=文）

2 jspc把JSP源文件转化为临时JAVA文件，并把字符串按照ISO8859-1映射到Unicode，并用UTF格式写入JAVA文件中 C3 96 C3 90 C3 8E C3 84

3 把临时JAVA文件编译成CLASS文件 C3 96 C3 90 C3 8E C3 84

4 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 00 D6 00 D0 00 CE 00 C4

5 根据Jsp-charset=ISO8859-1把Unicode转化为字节流 D6 D0 CE C4

6 把字节流输出到IE中 D6 D0 CE C4

7 IE用发出请求时的页面的编码查看结果视情况而定。如果是简体中文，则能正确显示，否则，需执行表5中的第8步

Servlet：源文件为JAVA文件，格式是GB2312，源文件中含有“中文”这两个汉字

如果＜Compile-charset＞＝GB2312，＜Servlet-charset＞=GB2312

表7　Compile-charset=Servlet-charset=GB2312 时的变化过程

序号步骤说明结果

1 编写Servlet源文件，且存为GB2312格式 D6 D0 CE C4

（D6D0=中 CEC4=文）

2 用javac ?encoding GB2312把JAVA源文件编译成CLASS文件 E4 B8 AD E6 96 87　（UTF）

3 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 4E 2D 65 87 (Unicode)

4 根据Servlet-charset=GB2312把Unicode转化为字节流 D6 D0 CE C4 (GB2312)

5 把字节流输出到IE中并设置IE的编码属性为Servlet-charset=GB2312 D6 D0 CE C4 (GB2312)

6 IE用“简体中文”查看结果 “中文”（正确显示）

如果＜Compile-charset＞＝ISO8859-1，＜Servlet-charset＞=ISO8859-1

表8　Compile-charset=Servlet-charset=ISO8859-1时的变化过程

序号步骤说明结果

1 编写Servlet源文件，且存为GB2312格式 D6 D0 CE C4

（D6D0=中 CEC4=文）

2 用javac ?encoding ISO8859-1把JAVA源文件编译成CLASS文件 C3 96 C3 90 C3 8E C3 84　（UTF）

3 运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码 00 D6 00 D0 00 CE 00 C4

4 根据Servlet-charset=ISO8859-1把Unicode转化为字节流 D6 D0 CE C4

5 把字节流输出到IE中并设置IE的编码属性为Servlet-charset=ISO8859-1 D6 D0 CE C4 (GB2312)

6 IE用“西欧字符”查看结果乱码（原因同表5）

7 改变IE的页面编码为“简体中文” “中文”（正确显示）

如果不指定Compile-charset或Servlet-charset，其默认值均为ISO8859-1。

当Compile-charset=Servlet-charset时，第2步和第4步能互逆，“抵消”，显示结果均能正确。读者可试着写一下Compile-charset＜＞Servlet-charset时的情况，肯定是不正确的。

当输出对象是数据库时

输出到数据库时，原理与输出到浏览器也是一样的。本节只是Servlet为例，JSP的情况请读者自行推导。

假设有一个Servlet，它能接收来自客户端（IE，简体中文）的汉字字符串，然后把它写入到内码为ISO8859-1的数据库中，然后再从数据库中取出这个字符串，显示到客户端。

表9　输出对象是数据库时的变化过程（1）

序号步骤说明结果域

1 在IE中输入“中文” D6 D0 CE C4 IE

2 IE把字符串转变成UTF，并送入传输流中 E4 B8 AD E6 96 87

3 Servlet接收到输入流，用readUTF读取 4E 2D 65 87(unicode) Servlet

4 编程者在Servlet中必须把字符串根据GB2312还原为字节流 D6 D0 CE C4

5 编程者根据数据库内码ISO8859-1生成新的字符串 00 D6 00 D0 00 CE 00 C4

6 把新生成的字符串提交给JDBC 00 D6 00 D0 00 CE 00 C4

7 JDBC检测到数据库内码为ISO8859-1 00 D6 00 D0 00 CE 00 C4 JDBC

8 JDBC把接收到的字符串按照ISO8859-1生成字节流 D6 D0 CE C4

9 JDBC把字节流写入数据库中 D6 D0 CE C4

10 完成数据存储工作 D6 D0 CE C4 数据库

以下是从数据库中取出数的过程

11 JDBC从数据库中取出字节流 D6 D0 CE C4 JDBC

12 JDBC按照数据库的字符集ISO8859-1生成字符串，并提交给Servlet 00 D6 00 D0 00 CE 00 C4 (Unicode)

13 Servlet获得字符串 00 D6 00 D0 00 CE 00 C4 (Unicode) Servlet

14 编程者必须根据数据库的内码ISO8859-1还原成原始字节流 D6 D0 CE C4

15 编程者必须根据客户端字符集GB2312生成新的字符串 4E 2D 65 87

（Unicode）

Servlet准备把字符串输出到客户端

16 Servlet根据＜Servlet-charset＞生成字节流 D6D0 CE C4 Servlet

17 Servlet把字节流输出到IE中，如果已指定＜Servlet-charset＞，还会设置IE的编码为＜Servlet-charset＞ D6 D0 CE C4

18 IE根据指定的编码或默认编码查看结果 “中文”（正确显示） IE

解释一下，表中第4第5步和第15第16步是用红色标记的，表示要由编码者来作转换。第4、5两步其实就是一句话：“new String(source.getBytes("GB2312"), "ISO8859-1")”。第15、16两步也是一句话：“new String(source.getBytes("ISO8859-1"), "GB2312")”。亲爱的读者，你在这样编写代码时是否意识到了其中的每一个细节呢？

至于客户端内码和数据库内码为其它值时的流程，和输出对象是系统控制台时的流程，请读者自己想吧。明白了上述流程的原理，相信你可以轻松地写出来。

行文至此，已可告一段落了。终点又回到了起点，对于编程者而言，几乎是什么影响都没有。

因为我们早就被告之要这么做了。

以下给出一个结论，作为结尾。

1、在Jsp文件中，要指定contentType，其中，charset的值要与客户端浏览器所用的字符集一样；对于其中的字符串常量，不需做任何内码转换；对于字符串变量，要求能根据ContentType中指定的字符集还原成客户端能识别的字节流，简单地说，就是“字符串变量是基于＜Jsp-charset＞字符集的”；

2、在Servlet中，必须用HttpServletResponse.setContentType()设置charset，且设置成与客户端内码一致；对于其中的字符串常量，需要在Javac编译时指定encoding，这个encoding必须与编写源文件的平台的字符集一样，一般说来都是GB2312或GBK；对于字符串变量，与JSP一样，必须“是基于＜Servlet-charset＞字符集的”。

看下例：

import javax.servlet.*;

import javax.servlet.http.*;

class testServlet extends HttpServlet

{

　public void doGet(HttpServletRequest req,HttpServletResponse resp)

　throws ServletException,java.io.IOException

　{

resp.setContentType("text/html; charset=GB2312");

黑客防线网安服务器维护方案本篇连接：http://www.rongsen.com.cn/show-16762-1.html

网站维护教程更新时间:2023-02-17 12:29:28 【打印此页】【关闭】