字符串编码机制和乱码解决及误区详解.doc
9页字符串编码机制详解字符,字节和编码[原创文章,转载请保留或注明出处: , “乱码问题”掌握编码问题的关键是正确地理解相关概念,编码所涉及的技术其实是很简单的因此,阅读本文时需要慢读多想,多思考引言“字符与编码” 是一个被经常讨论的话题即使这样,时常出现的乱码仍然困扰着大家虽然我们有很多的办法可以用来消除乱码,但我们并不一定理解这些办法的内在原理而有的乱码产生的原因,实际上由于底层代码本身有问题所导致的因此,不仅是初学者会对字符编码感到模糊,有的底层开发人员同样对字符编码缺乏准确的理解回页首1. 编码问题的由来,相关概念的理解1.1 字符与编码的发展从计算机对多国语言的支持角度看,大致可以分为三个阶段:系统内码 说明 系统阶段一ASCII计算机刚开始只支持英语,其它语言不能够在计算机上存储和显示 英文 DOS阶段二ANSI 编码(本地化)为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符比如:汉字 '中' 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。
这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下, ANSI 编码代表 JIS 编码中文 DOS,中文 Windows 95/98,日文 Windows 95/98不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中阶段三UNICODE(国际化)为了使国际间信息交流更加方便,国际组织制定了 UNICODE 字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求Windows NT/2000/XP,Linux,Java字符串在内存中的存放方法:在 ASCII 阶段,单字节字符串使用一个字节存放一个字符( SBCS) 比如,"Bob123" 在内存中为:426F6231323300B o b 1 2 3 \0在使用 ANSI 编码支持多种语言阶段,每个字符使用一个字节或多个字节来表示(MBCS ) ,因此,这种方式存放的字符也被称作多字节字符比如,"中文123" 在中文 Windows 95 内存中为7个字节,每个汉字占2个字节,每个英文和数字字符占1个字节:D6D0CEC431323300中 文 1 2 3 \0在 UNICODE 被采用之后,计算机存放字符串时,改为存放每个字符在 UNICODE 字符集中的序号。
目前计算机一般使用 2 个字节(16 位)来存放一个序号(DBCS) ,因此,这种方式存放的字符也被称作宽字节字符比如,字符串 "中文123" 在 Windows 2000 下,内存中实际存放的是 5 个序号:2D4E87653100320033000000← 在 x86 CPU 中,低字节在前中 文 1 2 3 \0 一共占 10 个字节回页首1.2 字符,字节,字符串理解编码的关键,是要把字符的概念和字节的概念理解准确这两个概念容易混淆,我们在此做一下区分:概念描述 举例字符 人们使用的记号,抽象意义上的一个符号 '1', '中', 'a', '$', '¥', ……字节 计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空 0x01, 0x45, 间 0xFA, ……ANSI字符串在内存中,如果“字符” 是以 ANSI 编码形式存在的,一个字符可能使用一个字节或多个字节来表示,那么我们称这种字符串为 ANSI 字符串或者多字节字符串"中文123"(占7字节)UNICODE字符串在内存中,如果“字符” 是以在 UNICODE 中的序号存在的,那么我们称这种字符串为 UNICODE 字符串或者宽字节字符串。
L"中文 123"(占10字节)由于不同 ANSI 编码所规定的标准是不相同的,因此,对于一个给定的多字节字符串,我们必须知道它采用的是哪一种编码规则,才能够知道它包含了哪些“字符” 而对于 UNICODE 字符串来说,不管在什么环境下,它所代表的“字符” 内容总是不变的回页首1.3 字符集与编码各个国家和地区所制定的不同 ANSI 编码标准中,都只规定了各自语言所需的 “字符” 比如:汉字标准(GB2312)中没有规定韩国语字符怎样存储这些 ANSI 编码标准所规定的内容包含两层含义: 使用哪些字符也就是说哪些汉字,字母和符号会被收入标准中所包含“字符”的集合就叫做“字符集 ” 规定每个“字符 ”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码” 各个国家和地区在制定编码标准的时候, “字符的集合” 和“编码”一般都是同时制定的因此,平常我们所说的“ 字符集 ”,比如: GB2312, GBK, JIS 等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义UNICODE 字符集” 包含了各种语言中使用到的所有“ 字符”用来给 UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。
回页首1.4 常用的编码简介简单介绍一下常用的编码规则,为后边的章节做一个准备在这里,我们根据编码规则的特点,把所有的编码分成三类:分类 编码标准 说明单字节字符编码 ISO-8859-1最简单的编码规则,每一个字节直接作为一个 UNICODE 字符比如,[0xD6, 0xD0] 这两个字节,通过 iso-8859-1 转化为字符串时,将直接得到 [0x00D6, 0x00D0] 两个 UNICODE 字符,即 "ÖÐ"反之,将 UNICODE 字符串通过 iso-8859-1 转化为字节串时,只能正常转化 0~255 范围的字符ANSI 编码GB2312,BIG5,Shift_JIS,ISO-8859-2 ……把 UNICODE 字符串通过 ANSI 编码转化为“字节串” 时,根据各自编码的规定,一个 UNICODE 字符可能转化成一个字节或多个字节反之,将字节串转化成字符串时,也可能多个字节转化成一个字符比如,[0xD6, 0xD0] 这两个字节,通过 GB2312 转化为字符串时,将得到 [0x4E2D] 一个字符,即 '中' 字ANSI 编码”的特点:1. 这些“ ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。
2. “UNICODE 字符”与“转换出来的字节” 之间的关系是人为规定的UNICODE 编码UTF-8,UTF-16, UnicodeBig ……与“ANSI 编码”类似的,把字符串通过 UNICODE 编码转化成“ 字节串”时,一个 UNICODE 字符可能转化成一个字节或多个字节与“ANSI 编码”不同的是:1. 这些“ UNICODE 编码”能够处理所有的 UNICODE 字符2. “UNICODE 字符”与“转换出来的字节” 之间是可以通过计算得到的我们实际上没有必要去深究每一种编码具体把某一个字符编码成了哪几个字节,我们只需要知道“编码”的概念就是把“字符 ”转化成“字节”就可以了对于 “UNICODE 编码”,由于它们是可以通过计算得到的,因此,在特殊的场合,我们可以去了解某一种“UNICODE 编码”是怎样的规则回页首2. 字符与编码在程序中的实现2.1 程序中的字符与字节在 C++ 和 Java 中,用来代表“ 字符”和“字节” 的数据类型,以及进行编码的方法:类型或操作 C++ Java字符 wchar_t char字节 char byteANSI 字符串 char[] byte[]UNICODE 字符串 wchar_t[] String字节串→字符串 mbstowcs(), MultiByteToWideChar() string = new String(bytes, "encoding")字符串→字节串 wcstombs(), WideCharToMultiByte() bytes = string.getBytes("encoding")以上需要注意几点: Java 中的 char 代表一个“UNICODE 字符(宽字节字符) ”,而 C++ 中的 char 代表一个字节。
MultiByteToWideChar() 和 WideCharToMultiByte() 是 Windows API 函数回页首2.2 C++ 中相关实现方法声明一段字符串常量:// ANSI 字符串,内容长度 7 字节char sz[20] = "中文123";// UNICODE 字符串,内容长度 5 个 wchar_t(10 字节)wchar_t wsz[20] = L"\x4E2D\x6587\x0031\x0032\x0033";UNICODE 字符串的 I/O 操作,字符与字节的转换操作:// 运行时设定当前 ANSI 编码,VC 格式setlocale(LC_ALL, ".936");// GCC 中格式setlocale(LC_ALL, "zh_CN.GBK");// Visual C++ 中使用小写 %s,按照 setlocale 指定编码输出到文件// GCC 中使用大写 %Sfwprintf(fp, L"%s\n", wsz);// 把 UNICODE 字符串按照 setlocale 指定的编码转换成字节wcstombs(sz, wsz, 20);// 把字节串按照 setlocale 指定的编码转换成 UNICODE 字符串mbstowcs(wsz, sz, 20);在 Visual C++ 中,UNICODE 字符串常量有更简单的表示方法。
如果源程序的编码与当前默认 ANSI 编码不符,则需要使用 #pragma setlocale,告诉编译器源程序使用的编码:// 如果源程序的编码与当前默认 ANSI 编码不一致,// 则需要此行,编译时用来指明当前源程序使用的编码#pragma setlocale(".936")// UNICODE 字符串常量,内容长度 10 字节wchar_t wsz[20] = L"中文 123";以上需要注意 #pragma setlocale 与 setlocale(LC_ALL, "") 的作用是不同的,#pragma setlocale 在编译时起作用, setlocale() 在运行时起作用回页首2.3 Java 中相关实现方法字符串类 String 中的内容是 UNICODE 字符串:// Java 代码,直接写中文String string = "中文123";// 得到长度为 5,因为是 5 个字符System.out.println(string.length());字符串 I/O 操作,字符与字节转换操作在 Java 包 java.io.* 中,以“Stream”结尾的类一般是用来操作“ 字节串 ”的类,以 “Reader”, “Writer”结尾的类一般是用来操作“字符串” 的类。
// 字符串与字节串间相互转化// 按照 GB2312 得到字节(得到多字节字符串)byte [] bytes = stri。





