
汉字的存储C语言.ppt
8页WWW.1PPT.COM汉字的存储汉字的存储1236002 任丹汉字的编码汉字的编码输出输入存储交交换码输入入码机内机内码字形字形码汉字的编码汉字的编码输入码输入码 汉字输人码也叫外码,都是由键盘上的字符和数字组成的目前流行的编码方案有全拼输人法、双拼输入法、自然码输人法和五笔输人法等 输入汉字信息汉字信息交换码交换码 规定汉字与定长的一串二进制数之间的对应关系的方案自国家标准 GB2312 - 80 公布以来,我国一直延用该标准所规定的国标码作为统一的汉字信息交换码Company Logo汉字的编码汉字的编码机内码机内码 解决汉字和ASCII码冲突而将两字节最高位置1的解决方案汉字字型码汉字字型码 用于汉字在显示屏或打印机输出汉字字型码通常有两种表示方式:点阵和矢量表示方法汉字的存储汉字的存储英文字母及符号用7位数码表示足矣考虑二进制计数特点,一个符号用8位来表示,其最高位始终为0 B7 B6 B5 B4 B3 B2 B1 B0 0 x x x x x x x GB2312规 定"对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示",习惯上称第一个字节为"高字节",第二个字节为"低字节"。
每个字节的最高位为0,但如果就这样放入电脑,就会与一个字节的ASCII冲突为此,规定放入机器时每个字节的最高位都置为1,这就是机内码汉字的存储汉字的存储b7 b6 b5 b4 b3 b2 b1 b0 b7 b6 b5 b4 b3 b2 b1 b0 0 0 1 1 0 1 0 0 0 1 1 1 0 0 1 1国标码国标码1 0 1 1 0 1 0 0 1 1 1 1 0 0 1 1 (机机)内码内码前导规则前导规则: 通常简单地说,若某个char的高位为1,就表示那是双字节字符,此时必须将此char紧接的char一并处理,不能分割用char字符串输入和输出汉字时 Length = n ×2 (汉字个数汉字个数) + 1((\0))汉字的存储汉字的存储计算输入年份的天干地支#include
UTF-16 (Unicode TransformationFormat-16bit)编码:通常汉字占两个字节,CJKV扩展B区、扩展C区、扩展D区中的汉字占四个字节(一般字符的Unicode范围是U+0000至U+FFFF,而这些扩展部分的范围大于U+20000,因而要用两个UTF-16)UTF-8 (Unicode TransformationFormat-8bit)编码:是变长编码,通常汉字占三个字节,扩展B区以后的汉字占四个字节一个汉字所占字节要根据具体的字符集和操作系统来定一个汉字所占字节要根据具体的字符集和操作系统来定。












