
国标码区位码等的区别.docx
9页即 GB 国标码 :中文内码之一,代表中文简化字,在中国大陆 广泛使用,影响所及,使用量渐见普及 “国家标准信息交换用汉字编码 ”(GB2312-80 标准),简称国标码国标码是指 1980 年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码国际码是二字节码, 用两个七位二进制数编码表示一个汉字目前国标码收入6763 个汉字, 其中一级汉字(最常用)3755 个, 二级汉字 3008 个, 另外还包括 682 个西文字符、图符 例如“巧”字的代码是 39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一字节 0 0 0 0 0 1 第二字节 在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式 方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而 ASCII 码所用字节最高位保持“0” ,然后由软件(或硬件)根据字节最高位来作出判断 字符代码化是指用户从键盘上输入代表某个汉字的编码我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和字形码),称为汉字的输入法,区位码、五笔字型码、拼音码、 智能 ABC、微软拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为 0和 1 构成的机内码,实现计算机的存储、加工和传输处理 同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目” 这种转换通常是由计算机的输入 /输出设备来实现的, 有时还需要软件来参与这种转换过程这个阶段的汉字代码称为字形码,用以显示和打印输出 区位码:1980 年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码 的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码汉字库分布情况如下:一级汉字 16-55 区二级汉字 56-87 区三级汉字 1-9 区空闲未用 10-15 区通常,在 DOS 下的各汉字系统中,同时按 Alt 键和 F1 键即可调用区位码输入方法。
而在 Windows 中常用 Ctrl+空格键和 Ctrl+Shift 键调出区位码如 “2901”代表“健” 字,“4582”代表 “万”字,“8150”代表“ 楮”字,这些都是汉字,用区位码还可以很轻松地输入特殊符号,比如,“0189”代表“※”(符号) ,“0528” 代表“ ゼ”(日本语),“0711” 代表“Й”(俄文),“0949”代表 “┭”( 制表符) 在区位码中,01-09 区为特殊字符, 10-55 区为一级汉字 (3755 个最常用的汉字,按拼音字母的次序排列),56-87 区为二级汉字 (3008 个汉字,按部首次序排列), 在区位码汉字输入方法中,汉字编码无重码 ,在熟练掌握汉字的区位码后 ,录入汉字的速度是很快的,但若想记忆住全部区位码是相当困难的,常使用于录入特殊符号,如制表符、希腊字母等,这里简单介绍几个区部分国际区位编码 区号:01 【各类符号】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190100 、 · ˉ ˇ ¨ 〃 々 - ~ ‖ … ' ' " " 〔 〕 0120 〈 〉 《 》 「 」『 』 〖 〗 【 】 ± × ÷ ∶ ∧ ∨ ∑ ∏ 0140 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙ ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ 0160 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″ ℃ $ ¤ ¢ £ ‰ § № ☆ ★ 0180 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ → ← ↑ ↓ 〓 区号:02 【各类数字】 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190200 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ ⒈ ⒉ ⒊0220 ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔ ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶ 0240 ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀ ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③ 0260 ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ 一 二 三 四 五 六 七 八 九 十 0280 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ 区号:03 【符号、字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0300 ! " # ¥ % & '( ) * + , - . / 0 1 2 3 0320 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G0340 H I J K L M N O P Q R S T U V W X Y Z [ 0360 \ ] ^ _ ` a b c d e f g h i j k l m n o 0380 p q r s t u v w x y z { | }  ̄ 区号:06 【罗马字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0600 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ 0620Υ Φ Χ Ψ Ω α β γ δ ε ζ η 0640θ ι κ λ μ ν ξ ο π ρ σ τ υ φ χ ψ ω 0660 0680区号:08 【汉语拼音】 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0800 ā á ǎ à ē é ě è ī í ǐ ì ō ó ǒ ò ū ú ǔ 0820 ù ǖ ǘ ǚ ǜ ü ê ㄅ ㄆ ㄇ 0840 ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ 0860 ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 0880 区号:09 【制表字符】 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0900 ─ ━ │ ┃ ┄ ┅ ┆ ┈ ┉ ┉ ┊ ┋ ┌ ┍ ┎ ┏ 0920 ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙ ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣ 0940 ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭ ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷ 0960 ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁ ┃ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋ 0980 以国家标准局 1980 年颁布的《信息交换用汉字编码字符集》基本集(代号为 GB2312-80)规定的汉字交换码作为国家标准汉字编码。
GB2312-80 中共有 7445 个字符符号:汉字符号 6763 个,一级汉字 3755 个(按汉语拼音字母顺序排列),二级汉字 3008 个(按部首笔划顺序排列),非汉字符号 682 个GB2312-80 规定,所有的国标码汉字及符号组成一个 94×94 的方阵在此方阵中,每一行称为一个 “区”,每一列称为一个“ 位”这个方阵实际上组成一个有 94 个区(编号由 01 到 94),每个区有 94 个位(编号由 01 到94)的汉字字符集 一个汉字所在的区号和位号的组合就构成了该汉字的 “区位码”其中,高两位为区号,低两位为位号这样区位码可以惟一地确定某一汉字或字符;反之,任何一个汉字或符号都对应一个惟一的区位码,没有重码 1 区 键盘上没有的各种符号2 区 各种序号3 区 键盘上的各种符号(按中文方式给出)4-5 区 日文字母6 区 希腊字母7 区 俄文字母8 区 标识拼音声调的母音及拼音字母名称9 区 制表符号10-15 区 未用16-55 区 一级汉字(按拼音字母顺序排列)56-87 区 二级汉字(按部首笔划顺序排列)88-94 区 自定义汉字区位码分布情况如下: 由上可以看出,所有汉字与符号的 94 个区,可以分为四个组:①1-15 区:为图形符号区。
其中 1-9 区为标准符号区; 10-15 区为自定义符号区②16-55 区:为一级汉字区,包含 3755 个汉字这些区中的汉字按汉语拼音顺序排序,同音字按笔画顺序列出③56-87 区:为二级汉字区,包含 3008 个汉字这些区中的汉字是按部首笔划顺序排序的④88-94 区:为自定义汉字区 国标码规定,每个汉字(包括非汉字的一些符号)由 2 字节代码表示每个字节的最高位为 0,只使用低 7 位,而低 7 位的编码中又有 34 个是用于控制的,这样每个字节只有27 - 34 = 94 个编码用于汉字2 个字节就有 94×94=8836 个汉字编码在表示一个汉字的2 个字节中,高字节对应编码表中的行号,称为区号;低字节对应编码表中的列号,称为位号 汉字国标码的范围用二进制表示是: 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7 位 ASCII 码是 128 个字符组成的字符集其中编码值 0 31( 00000000 00011111)不对应任何印刷字符,通常称为控制符,用于计算机通信中的通信控制或对计算机设备的功能控制。
编码值 32(00100000)是空格字符 SP编码值 127(1111111 )是删除字符 DEL 汉字国标码的起始二进制位置选择 00100001 即(33)10 是为了跳过 ASCII 码的 32 个控制字符和空格字符所以,汉字国标码的高位和低位分别比对应的区位码大(32)10 或(00100000)2 或(20)H,即: 国标码高位 = 区码 + 20H (H 表示十六进制),国标码低位 = 位码 + 20H汉字是一种象形文字,无法直接用标准西文键盘输入,必须经过转换间接输入;汉字的字数也较多,不能用单字节的 ASCⅡ(256 个字符)来表示因此,按照不同的目的和需要,产生了多种汉字编码系统与汉字输入方法目前采用两个字节(可以表示 64K 字符)的汉字编码方案由于汉字的应用范围较广(东南亚国家),汉字的编码字符集不相同,中国大陆常用 GB / GBK 码,台湾 BIG5汉字处理过程汉字系统对每个汉字预先规定输入计算机中的代码,即汉字的外部码(例如拼音输入码)计算机为了识别汉字,要把汉字的外部码转换成内部码(二进制代码)进行存储和处理输出时,还将汉字的内部码转换成汉字的字形码计算机处理汉字的总过程如下:键盘管理程序 汉字处理程序 外部(输入) 码 → 机内码 → 字形(输出)码(键盘) (计算机存储、传输 ) (计算机输出汉字)↑ ↓↑ ↓汉字信息 交换码(国标码) 汉字信息↓ ↑其它系统代码交换码 用于计算机与其他系统或设备之间进行汉字代码信息交换的标准汉字代码,目前最常使用的是国标码 1981 年的 GB2312-80, 7445; 2000 的 GB18030-2000,27000特 点每个汉字(图形符号)用两个字节表示,每个字节只用低 7 位,即最高位为 0 的二进制码。
在 128 种编码表示中,有 94 种用来表示汉字的编码此标准的汉字编码表有 94 行、94列,分别为区号和位号汉字编码使用的高字节称为区码,低字节称为位码汉字分为两级:一级为使用频度高的常用汉字;二级为次常用的汉字;内部码 也称汉字内码或汉字机内码,是计算机对汉字进行存储、运算。












