
第5章数字媒体及应用.ppt
196页计算机应用基础(理论篇),第5章 数字媒体及应用,本章学习目标与要求,掌握西文与汉字的编码、了解数字文本的制作与编辑及常用软件 熟悉数字图像的获取方法和设备及常用图像文件格式,了解数字图像的编辑、处理和应用以及计算机图形的概念和应用 熟悉数字声音获取方法和设备,掌握数字声音压缩编码 熟悉数字视频获取方法和设备,掌握数字视频压缩编码5.1 文本与文本处理,文字与文本,文字: 一种书面语言,由一系列称为“字符”(character)的书写符号构成 文本(text): 文字信息在计算机中的表示形式 是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流 是计算机中最常用的一种数字媒体 组成文本的基本元素是字符,字符在计算机中采用二进制编码表示文本处理过程,文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和 要求可能有很大的差别5.1.1 字符编码,西文字符的编码,字符集:常用字符的集合 西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成 字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。
字符代码表:字符集中不同字符的编码互相区别,构成该字符集的代码表美国标准信息交换码(American Standard Code for Information Interchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准 基本的ASCII字符集共有128个字符 96个可打印字符(常用字母、数字、标点符号等) 32个控制字符 特殊字符的ASCII码 空格(32) A(65) a(97) 0(48),ASCII字符集和ASCII码,标准ASCII码是七位的编码,但字节是计算机中最基本的处理单位,故以一个字节来存放一个ASCII字符每个字节中多出来的一位一般保持为“0”,在数据传输时可用作奇偶校验位 扩充ASCII字符集:标准ASCII字符集只有128个不同的字符,在很多应用中无法满足要求按照ISO2022标准(《七位字符集的代码扩充技术》)的规定,ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均是高位为1的8位代码(十进制数128~255),称为扩展ASCII码扩充ASCII字符集,(1)GB2312-80汉字编码 《信息交换用汉字编码字符集·基本集》(GB2312-80) 组成: 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号) 第二部分:一级常用汉字,共3755个, 按汉语拼音排列 第三部分:二级常用字,共3008个, 按偏旁部首排列,汉字的编码(一),,汉字6763,,所有字符7445,(1)GB2312-80汉字编码 区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。
每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示每个汉字的区号和位号分别用1个字节来表示, 如:“大”字的区号20,位号83,区位码是20 83 用2个字节表示为:00010100 01010011,汉字的编码(二),(1)GB2312-80汉字编码,汉字的编码(三),(1)GB2312-80汉字编码 国标交换码: 问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突 解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(即二进制0010 0000) 经过这样处理得到的代码称为汉字的“国标交换码”(简称交换码)因此,“大”字的交换码是: 00110100 01110011汉字的编码(四),(1)GB2312-80汉字编码 机内码: 问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清 解决方法:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。
如:“大”字的内码是:10110100 11110011(B4F3),汉字的编码(五),高位字节(7位):q = 0q (区号) 低位字节(7位):www wwww = 0www wwww(位号) 例如:“啊” 区位码: 16 01 = 10 01H 0001 0000 0000 0001 国标码: 30 21H = 10 01H +20 20H 0011 0000 0010 0001 机内码: B0 A1H = 30 21H +80 80H 1011 0000 1010 0001,汉字编码例,(1)GB2312-80汉字编码 GB2312汉字内 码在双字节代 码空间中,其 码位分布于右 下角的1/4象限,汉字的编码(六),(2)GBK汉字内码扩充规范 问题:GB2312-80只有6763个汉字,使用时功能不够 解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容 GBK/1:GB2312中的符号; GBK/2:GB2312中的全部汉字; GBK/4和GBK/3:包括繁体字在内的大量汉字; GBK/5:符号。
例如計算機係等繁体汉字和冃冄円冇鎔等生僻的汉字汉字的编码(七),(2)GBK汉字内码扩充规范 组成:21003个汉字,883个图形符号 GBK字符集中的每个字符都采用双字节表示,总的编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间(剔除xx7F一条线不安排字符), 总计23940个码位, 共收入21886个汉字 和图形符号,未使 用的区域作为用户 自定义区汉字的编码(八),GBK代码控件和码位分布,(2)GBK汉字内码扩充规范 应用: 操作系统——Windows 95以上简体中文版,采用GBK代码,并提供了多种输入法和字体 应用软件——Office 95以上简体中文版本提供GBK码的检索和排序 互联网应用——许多网站的网页使用GBK代码,但目前还不是所有搜索引擎都支持 GBK 汉字文本的搜索,汉字的编码(九),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode 约有6800种语言和文字在使用,需要建立一个多文种(Multilingual)处理环境 在ISO2022基础上,使用代码页号切换不同字符集的方法过于繁琐,且与其他系统不兼容 目标与途径:实现所有字符在同一字符集中统一编码,汉字的编码(十),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode UCS:ISO/IEC 10646 Universal Multiple-Octet Coded Character Set,通用多8位编码字符集 Unicode:统一码或联合码,微软、IBM等联合制定、与UCS完全等同的工业标准 UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作 UCS-4),汉字的编码(十一),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode 优点:编码空间极大,能容纳足够多的各种字符集(13亿字符) 缺点:4字节的字符编码使存储空间浪费严重 克服:在UCS/Unicode编码空间中,把第1和第2字节均为“0”的一个子空间(称为基本多文种平面BMP),作为UCS/Unicode的子集来使用,记作UCS-2。
UCS-2是双字节编码,共有字符49194个,其中包括: 欧洲及中东地区使用的拉丁字母、音节文字 各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号 中、日、韩(CJK)统一编码的汉字,汉字的编码(十二),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode CJK统一编码汉字:指中、日、韩、新、马及我国台湾、香港、澳门地区使用的汉字,不论其字义和读音有无区别,只要字形相同,该汉字就只有一个代码CJK汉字集以现有各国和地区的标准字符集(中国大陆的GB国标字符集,中国台湾的CNS 11643标准,日本的JIS标准及韩国的KS标准)作为源字符集,将其中的汉字按统一的认同规则进行认同/甄别后,构成UCS/Unicode中的共27484个字符的汉字部分汉字的编码(十三),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode 为了与目前大量使用的8-bit系统兼容,且避免与数据通信中使用的控制码冲突,UCS/Unicode在实现时可将双字节变换为可变长代码 UCS-2编码到UTF-8编码的部分转换规则,汉字的编码(十四),(3)UCS/Unicode与GB18030汉字编码标准 (b)GB18030-2000编码 GB18030-2000码位范围的分配,汉字的编码(十五),3种汉字编码的关系,GBK-95,GB2312-80,GB12345-90,GB18030-2000,,,,20902汉字,6763汉字,2个扩充的汉字字符集,,5.1.2 文本的类型,文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。
由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等) 使用计算机制作的数字文本,根据用途分为:简单文本、丰富格式文本和超文本三类简单文本(plain text):是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt 特性:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理不能插入图片、表格等,不能建立超链接,简单文本(纯文本),文本的格式化 丰富格式文本(rich text、fancy text、formatted text) RTF格式 多媒体文档(Multimedia Document),丰富格式文本,线性文本 超文本(hypertext)的阅读方式 传统的顺序式阅读 通过链接、跳转、导航、回溯等操作实现跳跃式阅读 超文本的结构 节点(node) 节点包含的内容 超链(hyperlink) 链源 链宿,超文本,超文本,超文本结构,超媒体(Hypermedia):超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体” 超文本的应用 Windows等一些软件中的“帮助”文件 使用浏览器从Web服务器上下载的网页(html或htm文件),超文本,5.1.3 文本的准备,人工输入:通过键盘、手写笔或语音输入方式输入字符 特点:速度慢、成本高,不适合需处理大批量文字的应用 自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码 特点:速度快,效率高 文字的自动识别分为:印刷体识别和手写体识别,文本信息的输入方法,文本信息的输入方法,由于汉字字数很多,无法使每个汉字与西文键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就称为汉字的“键盘输入编码” 好的汉字键盘输入编码方案的特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、。
