
第五章数字多媒体技术复习资料.doc
12页第五章 数字媒体及应用【知识点 1】文本(text):是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,字符在计算机中采用二进制编码表示文本在计算机中的处理过程:文本的准备(例如汉字的输入) ,文本编辑,文本处理,文本存储与传输、文本展现等知识点 2】字符的编码1)西文字符的编码由拉丁字母、数字、标点符号及一些特殊符号组成字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码2)ASCII 字符集和 ASCII 码美国标准信息交换码(American Standard Code for Information Interchange):使用 7 个二进位对字符进行编码(叫做标准 ASCII 码) ,称为 ISO-646 标准基本的 ASCII 字符集共有 128 个字符: 96 个可打印字符(常用字母、数字、标点符号等) 32 个控制字符 特殊字符的 ASCII 码 空格(32) A(65) a(97) 0(48)3)扩充 ASCII 字符集标准 ASCII 码是七位的编码,但最高位一般为“0” ,在数据传输时可用作奇偶校验位扩充 ASCII 字符集:高位为 1 的 8 位代码(十进制数 128~255) ,称为扩展 ASCII 码。
4)汉字的编码 (1)GB2312-80 汉字编码《信息交换用汉字编码字符集·基本集》(GB2312-80)• 组成:– 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共 682 个(统称为 GB2312 图形符号)– 第二部分:一级常用汉字,共 3755 个,按汉语拼音排列– 第三部分:二级常用字,共 3008 个,按偏旁部首排列• 区位码:GB2312 国标字符集,它分成 94 行、94 列,行号称为区号,列号称为位号每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示每个汉字的区号和位号分别用 1 个字节来表示,如:“大”字的区号 20,位号 83,区位码是 20 83用 2 个字节表示为:00010100 01010011• 国标交换码:– 问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突– 解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022 规定,每个汉字的区号和位号必须分别加上 32(即二进制 0010 0000) • 机内码:– 问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准 ASCII 码就会混淆不清。
– 解决方法:把一个汉字看作两个扩展 ASCII 码,使表示 GB2312 汉字的两个字节的最高位(b7)都等于“1” 这种高位为 l 的双字节(16 位)汉字编码就称为 GB2312 汉字的“机内码” ,又称内码汉字编码例例如:“啊”区位码: 16 01 => 10 01H 0001 0000 0000 0001 国标码: 30 21H <= 10 01H+20 20H 0011 0000 0010 0001机内码: B0 A1H <= 30 21H+80 80H (1)GB2312-80 汉字编码(2)GBK 汉字内码扩充规范• 问题:GB2312-80 只有 6763 个汉字• 组成:21003 个汉字,883 个图形符号,与 GB2312 兼容,包括繁体字• 应用:– 操作系统——Windows 95 以上简体中文版,采用 GBK 代码,并提供了多种输入法和字体– 应用软件——Office 95 以上简体中文版本提供 GBK 码的检索和排序– 互联网应用——许多网站的网页使用 GBK 代码,但目前还不是所有搜索引擎都支持 GBK 汉字文本的搜索(3)GB18030 汉字编码标准,兼容 GBK 和 GB2312。
4)通用编码字符集 UCS/Unicode目标与途径:实现所有字符在同一字符集中统一编码(5)中国台湾的 BIG5(大五码)标准GB2312、GBK、GB18030 这几种字符集的主要区别是什么?早期的计算机使用 7 位的 ASCII 编码,为了处理汉字,程序员设计了用于简体中文的GB2312 和用于繁体中文的 big5 GB2312(1980 年):16 位字符集,收录有 6763 个简体汉字,682 个符号,共 7445 个字符; 优点:适用于简体中文环境,属于中国国家标准,通行于大陆,新加坡等地也使用此编码;缺点:不兼容繁体中文,其汉字集合过少 GBK(1995 年):16 位字符集,收录有 21003 个汉字,883 个符号,共 21886 个字符;优点:适用于简繁中文共存的环境,为简体 Windows 所使用(代码页 cp936),向下完全兼容 gb2312,向上支持 ISO-10646 国际标准 ;所有字符都可以一对一映射到unicode2.0 上;缺点:不属于官方标准,和 big5 之间需要转换;很多搜索引擎都不能很好地支持 GBK 汉字GB18030(2000 年):32 位字符集;收录了 27484 个汉字,同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
优点:可以收录所有你能想到的文字和符号,属于中国最新的国家标准; 缺点:目前支持它的软件较少补充: 现在的 PC 平台必须支持 GB18030,对嵌入式产品暂不作要求所以、 MP3一般只支持 GB2312 从 ASCII、GB2312、GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符在这些编码中,英文和中文可以统一地处理区分中文编码的方法是高字节的最高位不为0GB2312、GBK 到 GB18030 都属于双字节字符集 (DBCS) GB18030 是中国所有非手持/ 嵌入式计算机系统的强制实施标准典型例题】87.每个汉字的机内码都用两个字节存储 (对)52.在中文 Windows 环境下,西文使用标准 ASCII 码,汉字采用 GB2312 编码,现有一段文本的内码为:AB F4 D1 E3 78 C2 B7 55,则在这段文本中,含有的汉字和西文字符的个数分别是_3_2_67.传输率为 9600 b/s,意味着每分钟最多可传送_72000 个 ASCII 码字符22.下列汉字编码标准中,不支持繁体汉字的是__A__。
A.GB2312-80 B.GBK C.BIG D.GB1803025.在 ASCII 编码中,字母 A 的 ASCII 编码为 41H,那么字母 f 的 ASCII 编码为__B__A.46H B. 66H C.67H D.78H91.汉字输入的编码方法由数字编码、字音编码和形音编码等 4 种,在同一种汉字编码字符集中,使用不同的编码方法向计算机输入的同一个汉字,它们的内码是不同的 (错 )25.根据 ASCII 码值的大小,下列表达式中,正确的是__D___A. “a”<“A”<“9” B. “A”<“a”<“9”C. “9”<“a”<“A” D. “9”<“A”<“a”26.已知“江苏, ,两字的区位码是“2913”和“4353” ,则其机内码是__D____A.3D2D 和 4B55 B.4535 和 535D C.6145 和 7585 D.BDAD 和 CBD524.若内存中相邻 2 个字节的内容为十六进制 74 51,则它们不可能是___B___A.1 条指令的组成部分 B.1 个汉字的机内码C.1 个 16 位整数 D.2 个英文字母的 ASCII 码92.在 ASCII 码表中,数字和英文字母按照 ASCII 码值从小到大排列的顺序为:数字、大写字母、小写字母。
对)【知识点 3】文本信息的输入方法• 人工输入:通过键盘、手写笔或语音输入方式输入字符– 特点:速度慢、成本高,不适合需处理大批量文字的应用• 自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码– 特点:速度快,效率高– 文字的自动识别分为:印刷体识别和手写体识别汉字输入编码方法的分类:数字编码:电报码、区位码等字音编码:一种基于汉语拼音的编码方法,同音字引起的重码多字形编码:五笔字形法和表形码等形音编码:吸取了字音编码和字形编码的优点联机手写汉字识别(笔输入)印刷体汉字识别(汉字 OCR)• 印刷体汉字识别:将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字 OCR(Optical Character Recognition) • 印刷体文字识别的过程文 本 信 息 的 输 入文 本 信 息 的 输 入人 工 输 入人 工 输 入 自 动 识 别 输 入自 动 识 别 输 入键 盘 输 入键 盘 输 入 联 机 手 写 输 入联 机 手 写 输 入 语 音 输 入语 音 输 入 印 刷 体 识 别印 刷 体 识 别 手 写 体 识 别手 写 体 识 别文 本 信 息 的 输 入文 本 信 息 的 输 入人 工 输 入人 工 输 入 自 动 识 别 输 入自 动 识 别 输 入键 盘 输 入键 盘 输 入 联 机 手 写 输 入联 机 手 写 输 入 语 音 输 入语 音 输 入 印 刷 体 识 别印 刷 体 识 别 手 写 体 识 别手 写 体 识 别扫 描 后 的扫 描 后 的图 像 文 本图 像 文 本 预处理预处理版面分析版面分析文字切分文字切分特征提取特征提取字符识别字符识别后处理后处理 识 别 后 的识 别 后 的编 码 文 本编 码 文 本扫 描 后 的扫 描 后 的图 像 文 本图 像 文 本预处理预处理版面分析版面分析文字切分文字切分特征提取特征提取字符识别字符识别后处理后处理 识 别 后 的识 别 后 的编 码 文 本编 码 文 本【知识点 4】文本的类型1) 简单文本(纯文本)这种文本通常称为纯文本或 ASCII 文本,在 PC 机中的文件后缀名是.txt2)丰富格式文本• 丰富格式文本(rich text、fancy text、formatted text)• RTF 格式• 多媒体文档(Multimedia Document) 3)超文本• 线性文本• 超文本(hypertext)的阅读方式– 传统的顺序式阅读– 通过链接、跳转、导航、回溯等操作实现跳跃式阅读• 超文本的结构• 链源• 链宿• 超媒体(Hypermedia):超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体” • 超文本的应用– Windows 等一些软件中的“ 帮助 ”文件– 使用浏览器从 Web 服务器上下载的网页(html 或 htm 文件)【典型例题】21.多媒体计算机系统中要表示、传输和处理大量的声音、图像甚至影视视频信息,其数据量之大是非常惊人的,因此,必须研究高效的__B__技术。
①流媒体 ②数据压缩编码 ③数据压缩解码 ④图像融合A. ①和② B. ②和③ C. ②和④ D. ③和④【知识点 4】文本编辑的主要功能– 对字、词、句、段落进行添加、删除、修改等操作– 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等– 段落的处理:设置行距、段间距、段缩进、对称方式等– 页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等• “所见即所得” (What You See Is What You Get, 简称 WYSIWYG) • 一文本处理:– 字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换– 词语排序,词语错误检测,文句语法检查– 自动分词,。
