
计算机基础:第5章 数字媒体.ppt
76页第第5章章 数字媒体及应用数字媒体及应用5.1 文本与文本处理文本与文本处理 5.2 图像与图形图像与图形 5.3 数字声音及应用数字声音及应用5.4 数字视频及应用数字视频及应用25.1 文本与文本处理5.1 文本与文本处理文本与文本处理 5.1.1 字符的编码字符的编码5.1.2 文本准备文本准备5.1.4 文本编辑、排版与处理文本编辑、排版与处理5.1.3 文本的分类文本的分类5.1.5 文本的展现文本的展现 35.1 文本与文本处理5.1.1.字符在计算机中的表示字符在计算机中的表示 45.1 文本与文本处理字符、字符集及其编码表字符、字符集及其编码表 n文字的基本元素是字母和符号,统称为文字的基本元素是字母和符号,统称为“字符字符”(character),它包括:字母、数字、标点、符号等,它包括:字母、数字、标点、符号等n字符集:一组特定字符的集合字符集:一组特定字符的集合n不同的字符集包含的字符数目与内容不同,如:不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n字符的编码:字符的编码:n字符集中每个字符的二进位表示,称为该字符的编码或代码字符集中每个字符的二进位表示,称为该字符的编码或代码(code)n不同的字符其编码各不相同不同的字符其编码各不相同n字符集中所有字符的编码的一览表,称为该字符集的码表字符集中所有字符的编码的一览表,称为该字符集的码表55.1 文本与文本处理西文字符的编码西文字符的编码ASCII码码n西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、数字、标点符号,它由拉丁字母、数字、标点符号以及一些特殊符号所组成以及一些特殊符号所组成n美国标准信息交换码美国标准信息交换码(ASCII码码):(考点考点)nASCII字符集包含字符集包含96个可打印字符和个可打印字符和32个控制字符个控制字符n采用采用7个二进位进行编码个二进位进行编码n计算机中使用计算机中使用1个字节存储个字节存储1个个ASCII 字符字符n存在问题:存在问题:n字符集太小(只有字符集太小(只有128个字符)个字符)n不同国家和地区使用不同的字符集及其编码,互不兼容不同国家和地区使用不同的字符集及其编码,互不兼容n东亚地区使用的大字符集无法编码东亚地区使用的大字符集无法编码0X X X X X X X65.1 文本与文本处理汉字如何编码?汉字如何编码?n汉字是记录汉语(国语,华语)的文字,属于表意汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马地区使用(中、日、韩、新、马)n汉字的特点汉字的特点n数量大;字形复杂,同音字多,异体字多数量大;字形复杂,同音字多,异体字多n如何编码?如何编码?n确定收入多少字、哪些字?确定收入多少字、哪些字?n在字符集中如何排列?在字符集中如何排列?n使用多少个二进位进行编码?使用多少个二进位进行编码?75.1 文本与文本处理常用的汉字编码字符集常用的汉字编码字符集n国家标准国家标准GB2312-1980n汉字扩充规范汉字扩充规范 GBKn国家标准国家标准GB18030-2005n台湾地区的标准汉字字符集台湾地区的标准汉字字符集CNS 11643(BIG 5,俗称俗称“大五码大五码”)n日本工业标准汉字字符集日本工业标准汉字字符集JIS X 0208-90n韩国国家标准汉字字符集韩国国家标准汉字字符集KSC 5601-87nUCS/Unicode多文种大字符集多文种大字符集85.1 文本与文本处理一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312汉字编码字符集汉字编码字符集n1980年颁布年颁布信息交换用汉字编码字符集信息交换用汉字编码字符集基本集基本集GB2312-1980nGB2312字符集由三个部分构成:字符集由三个部分构成:拉丁字母、俄文、拉丁字母、俄文、日文平假名与片日文平假名与片假名、希腊字母、假名、希腊字母、汉语拼音等共汉语拼音等共682个个共共6763个汉字和个汉字和682个符号,个符号,每个每个汉字和符号都有一汉字和符号都有一个确定位置个确定位置95.1 文本与文本处理GB2312汉字的编码汉字的编码n每一个每一个GB2312汉字使用汉字使用16位位(2个字节个字节)表示表示n为了与为了与ASCII字符相区别,每个字节的最高位均字符相区别,每个字节的最高位均为为“1”(考点)(考点)n例如:例如:“南南”字的代码是字的代码是11000100 11001111(用十六进制表示为(用十六进制表示为C4CF)11第第1字节字节第第2字节字节X X X X X X XX X X X X X X105.1 文本与文本处理GBK汉字汉字内码扩充规范内码扩充规范 nGB2312的不足:的不足:n汉字字数太少,缺少繁体字汉字字数太少,缺少繁体字,无法满足无法满足人名、地名、古籍整理、人名、地名、古籍整理、古典文献研究古典文献研究等应用的需要;与等应用的需要;与ASCII码不兼容码不兼容nGBK汉字汉字内码扩充规范(内码扩充规范(1995):):n在在GB2312基础上,增加了基础上,增加了1万多汉字万多汉字(包括繁体字包括繁体字)和符号和符号n共有共有21003个汉字和个汉字和883个图形符号,如个图形符号,如“計計算算機機”、冃冃、冄冄、円円、冇冇等繁体字和生僻字等繁体字和生僻字 n与与GB8312保持向下兼容,也使用双字节表示,第保持向下兼容,也使用双字节表示,第1字节最高位字节最高位必须为必须为“1”:1 X第第1字节字节第第2字节字节X X X X X X XX X X X X X X115.1 文本与文本处理标准名称标准名称GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763个汉字个汉字(简简体字体字)21003个汉字个汉字(包括(包括GB2312汉字在内)汉字在内)近近3万汉字万汉字(包括包括GBK汉字汉字和和CJK及其扩及其扩充中的汉字充中的汉字)包含包含10万多字符,其万多字符,其中的汉字与中的汉字与GB18030相同相同编码方法编码方法双字节存储和双字节存储和表示,每个字表示,每个字节的最高位均节的最高位均为为“1”双字节存储和表双字节存储和表示,第示,第1个字节个字节的最高位必为的最高位必为“1”部分双字节、部分双字节、部分部分4字节表示,字节表示,双字节表示方双字节表示方案与案与GBK相同相同(1)UTF-8采用采用单字节可变长编码单字节可变长编码(2)UTF-16采用双采用双字节可变长编码字节可变长编码兼容性兼容性编码编码不兼容!不兼容!几种汉字编码的对比几种汉字编码的对比编码保持向下兼容编码保持向下兼容125.1 文本与文本处理5.1.2.文本准备文本准备 文稿如何输入计算机文稿如何输入计算机 135.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入(1)数字编码数字编码,如电报码、区位码等如电报码、区位码等,(2)字音编码字音编码,如智能如智能ABC等等(3)字形编码,如五笔字形和表形码等字形编码,如五笔字形和表形码等,(4)形音编码形音编码发发展展趋趋势势:基基于于统统计计和和学学习习功功能能的的以以词词语语(短短语语)或或句句子子作作为为输输入入单单位的输入方法位的输入方法145.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,流畅自然,流畅小型化,适合移动计算小型化,适合移动计算不足:不足:识别速度和正确性还需提高识别速度和正确性还需提高书写要求还要降低书写要求还要降低155.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,方便,适合移动计算自然,方便,适合移动计算不足:不足:对说话人、说话方式、说话内容的对说话人、说话方式、说话内容的适应能力要大适应能力要大大增强大增强识别速度和正确性还需大大提高识别速度和正确性还需大大提高165.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入扫描仪扫描仪OCR数字数字文本文本纸介质纸介质文本文本文本的文本的映象映象(image)识别率已达到率已达到98%功能功能:简、繁体字、繁体字混合识别混合识别中文、西文混合识别中文、西文混合识别文字、表格混合识别文字、表格混合识别智能校对功能智能校对功能175.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别手写体识别手写体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入 技术上非常困难,还无法实用技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别目前准备先突破工整的楷书手写体的识别!185.1 文本与文本处理5.1.3 文本的分类文本的分类195.1 文本与文本处理简单文本简单文本(纯文本纯文本)本本 书书 由由 南南 京京 大大 学学 出出 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 版版 社社 (P u b l i s h i n g B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 H o u s e o f N a n j i n 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E g U n i v e r s i t y )出出 版版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文文本本的的内内容容文文本本在在计计算算机机中中的的表表示示 没有字体、字号的变化,不能插入图片、表格,也不能建立超没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是链接,其文件后缀名是.txt 由一串用于表达正文内容的字符编码所组成,几乎不包含任何由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息其他的格式信息和结构信息 举例:举例:205.1 文本与文本处理丰富格式文本丰富格式文本本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)出版出版 有字体字号等属性变化、设置了段落和页面排版格式的文本称为有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格丰富格式文本式文本”丰富格式文本中,除了正文内容之外,还使用了许多丰富格式文本中,除了正文内容之外,还使用了许多“标记标记”来描述字符来描述字符的属性和格式的设置。
的属性和格式的设置举例:下面标题的格式为:中文用黑体,西文用举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中体,居中 使用使用HTML语言描述为:语言描述为:本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)出版出版用一对用一对指出的是标记,如指出的是。
