
中文信息处理ChineseInformationProcessing.ppt
33页中文信息处理Chinese Information Processing张宇哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学计算机科学与技术学院zhangyu@zhangyu@主要教材l l朱巧明,李培峰,吴娴,朱晓旭等编著中文信息处理技术教程,清华大学出版社2005年9月第一版l lChristopher D.Manning,Hinrich Schutze统计自然语言处理基础,电子工业出版社2005年1月第一次印刷9/8/20249/8/20242 2中文信息处理中文信息处理-- --绪论绪论9/8/20249/8/20243 3中文信息处理中文信息处理-- --绪论绪论主要内容l l信息处理l l中文信息处理l l计算机中文信息处理主要研究对象l l现代汉语的特点l l中文信息处理的发展l l中文信息处理技术发展问题的探讨9/8/20249/8/20244 4中文信息处理中文信息处理-- --绪论绪论信息l l控制论创始人(维纳控制论创始人(维纳 Norbert WienerNorbert Wiener))l l信息既不是物质也不是能量,是人类在适应外部世界信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。
换内容的总和l l信息论奠基者(香农信息论奠基者(香农 Clause ShannonClause Shannon))l l信息就是能够用来消除不确定性的东西,是一个事件信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值发生概率的对数的负值l lRobert M. Robert M. LoseeLoseel l信息可以被定义为一个处理过程的特征,这些特征就信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息是输入和处理过程中产生的信息9/8/20249/8/20245 5中文信息处理中文信息处理-- --绪论绪论信息的分类l l按照计算机处理的信息形式按照计算机处理的信息形式l l文本信息文本信息l l多媒体信息多媒体信息l l超媒体信息超媒体信息l l按照信息的结构化程度按照信息的结构化程度l l结构化信息结构化信息l l半结构化信息半结构化信息l l非结构化信息非结构化信息l l按照信息的保密程度按照信息的保密程度l l公开信息公开信息l l一般保密信息一般保密信息l l绝密信息绝密信息9/8/20249/8/20246 6中文信息处理中文信息处理-- --绪论绪论信息处理l l信息处理信息处理就是对信息的接收、存储、转化、传送就是对信息的接收、存储、转化、传送和发布和发布l l信息的接收:包括信息的感知、信息的测量、信息的信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;识别、信息的获取以及信息的输入等;l l信息的存储:把接收到的信息或转换、传送或发布中信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;间的信息通过存储设备进行缓冲、保存、备份等处理;l l信息的转化:把信息根据人们的特定需要进行分类、信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;计算、分析、检索、管理和综合等处理;l l信息的传送:把信息通过计算机内部的指令或者计算信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地;机之间构成的网络从一地传送到另外一地;l l信息的发布:把信息通过各种表示形式展示出来。
信息的发布:把信息通过各种表示形式展示出来9/8/20249/8/20247 7中文信息处理中文信息处理-- --绪论绪论中文信息处理中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术《计算机科学技术百科全书》清华大学出版社,19989/8/20249/8/20248 8中文信息处理中文信息处理-- --绪论绪论计算机中文信息处理主要研究对象l l汉字键盘输入技术汉字键盘输入技术l l汉字输出技术汉字输出技术l l软件汉化技术软件汉化技术l l汉字字形识别技术汉字字形识别技术l l汉语语音识别技术汉语语音识别技术l l激光照排技术激光照排技术l l中文平台中文平台l l文本分类文本分类l l信息检索信息检索9/8/20249/8/20249 9中文信息处理中文信息处理-- --绪论绪论汉字键盘输入技术l l汉字键盘输入技术是一种通过键盘使汉字进入计汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术算机的技术l l汉字编码汉字编码l l采用四位十进制数把常用的汉字用采用四位十进制数把常用的汉字用“ “0”—”9”0”—”9”十个十个数字按照次序进行编码数字按照次序进行编码l l四角码(字形码)四角码(字形码)l l用用“ “0”—”9”0”—”9”十个数字键对汉字的四个角的形状进行编码十个数字键对汉字的四个角的形状进行编码l l机内码机内码l l用用2 2字节、字节、3 3字节、字节、4 4字节来表示一个汉字的机器内部码字节来表示一个汉字的机器内部码l l国际标准化组织(国际标准化组织(ISOISO)、)、UnicodeUnicode联盟以及联盟以及IEEEIEEE下属下属的专门委员会研究制订的字符编码标准的专门委员会研究制订的字符编码标准9/8/20249/8/20241010中文信息处理中文信息处理-- --绪论绪论汉字输出技术l l汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出l l汉字字库l l点阵字库点阵字库l lGB5199.1-2001GB5199.1-2001和和GB5007-2001GB5007-2001是典型的是典型的1616点阵和点阵和2424点阵字库点阵字库l l矢量字库矢量字库l l采用矢量的方法,对每个汉字信息用一组矢量进行采用矢量的方法,对每个汉字信息用一组矢量进行描述描述9/8/20249/8/20241111中文信息处理中文信息处理-- --绪论绪论软件汉化技术l l软件汉化是把西文软件直接改造成中文软件的一种技术l l西文操作系统汉化成中文操作系统西文操作系统汉化成中文操作系统l l内核汉化内核汉化l l外挂汉化外挂汉化l l西文应用软件经过汉化后能够具备处理中文的西文应用软件经过汉化后能够具备处理中文的能力能力l l界面的汉化界面的汉化l l应用程序中中文的通行应用程序中中文的通行9/8/20249/8/20241212中文信息处理中文信息处理-- --绪论绪论汉字字形识别技术l l汉字识别技术是利用计算机技术对汉字静态图形汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行特征提取,与预先存储在计和动态汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码合特征的汉字作为所需识别的汉字内码l l联机识别联机识别l l脱机识别脱机识别l l汉字字形识别过程汉字字形识别过程l l汉字识别前处理汉字识别前处理l l汉字分类和判别汉字分类和判别l l汉字识别后处理汉字识别后处理9/8/20249/8/20241313中文信息处理中文信息处理-- --绪论绪论汉语语音识别技术l l汉语语音识别技术是自然语言处理的一个重要组成部分,包括语音的识别、处理、合成等l l语音识别的过程l l语音识别单元的选取语音识别单元的选取l l特征参数提取技术特征参数提取技术l l模式匹配及模型训练技术模式匹配及模型训练技术9/8/20249/8/20241414中文信息处理中文信息处理-- --绪论绪论激光照排技术l l激光照排,即电子排版系统l l19461946年,美国人发明了手动光学照相排版机年,美国人发明了手动光学照相排版机l l2020世纪世纪6060年代,德国人制造了阴极射线管式照年代,德国人制造了阴极射线管式照排排l l19751975年,英国人开始了激光照排的研究年,英国人开始了激光照排的研究l l19741974年年8 8月,国家设立了月,国家设立了748748工程工程9/8/20249/8/20241515中文信息处理中文信息处理-- --绪论绪论中文平台l l中文平台是指处理中文信息的软件系统的集合,包括支持中文的系统软件、支撑软件和应用软件l l汉化平台:西文系统上外挂一层软件,使系统汉化平台:西文系统上外挂一层软件,使系统可以接收和输出汉字可以接收和输出汉字l lAPIAPI平台:操作系统提供有关中文信息处理所平台:操作系统提供有关中文信息处理所需要的一套需要的一套APIAPI接口接口l l中文平台:在中文平台:在APIAPI平台上再增加一些典型的与平台上再增加一些典型的与中文信息处理有关的应用软件工具或产品中文信息处理有关的应用软件工具或产品9/8/20249/8/20241616中文信息处理中文信息处理-- --绪论绪论文本分类l l文本分类是一种确定文章所属类别的情报分析方法l l基于词的归类技术基于词的归类技术l l基于知识的归类技术基于知识的归类技术l l基于信息的归类技术基于信息的归类技术9/8/20249/8/20241717中文信息处理中文信息处理-- --绪论绪论信息检索l l文本检索包括了文本信息的存储、组织、表现、查询及存取等各个方面l l索引的建立索引的建立l l自动分类自动分类l l自动聚类自动聚类l l文摘(单文档文摘、多文档文摘)文摘(单文档文摘、多文档文摘)l l检索结果的排序(检索结果的排序(rankingranking))l l分布式信息检索分布式信息检索l l……………………9/8/20249/8/20241818中文信息处理中文信息处理-- --绪论绪论现代汉语的特点l l语音l l字形l l词汇l l句子l l字频l l词频9/8/20249/8/20241919中文信息处理中文信息处理-- --绪论绪论语音l l汉字读音的标记方法汉字读音的标记方法l l直音法直音法l l用一个汉字给另一个汉字进行注音用一个汉字给另一个汉字进行注音l l“ “厶厶” ”→“→“司司” ”,,“ “翯翯” →“” →“贺贺” ”l l反切法反切法l l用两个汉字给另外一个汉字注音用两个汉字给另外一个汉字注音l l“ “鲁鲁” ” →“→“郎古切郎古切” ”,第一个,第一个汉汉字字为为声母,第二个声母,第二个汉汉字是韵母和字是韵母和声声调调l l注音字符注音字符l l汉语汉语拼音拼音l l2121个声母,个声母,3535个韵母,个韵母,4 4声声调调9/8/20249/8/20242020中文信息处理中文信息处理-- --绪论绪论字形l l汉字结构汉字结构l l笔画笔画l l汉字字形最小连笔单位汉字字形最小连笔单位l l五种基本笔画:横、竖、撇、点、折五种基本笔画:横、竖、撇、点、折l l部首部首l l字形归类的部件,是字典根据汉字形体偏旁所分的门类字形归类的部件,是字典根据汉字形体偏旁所分的门类l l繁体字和简体字繁体字和简体字l l“ “進進” ”→“→“进进” ”,,“ “裏裏” →“” →“里里” ”l l繁体字和繁体字和简简体字并不是一一体字并不是一一对应对应的关系的关系l l字序字序l l义义序、音序、形序序、音序、形序9/8/20249/8/20242121中文信息处理中文信息处理-- --绪论绪论词汇1l l词汇是语言中所有的词和短语的总和l l汉语的词根和词缀l l词根:意义实在、在合成内位置不固定的粘着词根:意义实在、在合成内位置不固定的粘着语素(不能单独构成词的语素,如伟、丰、型)语素(不能单独构成词的语素,如伟、丰、型)和自由语素(能独立成词的语素,如金、木、和自由语素(能独立成词的语素,如金、木、水、火、土)水、火、土)l l词缀:意义不实在、在合成内位置固定在前或词缀:意义不实在、在合成内位置固定在前或后的粘着语素后的粘着语素l l“ “筷子筷子” ”→“→“筷筷” ”是是词词根根语语素,素,“ “子子” ”是是词缀语词缀语素素9/8/20249/8/20242222中文信息处理中文信息处理-- --绪论绪论词汇2l l词的种类词的种类l l单纯词单纯词l l由一个语素构成的词,如人、走、天由一个语素构成的词,如人、走、天l l双音节连绵词,如鸳鸯、垃圾、琳琅、葡萄双音节连绵词,如鸳鸯、垃圾、琳琅、葡萄l l音译词,如沙发(音译词,如沙发(sofasofa),咖啡(),咖啡(coffeecoffee))l l译自少数民族的地名,如哈尔滨、呼和浩特译自少数民族的地名,如哈尔滨、呼和浩特l l合成词合成词l l重叠词:两个相同的词根相叠构成的词,如哥哥、姐姐、星星重叠词:两个相同的词根相叠构成的词,如哥哥、姐姐、星星l l附加词:由词根和词缀构成,如老虎、石头、刀子、桌子附加词:由词根和词缀构成,如老虎、石头、刀子、桌子l l复合词:内部结构基本上是和句法结构一致的,有主谓、偏正、复合词:内部结构基本上是和句法结构一致的,有主谓、偏正、联合等,如质量、体制、开关联合等,如质量、体制、开关9/8/20249/8/20242323中文信息处理中文信息处理-- --绪论绪论句子l l句子:能够表达一个相对完整意思的并且有一个特定语调的语言单位l l汉语句子是“以意为本”的,生成的第一要素是语义l l无论是否是主谓结构的,只要完成表意功能,无论是否是主谓结构的,只要完成表意功能,就是一个句子就是一个句子9/8/20249/8/20242424中文信息处理中文信息处理-- --绪论绪论字频l l字频:就是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计的材料的总字数的比例l l如果在一篇如果在一篇20002000字的文章中,字的文章中,“ “的的” ”使用了使用了7878次,则次,则“ “的的” ”的频率就是的频率就是78/2000*100%=3.9%78/2000*100%=3.9%l l在信息检索中有着重要的应用l l文本分类文本分类l l信息检索中索引表的建立信息检索中索引表的建立l l…………9/8/20249/8/20242525中文信息处理中文信息处理-- --绪论绪论词频l l词频:就是一个词的相对使用频率l l对于词典的编撰、中文信息处理有着重要的作用l l新词的出现:非典、超女、网友新词的出现:非典、超女、网友l l信息检索信息检索9/8/20249/8/20242626中文信息处理中文信息处理-- --绪论绪论中文信息处理的发展l l学习和理论探索的萌芽阶段学习和理论探索的萌芽阶段l l这一阶段以介绍国外计算语言学领域的理论方法为主这一阶段以介绍国外计算语言学领域的理论方法为主l l对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。
范继淹、徐志敏、李家治、陈永明、冯志伟等人的介现的系统方面范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表绍及其所研制的实验系统报告,是这方面的代表l l早期将国外的理论方法进行全面系统汉化的主要刊物有:早期将国外的理论方法进行全面系统汉化的主要刊物有:8686年底创刊年底创刊的的《《中文信息学报中文信息学报》》、语言学界的、语言学界的《《国外语言学国外语言学》》和和《《语言文字应用语言文字应用》》l l学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语言理解做了深层次的带有哲学色彩的思考言理解做了深层次的带有哲学色彩的思考l l8080年代中期宁春岩发表的年代中期宁春岩发表的《《自然语言理解中的几个根本问题自然语言理解中的几个根本问题》》,以及他,以及他译介的美国哲学家休伯特译介的美国哲学家休伯特. .德雷福斯德雷福斯(Hubert (Hubert L.DreyfusL.Dreyfus) )的专著的专著《《计算机计算机不能做什么不能做什么-- --人工智能的极限人工智能的极限》》l l语言学界袁毓林语言学界袁毓林19931993年发表了年发表了《《自然语言理解的语言学假设自然语言理解的语言学假设》》l l这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用,奠定了中文信息处理后期的理论基础的作用,奠定了中文信息处理后期的理论基础9/8/20249/8/20242727中文信息处理中文信息处理-- --绪论绪论中文信息处理的发展l l汉字信息处理为主的早期阶段l l19741974年周恩来总理亲自批准了年周恩来总理亲自批准了“ “七四八七四八” ”工程工程它标志着计算机它标志着计算机中文信息处理中文信息处理中文信息处理中文信息处理技术受到了国家技术受到了国家高度重视并且进入了他的第一个发展阶段高度重视并且进入了他的第一个发展阶段————汉字信息处理时代汉字信息处理时代9/8/20249/8/20242828中文信息处理中文信息处理-- --绪论绪论中文信息处理的发展l l字、词等表层处理为特征的初级阶段字、词等表层处理为特征的初级阶段l l北京大学开发的华光排版系统被评为北京大学开发的华光排版系统被评为19851985年中国十大年中国十大科技成就之一,并荣获中国发明协会发明奖科技成就之一,并荣获中国发明协会发明奖l l“ “六五六五” ”期间期间(1981-1985)(1981-1985),北京航空学院主持,中国,北京航空学院主持,中国人民大学等十几个院校,研究机构参加的人民大学等十几个院校,研究机构参加的“ “现代汉语现代汉语词频统计词频统计” ”工程是这一阶段代表性的重大科研成果,工程是这一阶段代表性的重大科研成果,这是国内首次使用计算机进行大规模语料这是国内首次使用计算机进行大规模语料(2000(2000万字万字) )的词频统计研究的大型语言工程的词频统计研究的大型语言工程l l第一个汉语自动分词系统第一个汉语自动分词系统——CDWS,——CDWS,建立了一个有建立了一个有1313万余词条的计算机词典,研制了一个有万余词条的计算机词典,研制了一个有5252个属性的汉个属性的汉字信息库字信息库l l19881988年初,北京航空航天大学在承担国家年初,北京航空航天大学在承担国家“ “七五七五” ”科科技攻关项目技攻关项目《《信息处理用规范现代汉语词库信息处理用规范现代汉语词库》》的同时,的同时,制定了制定了《《信息处理用规范现代汉语分词规范信息处理用规范现代汉语分词规范》》9/8/20249/8/20242929中文信息处理中文信息处理-- --绪论绪论中文信息处理的发展l l句法和语义等深层处理为代表的中期阶段l l“ “八五八五” ”期间,期间,中文信息处理中文信息处理中文信息处理中文信息处理技术的研究开发技术的研究开发重点逐步由字,词的表层处理转向了以句法,重点逐步由字,词的表层处理转向了以句法,语义分析为核心的深层处理语义分析为核心的深层处理9/8/20249/8/20243030中文信息处理中文信息处理-- --绪论绪论中文信息处理的发展l l语料库统计方法兴起的近期阶段语料库统计方法兴起的近期阶段l l19791979年,武汉大学建设的汉语现代文学作品语料库,共计年,武汉大学建设的汉语现代文学作品语料库,共计527527万字,是我万字,是我国最早的机器可读语料库国最早的机器可读语料库l l《《人民日报人民日报》》收集了收集了4848年的全部文字和图像内容,公开发行年的全部文字和图像内容,公开发行l l北京大学计算语言学研究所与富士通公司北京大学计算语言学研究所与富士通公司(Fujitsu)(Fujitsu)合作,加工合作,加工27002700万字万字的的《《人民日报人民日报》》语料库语料库l l19981998年,清华大学建立了年,清华大学建立了1 1亿汉字的语料库亿汉字的语料库, ,着重研究歧义切分问题,现着重研究歧义切分问题,现在生语料库已达在生语料库已达7-87-8亿字亿字l l香港城市理工大学语言资讯科学研究中心建立了香港城市理工大学语言资讯科学研究中心建立了LIVAC(LinguisticLIVAC(Linguistic variety variety in Chinese communities)in Chinese communities)语料库,其宗旨在于研究使用中文的各个地区使语料库,其宗旨在于研究使用中文的各个地区使用语言的异同。
总字数为用语言的异同总字数为15,234,55115,234,551字,经过自动切词和人工校对之后字,经过自动切词和人工校对之后总词数约为总词数约为8,869,9008,869,900词词l l用来翻译和研究各种不同语言对比的语料库用来翻译和研究各种不同语言对比的语料库l l北大、哈工大、东北大学建立的英汉双语语料库北大、哈工大、东北大学建立的英汉双语语料库l l北京外国语大学的北京日本学研究中心建立了北京外国语大学的北京日本学研究中心建立了20002000万字的汉语和日语并行语万字的汉语和日语并行语料库料库9/8/20249/8/20243131中文信息处理中文信息处理-- --绪论绪论中文信息处理的发展l l以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段 l lInternetInternet迅猛发展,根据中国互联网络信息中心迅猛发展,根据中国互联网络信息中心发布的报告,截止到发布的报告,截止到20022002年年6 6月月3030日,中国上日,中国上网计算机总数网计算机总数16131613万,上网用户总数万,上网用户总数45804580万万l l主要需求有信息分类,信息提取,自动问答,主要需求有信息分类,信息提取,自动问答,基于内容的快速信息检索,基于个性的信息推基于内容的快速信息检索,基于个性的信息推送,数字化图书馆和信息网格等送,数字化图书馆和信息网格等9/8/20249/8/20243232中文信息处理中文信息处理-- --绪论绪论中文信息处理技术发展问题的探讨l l汉语言学家没有为中文信息处理中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的l l中文信息处理中文信息处理研究力量分散而且存在着低层次重复,缺乏统一规范和标准的问题l l现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变9/8/20249/8/20243333中文信息处理中文信息处理-- --绪论绪论。












