
基于动态流通语料库的现代汉语词语研究.ppt
55页基于动态流通语料库的 现代汉语词语研究北京语言大学 应用语言学研究所 张 普 Zhangpu@ Tel:008610-82303034 Fax:008610-82300365主要内容n动态语料库n流通度n词语研究动态语料库n与共时语料库相对而言,是历时语料库 ,是对语言的变化进行检测和监测的语 料库n特点:语料是动态的语料是历时的语料是与时俱进、不断更新的语言知识滞后 无法反映大规模真实文本词语n克隆、宽带、超平、背投、非典、疑似、喷塑、科盲、沙尘暴、 数字化、VCD、WTO、CEO、因特网、网民、网虫、上网、下载、消 毒软件、泡沫经济、环保工程、高新技术、知识创新、纳米技术 、现代远程教育、高致病性禽流感、H5N1、扑杀、叮当村、 群死群伤、公投、勇气号、高官、n蒜农、危改、拆迁、房改房、 3加1、3改4、退2进3、市话、高检 、扫黄、打假、打黑、反腐倡廉、盗版、大片、管涌、遗洒、千 禧、、禁放、按揭、套牢n三讲、三个代表、豆腐渣工程、邓小平理论、阿富汗、北方联盟 、本拉登、科索沃、功、申奥、奥组委 APEC、克林顿、布什 、反恐、世界杯、黑哨n菲佣、足按、三陪小姐、美体修形、鸿运当头、唐装、脐装、太 阳裙、透明装、人体彩绘、人体艺术、酷毖、很in、美白、净白 、柔嫩、双赢、人气、另类年龄的“代沟”n生理年龄的“代”在延长n社会年龄的“代”相对稳定n语言年龄的“代”在缩短改变语言的时间观n共时时间观n历时时间观n相对时间观——共时中有历时和历时中有共时共时语料库的历时观察n香港城市大学“共时语料库”95-05n观察:大哥大--手提--手持--移动--互联网--因特网关于“非典”的例子n2003年2月28日,46岁的世界卫生组织(WHO) 传染病专家乌尔巴尼博士在河内一个华裔美国 商人约翰尼·陈身上发现了一种非常规病毒, 引起这种疾病的病毒与以往导致感冒、肺炎等 疾病的病毒完全不同,他称之为“非典型肺炎 病毒”,并随即向世界卫生组织报告,世界卫 生组织建议称这种疾病为“严重急性呼吸系统 综合症”。
n18天后,乌尔巴尼死于自已一个月前发现的疾 病——“严重急性呼吸系统综合症”关于“非典”的例子n2002年11月:非典型肺炎第一个病例,佛山市n2003年1月:第一次报告病例, SARS是一个新的病毒,河源市n2003年1月后,发现SARS病情在中山、佛山、广州市出现了,我们把它命名为 非典型传染性肺炎n2003年2月11号,我们向世界卫生组织驻北京代表处报告了这个情况,世界卫生 组织在2月14号发行的流行病记录周刊当中,把它称为SARSn世界卫生组织(WHO)在3月15日新公布的名称已正式定为“严重急性呼吸道 综合征”(Severe Acute Respiratory Syndrome),简称SARS n3月21号,世界卫生组织开始使用SARS来称呼这个新的疾病n3月18日,德国和中国香港中文大学的实验室用电子显微镜拍到了一种病毒5 分钟之内,该病毒的照片就通过网站发布出来,以供其他实验室的科学家参考 n3月21日晚上,香港大学的裴伟士向“全球病毒实验室”各成员发了一个电子邮 件,宣称从患者组织中分离了一种病毒,经电子显微镜下形态观察表现为冠状 病毒很快这项实验在美国、加拿大等其他成员实验室中重复出来。
n3月26日开始,中国参与了世界卫生组织全球协作网路并且发现SARS的疾病 病因可能是冠状病毒 关于“非典”的例子n有“非典”字样的网页:39458个 n新浪有“SARS”的网页:12410个n有“萨斯”字样的网页:1660个 俞俞允海《非典还是SARS 》关于“非典”的例子2003年入选动态流通语料库的14家主流报 纸是(按音序排列):北京青年报 北京日报 北京晚报 法制日报 光明日报 环球时报 今晚报 南方周末 人民日报 深圳特区报 新民晚报 羊城晚报 扬子晚报 中国青年报 关于“非典”的例子n14种报纸n2003年1月1日-12月25日n总文件数:562669个即56万2千多个 文本 n总字数:426805177字即约4亿3千万 字动态追踪发展历程 描述“非典”动态流通曲线的例子衡量动态语料库的四个标准n是否是动态滚动语料n语料库加工是否是动态的加工方法n是否取得动态的加工结果(走势图)n语料库的文本是否具有量化的流通度属性报告内容n动态语料库n流通度n词语研究从频度到流通度n使用度: 提纲 13次 3类8篇 哨棒 13次 1类1篇n通用度: 频度 通用度 猿人 52次 10.4 花园 40次 23.7 欣赏 35次 33.9nT阶频度: A表 频度表 下812;上532 B表 通用度表 总差:1344个词语 15% 从频度到流通度重复 文本 历时 文本 次数 散布 散布 流通 频度 + 使用度 + + 通用度 + + + 流通度 + + + + 流通度的计算n媒体的发行量:流通量(the volume of circulation)n媒体的发行周期:流通密度(the density of circulation)n媒体的发行地区:流通空间(the area of circulation)n媒体的阅读率:流通率(the frequency of circulation)n计算公式:Ct=Vc·Dc·Ac·Fc·… 流通度=流通量·流通密度·流通空间·流通 率·…1997年11月-1998年6月 全国周报的阅读率前15名排名表n刊名 名次 阅读率n足球 1 12.9 n南方周末 2 7.3 n民主与法制 3 6.7 n报刊文摘 4 6.5 n中国足球 5 6.4n文摘报 6 n中国电视报 7 5.8 n球迷 8 4.4 n作家文摘 9 3.7 n每周文摘 10 3.5 n体坛周报 11 3.5 n计算机世界 12 3.2 n足球报 13 3 n舞台与银幕 14 3 n健康文摘报 15 2.5 流通性:流通度例证(一)伟哥“1998年6月-12月,中国约有 320种以上杂志,1800种报纸刊文 介绍伟哥。
《”伟哥“事件告诉中国企业家什么》载《北京晚报》: 1999年8月5日流通度例证(二、三)n妹力(张惠妹)=魅力 北京地区报纸n算机《谈谈科学名词》载《科技术语研究》1999年2期报告内容n动态语料库n流通度n词语研究词语研究n什么是词语n提出词语研究的信息处理背景n当前北京语言大学基于动态流通语料库 的词语研究情况n今后的词语研究和应用什么是“词语”n词语:词和短语;字眼word and phrasen语词:指词、词组一类的语言成分Word and phrase 汉英双语《现代汉语词典》n词语:交际(表达和理解)中言语(话)的结 构单位,即结合紧密、使用稳定的“词”和“语” 可以是我们通常理解的词、短语(词+词) 、词+短语、短语+短语等研究“语”的背景n“词”和“短语”划界的困难何为“词”?从“猪肉”到“孔雀肉”、“骆驼肉” ;经常当作一个词来使用的“语”:成语、谚语、歇后 语、熟语、惯用语、缩略语、术语、流行语、字母“ 词”、数字“词”等n自然语言理解推进的需求浅层分析和信息提取的需求提出:基本短语、块、语 块(chunk)、功能语块、双语语块、语义块、结构串 、有效字符串。
n认知探索的新进展人在阅读理解中的阅读单位是什么?眼动仪的追踪结 果的分析短语n形式:词+词词+短语短语+短语n分类:我们不能将所有的“语”收入《语典》,“语”有两 类:固定短语和临时短语n固定短语的特点:结合紧密、使用稳定如何衡量结合紧密和使用稳定?哪些“语”应该进入“语 表”?n一些“语”的流通度远高于一般的词,语义和语用更像 一个“词”:改革开放、国民经济、西部大开发、交通 拥堵、环境保护、反恐怖活动、非典疑似、高致病性 禽流感、走有中国特色的社会主义道路词语研究n什么是词语n提出词语研究的信息处理背景n当前北京语言大学基于动态流通语料库 的词语研究情况n今后的词语研究和应用关于动态词语研究应用语言学面向人的应用 面向机器的应用本体研究 教学 语言信息处理动态词语研究 动态词典动态流通语料库支持语言本体研究n流行语研究n字母词研究nIT术语研究n基本词汇研究n数字词研究n通用词语研究流行语提取与发布n2002年十大流行语发布n2003春夏季十大流行语发布n通用领域n经济领域n非典专题n伊拉克专题n2003年十大流行语发布n通用领域n国际领域n经济领域n非典专题隋岩、杨尔弘、郭惠志、谢学敏等博士2002年中国主流报纸“十大 流行语”发布主 办n北京语言大学n中国中文信息学会n中国新闻技术工作者联合会15家主流报纸媒体北京青年报 北京日报 北京晚报 法制日报 光明日报 环球时报 经济日报 今晚报 南方周末 人民日报 深圳特区报 新民晚报 羊城晚报 扬子晚报 中国青年报 2002年十大流行语发布n1、十六大 2、世界杯n3、短信 4、降息n5、反恐 6、数字影像n7、姚明 8、车市n9、CDMA 10、三个代表 数家电视广播台、数十家报纸、2240网页 转载2003春夏季十大流行语(综合类 )n1非典(SARS) 2疫情n3消毒 4隔离n5巴格达 6萨达姆n7三峡 8疑似n9伊拉克战争 10世界卫生组织(WHO)2003春夏季十大流行语(非典专题)n1、非典(SARS) 2、疫情n3、消毒 4、隔离n5、抗击非典 6、疑似n7、口罩 8、体温n9、防控 10、世界卫生组织(WHO)2003年流行语发布n14种报纸n2003年1月1日-12月25日n总文件数:562669个。
即56万2千多个 文本 n总字数:426805177字即约4亿3千万 字字母词粗考察n媒体:2002《××青年报》、《 ××日报》n情况:××青年报2002年字母词情况粗略统计××青年报2002年纯字母串统计表 ××青年报与××日报的情况比较 郑泽芝、史艳兰等博士IT术语的提取研究nDCC通用领域语料库2002年语料(Gen0 )共计489 694篇文档,1 256 602 278 字节,约合6.3亿双字节字符nIT领域语料库(Cc。
