电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

面向术语知识库编纂的专用语料库设计

7页
  • 卖家[上传人]:壹****1
  • 文档编号:477256831
  • 上传时间:2023-10-20
  • 文档格式:DOCX
  • 文档大小:18.77KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、面向术语知识库编纂的专用语料库设计简要:摘 要:由于术语信息的多样化需求对术语数据来源提出了新要求,专用语料库在术语知识库编纂中发挥了愈益重要的作用。 文章以气象学科为例,通过与通用语料库比拟,从类型定位、语料摘 要:由于术语信息的多样化需求对术语数据来源提出了新要求,专用语料库在术语知识库编纂中发挥了愈益重要的作用。 文章以气象学科为例,通过与通用语料库比拟,从类型定位、语料规模、语料选择和语料加工四方面明确了如何设计面向术语知识库编纂的专用语料库。卢华国, 中国科技术语 发表时间:2022-09-16关键词:术语信息;术语数据;术语知识库;专用语料库引言为了提高语言内部或语言之间专业交际的效率,术语学家借助术语标准化来消除专业语言中的歧义,其工作原那么构成了普通术语学的根本理念1 ,其实践成果主要表现为术语库。 自 20 世纪 90 年代开始,伴随着术语学研究的描写转向2-4 , 术语库的宏观和微观结构也发生了显著的变化,不再只是以标准为导向的单语或双语术语集,已经转变为兼具专门用途语言描写的术语知识库。 具体讲,收录的术语拓展至名词以外的其他词性;除了种-属和局部-整体等层级概念

      2、关系,功能、因果、处所等联想关系日益受到重视;术语的语言维度已然进入编纂者的视野,对句法、搭配以及近义、派生等聚合关系的描写在一定程度上模糊了术语与词语之间的界限。 西班牙格拉纳达大学以框架术语学为依托,编纂了生态词库(EcoLexicon) 5 ,加拿大魁北克学派借鉴词汇语义学相关理论,编纂了环境词库(DiCoEnviro) 6 ,二者可以看作是描写范式下的术语知识库的代表。术语知识库多样化的信息类型对数据获取提出了新要求,对内省和文档阅读等传统数据获取方式提出了新挑战。 语料库大大突破了编者能够阅读的文档数量,弥补了编者在专业知识储藏和外语语感方面的缺乏,语料库工具的使用又能显著提高数据获取的效率。 因此,语料库在术语知识库编纂中发挥了不可或缺的作用。 然而,笔者发现鲜有研究系统梳理面向术语知识库编纂的语料库与一般用途的语料库在设计上的共性和差异。 一般认为, 目的性、代表性和可机读性是语料库应该至少满足的三个要求,也是语料库设计中需要重点考虑的三个因素:目的性确定了语料库的类型特征,代表性制约着语料的规模和选择,可机读性那么对语料提出了具体的加工要求。 本文将以气象学科为例,从语

      3、料库设计的类型定位以及语料的规模、选择和处理四方面探讨如何设计面向气象术语知识库编纂的气象英语语料库。1 类型定位不同类型的语料库对语料的规模、选择和处理有着不同的要求。 因此,明确气象英语语料库的类型定位是语料库设计的前提。 语料库的分类可从多个角度切入:(1)单语语料库和多语语料库。 多语语料库根据研究的目的又可以进一步分为平行语料库和可比语料库。 在平行语料库中,两种语言的语料相互对应,即一种语言是另外一种语言的译文。 在可比语料库中,两种语言的语料的收集虽然参照同一个抽样框架,但二者在内容上并不存在翻译对应关系。(2)通用语料库和专用语料库。 通用语料库广泛采集某种语言的口、笔语形式,取样时尽可能考虑口、笔语的主要社会变体、地域变体、行业变体等各种变异及语言使用的各种场合之间的平衡,力求最好地代表一种语言的全貌。 而专用语料库出于某种特定的研究目的,常常只收集某特定领域的语言使用样本。(3)共时语料库和历时语料库。 共时语料库由同一时代(主要是当代) 的语言使用样本构成, 历时语料库那么由不同时代的语言使用样本构成。(4)本族语语料库和学习者语料库,前者收集的语言使用样本全部源

      4、自本族语者,后者的语料那么由非本族语学习者语言使用样本构成。(5)口语语料库和笔语语料库。 虽然,在日常生活中,口头交际是最主要的交流方式。 但是由于口语语料需要先转写成文本才能为语料库分析软件进行识别和处理,口语语料库的建设需要消耗更多的人力和物力, 因而纯粹的口语语料库非常少见7 4 8 69-74 。综上 所 述, 语 料 库 的 分 类 体 系 可 以 用 图 1 表示。在上述分类体系中,从同一视角对语料库的二元划分只是为了方便讨论,并不能排除两种划分之间的过渡类型。 例如,时间跨度只是一个相对的概念,历时语料库和共时语料库之间仅仅存在度的差异,无法截然分开。 尽管如此,该分类体系为理解气象英语语料库的类型特征提供了一个参照的框架。 首先,气象英语语料库不关心整个语言的使用情况,仅专注于气象学科,显然应该归于专用语料库,这是气象英语语料库最根本的类型特点。 此外,气象英语语料库不以翻译或跨语比照为研究目标。 其次,气象英语语料库属单语语料库,仅涉及英语这一种语言,旨在记录和描写气象专业英语的语义/ 概念或句法特征,所收集的语料源自能够熟练使用英语进行专业交际的气象专家,主要指以

      5、英语为母语的气象专业人士,与效劳于中介语研究的学习者语料库有着明显的区别。 再次,气象交际主要是一种书面语交际,虽然也涉及课堂教学和学术讲座等口头形式,但是本质上属于正式的语体。 因此,气象英语语料库可归为笔语语料库。 最后,气象英语语料库关注的是当代气象英语的使用情况, 并不特别关心气象英语的开展变化,因而本质上属于共时语料库。 通过在语料库的整个分类体系中对气象英语语料库进行定位,可以帮助语料库的设计者从宏观上把握其类型特征,为确定语料的规模大小、语料选择的具体标准、语料的加工处理奠定根底。2 语料规模语料的规模是指语料库所包含的形符( token) 总数(包含屡次出现且被重复计入的词),是设计者在语料库建设之初就需要考虑的一个重要方面。 20 世纪 6070 年代,语料的收集主要靠键盘输入和光学扫描,需要消耗大量的时间、人力和资金。受技术水平的限制,能够存储和处理的数据量也非常有限。 而现在大局部文本都以电子形式存在,省去了人工输入之苦。 就硬件而言,普通的个人电脑已经能够满足语料库建设对海量数据的存储和处理要求。 因此,讨论“语料规模需要有多大 比探讨“语料规模能有多大更有实际

      6、意义。语料规模的大小首先取决于建库的目的。 语料库可用于研究语法,也可以用于考察词汇。 与词汇相比,语法结构数量少且复现率高,所以用于研究语法特征的语料规模较小。 例如,Biber 9 指出 1000 词的语料就能满足研究英语动词现在时和过去时的需要。 用于考察词汇特征的语料规模那么需要大很多10 。 由齐普夫定律11 可知,局部词汇 (如 and、the)在文本中出现的频率非常高,局部词汇的出现频率却非常低。 只有增加语料的规模,才可能增加相对生僻的词汇在语料库中出现的频次。对词典编纂而言,只有当语料库包含的类符总量足够大时,基于语料库产生的词表才能满足词典对收词量的需要,为词典编者提供足够量的索引行作为描写词汇特征的数据根底。 Krishnamurthy 12 认为形符量到达 1 亿的语料库能够满足袖珍词典的编纂需要,但是还缺乏以用来描写词汇的类连接特征。 Atkins 和 Rundell 8 54 指出有时候一个词即使在语料库中出现 100 次也缺乏以保证描写词汇特征所需要确实定性( descriptive certainty)。 如果被描写的词是多义词,有着复杂的语法结构和丰富

      7、的搭配型式,那么语料规模只有成倍增加才能满足编者描写多义词的需要。语料的规模还与涉及的领域( domain) 或主题 (topic)的多少和宽窄有关。 就通用语料库而言,为了取得平衡的效果,语料往往需要涵盖多个主题, 其规模也必然很大。 相比之下,“专用语料库往往较小,但是依然能够代表专业语言变体,因为涉及的专业领域越窄,代表该领域所需要的文本数量就越小 13 408 。 专用语料库在语料规模方面的这一特点与术语自身的特点是分不开的。 首先,与通用词汇比,术语具有专业特殊性( domain-specificity), 数量相对少,在专业文本中的分布密集程度高。 因此,规模较小的专用语料库也能够满足术语研究对覆盖范围和复现率的要求。 其次,由于术语在搭配方面透明度高且规律性强,无需借助对大量语料的频次统计以滤掉那些高度依赖语境的非典型搭配 (例如,. . . went to the graveyard with weeping eyes and hairs 中的轭式搭配 weeping eyes and hairs)。最后,在术语中,单义术语占据多数,即使有多义术语,其 义 项 数 量

      8、与 通 用 语 言 中 的 常 用 词 汇 ( 如 break)也不可同日而语。 因此,描写术语需要的索引行的数量在理论上比描写常用词汇要小。Bowker 和 Pearson 1445 指出“不应该想当然地认为(专用语料库) 总是越大越好。 李德俊15 98 也提醒说,由于“规模悖论的存在,语料库的规模并不是越大越好,在语料库建设时,要特别注意“收益递减率(the law of diminishing returns)。 作为典型的专用语料库,气象英语语料库仅涉及气象专业文本,其语料规模无需到达通用语料库的级别。 参考同类面向术语知识库编纂的专用语料库的设计经验(如16),笔者认为气象英语语料库的语料规模至少到达百万级别,才能满足气象术语知识库术语知识描写对语料规模的要求。 此外,考虑到气象英语中新术语、新用法持续出现的特点,气象英语语料库应该呈现出一定的开放性,允许编者根据编纂的实际需要定期补充新文本。 换言之,气象英语语料库的语料收集不是一次就能完成的,而是一个在百万级别根底上不断充实的动态过程。3 选择标准语料有规模大小之别,但代表性是其共同特点。 语料的代表性主要通过对文本的选

      9、择来实现。文本选择的标准可以分为内部标准和外部标准两类。 就通用语料库而言,语料选择的内部标准是指文本所共享的语言或文体特征。 Atkins 和 Rundell 8 54 介绍了基于内部标准的文本选择过程: (1)选择系列来源不同的文本;(2) 分析文本中反复出现的词汇或语法特征(如语态、人称、搭配); (3)基于这些特点尝试对文本进行分类;(4) 收集更多能够包含这些语言特征的文本,继续分析文本的语言特征,改良其分类,收集更多文本,直至这些特征在语料库中更清晰地反映出来。 值得注意的是,依据内部标准从语料中获取的数据可能因循环论证而信度受损17 171 。 鉴于此, Sinclair 17提出按照文本的情景、功能等非语言( non-linguistic) 或语言外(extra-linguistic)特征选择语料,这样至少可以使语言特征在语料库建设的开始阶段不受文本选择的影响。 语料库的建设者在按照外部标准选择语料的同时,还可以根据从语料分析中获取的语言特征评估和改良语料的代表性18150 ,从而把外部标准和内部标准统一到文本的选择过程中。专用语料库也可以把语言特征作为选择专业文本的内部标准。 Halskov 19主张把易读性(readability)和专业知识密度作为衡量专业文本质量的重要指标。 他认为易读性是学术文本的重要特征, 与句子长度、词(包括复合词) 长度和被动语态的使用量呈反比关系,与通用词汇密度和人称代词的使用量呈正比关系。 专业知识密度是学术文本的另一个特征,与未登录词( out of vocabulary words, 指在自然语言处理中没有被词典收录的各类专有名词、缩略语、新增词汇等)和知识型式(主要包含词汇或语法标记语,能够帮助文

      《面向术语知识库编纂的专用语料库设计》由会员壹****1分享,可在线阅读,更多相关《面向术语知识库编纂的专用语料库设计》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.