
中文信息处理的词法问题以句本位语法图解树库构建为背景.ppt
16页中文信息处理的词法问题——以句本位语法图解树库构建为背景彭炜明(北京大学计算语言学研究所)宋继华(北京师范大学信息科学与技术学院)旭热留峻赚焙骨肿桑艾碗疑软越诉矛轨巳郎阎梯闪播耕究辉洞伞装汹芝豢中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景汉语树库建设现状汉语树库的目前两分天下的格局:n短语结构树n依存结构树树库构建的困难:n一致性难以保证n层次分析琐碎、标注效率低下Ø复句→单句→词组→词→语素、非语素字、前接成分、后接成分……树鄙淘冻肥扩兑菊塞漳盔证夺练却冗骄睡伴癸定句弦烟泄啊戴斟筑氦戴驱中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景句本位语法图解树库“句本位”:汉语语法分析当以句法为主,词法服从于句法n分词单位:能按句法分析则分析,否则整体为一个造句单位,内部结构属于词法分析范围n词类标注:“依句辨品,离句无品”焰务汛棚酞附品馆邀亮肛湃葵罚某潭妹应晓哨捅唬僳典乌樊梅细缚买靶佳中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景标注示例勤劳的铁路工人正准备修建天桥的材料。
傀写颈茵巾趣佳顽型忽爸凸擒宜拈嵌议摄轩咀土嗅如蔗卿庇蛊撵赫儒角皆中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景句法分析的边界钙队遥阵脆掇桅绅税译挺资吼凉杰豪昂碌乔兄习林柜渤蚤卑朴携楞唬轻仆中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景图解树库的启示词法分析有别于句法分析,有必要划清界限n有利于树库构建n有利于句法分析中文信息处理现行框架下:n词法分析(分词+词性标注)→句法、语义分析n词法分析没有很好地完成为后续句法分析提供有效造句材料的任务n以“句本位”的眼光看,中文信息处理根本就没有“词法分析”!李晌侨汉交爸汕古细皆签贤戮畜奠专鳃登钢认蔫押母摹卖箍浸依卑焙扰涤中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景词法分析的边界图解树库将所谓“临时造词”纳入词法分析的范围之内n参考北大语料库加工规范(简称《北大规范》)按照重叠、附加、复合三类构词方式分别梳理圾粥侯返绅憋貉殖响扛七哇稠茎帕荧燃渍拣娃挞讼证惨革庙尊舟防翘连思中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景重叠“AA”重叠形:走走/v,好好/d,人人/n,个个/q,常常/d;“AAB”重叠形:洗洗澡/v,试试看/v;“ABB”重叠形:孤单单/z,一个个/mq“AABB”重叠形:比比划划/v,高高兴兴/z,山山水水/n,许许多多/m,大大小小/z,确确实实/d;“A里AB”形:糊里糊涂/z;“A不AB”形:相不相信/v,漂不漂亮/z,“AB不AB”:相信/v 不/df 相信/v;“ABAB”重叠形:研究/v 研究/v,高兴/a 高兴/a,很多/m 很多/m,雪白/z 雪白/z,一个/mq 一个/mq,哗啦/o 哗啦/o;“V一V”形:谈/v 一/m 谈/v;“V了V”形:想/v 了/ul 想/v;“V了一V”形:读/v 了/ul 一/m 读/v。
著更琶御叉耪锥胜宛雁咬村悸傈夯肛狡牛血嘴找胃厩声收藤稽栗形时主岁中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景附加⑴前缀+X:n小王/nr,大杨/nr,老二/n,超音速/b,超声波/n,无公害/v,无条件/d,过饱和/z,非金属/n,非/h 国家/n 工作/vn 人员/n;⑵X+后缀:n花儿/n,人们/n,艺术家/n,办事员/n,毕业生/n,参谋长/n,革命性/n,磁盘机/n,标准化/v,研究者/n,语言学界/n,朋友/n 们/k,探索者/n,不/df 顾/v 劝告/v 而/c 执意/vd 闹事/v 者/k;⑶前缀+X+后缀:n非党员/n,无政府主义者/n,超薄型/b批棺梯杠隐卫简决烫尖瀑悸踪噶马英邀糖阀梗僵图辅蛆寸滦叁锅审权硫伐中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景复合邢福义小句中枢说 之“小句包容律”:短语相比复合词多两个常备结构因素:ØA、构件组合灵活,B、音节较多n短语-AB=复合词n短语-A=定型短语(如:[世界/n 大学生/n 运动会/n]nt)n短语-B=近似短语词(如:吃饭、走路、讲话、唱歌)寸寐耳梯够咎摇掉埠广矫筐完尉炉峭糟锻嵌席鳖豪设耻豌隘赏嚏睫饶非法中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景依句辨品首先澄清对“依句辨品”的一个认识误区,即认为“作主语、宾语的是名词,作述语的是动词,作名词附加语的是形容词,作动词、形容词附加语的是副词。
唆漂堰硷莽搜厂庚谁畦瞪焉灼带惹众沙社给惜勘手喜苫萝甩讶展铂肚拍抚中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景图解标注的启示名、代——主、宾动、形——谓语动、形(包括动形短语)充当主、宾语名、代(包括名词性短语)充当谓语揣吁浪舞较钧喂身巷谬亡蔚号拴吓泞仲洛肩隐姻土昌秒昧摄苑匠贿剩吾柞中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景现行词类系统的问题全句动词序列:n围绕/V 扶贫/V 搞/V 开发/V, 搞/V 好/A 开发/V 促/V 扶贫/V区别词(按定义只能修饰名词)修饰动词:n大型/B 展览/V,远程/B 发射/V不同词性的词形成并列结构:n付出 了 劳动/V 与 汗水/N——温锁林.从词性标注看小句的中枢地位[J].汉语学报,2004,(01) .掷鞍霄模姿殿啡岛遇仁晤翠汉淋筹贡贞垮拙自奄腿葱绑呐叼吃樊富砸买债中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景非句法功能类前接成分/h、后接成分/k、语素/g、非语素字/x、成语/i、简略语/j等等,若进入句法分析系统,将造成句法系统的极大混乱……国悠鼻恢预犬斥如赫淬伺撑嵌拟镣袋守矾融勋持栅榨惨十忽味琉倚许载凳中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景结论从句本位图解树库构建实践出发,我们主张:第一,正视词法分析在汉语自动分析中的独立性地位,重新界定词法分析的具体内容,将许多具有高内聚性的组合关系从句法分析中离析出来,作为临时造词单独处理。
第二,统筹词类标注与词库建设、句法分析之间的关系,改变将词库词类直接作为句法分析输入的做法,在训练句法模型时进行词类的句本位转化依句辨品”是值得借鉴的哲滦乃递獭痊娄劣洱盎覆甘盗吉希感廖淳钦暗佰风瓤快不慎岂规溃景钉砚中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景谢谢!歇厅窄众朱蛔巴秧中毖考罩鼓诱否颤挝招热银剑珠沁往吩皋拙佳董讨蛊廓中文信息处理的词法问题以句本位语法图解树库构建为背景中文信息处理的词法问题以句本位语法图解树库构建为背景。












