ASJP模式的汉语方言计算分析.docx
9页ASJP模式的汉语方言计算分析 索伦维希曼 冉启斌摘 要:通过对直接以IPA转写进行距离计算、转写为ASJP码后进行计算、转写为修订版ASJP码进行计算的比较,发现采用修订版ASJP码后的计算效果最符合汉语方言的实际表现同时,还分析了65个汉语方言语档的系统发育树和系统发育网络,结果显示:东北官话与闽方言之间的亲缘关系最远,处于其间的依次是西北官话、西南官话、北方官话/中原官话、晋方言、客赣徽湘等方言、吴方言、粤方言;客赣徽湘等方言过渡性特征明显;汉语方言中接触表现突出,闽方言和吴方言内部接触相对少一些,北方方言和过渡性方言的内部接触非常多关键词:汉语方言;词汇距离;计算分析;系统发育树;系统发育网络一、引言ASJP(相似性自动判断程序,Automated Simil-arity Judgement Program)数据库是马普研究院建立的大型跨语言关联数据(Cross-Linguistic Linked Data)资源库之一ASJP数据库收录每种语言至少40个核心词的语音形式,用以进行词汇语音形式相似度的计算判断最新版数据库(第18版)收集有世界范围7655个语档(doculect)的材料,按ISO639-3编码,这7655个语档涉及全球5067种语言(https://asjp.clld.org/)。
通过列文斯坦编辑距离(Levenshtein Distance)可以计算任意两个字符串之间的距离,从而也就可以计算语档词汇的语音形式之间的距离(简称“词汇距离”)ASJP网站提供有各类计算工具和程序Mller(2009a,2009b,2010,2013)先后计算绘制了多个版本的世界语言语档系统发育树图,为研究语言的分化与分类提供了新的视角第18版ASJP数据库中收集了包括上古汉语、中古汉语、东干语在内的19个与汉语有关的语档材料相对于丰富的汉语方言资源,19个语档的数量并不大同时,使用ASJP计算方法对汉语方言进行研究其有效性如何,在计算的一些具体细节上是否有进行调整的空间等,都是值得研究的问题本文采用ASJP的计算模式和方法,对初步收集到的65个汉语方言语档材料进行计算分析二、研究材料与方法(一)研究材料在以往研究中,研究者采用编辑距离对不同的材料进行距离测算的有王璐(2014),江荻(2017),赵志靖、江荻(2018)等王璐(2014)以30个三音节词、20个句子的语音转写,测量吴方言5个方言点之间的距离江荻(2017)通过计算核心词编辑距离及词汇相似度,对195种藏缅语族语言进行自动分类。
赵志靖、江荻(2018)则对侗族语言进行计算分类以及亲缘关系程度的描述本文研究材料为65个汉语方言点各40个核心词的语音形式各方言点具体参见附录1“65个汉语方言语档名单”这些语档涉及官话、晋、吴、赣、湘、徽、粤、闽、客家等方言点各语档核心词的国际音标(IPA)标写来源于《汉语方言词汇》、刘俐李等《现代汉语方言核心词特征词集》以及各地方言调查报告、方言志、地方方言研究等限于篇幅,每个语档的具体来源从略目前ASJP模式的距离计算主要处理字符串之间的距离,因此各语档的IPA轉写不包括声调按ASJP数据库的模式,各个语档的信息除40个词的语音形式外,还包括各语档的ISO639-3代码(如该方言有的话)以及该方言点所在地的经纬度等信息二)研究方法按ASJP模式的做法,通常将40个核心词的IPA形式转换为ASJP码这样做的目的主要是使软件程序能够对词的语音形式进行计算IPA与ASJP码的对应情况如附录2所示(前面部分为元音,后面部分为辅音)出于探索的目的,本文先报道直接依据40个核心词IPA进行计算的结果;再报道转换为ASJP码后的计算结果计算与作图的有关情况如下:首先使用ASJP有关软件程序计算各语档之间的词汇距离,可以形成距离矩阵。
ASJP模式的距离计算有LDN距离(归一化莱文斯坦距离)、LDND距离(归一化莱文斯坦距离商)的不同(可参看冉启斌、索伦维希曼,2018:52~53),本文研究均依据LDND距离在距离矩阵基础上使用分子生物学软件MEGA7与SplitsTree4分别绘制模拟的汉语方言系统发生学树图(phylogenetic tree,或称系统发育树,使用Neighbor-Joining Tree法)和系统发生学网络图(phylogenetic network,或称系统发育网络,使用NeighborNet法),并进行相关分析三、汉语方言语档系统发育树分析(一)依据IPA标写直接进行距离计算由于收集到的汉语方言记音材料存在不统一之处,后期我们对少部分记音符号进行过局部统一使用前述语料和方法,依据65个汉语方言语档的IPA直接进行距离计算,形成距离矩阵,并使用MEGA绘制出65个汉语方言语档的系统发生学树图在系统发育树上,根节点之下以吴方言、粤方言为主的方言语档首先与其他方言语档分开;然后银川、阳江分布在一个节点之下,与其他方言语档分开;再后官话方言、闽方言、吴方言等分布在一个节点之下,与其他语档分开(进一步的分支节点还有很多,为避免繁复此处从略)。
显然这个发生学关系不符合我们关于汉语方言历史的基本认知,且不少距离较远的方言语档在发生学关系上混杂在一起同时可以看到,有的方言语档连接在相同的直接节点上,说明它们应该是直接分化形成的;然而事实上它们并不具有很近的分化关系例如萍乡和北京,很难想象萍乡话和北京话具有最直接的分化来源类似的还有南通、沈阳,徐州、福州,银川、阳江,扬州、筠连等它们的关系相对较远,却连接在相同的直接上位节点上此外,有的语档处在相同的末端节点,表明它们应该具有很密切的亲缘关系;而汉语方言的事实证明它们的发生学关系并不近例如绩溪和大同处在同一个末端节点之下,事实是绩溪话和大同话无论在方言归属还是地理上都距离较远类似的还有温州和长沙,娄底和开平等现代语文2019年5期现代语文的其它文章新兴表达“旅旅游”研究基于请求行为策略的中亚留学生汉语语用能力发展研究论汉语同义成语的构成类别及认知机制《荀子》《史记》衍误、句读辨析两例自然语言处理及其在机器翻译中的应用“介词+N+加以+双音及物动词”结构考察 -全文完-。

卡西欧5800p使用说明书资料.ppt
锂金属电池界面稳定化-全面剖析.docx
SG3525斩控式单相交流调压电路设计要点.doc
话剧《枕头人》剧本.docx
重视家风建设全面从严治党治家应成为领导干部必修课PPT模板.pptx
黄渤海区拖网渔具综合调查分析.docx
2024年一级造价工程师考试《建设工程技术与计量(交通运输工程)-公路篇》真题及答案.docx
【课件】Unit+3+Reading+and+Thinking公开课课件人教版(2019)必修第一册.pptx
嵌入式软件开发流程566841551.doc
生命密码PPT课件.ppt
爱与责任-师德之魂.ppt
制冷空调装置自动控制技术讲义.ppt


