
融合主题模型的在线可比度计算研究.docx
12页融合主题模型的可比度计算研究 赵永标 张其林 谷琼摘 要:挖掘可比语料是构建大规模可比语料库的可行途径之一,可比度计算是语料挖掘过程中的关键环节本文提出一种融合词汇重合度和主题模型的可比度计算方式,主题模型选择能够进行学习的Online LDA,利用词对齐工具GIZA++进行主题映射,融合方式为加权求和在下载的中英新闻语料上的测试结果表明,两种计算方式融合后的准确性比两种都要高关键词:可比语料库;可比度;主题模型;主题映射:TP391.1 :A :2096-4706(2019)14-0001-04Online Comparability Measurement Integrating Topic ModelZHAO Yongbiao,ZHANG Qilin,GU Qiong(Computer School of Hubei University of Arts and Science,Xiangyang 441053,China)Abstract:Online mining bilingual comparable text pairs is among practical approaches for building large scale comparable corpora,Online comparability calculation is a key part of the mining process. We propose an online comparability measurement integrating the online comparability measurements based on word overlap and topic model. For topic model,we choose Online LDA which can be trained online. For topic mapping,we use the word aligning package GIZA++. For integration,we adopt the weighted summation. The test results based on downloaded Chinese-English news collection shows that the accuracy of the combination of the two measurements is better than either of them.Keywords:comparable corpora;comparability;topic model;topic mapping0 引 言可比语料库是双语语料库的一种,在机器翻译、跨语言信息检索、双语词典编撰等领域有着广泛的应用。
如何构建高质量、大规模的可比语料库一直是研究的热点问题Web拥有海量的文本信息,而且在持续更新从Web挖掘可比语料是目前构建可比语料库的重要途径文献[1]从新闻网站下载不同语言的新闻文本,进而生成可比语料;文獻[2]从维基百科抽取可比语料;文献[3]尝试从社交网站Twitter中挖掘可比语料这些文献构建可比语料库时将所需语料全部下载完成后,离线进行语料对齐,得到可比语料这种构建方式难以构建大规模的语料库解决这个问题的有效途径就是持续挖掘可比语料,语料下载与语料对齐同时进行构建可比语料库非常关键的问题就是在语料对齐阶段如何衡量两种语言文本之间的相似性(即可比度)常用的方法有:(1)基于跨语言信息检索,即从源语言文档抽取关键词,翻译为目标语言,然后在目标语言文档中进行检索,根据检索的结果确定源语言文档与目标语言文档之间的相似性;(2)基于词汇重合度,即把文档当作词袋,将源语言文档词汇在目标语言文档中能找到对应翻译的比例,视为源语言文档与目标语言文档之间的相似性以LDA为典型代表的主题模型能够发现文档的隐含主题,对文本进行语义挖掘不少研究者将主题模型应用于可比度的计算,取得了不错的效果文献[4]先利用源语言文档集训练得到源语言主题模型,然后通过翻译引擎将模型翻译为目标语言主题模型,将源语言文档和目标语言文档分别输入这两个模型中得到两篇文档的文档主题分布,通过计算这两个分布的余弦相似度来判断对应文档的相似性。
文献[5]引入Bi-LDA,利用主题相同的可比语料进行训练,从而建立主题模型,然后通过KL散度、余弦相似度和条件概率相似度来计算待匹配文档的主题相似性文献[6]利用主题相同的阿拉伯语和英语新闻语料分别训练两个LDA,通过主题映射,建立两个LDA主题集之间的关系,在此基础上抽取主题相关的特征,同时配合语义特征(标题、关键词、首句及次句相似度)训练SVM分类器判断待匹配新闻文档是否主题相关如前所述,挖掘可比语料是构建大规模语料库的有效途径对于语料类型,从更新的速度,以及获取的难易程度来看,新闻是最适合的同样,可比度计算也是关键步骤本文针对中英新闻,借鉴文献[6]中主题映射的思想,将主题模型应用于可比度计算,提出融合主题模型的可比度计算方法,该方法由基本的计算方式和基于主题模型的计算方式两种方法融合而成可比度计算方式需要满足计算速度快、所需资源少的要求,前面提到的基于跨语言信息检索和基于词汇重合度的可比度计算方式均满足该要求从计算复杂性的角度来说,本文选择后者作为基本计算方式对于基于主题模型的可比度计算方式,鉴于传统的基于吉布斯抽样算法的LDA训练速度慢的特性,本文选择速度更快的基于变分推断的Online LDA。
Online LDA采用增量学习的方式,不仅学习速度快,而且当模型运行一段时间后需要补充新的训练材料时,能够仅针对补充材料进行训练,而不是全部重新训练,特别适合应用融合方式采取按比例相加的方式,具体比例通过实验选取1 融合主题模型的可比度计算方法融合主题模型的可比度计算过程主要分为两个阶段:(1)准备阶段;(2)可比度计算及融合阶段这两个阶段又分为若干个步骤,其中Online LDA的训练、主题映射表的生成以及可比度的融合是关键步骤融合主题模型的可比度计算过程如图1所示1.1 Online LDA训练及主题映射表的生成根据文献[6],能够进行主题映射的前提条件是训练用的双语语料必须是平行语料或者篇章对齐的具有相同话题的语料这样的语料一般难以获得本文尝试借助翻译引擎构造“近似”平行语料构造方式有两种,即将英文新闻翻译为中文,或者将中文翻译为英文经过分析,本文选择将英文新闻翻译为中文,因为所获取的英文语料主要来自国家权威媒体《环球时报(英文版)》,行文简洁,语法规范,有利于翻译引擎进行翻译本文选择“有道翻译”作为翻译引擎Online LDA训练及主题映射表生成过程如图2所示Online LDA通过在小批量数据上迭代采樣实现变分推断,即无须一次性提供全部训练集,可以分批渐进训练,适合学习和大数据集应用场景。
其变分推断算法如下:本文采用两个独立的Online LDA,分别针对近似平行语料库中的英文新闻语料和翻译得到的中文新闻语料进行训练训练结束后,Reference[6]中的方法,用词对齐软件GIZA++进行主题映射该方法的基本思想是如果训练语料主题相同,LDA训练结束后可以确定各个文档的主题分布,如果把主题看作词,则可以认为训练语料是以主题为词的平行语料,通过GIZA++就可以得到主题之间的翻译关系,即主题之间的映射表,其结构如表1所示1.2 可比度计算及融合1.2.1 候选新闻对的生成和常规文本处理新闻具有很强的时效性,不同语言关于同一事件的报道一般会集中在一个时间段内,这就意味着可以把可比新闻对的搜索限定在有限的时间范围内,这样可以大大缩小候选新闻对的规模,更重要的是有利于构建可比新闻语料,即待一定时间范围(即时间窗口)内的语料下载完毕后即可开始文本处理、可比度计算和对齐工作候选新闻对的生成和常规文本处理的过程如图3所示1.2.2 基于词汇重合度的可比度计算基于词汇重合度的可比度计算过程如图4所示计算过程需要双语词典的支持相比本地词典,词典具有规模大、更新及时的特点本文选择有道词典,根据文献[2]和文献[3],得出基于词汇重合度的可比度计算公式如下:1.2.3 基于Online LDA的可比度计算基于Online LDA的可比度计算过程如图5所示。
将候选新闻对中的英文新闻和中文新闻分别送入准备阶段已训练好的两个Online LDA中,推断得出各自的主题分布,然后利用主题映射表将英文新闻主题分布映射为中文新闻主题分布,然后求两个中文主题分布的余弦相似度,得到候选新闻度的相似度,即可比度1.2.4 两种可比度的融合将两种可比度进行融合得到最终的可比度可比度的融合采取赋权相加的方式各自的权值通过试验选取2 实验设置2.1 数据集本文所使用的数据集采用爬虫下载,其中英文新闻来自《环球时报(英文版)》,中文新闻来自凤凰网,数据集分为训练集和测试集,具体信息如表2和表3所示对新闻的文本处理包括分词和去停用词对于中文新闻和英文新闻分别采用中科院分词软件NLPIR和斯坦福大学的自然语言处理工具包CoreNLP进行分词,然后去停用词2.2 参数设置在Online LDA训练阶段,需要设置的主要参数有主题个数K,小批量样本数量S,辅助参数κ、τ0的选取S、κ、τ0选取Python机器学习包sklearn中给定的默认值,分别为128、0.7和10Reference[6]并经过测试可知,主题个数K=40比较合适在候选文本对生成阶段,需要设置的参数是时间窗口K,Reference[7]将其设置为1,即对于源语言新闻文本,将前一天,同一天及后一天的目标语言新闻文本作为候选的可比新闻。
2.3 实验结果及分析Python机器学习包sklearn实现了Online LDA的学习算法,但必须一次性提供所有训练文本,不能实现真正意义上的学习,另外也不能在已训练的模型上追加训练样本进行补充训练本文采用文献[8]所提供的程序,该程序能够从维基百科上下载页面文本,边下载边训练,也能够中止训练,保存训练模型,再重启继续训练,实现真正意义上的学习将该程序中维基页面文本换成新闻训练集就能实现本文需要的训练训练完成后,使用GIZA++得到主题映射表在测试集上,分别用基于词汇重合度的可比度计算方式和基于Online LDA的可比度计算方式计算可比度对于测试集中每篇英文新闻,选取可比度最高的中文新闻组成可比新闻对,然后随机抽取200对进行人工判断,判断其是否主题相同或者相关,以估算两种可比度计算方式的准确性,结果如表4所示从表4可以看出,基于词汇重合度计算方式的准确度要高于基于Online LDA的计算方式,相比文献[6]的结果,高出的幅度要大一些,这可能与Online LDA训练集规模不够有关将两种计算方式按比例进行融合:comparabilitytotal=k×comparabilityoverlap+(1-k)×comparabilityonlineLDA从图6可以看出,当k=0.8时,融合方式的准确度最高,为0.67,比基于词汇重合度计算方式的准确性高约6.3%。
这表明融合两种计算方式有利于提高可比度计算的准确性3 结 论挖掘可比语料是构建大规模可比语料库的可行方式之一可比度计算是挖掘过。












