基金项目:国家自然科学基金(U1703133); 新疆维吾尔自治区重点实验室开放课题(2018D04018); 新疆维吾尔自治区高层次人才引进工程项目(Y839031201); 中国科学院青年创新促进会项目(2017472)
通信作者:xiaoli@ms.xjb.ac.cn
(1.中国科学院新疆理化技术研究所,新疆 乌鲁木齐 830011; 2.中国科学院大学,北京 100049; 3.新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011)
(1.Xinjiang Technical Institute of Physics & Chemistry,Chinese Academy of Sciences,Urumqi 830011,China; 2.University of Chinese Academy of Sciences,Beijing 100049,China; 3.Xinjiang Laboratory of Minority Speech and Language Information Processing,Urum
DOI: 10.6043/j.issn.0438-0479.201909003
针对维汉机器翻译中存在的维吾尔语(下文简称维语)形态复杂性和数据稀疏性问题,提出了一种层次化融合多个维语语法特征的神经网络机器翻译模型.该模型采用4种特征(词干、词性、词缀、词缀形态)作为源端语言附加信息,用于辅助单一词汇形式表示的维语语句; 同时引入层次化多特征融合的神经网络结构,用于分层处理维语的词干级和词缀级特征,以增强机器翻译系统对维语的句法结构和语义知识的学习能力,从而提高维汉机器翻译质量.在维汉公开数据集上的实验结果表明,所提出的层次化多特征融合模型可以有效提高维汉机器翻译系统性能,其双语互译评估(BLEU)值和字符匹配度(ChrF3)值均有明显提升.
Focusing on the issue of the complex morphology and data sparseness of Uyghur in Uyghur-Chinese machine translation,we proposes a neural hierarchical combination model for multiple Uyghur linguistic features.This model employs four features(lemma,part-of-speech tag,affix and affix morphology)as additional information to enrich the Uyghur sentences with single word surface form.Moreover,in the model we introduces a hierarchical multi-features combined neural network to hierarchically process the lemma-level and affix-level Uyghur features to enhance the ability of machine translation system and learn the Uyghur syntactic structure and semantic knowledge accordingly.Experimental results on Uyghur-Chinese public dataset show that the hierarchical multi-features combination model can effectively improve the performance of Uyghur-Chinese machine translation system on BLEU and ChrF3 scores.
神经机器翻译(NMT)技术是近几年发展起来的一种新型机器翻译方法[1-2],一般通过基于循环神经网络(RNN)的编码器将源端语句编码为一个稠密的特征向量,然后使用解码器将该向量解码为目标端语句.此外通过添加长短时记忆(LSTM)[3]和注意力机制[4]等方法有效地处理长距离依赖问题,并捕获需要生成的目标词汇NMT技术相对应的源语句中的词汇.NMT技术已在汉语-英语、英语-法语等大规模的语言对上取得了巨大的进展,并已成为目前主流的机器翻译模式[5-6].
不同于汉语、英语等常见的孤立语和屈折语,维吾尔语(下文简称维语)是一种具有丰富形态结构的黏着性语言,采用词干和词缀的多种组合形式来表达词汇层面上的句法和语义关系.虽然维语的词干和词缀数量有限,但是通过两者的结合,理论上可以生成无限数量的词汇,并且许多词汇在语料库中的出现频率很低[7-8].由于在处理维语相关的机器翻译任务时面临形态复杂性和数据稀疏性等问题,因此无法获取高质量的译文结果.
虽然在大规模双语语料下,NMT在预先不提供任何语法信息的前提下,仍可以通过其内部的网络机制捕获隐藏在源端语句中的浅层词汇信息,但很难挖掘深层的句法信息[9]; 同时由于维语的复杂性,缺少高质量的依存关系抽取、命名实体语别以及语句结构解析等句法分析工具抽取句法结构信息,因此高效地利用维语的词性标签和词缀形态标签特征等浅层语法知识非常关键,通常采用融合多种语法特征的方法.Alexandrescu等[10]提出一种因子化的神经网络语言模型,该模型将词汇和词类特征映射至连续空间中,用于预测下一个词汇; Koehn等[11]引入多个特征集成的翻译模型,该模型融合了词汇级的语法信息,提高基于短语的统计机器翻译(PBSMT)的翻译效果; Chen等[12]使用词汇、词性标注和依赖标签训练神经网络分类器,用于分析深层依存句法关系; Sennrich等[13]对编码器的嵌入层进行扩展,以融合多个输入特征至NMT系统中; Aqlan等[14]对阿拉伯语-汉语的PBSMT系统进行优化,采用阿拉伯语词汇的词干、词性标签和形态特征作为词汇的附加信息,并对未登录词(OOV)和缺失词进行建模.
另外,哈里旦木·阿布都克里木等[15]对6种主流的NMT技术进行了深入比较和分析,实验结果表明,相较于维语形态切分,词表扩大更能提高机器翻译性能,并且大规模的词表中包含更多的维语词汇.但NMT系统使用的词汇表规模有限[16](一般3万到8万大小),只能保留有限的高频词汇; 对于稀有词汇和低频词汇,统一使用“<UNK>”进行表示,在一定的程度上丢失了部分词汇的语法信息.因此,将维语词汇的语法特征融合至NMT系统中,可能可以辅助单一的词汇表示形式帮助模型更好地利用维语词汇在不同上下文中的特征信息学习维语的句法结构,增强模型对源端维语语句的表示和学习能力,从而提高机器翻译质量.
基于以上分析,本文提出一种层次化融合多个维语语法特征的NMT模型,该模型采用4种浅层语法特征,作为维语词汇的附加信息输入至翻译系统中; 同时引入层次化神经网络结构对上述词干级特征和词缀级特征进行融合,以增强NMT系统对于深层维语语句的句法结构和语义知识的学习能力,提高机器翻译质量.本文的主要贡献包括以下两点:1)构建层次化的语法特征融合模型,将维语的词干级特征和词缀级特征进行分层融合,保证了源端输入信息的结构性.2)针对维语的复杂语言形态,显式地对维语的词缀特征进行建模,保证了词汇信息的完整性.
本文采用基于注意力机制的编码器-解码器模型作为基线模型,其具体框架如图1所示.其中,编码器参考Bahdanau等[17]的工作,采用双向LSTM(BiLSTM)[18]结构分别从正向和反向读入源语句的词汇向量x=[x1,x2,…,xm],生成一个正向隐层向量[h→1,h→2,…,h→m]和一个反向隐层向量[h←1,h←2,…,h←m],其中第j个词汇的隐层向量为:
{h→j=f→(W^→Exj+U^→h→j-1),
h←j=f ←(W^←Exj+U^← h←j+1),(1)
其中,f是LSTM单元的非线性激活函数,W^→、W^←、 U^→、U^←是权重矩阵,E为特征嵌入矩阵.将h→j和h←j进行向量拼接,可以得到该词汇的标注向量h^-j=[h→j; h←j].
解码器参考Luong等[19]的工作,在RNN中引入全局注意力机制,用于预测目标词汇序列y={y1,y2,…,yn}.对于解码过程中的t时刻,将当前目标端隐层向量ht与源端的所有隐层向量h^-j进行比较,用于获取注意力权重值αts,如以下公式所示:
αtj=exp(s(ht,h^-j))[∑mj=1exp(s(ht,h^-j))]-1,(2)
s(ht,h^-j)=htTWah^-j.(3)
上下文向量ct由源端的所有隐层向量h^-j通过与注意力权重值加权求和计算得到:
ct=∑mj=1αtjh^-j.(4)
当给定上下文向量ct和当前解码器的隐层向量ht时,两者通过合并层生成注意力向量h~t,
h~t=tanh(Wc[ct; ht]).(5)
其中Wc为合并层权重向量.之后利用h~t和softmax层的权重向量Ws预测t时刻可能输出的目标端词汇yt的概率:
p(yt|y1,y2,…,yt-1,x)=softmax(Wsh~t).(6)
参考Sennrich等[13]的工作,本文基于Bahdanau等[17]的框架提出如图2所示的多特征融合模型.该模型对编码器的嵌入层进行了扩展,允许任意多个特征的组合作为输入,例如:词干特征、词性特征、词缀特征、词缀形态标签特征、依赖关系特征、形态序列、词汇特征等,本文选用了前4种.这些特征共享同一个编码器结构,编码器的隐层向量融合N个输入特征的计算方式为:
{h→j=f→(W^→(‖Nk=1Ekxj)+U→h→j-1),
h←j=f←(W^←(‖Nk=1Ekxj)+U←h←j+1).(7)
其中:W^→、W^←∈Rn×m和U^→、U^←∈Rn×n是权重矩阵; ‖是向量拼接运算符; Ek∈Rmk×Kk是特征嵌入矩阵,并且满足∑Nk=1mk=m; Kk是第k个输入特征的词汇表大小.在该模型中不同的特征拥有各自的词汇表和嵌入矩阵表示; 合并后的向量长度等于嵌入层的总大小,其它部分与NMT系统保持一致.
本文在上述模型的基础上,建立了如图3所示的层次化的多特征融合模型,该模型延续了Zoph等[20]的研究思路.不同之处在于,Zoph等[20]是通过输入多个具有相同语义、不同语种的语句优化机器翻译系统的性能; 而本文则通过对维语的词干级和词缀级特征进行层次化融合,尽可能多地利用多种附
加知识信息,以弥补维语的复杂形态和数据稀疏等问题对维汉机器翻译质量的影响,有效捕获维语语句的句法结构和语义内容.如图3所示,层次化的多特征融合模型分别对词干级和词缀级的语法特征进行编码后再融合,并将组合编码器的隐层参数用于后续解码中.该模型可以同时融合维语的词干和词缀特征,并保证两者的结构化,在一定程度上增强编码器对维语语义信息的学习能力.
对于两个编码器结构的组合方式,本文采用以下方法,下文均以两个编码器的组合结构为样例进行说明.首先通过线性变换和非线性映射将两个编码器的隐层向量进行拼接,以初始化解码器的隐层状态,具体如以下公式所示:
h=tanh(Wh[h^-1; h^-2]).(8)
其中,Wh是权重矩阵,h^-1和h^-2分别为两个编码器的隐层向量.在解码的第t个时刻,组合编码器的上下文向量ct通过两个编码器各自的上下文向量求和得到:
ct=c1t+c2t.(9)
本模型中每个编码器对于多个语法特征的融合参考上述多特征融合模型的工作,其他部分与一般的NMT系统一致.
维语具有复杂的语言形态,在词干上添加词缀可构成不同的词汇.如图4所示,维语语素“”通过添加不同词缀可以构成具有不同词性和不同语义的维语词汇.另外单个词汇可表达出短语级和句子级的丰富信息,这使得维语具有巨大的词汇数量并导致维汉机器翻译存在严重的数据稀疏问题.不仅如此,维语的词缀中还包含时态、语态、单复数等知识.因此,本文对维吾尔语的词干级和词缀级特征进行层次化建模,以增强NMT系统中的编码器对于维语语句中的句法结构和语义内容的学习能力.
本文使用维语的形态切分工具[21]对维语词汇级语句进行处理,以获取词干序列.该序列只考虑维语语句的结构信息,而不考虑词汇的形态特征,可以降低数据稀疏性.
采用上述形态切分工具获取维语语句的词性标签序列.由于维语的词干大部分属于名词词性,因此对于标记为“unk”的维语词干,本文统一使用名词词性“N”进行标注.
由于维语词汇具有丰富的形态结构,一个词汇通常具有多个词缀并且各个词汇的词缀数量不一,同时每个词缀具有各自的形态标签,因此在进行特征融合时面临数据稀疏性问题.
如表1所示,对训练数据集中的词汇进行统计发现:大部分维语词汇的词缀个数在两个及以下,因此仅仅保留一个维语词汇中的前两个词缀可以基本满足要求,并且减轻维语的形态复杂性和数据稀疏性问题; 如果对应位置没有词缀,则使用“<null>”进行标注.该方法考虑到维吾尔语词汇的词缀特征信息,在一定程度上保证句法和语义知识的完整性,分别使用“词缀μ-1”和“词缀μ-2”表示两个词缀,并保留词缀
μ-1和词缀μ-2对应的词缀形态标签特征.如果对应的位置没有词缀,则使用“<null>”表示其词缀形态标签,所有的词缀共享相同的词缀形态标签集合.
本研究使用2017年全国机器翻译研讨会(CWMT)公开的33万个维汉机器翻译数据进行实验,测试集分别来自于CWMT2017和CWMT2013,具体信息如表3所示.文中实验基于OpenNMT(https:∥github.com/OpenNMT/OpenNMT-tf)进行模型训练; 使用斯坦福分词工具(http:∥nlp.stanford.edu/software/segmenter.shtml)对汉语语句进行分词; 使用双语互译评估(BLEU)值[22] 和字符n元语法(n-gram)的F3(ChrF3)值[23]作为机器翻译的评价指标.
本研究设置训练语句最大长度为50; 分批训练数据大小为256个词汇; 各特征的词汇表大小均为50 000; 设置隐层单元个数为1 024,编码器由3层双向RNN构成,解码器由3层RNN构成; 设置失活(dropout)率为0.3; 使用Adam优化方法[24]进行模型训练; 通过开发集的BLEU值进行模型评估和参数优化; 设置训练步数为1×106; 设置柱搜索大小为5.对于层次化的多特征融合模型,为了保证参数的一致性,调整词汇特征的嵌入层大小以保证整体嵌入层大小之和为512; 并根据各特征的词汇表规模,设置词干特征的嵌入层大小为128,词性特征、词缀特征和词缀形态特征的大小均为32.
本文分别在基线系统(只有词汇特征)、多特征融合系统、层次化的多特征融合系统中进行维汉机器翻译实验,结果如表4所示.由实验结果可知,与基线系统相比,融合多种维语语法特征可以有效提高机器翻译系统性能,特别是层次化的多特征融合模型,该模型明显地提高了测试集的BLEU值(分别为29.17%→30.32%和22.95%→24.17%)和ChrF3值(分别为49.00%→49.81%和44.14%→45.07%),证明本方法的有效性.相比于多特征融合系统,层次化多特征融合系统的翻译性能更优,原因在于:该模型分层融合了维语的词干级特征和词缀级特征,尤其是对维语词汇的词缀特征进行建模,充分考虑其中的形态信息,因而在一定程度上获取到维语词汇更加深层的语法知识,帮助解码器学习到丰富的维语语句的向
量表示.
为了验证不同的维语语法特征对于机器翻译质量的影响,同时将维语词汇特征分别与词干特征、词性特征、词缀特征进行融合实验,结果如表5所示,每个“[]”表示单一编码器结构中的嵌入单元,包含词汇特征和其他特征的嵌入大小.由表5可知,单一的词干特征、词性特征、词缀特征与维语词汇特征进行融合,均可以提高机器翻译质量.其中词干特征的效果最为显著,原因在于:1)维语的词干特征相比于词汇特征显著降低了词汇表规模; 2)词干序列中包含了维语语句的结构信息,可以更好地捕获其中的句法知识.词性特征和词缀特征同样具有提升效果但不是很明显,原因在于:1)维语词汇切分工具的准确率不是很高,无法获取高质量的词性标注和词缀切分数据; 2)两者的词汇表规模较小,无法提供大规模的句法和语义知识.对比表4和5可知,将以上所有的语法特征融合之后,机器翻译系统的性能达到最优,说明多特征融合模型可以更好地捕获维语语句中的语义内容,从而获取更加准确的汉语译文.
表5 融合不同语法特征的实验结果对比
Tab.5 Experimental results comparison of different linguistic features combination
如表6所示,本文对两个维汉机器翻译实例进行说明.示例1中,层次化多特征融合系统可以将地点“扬州”准确地翻译出来,说明该模型可以有效地捕获到维语语句中词汇包含的地理位置信息,从而更好地进行翻译; 示例2中,层次化多特征融合系统准确掌握了该语句的主谓宾结构,即:主语是“孩子们”,宾语是“动画片”,而NMT系统将主宾顺序翻译错误,造成译文结果的不准确性.
针对维汉机器翻译中存在的维语形态复杂性和数据稀疏性问题,本文提出了层次化多特征融合模型,该模型对4种维语语法特征进行了研究,并用层次化的神经网络结构分别对维语的词干级和词缀级特征进行融合保证了源端输入信息的结构性和词汇信息的完整性.实验结果表明,该方法可以有效地提高机器翻译性能.
延续当前的工作成果,今后的研究思路为:1)使用开放的词汇表规模,通过字节对编码技术[25]对维语和汉语的低频词汇进行切分,降低OOV对机器翻译质量的影响; 2)引入预训练的词向量表示,以帮助模型在训练时更快更好地收敛; 3)考虑其他的特征融合结构,进一步提高维语的词干特征和词缀特征的融合性能; 4)在其他的语言对上进行翻译实验,例如:土耳其语-英语、阿拉伯语-汉语等低资源、形态丰富的源端语言,以验证本方法的普适性.