基金项目:国家自然科学基金(U1703133); 新疆维吾尔自治区“天山雪松计划”(2017XS05); 新疆维吾尔自治区重点实验室开放课题(2018D04018); 新疆维吾尔自治区高层次人才引进工程项目(Y839031201); 中国科学院青年创新促进会项目(2017472)
通信作者:xiaoli@ms.xjb.ac.cn
(1.中国科学院新疆理化技术研究所,新疆 乌鲁木齐 830011; 2.中国科学院大学,北京 100049; 3.新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011)
(1.The Xinjiang Technical Institute of Physics & Chemistry,Chinese Academy of Sciences,Urumqi 830011,China; 2.University of Chinese Academy of Sciences,Beijing 100049,China; 3.Xinjiang Laboratory of Minority Speech and Language Information Processing,
DOI: 10.6043/j.issn.0438-0479.201908044
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.
As a resource-scarce language,due to the shortage of corpus resources and semantic analysis tools,Uyghur faces the difficulty of being implemented with the traditional supervised method for its word sense disambiguation(WSD).In this paper,we compare the textual WSD problems as text subject classification problems,and propose an unsupervised Uyghur WSD model based on the latent Dirichlet allocation(LDA)topic model.In order to enhance the classification performance of the topic model on various meanings of ambiguous words,we add three data preprocessing processes:removing stop words,filtering effective words and strengthening synonyms' frequency weight.Experimental results show that the accuracy of this WSD model increases to 65.08% in random test samples of 63 sets and 61.2% in the document-level sampling-word task.
词义消歧主要解决句子中多义词语义表达不明确的问题.计算语言学中,词义消歧主要在词层面进行,是计算机进行句子和篇章文本语义理解的基础,在自然语言处理领域中具有关键性基础研究地位.词义消歧问题的解决,将会带动机器翻译[1]、信息检索[2]、问答系统[3]、语音处理[4]等应用研究领域的发展.
根据模型对训练语料资源需求的不同,可以将现有词义消歧模型大致分为有监督方法和无监督方法.其中,有监督词义消歧模型需要提供对应的大规模语义标注语料库作为训练语料,结合不同的多分类器模型对歧义词的不同义项进行分类,包括贝叶斯模型[5]、决策树模型[6]、最大熵模型[7]和支持向量机模型[8]等; 而无监督方法[9]通常不依赖于已标注的训练样本,虽然在准确率上不如有监督方法,但对资源稀缺型语言更友好,领域适应性更强,是目前研究的热点.
本文面向资源稀缺型维吾尔语,规避了传统无监督词义消歧模型对语义网络词典等资源的依赖,将篇章文本的词义消歧问题转化为文本主题分类问题,提出一种基于LDA(latent Dirichlet allocation)[10]主题模型的无监督词义消歧方法.为了抽取出上下文中与歧义词关联度高的词汇作为主题分类模型的有效词,在去除停用词后,通过词向量相似度过滤上下文中与歧义词语义关联度高的词,并根据维吾尔语同义词集对上下文中出现的同义词进行加权.
LDA是一种用于聚类离散数据集的概率模型,并被广泛用于解决文本主题相关任务,主要有文本建模和文本分类.LDA模型通常可以表示为一个包含词、文本和主题的3层贝叶斯概率模型,如图1所示.在LDA模型中,一篇文本的生成方式如下:
1)从Dirichlet分布α中取样生成第m个文本的主题多项式分布θm; 2)从θm中取样生成第m个文本第n个词的主题zm,n; 3)从Dirichlet分布η中取样生成主题zm,n对应的词语多项式分布βk; 4)从βk中采样最终生成词语wm,n.其中,m∈[1,M],n∈[1,Nm],k∈[1,K],M为待处理文本数,Nm为第m个文本的总词汇数,K为待分类主题数.
LDA一般使用变分最大期望(variational EM)算法或Gibbs抽样[11]方法进行参数估计,训练出图1中文本的主题分布概率θm以及主题对应的词汇分布概率βk.
Cai等[12]使用LDA模型训练未标注的大规模语料,获取对应的词汇主题分布特征,并结合传统的词性、词频、句法搭配等特征,使用朴素贝叶斯分类器进行有监督词义消歧.在SensEval-3标准测试集中,英语粗粒度所有词任务准确率达到81.6%,细粒度采样词任务准确率为88.7%.
Boyd-Graber等[13]将McCarthy等[14]提出的关键语义信息发现模型集成到主题模型框架中,并提出了一种无监督词义消歧方法:在新的主题模型中,为每个词生成对应的邻近词概率分布,并根据当前词和邻近词的主题分布信息确定当前词的语义信息.Boyd-Graber等[15]还提出了另一种无监督模型,即根据WordNet中的层次结构特征使用WordNet-Walk[16]生成单词的概率分布,替换LDA模型中词的多项式主题分布.实验结果表明,与传统LDA模型相比,在多数应用任务中改进后模型的词义消歧准确率有所提升.
Li等[17]使用LDA模型将上下文对应语义义项的条件概率分解为具有潜在变量的2个条件概率,并使用3种不同的模型实例,用于解决不同类型任务.其中,针对词义消歧提出了2种模型:模型一要求对语义义项的先验分布有一定的了解,并直接最大化特定上下文对应义项的条件概率; 模型二通过最大化主题和文本向量之间的余弦相似度来最大化语义义项的条件概率.这2种模型在SemEval和Senseval评测任务的不同粒度测试中均取得了很好的性能.
Rubén等[18]面向西班牙语词义消歧任务,结合LDA模型提出一种有监督方法.通过西班牙语标注集Ancora训练出歧义词不同义项对应的主题分布,并由此根据待消歧词上下文的主题分布来确定具体对应的语义信息,实验消歧准确率最高达74.35%.
最新的工作来自卡内基梅隆大学提出的基于WordNet语义知识的无监督词义消歧方法[19].该方法在传统LDA模型的基础上进行修改,将文本的主题分布替换成文本中同义词集的分布,并使用WordNet中的语义信息,分别为词相对同义词集的分布分配一个非均匀先验概率,以及同义词集相对文本的分布分配一个逻辑正态先验概率.实验结果表明,在历年Senseval和SemEval评测任务的英语所有词词义消歧任务中,相较于现有最好的基于知识的无监督系统,性能取得显著提升.
综上所述,目前LDA模型主要通过2种方式应用于词义消歧:1)将LDA训练得到的词汇的主题分布作为上下文语义特征之一,并结合其他上下文特征进行有监督词义消歧; 2)引入外部语义特征信息(主要是语义层次信息)改进传统LDA模型,使用主题模型进行无监督词义消歧.本文方法属于后者,通过去除停用词,过滤有效词以及强化同义词词频权重3个处理过程,过滤并调整与歧义词关联度高的词作为LDA模型的有效词,训练无监督词义消歧模型.
目前,维吾尔语中用于有监督消歧模型的词义消歧标注语料资源非常有限,同时也缺少相应有效的歧义词主动发现方法.因此很难实现面向所有词任务的词义消歧模型,同时也限制了传统有监督方法在维吾尔语中的应用.传统无监督词义消歧方法,虽然不依赖于标注训练语料,但一般需要有相应的义类词典、语义网络、网络百科词典等,如Roget's Thesaurus、WordNet、HowNet、Wikipedia等.然而,维吾尔语作为一种典型的资源稀缺型语言,上述类型的语料资源仍在建设完善中.这一方面导致了目前维吾尔语词义消歧应用场景的局限性,即在深度语义信息难以获取和利用的限制下,需要使用更多语义相关的上下文词来更准确地表达歧义词在当前上下文中的语义信息.因此更适用于篇章文本的歧义消解,在句子级中性能表现非常有限.另一方面也极大的限制了维吾尔语词义消歧方法的选用:由于缺少如WordNet等有效外部特征信息的引入,导致传统的基于词典、语义网络和图模型的无监督词义消歧方法也难以实现.考虑到LDA是一种基于词频统计特征的词袋模型,因此考虑抽取与歧义词关联度高的词作为LDA模型的有效词,强化主题模型与词义消歧模型的关联性.
本文拟解决的消歧问题可以表述为:针对维吾尔语歧义词采样词任务,已知歧义词wi以及该词对应的K个不同语义义项si,k(k=1,2,…,K),每个义项都对应一个包含该歧义词的篇章文本ti,k.当出现含有歧义词wi的待处理篇章文本tnewi时,确定在该篇章文本上下文中wi对应的语义义项si,k.
针对上述问题,本文使用LDA主题模型构建无监督词义消歧模型,如图2所示.根据待消歧文本tnewi和已知的歧义词各义项对应文本ti,k,构建待分类文本集Ti={tnewi,ti,1,ti,2,…,ti,K},则Ti中文本数为M=K+1.将歧义词的不同语义义项视为文本的主题类型,那么待分类文本集中每个文本的歧义词-义项关系就可以类比为文本-主题关系,因此可以通过LDA主题分类模型确定每个文本中歧义词-义项的分布关系,并由此确定tnewi对应的主题(义项).与主题分类模型不同的是,此时待分类文本集对应的主题数(义项数K)是已知的.同时,注意到传统LDA模型中,文本的主题是通过文中所有词汇的主题分布进行确定的,直接将LDA用于词义消歧时存在一个问题,即歧义词及其语义关联词只是众多参与表示文本主题词汇中的一部分.为了保证歧义词的语义义项信息与文本的主题信息高度一致,需要对LDA模型中参与主题表示的词汇进行过滤,即筛除文本中参与表达文本主题但与目标歧义词语义关联度低的词汇,具体表现为图2中的有效词过滤环节:首先去除停用词,然后根据词向量相似度抽取出与歧义词关联度高的词作为有效词,最后进一步提高有效词中同义词的参与权重.过滤并调整有效词后,使用LDA模型进行文本分类,并根据文本-主题(义项)的分布概率确定待消歧文本中歧义词对应的语义义项.
停用词一般指文本中普遍出现的,主要用于语法结构搭配的功能词,如“a”、“is”、“the”、“在”、“个”等.停用词由于其本身的普遍性和语法功能性,通常与篇章文本的主题关联度较低,在词义消歧中,表现为歧义词与上下文中停用词的语义关联度非常低.因此,首先需要对待分类文本进行停用词过滤预处理,避免上下文中停用词对篇章主题和歧义词语义信息的影响.
本文中,停用词主要包括数字、字母、符号和高频维吾尔语词汇.其中,高频维吾尔语词汇是在35万句维吾尔语语料的词频统计数据中过滤得到的,人工过滤词频数高于5 000的词汇作为停用词.最终整理出的维吾尔语停用词如表1所示.
由第1节介绍的有关主题模型生成文本的过程可以看到,除了常见的停用词外,LDA模型认为文本中每个词汇都与文本主题相关,因此文本的主题本质上是通过文中每个词汇的主题分布叠加计算后确定的.然而,将LDA应用于词义消歧任务中,将文本主题类比为歧义词语义义项时,除了去除停用词外,还需要进一步过滤出其中的有效词汇,即区分出文本中与歧义语义相关的词和参与文本主题表达但与歧义词语义不相关的词.显而易见,前者是我们需要的有效词汇,而后者是需要排除的噪声词.
使用Word2vec训练出维吾尔语词向量,并使用余弦相似度计算词对(X,Y)之间的语义关联度:
cos θ=(∑ni=1(Xi×Yi))/((∑ni=1(Xi)2)1/2×(∑ni=1(Yi)2)1/2).(1)
为了确定合适的语义关联过滤阈值,计算停用词表中停用词与歧义词的平均向量相似度作为过滤阈值,计算公式如下:
γi=(∑Nstopj=1cos(wi,wj))/(Nstop),(2)
其中,wj为停用词,停用词表中共有Nstop个词汇(包括字母等),γi为每个歧义词wi对应的过滤阈值.根据停用词的定义可知歧义词与文本中停用词的语义关联度很低,因此如果词-歧义词之间的向量相似度低于其对应的过滤阈值,那么这些词即为LDA模型中的噪声词,而其余词汇则是有效词.
对包含歧义词wi的任一篇章文本ti,m∈Ti,wi,m∈ti,m为该篇章文本中包含的词汇.计算歧义词与篇章词汇向量之间的余弦相似度,并根据过滤阈值将wi,m添加到有效词集Weff和噪声词集Wnoise.即
{wi,m∈Weff, 当cos(wi,wi,m)≥γi,
wi,m∈Wnoise, 其他.(3)
与上下文词汇相比,在篇章文本中出现的同义词词组集合与文本表达的主题关联性更强,因此首先构建维吾尔语同义词集.
本文采用基于维汉对齐词典的同义词抽取方法,对维汉对齐词典和汉语同义词进行词条匹配,并抽取出对应的维吾尔语同义词集.具体抽取过程如图3所示.
首先对汉语同义词词林预处理,在《哈工大同义词词林扩展版》[20]中,汉语词义关系标为3类:孤立词、同义词和相关词.其中相关词不做考虑,同时由于汉语同义词中包含的部分多义词会影响维吾尔语同义词抽取的准确率,所以进一步将汉语词分为:孤立词集(不存在同义词,也不具有歧义)、歧义词集和消除歧义词后的同义词集(即消歧同义词集).
然后对维汉对齐词典进行结构化处理.原始词典词条结构为“维吾尔语词汇/短语集+汉语词集+拼音”,如“认真rèn zhēn; 老实lǎo shí; 率真shuài zhēn; 忠诚 zhōnɡ chénɡ ”.
预处理过程主要包括去除维吾尔语短语、非维汉词汇、标签文字以及汉语形容词后缀“的”,并按照汉语词汇长度和对应维吾尔语词数调整词条结构.处理后的词条结构为“汉语词+对应维吾尔语词数+维吾尔语词集”,如“认真5”,共63 477条.
根据同义词的一般性定义,以及原始和处理后的结构化维汉对齐词典,提出两条策略:
1)同一词条中的维吾尔语词构成维吾尔语同义词集;
2)不同词条中,汉语词是同义词,对应的维吾尔语词合并为一个维吾尔语同义词集.
根据过滤结果以及策略1)和2),对维汉对齐词典进行同义词抽取,得到4类维吾尔语同义词集分别对应汉语孤立词集、汉语歧义词集、汉语消歧同义词集以及未在汉语同义词词林中出现的汉语词集,具体抽取结果如表2所示.其中,维汉对齐词典和结构化词典的词数分别为385 505和63 477,对应抽取出的以上4类维吾尔语同义词集数分别为332,2 740,4 363和8 088条.对每类抽取结果按照词条中维吾尔语词频区间分布,各自随机抽样100组词条进行人工评价,准确率分别为88.43%,76.09%,85.00%和83.13%.合计抽取维吾尔语同义词集共15 523条,平均准确率为83.16%.
使用上述维吾尔语同义词集匹配出每个篇章文本有效词集中的同义词,调整相应词汇的词频,从而增强篇章文本的主题(歧义词语义信息)表达能力.同义词词频加权公式如下:
tf(wSynseti,m)'=max(tf(wi,m))×
(1+(cos(WSynseti,m,wi)^-)/(cos(Weffi,m,wi)^-)),(4)
其中,wSynseti,m为篇章Ti中出现的同义词,max函数为篇章的最高词频数,cos(Weffi,m,wi)^-为篇章中有效词与歧义词的平均余弦相似度,cos(WSynseti,m,wi)^-为篇章中所有同义词与歧义词的平均余弦相似度.
根据上述过程处理后得到的有效词进行LDA主题分类,使用Gibbs抽样方法进行参数估计,具体参数训练过程如下:
1)确定每个采样词的语义项数K(主题),待分类文本数M=K+1,并选择合适的先验参数α和η;
2)对每一篇文本的每一个有效词,随机分配一个语义项(主题)编号z;
3)扫描整个篇章文本集,对于每一个有效词,利用Gibbs抽样公式更新词汇的语义项(主题)编号,并更新篇章文本集中该词的编号;
4)重复步骤3),直到Gibbs抽样收敛;
5)统计整个篇章文本集中各文本各词汇的义项(主题),得到文本的义项(主题)分布θm,选取分布概率最高的义项作为该采样歧义词的消歧结果.
实验使用维汉双语词对齐词典,共计词条385 502条.汉语同义词词林《哈工大同义词词林扩展版》,共计77 343条词语.CWMT2015评测任务共享的维汉双语平行语料,主要面向新闻政务和口语领域,共35万句对.对维汉双语平行语料中的35万句维吾尔语句子,使用Google开源工具Word2vec训练出维吾尔语词向量,具体参数设定为双向滑动窗口5,最小统计词频5,衰减速率0.025,迭代次数20次.LDA模型中,先验参数α和η的取值通常取决于主题数量K和词汇表中的词汇数量NM,一般设定α=50/(K+1),η=200/NM.
本文词义消歧模型的输入文件由两部分组成:1)包含采样任务歧义词的待处理篇章文本; 2)该歧义词不同语义项对应的篇章文本集.前者是待消歧目标文本,其中的歧义词语义未确定; 后者对应该歧义词的语义标注文本集,集合元素个数为歧义词不同的语义项数目,因此集合中每个文本的主题是已知的,对应为歧义词的每一个具体语义项.将待处理文本和语义标注文本集合并作为主题模型的待分类文本集,训练得到每个文本对应的语义项概率分布,特别是待消歧文本的语义项概率分布,选取其中概率最高的义项作为歧义词在当前上下文中的语义.
由于维吾尔语中目前还没有公开的歧义词标注语料库,需要根据现有资源初步构建相应的语义标注语料,同时构造对应的测试样本集来验证本文的词义消歧模型,如图4所示,具体构造过程如下:
1)对维汉双语词对齐词典进行结构化处理,得到维-汉一对多词表,形如{uyi|cni,1,cni,2,…,cni,n,…,cni,N},其中uyi表示维吾尔语词汇,i∈[1,V],整个结构化词表中共有V个维吾尔语词汇; cni,n表示uyi对应的汉语词汇,n∈[1,N],该词条中共有N个汉语词汇,这些词汇作为该维吾尔语词汇的汉语解释.
2)使用汉语同义词词林对1)中每组词条{uyi|cni,1,cni,2,…,cni,N}对应的汉语词汇进行同义词归类,新的词条形式为{uyi|[cni,1,…]1,…,[…,cni,n,…]m,…,[…,cni,N]M},其中m∈[1,M],每个词条中对应的汉语词汇集合数量为M,每个子集[…,cni,n,…]m中所有的汉语词汇都对应着相同或相近的语义.过滤掉M=1的词条,从而将维吾尔语歧义词通过这种形式标注出来.
3)将2)的结构化词条在大规模维汉双语平行语料中进行匹配.假设存在一对维汉对齐句子(ltuy,ltcn)(t∈C),ltuy和ltcn分别为维语和汉语句子,C为双语平行语料的句子对总数.对每一个词条{uyi|[cni,1,…]1,…,[…,cni,n,…]m,…,[…,cni,N]M},如果满足条件存在uyi∈ltuy,且存在(cni,n∈[…,cni,n,…]m)∧(cni,n∈ltcn),就将对应的维吾尔语句子ltuy归为汉语同义词子集[…,cni,n,…]m对应的语义项分类.其中[…,cni,n,…]m表示当前词条中任意汉语同义词子集,cni,n为该子集中任意汉语词.
4)重复过程3),直至遍历完全部维汉双语平行语料库.
经统计,共抽取出维吾尔语歧义词3 258个,义类词条总计17 977条,平均每个维吾尔语歧义词对应5.5 种语义项,同一语义项对应的句子集构成该语义项的伪篇章文本.随机抽样并构建测试集:设定歧义词各语义项句子数量最低为15,每组歧义词抽取待测句子数为5,共抽取得到63组歧义词测试样本.
对3.2节中的63组歧义词语义标注测试集进行对比实验,共有6个对照组:1)直接使用Word2vec计算相似度判断语义项,2)使用ELMo计算相似度判断语义项,3)直接使用LDA主题模型,4)LDA+去停用词,5)LDA+去停用词+Word2vec,6)LDA+去停用词+Word2vec+强化同义词.对每组实验进行准确率评价,具体结果如表5所示.
实验结果表明,直接使用LDA模型在测试集中的消歧准确率为57.14%,相比直接使用Word2vec和ELMo词向量相似度消歧方法,准确率有了明显的提升.同时,随着去停用词、基于Word2vec向量相似度过滤有效词以及强化同义词词频权重3个处理过程的加入,LDA模型的准确率逐步提升,在本实验测试集上消歧准确率最高达到65.08%.注意到LDA模型在加入去除停用词和强化同义词词频权重处理时准确率提升较低,均只提升1.59个百分点,而加入有效
表5 维吾尔语语义标注集词义消歧结果
Tab.5 Word sense disambiguation results for Uyghur on semantic annotation test set
对3.3节中的5组采样词篇章测试集进行对比实验,共有4个对照组:1)直接使用LDA主题模型,2)LDA+去停用词,3)LDA+去停用词+Word2vec,4)LDA+去停用词+Word2vec+强化同义词.对每组实验进行人工评测,具体结果如表6所示.
表6 维吾尔语篇章级采样词任务词义消歧结果
Tab.6 Word sense disambiguation results for Uyghur in document-level sampling-word task
从表6中可以发现,在实际篇章文本的词义消歧任务中,去停用词、基于Word2vec向量相似度过滤有效词以及强化同义词词频权重仍然可以逐步提高模型的性能,准确率最高达到61.2%,相对基础LDA模型提升了4.6个百分点.对比表5和6发现,在实际应用任务中,模型的性能有明显的下降,主要原因在于伪篇章文本中与目标关键词关联度高的上下文词汇,相比实际篇章文本中更加富集.另外实际文本中上下文跨度更大,噪声干扰词更多,这也导致了模型性能下降.
本文在LDA主题模型的基础上,将篇章文本的词义消歧问题转化为文本主题分类问题,对资源稀缺语言维吾尔语的无监督词义消歧进行研究.为提升模型的准确率,对文本中的词汇依次进行去除停用词,过滤有效词以及强化同义词词频权重3个预处理过程.其中,停用词表依据单语语料的词频统计信息人工过滤得到,维吾尔语同义词集通过词典匹配方法从维汉双语对齐词典和汉语同义词词林中自动抽取得到.同时,分别构建维吾尔语歧义词语义标注集和篇章测试集,并进行实验验证.实验结果表明,本文提出的维吾尔语无监督词义消歧方法在语义标注测试集中准确率达到65.08%,在篇章测试集中准确率达到61.2%,具有较好的应用性能.后续研究中,一方面将继续完善词义消歧相关语料资源,包括对本文中初步构建的语义标注集进行人工校正,以及直接人工标注篇章级语义标注语料.另一方面,本文提出的方法主要面向篇章词义消歧,不能很好地应用于句子级词义消歧,后续将在人工标注语料资源完善后,使用有监督分类方法进一步提升维吾尔语词义消歧性能.