基金项目:国家自然科学基金(60803078); 福建省自然科学基金(2010J01351); 教育部海外留学回国人员科研启动基金
通信作者:cjx@xmu.edu.cn
(School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
implicit discourse relation recognition; specific information; tree-structured long short-term memory(Tree-LSTM); neural tensor network(NTN)
DOI: 10.6043/j.issn.0438-0479.201701010
隐式篇章关系识别的主要挑战是如何表示两个文本单元的语义信息.由于句子的语义信息往往由语法树中的信息焦点(谓词部分)所决定,所以关注信息焦点可以提升篇章关系识别的效果.为了增强信息焦点的作用,引入树状长短时记忆(tree-structured long short-term memory,Tree-LSTM)网络,使用其遗忘门的特性区别对待不同孩子节点的信息.最后利用神经张量网络(neural tensor network,NTN)来计算两个句子语义向量之间的关系.基于PDTB2.0(Penn Discourse Treebank)语料数据进行实验,实验结果表明混合树结构神经网络比传统的RNN模型在大部分关系中的F-score上提高了3.0%左右.
The most critural challenge of implicit discourse relation recognition lies in how to represent the semantic information of each discourse argument.However,the semantic value of the sentence is mainly decided by its specific information focus in linguistics.Therefore,the discourse relation may mostly depend on links between information focuses.Intuitively,we cannot give equal treatment to every phrase branches during composition up the syntactic parse tree.To resolve the problem,we introduce the tree-structured long short-term memory(Tree-LSTM)network to selectively incorporate information from each child to compute the distributed semantic representation of two arguments.Consequently,it can emphasize those informative predicative branches that indicate the "focus" of a sentence.Then the neural tensor network(NTN)is used to predict the semantic correlation between these two discourse arguments across multiple dimensions.Experimental results on PDTB corpus show that our model has achieved some improvement on the task of discourse relation recognition.
篇章关系识别是自动识别两个文本单元之间结构和语义的逻辑关系,文本单元可以是子句、句子或段落.该识别任务在自然语言处理的很多领域有着十分重要的应用,如机器理解[1]、问答系统[2]、文本摘要[3]等.根据文本单元之间是否存在连接词,篇章关系识别任务分为显示和隐式篇章关系识别.显示篇章关系中存在连接词,所以比较容易识别,而隐式篇章关系缺乏明确的连接词,识别难度大.隐式篇章关系识别任务是利用相关技术识别不存在连接词的两个文本单元间的篇章关系.
最初为了克服缺乏人工标注数据的问题,一些学者如Marcu等[4]、Saito等[5]和Blair-Goldensohn[6]等从生语料库中获取显示篇章关系单元,并去除其连接词来合成隐式篇章关系数据,进而用这些数据研究隐式篇章关系.显示篇章关系的连接词本身蕴含着对关系类别的判定属性,而隐式篇章关系的识别则更多依赖于上下文的语义知识,所以通过人工合成数据训练的模型与通过自然数据训练的模型仍然存在很大的差异.
随着标注语料库的出现,许多基于特征提取的有监督学习方法和半监督学习方法相继被提出并应用于隐式篇章关系识别.典型的语料库有修饰结构理论篇章树库(RST discourse treebank,RST-DT)[7]、宾州篇章树库(penn discourse treebank,PDTB)[8]和图库(GraphBank)[9].这些研究学者主要集中于使用传统的特征提取方法研究隐式篇章关系识别,前人通过研究和探索积累了丰富的特征[10-20].Pitler等[10]收集了一些语言特征,如词极特征等; Lin等[11]引入了带有语义特性的依赖式规则和产生式规则; Biran等[18]对过去常用的单词对特征进行改造,从Gigaword语料库中对单词对进行统计得到一个更加密集的聚类单词对特征.国内也有一些研究者基于特征提取运用监督学习方法识别隐式篇章关系[21-25].刘初等[23]提出基于自训练的半监督策略来识别隐式篇章关系,并对常用的9种篇章关系特征进行组合分析.前人的工作已经证实了现有特征具有很好的效果,若要进一步提升效果,则需提取新的特征,耗费大量的人力成本,同时特征提取方法难以获得句子信息焦点.本研究从特征集合中抽取部分特征构建baseline系统,同时从中选出部分特征提升混合树模型识别效果.
为了节约人力成本,深度学习在图像和语音领域得到广泛应用并取得显著效果,Rumelhart等[26]首次提出了词向量,利用大量无标注数据训练得到具有语义信息的单词向量,这也是统计自然语言领域的重要创举.为了处理复杂的任务,需要训练能够捕获语法、语义甚至语用等信息的句子向量.关于这方面的模型可以分为三类:词袋模型[27]、序列模型[28]、树结构模型[29-30].其中:1)词袋模型是将句子中所有连续的单词对应的单词向量相加求得平均值作为句子向量表示,这种方法忽略了句子中单词的次序和语法结构等; 2)序列模型经常选用递归神经网络(recursive neural network,RNN)来处理任意长度的单词序列,这种模型可以捕获到单词的序列语义; 3)树结构模型根据句子的语法结构来构建树结构的神经网络捕获句子的语义、语法、单词序列等信息.例如:Socher等[29]采用了广义的RNN神经网络构建一棵语法树,学习短语的特征向量; Tai等[30]将长短时记忆(long short-term memory,LSTM)推广到树形神经网络,即提出树状LSTM(Tree-LSTM),实验结果表明Tree-LSTM在情感分析任务中的效果比RNN提升很多,Tree-LSTM设置了灵活的遗忘门非常适合增强语法结构中信息焦点的作用.除此之外最近Ji等[31]利用Socher等[29]提出的RNN模型结合句子语法解析树构建神经网络,将单词转换为单词向量作为输入,自底向上计算最终获取两个文本单元的句子向量,最后将两个文本单元的句子向量作为特征使用.即使Ji等[31]增强了实体向量的关注,F-score也只比基准实验提高了0.6%,因此实体并不是影响篇章关系的主要因素.每个句子中都有一些特定的信息焦点对整个句子的语义起着重要作用,但是Ji等[31]使用的RNN模型同等对待语法树中所有孩子节点信息,因此不能有效地获取信息焦点和句子真实语义,进而影响篇章识别效果.同时RNN在处理长序列时性能较差,会导致反向梯度信息丢失.因此本研究提出基于混合树结构神经网络的隐式篇章关系识别模型,并基于PDTB语料库进行试验.
在语法中,谓词一般是句子的信息焦点,它往往决定了整个句子的主体含义.谓词在句子中有特定的表现形式,如连系动词+表语构成复合谓词出现在句子中.例1中“my favorite pet”和“a cat in the pan”就是表语性的名词短语,与前面的系动词在句子中共同充当谓语,影响整个句子意思; 或者通过系动词+形容词构成形容词谓语,例2中“kind”是一个形容词表语,与系动词“was”一起构成形容词谓语.
例1 Arg1:Ada is my favorite pet.
Arg2:It is a cat in the pan.
例2 Arg1:Susan gave Jack the coat.
Arg2:She was kind.
成分树是通过将句子不断按主语-谓语的方式分裂,得到一棵解析树.因此,使用成分树结构构建神经网络来计算两个文本单元的句子向量时,能够更加方便增强谓语在整个句子中的作用,即成分树可以提高动词表语、名词表语或形容词表语对句子向量的影响程度.如图1中虚线框中信息是两个文本单元中需要关注的部分,这部分对句子语义起着重要作用.因此,若构建一个知识向量模型能够区别对待句子中的信息焦点和非信息焦点,则能够准确地获取句子的语法语义信息进而提高篇章关系的识别效果.为了解决上述问题,本研究采用Tree-LSTM神经网络[30]来获取每个篇章单元的语法语义含义.
图中实线框内缩写表示不同的句子成分.
另外,本研究还采用了神经张量网络(neural tensor network,NTN)模型计算两个文本单元句子向量之间的关系.与标准的NTN模型不同,本研究对该模型做了一些修改,使得NTN不再单纯依赖于两个文本单元的句子向量,而是可以融入特征向量提升篇章关系识别的效果.L表示关系,x表示单词向量.
图2 基于混合树神经网络的隐式篇章关系识别模型
Fig.2 The framework of hybrid tree structured neural network for implicit discourse relation recognition
本研究采用Tai等[30]提出的Tree-LSTM神经网络作为句子语义学习模型,以单词向量作为输入并自底向上学习得到句子向量.在句子语法解析树中非叶子节点的值是以其孩子节点和单词向量作为输入计算得到.相比于RNN神经网络,Tree-LSTM能够解决两方面问题:首先引入了记忆单元能够解决长序列梯度信息反向传播的丢失问题; 另外加入了遗忘门能够选择性地组合孩子节点信息,因此可以加强信息焦点在整个句子中的作用.
与标准的LSTM一样,Tree-LSTM[33]中第j个节点包含一个记忆单元cj、隐含状态hj、输入门ij和输出门oj.不同的是Tree-LSTM是根据语法解析树结构构建,每个单元的状态值依赖于其多个孩子,如图3所示,单元1的c1值依赖于其两个孩子的c2和c3.对于每个孩子节点k,单元j都有一个对应的遗忘门fjk,可以通过调节遗忘门fjk的值关注信息焦点.
对于任意一个二元Tree-LSTM单元j,cjk、hjk分别表示其第k个孩子节点的记忆单元和隐含状态,因为这里采用成分树来构建二元Tree-LSTM网络,故k取值为1或2,二元Tree-LSTM网络的转换公式如下:
ij=σ(W(i)xj+∑2k=1U(i)khjk+b(i)),fjk=σ(W(f)xj+∑2l=1U(f)klhjl+b(f)),
oj=σ(W(o)xj+∑2k=1U(o)khjk+b(o)),
uj=tanh(W(u)xj+∑2k=1U(u)khjk+b(u)),
cj=ij⊙uj+∑2k=1fjk⊙cjk,
hj=oj⊙tanh(cj),
其中:σ是sigmoid函数; b(i)、b(f)、b(o)、b(u)表示偏置项; U(i)k、U(f)kl、U(o)k、U(u)k表示孩子节点隐含值的权重,l表示第k个孩子节点的第l个孩子节点; W(i)、W(f)、W(o)、W(u)分别表示输入向量在不同结构中的权重; ⊙表示向量中对应元素相乘.模型中每个单元节点最多只有两个孩子节点,当计算模型中的任何一个单元时,其两个孩子节点分别采用不同的参数矩阵,以实现对其孩子节点的更小细粒度的调节,例如,左孩子节点对应名词,右孩子节点对应动词,那么通过训练可以增大右孩子节点的权重使模型更加关注动词信息.从模型空间复杂度分析,其参数数量规模仅为O(4|h|2),|h|表示节点隐含状态的向量长度,因而该模型体系具有一定的可行性.最后将通过二元Tree-LSTM模型逐步训练得到的两个句子向量传递给NTN模型作为输入进一步识别两个文本单元的篇章关系.
NTN模型由Socher等[32]提出并成功地应用在实体关系的识别中.受该工作的启发,本研究将两个文本单元的句子向量(s1,s2)作为输入,使用NTN判断两个文本单元之间是否存在某种隐式篇章关系Lr及对应的概率大小.如图4所示,直观地显示了NTN的结构,NTN中引入了一个二元线性张量积将2个句子单元用矩阵相乘的方式紧密关联在一起,代替了传统神经网络直接将两个输入向量首尾相连的方式.根据下面的NTN模型公式,可以计算两个文本之间的篇章关系属于第r个关系(Lr)的概率值.
r(s1,Lr,s2)=Urρ(sT1Wrs2+Vr[s1s2]+br),(1)
式中:ρ为非线性函数tanh; Wr∈Rd×d×k表示神经张量Ur∈R1×2、Vr∈R2×2d和br∈R2×1神经网络调节参数.
gr(s1,Lr,s2)=Urρ(sT1Wrs2+
Vr[s1
s2]+MrF+br),(2)
其中,Mr表示特征的参数,F是特征向量.式(2)是NTN函数的改进,增加了MrF项,使得NTN模型可以引入特征向量.因此利用该改进的NTN,可以将近年来研究的特征加入到模型中,进一步提高识别效果.根据相关工作的研究成果,模型中加入了有效的特征:单词对特征、依赖树规则、产生式规则和布朗聚类.
模型的最顶层采用softmax分类器来识别两个文本单元的篇章关系.如果在PDTB 4个隐式篇章关系中属于关系(s1,Lr,s2)的概率最大,则文本单元之间的关系定义为Lr,否则不属于Lr.当使用两种隐式篇章关系做分类时,多元分类器会变为二元分类器.
训练目标的目的是使正确篇章关系具有更大概率.模型的所有参数设为θ,所有参数需要通过学习得到.这些参数一部分来自NTN模型:{Ur,Wr,Vr,br}.另一部分参数来自Tree-LSTM:{b(o),W(o),U(o),b(i),W(i),U(i),b(f),W(f),U(f)}.g(i)r=g(s(i)1,Lr,s(i)2)表示第i个文本单元对或样本通过混合树结构神经网络模型计算得到在关系Lr上的分值.通过最小化下面的目标函数来训练模型:
J(θ)=λ‖θ‖22-
1/N[∑Ni=1∑Rr=11{y(i)=Lr}log(eg(i)r)/(∑Rr=1eg(i)r)],
式中:λ是正规项的参数以避免模型出现过度拟合; N表示训练数据的数量; R表示隐式篇章关系集合的个数; y(i)表示样本i在语料库中对应的关系.
为了验证基于深层语义神经网络的隐式篇章关系识别模型的有效性,混合树结构神经网络模型使用PDTB语料库作为训练和测试数据.与大部分研究学者一样主要研究PDTB中的第一层关系,包括:Expansion、Temporal、Contingency 和Comparison.另外对于PDTB中2.2%的被标注为两种以上隐式篇章关系的实例,将其第一关系作为其隐式篇章关系.例如文本实例被认为具有Temporal和Contingency关系,则定义该实例的篇章关系为Temporal.所有隐式篇章关系数据中编号02-21章节作为训练数据,00-01章节作为验证数据,22-23章节的数据作为测试用例.表1显示了训练数据、测试数据和验证数据在每种隐式篇章关系中的分布情况,结果与Pitler等[10]和Ji等[31]的相同.
注:表2中的Exp.+Ent.表示将EntRel和Expansion实例共同作为Exp.实例,Exp.表示单独使用Expansion实例作为正例.
注:Exp.+Ent.表示将EntRel关系数据当作Expansion关系数据.
模型的训练算法使用自适应梯度下降算法(AdaGrad)[34],并设置学习速率为0.05,最小批次为100,正规化项的λ参数值为10-4.为了获得最好的效果,参照Ji等[31]的单词向量维度设置,通过验证集验证后,将NTN模型的切片设置为3,单词向量的维度设置为50.为了避免训练数据中正样本与负样本数据的不平衡性问题,随机从正样本集合中选择正样本继续添加到正样本集合中使得训练过程正样本和负样本具有相同比例.
之前大多数相关研究是基于特征工程和浅层统计分析,为了评估模型的有效性,本研究从所有数据中提取了有效浅层特征(surface features):First-Last-First3、Inquirer Tags、Production Rules、Dependency Rules、 Polarity、Verbs、Modality、NER 和 Unigram.另外,本研究首先构建了两个传统学习模型作为基准系统.这两个基准系统分别利用最大熵模型进行有监督学习和协同训练算法训练半监督学习模型(表2第1行和第2行).混合树结构神经网络模型(第4行和第6行)与基准系统的比较结果可以看出,大部分情况下混合树神经网络模型比基准系统提升了很多.
为了验证Tree-LSTM模型能更好地捕获两文本之间的语义信息,本研究还将Ji等[31]使用到的RNN模型作为基准系统和混合树结构神经网络模型进行比较(表2中的第3行和第4行),可以看出在其他层设置都一样的情况下,使用Tree-LSTM作为句子向量捕获的模型效果比RNN模型更好.该结果也进一步验证了利用Tree-LSTM关注句子中的信息焦点能够找到两个篇章关系中的语义链,这也是Tree-LSTM效果好于RNN的原因.
为了进一步比较,在混合树结构神经网络模型中引入了与Ji等[31]相同的特征,不仅包含了Lin等[11]提出的一些特征,还包含了Rutherford等[20]提出的Brown cluster特征.模型使用了与Ji等[31]一样的特征:500个单词对特征、600个布朗聚类特征、100个依赖树规则特征和100个产生式规则特征.如表2的第5行与第6行所示,引入了特征以后混合树结构神经网络模型在Expansion、Contingency、Comparison和Temporal 4个篇章关系中相比RNN模型基准系统F-score值分别提高了3.19,2.54,3.82,1.07个百分点.
如表3所示,该表列出了前人的研究结果:F-score和准确率.这里只列出了使用相同的语料库PDTB、相同的训练、验证和测试集的参考文献的结果.国内一些研究学者的模型比较方式和数据分布与本文不同,因此没有加入对比.在这些模型中,Ji等[31]的模型在Expansion、Contingency、Comparison和Temporal 4个分类中效果都是最好的.与Ji等[31]的模型比较,本研究提出的模型在以上4个关系上的F-score值都有明显的提升.
注:Exp.表示使用EntRel和Expansion共同作为正例.
相比于少量的人工标注数据,无标注数据大量存在.与传统基于统计分析和特征工程的模型不同,混合树结构神经网络模型尝试引入单词向量到隐式篇章关系识别中.因此,可以使用自然语言模型从大规模无标注数据中学习得到单词向量.
此外,实验表明随着单词维度的增加,篇章关系识别效果没有得到明显的提升.其中的原因是随着单词维度的增加虽然单词向量的信息会增多,但也随之引入一些无用的信息.因此在实验中将单词维度设置为50.
基于Tree-LSTM的模型比基于RNN模型的效果更显著,这是因为Tree-LSTM克服了RNN在长序列中反向传播会出现信息丢失的问题.更重要的是基于成分树的Tree-LSTM模型能够帮助模型区别对待语法结构中的不同成分,增强信息焦点的影响程度,因此可以通过该模型获取到更加有效的语义信息.表2的结果证明了即使没有加入特征,混合树结构神经网路在隐式篇章关系识别上依然效果显著.在表3中与其他模型的比较中,该模型在4种关系中依然能取得一些提升.
举一些例子说明为什么关注句子的信息焦点有利于提升篇章关系识别的效果.
例3 Arg1:The estimated improvement in Colgate's U.S.operations(took some analysts by surprise).
Arg2:Colgate's household products business(has been a weak performer).
例4 Arg1:His organization urged trucking firms to(halt all deliveries into the Bay area)yesterday,except for emergencymedical supplies.
Arg2:Some foodstuff shipments will probably resume Thursday.
Tree-LSTM模型能够正确识别出例3的隐式篇章关系是Contingency,一部分原因是该模型能够关注句子中的谓语部分“took some analysts by surprise”和“has been a weak performer”,增强该部分的影响程度.相比之下RNN同等对待语法结构中的所有孩子节点,因此不能降低“The estimated improvement”在句子的影响度,这样会导致错误的识别该篇章关系为Comparison.例4中Tree-LSTM能够通过关注“halt all deliveriesinto the Bay area”和“resume”部分的信息正确识别出篇章关系为Comparison.
混合树结构神经网络模型用于识别隐式篇章关系,该模型是由单词向量、用于获取句子向量的Tree-LSTM以及进行关系识别的NTN组成.该模型可以捕获两个文本单元的语义、语法和词汇信息,这些有助于提升隐式篇章关系识别的效果.实验结果显示了该模型比RNN模型识别效果更好,比传统基于特征工程的方法在F-score上提高了3.0%,同时也证实了句子中信息焦点对隐式篇章关系识别是非常重要的.在未来将进一步验证基于依赖树的Tree-LSTM是否比基于成分树的Tree-LSTM更好.