(1.厦门大学信息学院,福建 厦门 361005; 2.厦门大学人文学院,福建 厦门 361005; 3.厦门大学电子与科学技术学院,福建 厦门 361005)
(1.School of Informatics,Xiamen University,Xiamen 361005,China; 2.School of Humanities,Xiamen University,Xiamen 361005,China; 3.School of Electronic Science and Engineering,Xiamen University,Xiamen 361005,China)
DOI: 10.6043/j.issn.0438-0479.201909027
备注
为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特色的闽南语词库和音素体系; 模型框架方面,在Tacotron和Tacotron2以及结合了两者不同模块的融合框架上进行实验对比.在厦门大学自主采集的厦门口音闽南语数据集的基础上,使用闽南语识别模型对语音数据进行解码得到对应的带有标点符号的音素序列,通过专业定制的词典建立音素标注体系,进行多组实验,比较采样率、建模方式和模型结构对合成音质以及稳定性的影响,通过梅尔谱和编码解码对齐图等评测标准,得到了三者的最佳搭配方案.
To better study the application of speech synthesis in Hokkien,we have established the database and verified that Tacotron2 is an effective speech synthesis model.For database,the establishment of a comprehensive and localized Hokkien vocabulary and phoneme system is adopted; for the model,in the model architecture of Tacotron and Tacotron2,the integration and optimization of the two models are explored,and the attention mechanism and other modules are optimized.On the data set of Xiamen pronunciation of Hokkien,the corresponding phoneme sequences with punctuation marks are decoded by Hokkien recognition model.A post-phoneme annotation system is established through a specially customized dictionary.A series of experiments are carried out to compare effects of sampling rate,modeling method and model structure on the synthesized phoneme quality and stability.Through Mel spectrum and alignment map of decoding and encoding,the best configuration is obtained.
引言
语音合成是一种将文本信息转换成语音的技术,是人机交互中的关键技术之一[1],广泛应用在无人驾驶、自动门禁、智能机器人等领域.传统的语音合成技术主要有参数合成[2]和波形拼接[3],语音合成的算法中隐马尔可夫模型[4]实现了语音合成系统在小型设备上的应用.随着深度学习技术的发展,端到端模型可模拟人类智能处理方式,实现文本信息输入、直接语音信息输出的语音合成.
当前,普通话语音合成技术已相当成熟、稳定,多语种、方言的语音合成则成为新的研究热点.在方言语音合成研究方面,已经实现了沈阳话[5]、天津话[6]、兰州话[7]等的语音合成,但以上合成系统只是对普通话的韵律进行修改,合成的语音在方言特有的读音上略显不足.在各地方言中,素有“古汉语活化石”美誉的闽南语具有特殊的区位优势,肩负着闽台文化传承的重要使命.因此,开发和研究闽南语的语音合成系统具有较大的科研价值和社会意义.然而,国内外对闽南语语音合成的研究较少,缺乏足够的语音学参考资料.杨廷东等[8]基于基音同步叠加(PSOLA)和波形编辑合成技术搭建了潮汕方言(属于闽南语的潮汕片)的语音合成系统,但从实际效果来看,某些音节无法听清,自然度和清晰度也不太理想.此外,闽南语复杂多变,主流有厦、漳、泉三地口音,而且“同地不同音”的现象较为明显.闽南语数据库的重要突破之一在于创建了一个体系较为完整的闽南语数据库.本文将对合成系统的闽南语数据库从来源、组成、特点及难点等方面进行描述和探究,并在此基础上采用基于端到端模型的深度学习算法设计一套较为实用的闽南语合成系统.
1 闽南语数据库
1.1 数据库来源闽南语数据库包括语音和文本,其中语音库来源于真实语料录音.为了保证发音的准确性,请专业的闽南方言发音人录制音频.语音语料选用闽南地区惯用表达、俗语及多题材语料,力求尽可能覆盖多种语言使用情况,照顾普遍性与特殊性.同时,考虑到闽南语使用范围广,不同地区存在语音、词汇和语法差异的情况,本研究收集了厦、漳、泉等多地闽南语代表地区的音系和词汇.录音采用“byly”软件(http:∥yykxy.blcu.edu.cn/art/2014/5/12/art_6233_1072952.html)进行录制,实现自动分段切割.而后对收集的录音语料生成标注,录音与标注一同进行合成语音训练.
1.2 数据库组成闽南语合成系统数据库主要由如下4部分组成:
1)常用词典.为了保证合成系统覆盖的普遍性,该词典主要收录现代汉语常用词,每个词条给出相应的闽南语词映射,并根据闽南语词生成相应的闽南语读音.主要以研究者的闽南语知识为依据修改,以《闽南方言大词典》[9]、《普通话闽南方言词典》[10]、《台湾话大词典》[11]等为参考,力求确保词条标注的准确性和语料的丰富性.该词典经过去重修订后,主要包括33 000 多个条目.
2)闽南语特殊表达词典.为了保证合成系统覆盖的特殊性、地方性,该部分词典主要收录闽南语特有、地道表达,包含20 000多个词条.
3)常用人名和地名库.该部分既包含世界及中国范围内的常用地名和人名,也包括具有闽南语特色的人名和地名.其中人名部分包含常用姓氏和名字的单字,更加直接地服务于语音合成.
4)动态更新库.主要用于收集合成系统发布后后台收集的语料,将上述词典中不具备的特有表达和多音字添加到动态更新库.
1.3 数据库特点闽南语数据库主要有如下3个方面的特点:
1)编排、体系:分为普通话词、闽南语词和闽南语词标注3栏.普通话词与闽南语词并非一一对应,如:普通话词“下去”对应闽南语词“落去”,因此需要根据输入的普通话词特点对词典中的普通话词、闽南语词栏进行修改、核定.考虑到闽南语的特点,数据库中的普通话词以二字词、三字词、四字词为主.
2)标注形式:音素标注主要采用由厦门大学智能语音实验室自主设计的“闽南话拼音方案”.该方案与国际音标(IPA)(2005年修订)形成对照,以计算机可直接键入的26个英文字母来表示,共有17个声母、62个韵母、7个声调.闽南语词的标注采用声母、韵母与声调相结合的形式,其中,声母、韵头、韵腹、韵尾与声调分别以空格分隔,音节与词形一一对应.
3)多音字、词:由于合成系统在选择多音字、词的读音时只能在诸多读音中选择一个读音进行合成,因此数据库对具有不同读音的词进行优先级排列,并将常用的读音放在前面.其中优先级根据句库及长篇语料库中的词频统计结果来确定.语音合成时,词典中有的词直接选取,没有的词按照单字组合.
2 语音合成系统的难点与应对
在语音合成时,存在许多难点、疑点,这不仅与闽南语自身语言现象的复杂性有关,还与将数据库应用到合成系统中的匹配度有关.本研究对这些问题进行整理与归纳,并尝试提出解决办法.
2.1 映射问题数据库中普通话词与闽南语词的映射、闽南语词与音素标注的映射,均存在许多难点.首先是闽南语的特有词、特有表达,无法在现代汉语词中直接找到与闽南词相对应的词,如大量的口头语:表示惊叹、遗憾或不满的“夭寿”(iao1 siu6),表示惋惜、可怜、惊叹、遗憾的“侥幸”(hiao6 hing6)等.同时,这些特有表达往往无法形成适用于输入合成系统的普通话词,如与“尖酸刻薄地讥讽”对应的“抠亵”(kao6 siat7),合成系统使用者并不会在进行合成时输入“尖酸刻薄地讥讽”.鉴于以上这种情况,目前采用翻译匹配模式,直接识别出与普通话相近的词形,个别特征词暂时还保留原形,需要附加注解,另外标注.
映射方面还存在句法问题,由于现代汉语与闽南语在句法上存在差异,故按照现代汉语句法输入一个句子时,有可能无法得到地道的闽南语表达,如:输入“钱被偷了”,若要生成地道的闽南语表达,应该为“钱去被人偷了”,在这个地道表达当中,“去”字无实意,“被人”则是闽南语表达被动的特定表述.因此,在第二阶段的合成技术方面,需要研发应对多种表达模板的程序,使得表达更为准确和地道.
2.2 文白异读和多音字读音选择闽南语中存在大量的文白异读现象,这就需在数据库中将一个词语的文、白两种读音悉数列举; 而合成系统在选择读音时却只能够选择一个读音.另外多音字也存在同样的问题,如“接”字,既有“ziap8”的本字读音,也有“sin2”的特有表达读音,若从单字来看,会存在合成系统难选字的问题.一个解决办法是将特殊表达读音以词语的形式加进数据库中,如“接水”对应“承水(sin2 zui3)”,这样遇到需要采用特有读音的情况,合成系统将选整个词进行合成.
2.3 多地读音前文提到,闽南语中存在多地不同读音的情况,因此需要设立多个数据库,记录不同地区的闽南语读音,该项工作将主要由后期的个性化合成来完成.
2.4 动态更新选择由于闽南语合成系统是按照“词典中有的词直接选取,没有的词按照单字组合”的规则来进行,所以对词典进行动态更新是十分有必要的.如“个”字,单字读音为“e0”,则需要把读作“go3”的词条进行补充,如“个体、个人、个个”等.
2.5 前端处理由于闽南语语音和文本多对多的复杂映射关系,相比于汉语语音合成系统,闽南语语音合成系统的不同之处主要体现在汉语文本到音素的转换.汉语语音合成前端处理只需通过汉语拼音体系将输入的汉语文本转化成汉语音素形式进行文本特征提取; 而闽南语合成前端处理则需通过闽南语拼音方案将输入的汉语文本转化成闽南语音素形式进行特征提取.而闽南语合成的最大难点就在于设计闽南语拼音方案和构建完善的闽南语发音词典.
3 语音合成系统的模型架构
4 实验与配置
实验数据采用厦门大学自主采集的厦门口音闽南语数据集,包含时长约6.25 h的单人女声数据.数据标注方面,采用闽南语识别模型对语音数据进行解码从而得到对应的带有标点符号的音素序列,其中,音素标注体系由专业定制的词典建立,共有206个音素.合成时,将中文句子根据词典通过最大正向匹配分词寻找到相对应的闽南语音素,然后将其拼接起来.以句子“少一些功利主义的追求,多一些不为什么的坚持”为例,转换成的闽南音素序列为:“z io3 z i t8 s ia1 g a ng1 l ai6 z u3 gg i6 e2 dui1 g iu2,z ue6 z i t8 s ia1 b u t7 ui6 s i m1 m i h8 e2 g ia n1 c i2”,再将其输入模型进行合成.
4.1 实验配置提取语音特征时,帧长设为50 ms,帧移设为12.5 ms.本研究同时考虑16 kHz与44.1 kHz两种采样率的语音特征,均提取80维的梅尔谱特征,并分别提取513和2 049维的线性谱特征.提取文本特征时,分别由一个256维度的向量表征单个字符和单个音素来实现字符和音素嵌入.
本研究进行了3组对比实验:第1组为模型框架对比实验,第2组为嵌入方式对比实验,第3组为采样率对比实验.
以上3组实验中梅尔谱到线性谱的转换均采用Tacotron框架中的声码器完成.Tacotron框架中网络层数的配置
参考文献[5],并在保证语音质量的前提下适当减少RNN网络的节点数加快模型预测速度.
本研究选取均方误差(mean-square error,MSE)函数来计算损失进行反向传播,使用不同结构的框架作为特征预测网络学习闽南语音素到线性谱的映射,使用同一测试句子的编码解码对齐图、生成的梅尔谱和主观平均意见分(MOS)作为评测依据.
4.2 实验结果对比框架对比实验分别采用Tacotron框架、融合框架和Tacotron2框架.采用字符嵌入的建模方式时,Tacotron框架没有很好地学习到编码解码对齐信息和生成有效的梅尔谱; 融合框架和Tacotron2框架对应的编码解码对齐图和梅尔谱如图3所示.同样使用字符嵌入时,从编码解码对齐图的曲线连贯性上可以看出Tacotron2框架在连续性和稳定性上优于融合框架,曲线的像素点也表明对齐准确率优于融合框架; 从梅尔谱中可以看出Tacotron2框架合成的语音在能量强度上明显优于融合框架.由此可看出Tacotron框架之所以效果不佳是因
为使用的基于内容的注意力机制鲁棒性不佳,不能很好地处理部分训练数据标注存在不准确的问题,所以没有很好地学习到编码解码对齐信息; Tacotron2框架之所以比Tacotron框架效果更佳,也不仅仅是对注意力机制进行了升级和加入了停止令牌模块,它在编码器和解码器的结构上进行的调整也给模型带来了更佳的学习和表达能力.
嵌入方式的对比实验中,在Tacotron2框架下采用不同的嵌入方式进行建模,实验结果如图4所示.可以看出:使用音素嵌入方式在发音稳定性和连续性上不如字符嵌入,但其曲线的像素点表明其对齐准确率要优于字符嵌入; 而不同嵌入方式生成的梅尔谱在能量强度方面相差不大.出现这种现象的原因主要是因为端到端的语音合成是不等长的序列到序列的建模过程,而文本特征相比声学特征在序列长度上相差更大,增大文本特征序列有助于模型更好地学习到对齐信息.以字符嵌入方式建模,可以扩大文本特征序列,并且根据音素组成和发音时长动态地提取不同长度的文本特征序列; 音素嵌入方式则是一种静态的文本特征提取方式,序列长度不会随着音素组成和发音时长而发生改变.因为音素嵌入对音素发音时长信息的表征不如字符嵌入鲁棒,所以在发音的稳定性和连续性上音素嵌入不如字符嵌入.但是由于音素嵌入对音素整体性的表征更佳,故在对齐准确率上稍优于字符嵌入.
采样率对比实验中,在融合框架下,对16和44.1 kHz 两种采样率进行了对比实验,结果如图5所示.
从编码解码对齐图的曲线可以看出在使用44.1 kHz采样率语音特征的情况下,曲线的像素点明显比16 kHz采样率语音特征的明亮凝实,所以对齐准确率高于16 kHz采样率.从梅尔谱的能量强度上也可以看出44.1 kHz采样率的语音比16 kHz采样率在语音质量上要丰富不少.实验过程中发现线性谱维度的降低可以大大提升格里芬-林算法的运行速度.
在MOS评测方面,邀请了20位厦门地区人士,其中男性10名,女性10名.对每个系统100句共400句测试语句进行主观打分.根据合成音频得到的MOS值如表1所示.综上所述,在加入位置敏感注意力和停止令牌这两个模块的融合框架下,采用字符嵌入方式和16 kHz采样率时,合成音频达到了3.81 的MOS值.当采样率增加到44.1 kHz,MOS值增加到4.08,说明增加采样率可以提高合成效果.当采样率16 kHZ,采用字符嵌入方式的Tacotron2框架时,MOS值也能达到4.05,说明相对于Tacotron框架,Tacotron2框架在编码器和解码器上的结构调整有一定的优化作用.因此本文最终选用Tacotron2作为闽南语的语音合成系统.
5 结 论
本研究成功地将基于端到端模型的深度学习算法应用于闽南语语音合成任务,在方言合成上有了新的突破.本研究提出了一种闽南语数据集用于语音合成任务的应用体系,对于方言语音合成具有通用性,并且在模型框架、嵌入方式和采样率选取上做了详细对比,找到了最佳效果搭配方案.但是数据量不够仍然是方言合成的瓶颈问题之一,且同个闽南语词在不同语境下的多种表达未能很好兼顾.这些问题在接下来的研究中可能需要通过完善词典等方法来解决.
本研究首先基于谷歌推出的Tacotron语音合成框架[5]和Tacotron2语音合成框架[12]进行实验,实验过程中发现Tacotron框架的表现不佳,而Tacotron2框架则取得了不错的效果.为此本研究对Tacotron和Tacotron2框架的不同模块进行组合与调整,得到一个融合框架,通过对比融合框架的效果来探究其原因.
3.1 特征提取本研究中模型的特征提取包括文本和声学特征提取.对于文本特征提取,即采用固定维度大小的向量来对文本字符进行表征,本研究对比了字符嵌入和音素嵌入两种方法; 对于声学特征提取,使用梅尔谱和线性谱作为声学特征,充当连接文本和音频之间的媒介.由于语音信号的功率谱密度随频率的增高而下降,大部分能量集中在低频段,高频段能量越来越弱,所以信号处理时需先对语音数据进行预加重处理.考虑语音信号的频率分布特征,一般采用一个高通滤波器对语音信号进行预加重,该高通滤波器的传递函数为:
H(z)=1-μ·z-1.(1)
其中:z为输入,即源信号; μ为预加重系数,通常介于0.9~1.0之间,一般取0.97的经验值.然后进行短时傅里叶变换(STFT)得到线性谱:
fSTFT(t,f)=∫SymboleB@-SymboleB@[z(u)·g(u-t)]e-i2πfudu,(2)
其中,f为线性谱的频率,g(t)为窗函数.最后用梅尔滤波器组处理线性谱得到梅尔谱:
M(f)=2 595ln(1+f/700).(3)
3.2 融合框架如图1所示,融合框架主要由编码器、注意力机制、解码器和声码器构成.
3.2.1 编码器编码器模块采用Tacotron框架中的编码器,由预处理网络和CBHG模块构成.CBHG模块由一维卷积滤波器组[13]、多层高速网络[12]和双向门控循环单元(GRU)网络[14]组成.一维卷积滤波器组由m个大小不同的一维滤波器组成,滤波器的大小分别为1,2,3…,m.所有卷积使用残差连接,可以缓解神经网络层过深而导致的梯度弥散问题,确保经过多层卷积后,不会丢掉太多之前输入的信息.高速网络用来缓解网络加深带来的过拟合问题以及减少较深网络的训练难度.最后使用GRU来前后双向提取特征序列.
3.2.2 解码器解码器采用Tacotron2中加入了位置信息的位置敏感注意力机制的解码器(图2).
位置敏感注意力机制对基于内容的注意力机制进行了扩展,能量计算公式为[12]:
eij=score(si,αci-1,hj)=vTatanh(Wsi+Vhj+
Ufij+b).(4)
其中:si为第i时刻解码器循环神经网络(RNN)的隐状态; hj为第j个编码器输出; b为偏置值,初始为0; va、W、V、U表示不同网络层的权重矩阵; fij为位置特征,由i时刻前的所有时刻的注意力权重αj累加并求卷积后得到,即
fi,j=F·∑i-1j=1αj.(5)
其中F为卷积核[12].和Tacotnon中基于内容的注意力机制相比,位置敏感注意力机制能同时考虑输入音素的内容和位置,将前一时刻的累积注意力权重当作附加特征用以改进模型在沿着输入序列前进时的一致性,减少解码时可能出现的子序列遗漏或重复等问题.本研究的注意力机制使用32个一维卷积核获得位置特征,然后将当前输入序列和位置特征投影到128维隐藏层表示中,计算出下一时刻的注意力权重.
融合框架的解码器中使用2层残差GRU结构(图1,与Tacatron框架同),其输出是输入与经过GRU单元输出之和.每层GRU包含了256个GRU单元.最后通过一层线性层输出预测的梅尔特征.每次解码时,可以预测多个非重叠的帧,从而降低模型的复杂度并减少模型训练和预测的时间.
融合框架还加入了Tacotron2中的停止令牌模块[15],这个模块用于计算解码过程是否结束的概率,是一个二分类问题,能在推断时允许模型动态决策是否结束频谱生成,而不是在固定时间内一直运行,能有效加速计算,减小内存占用.
3.2.3 声码器如图1所示,在解码器之后,本研究使用CBHG模块作为后处理网络,在一个线性频率范围内预测幅度谱,由于该模块的输入是完整的梅尔谱特征序列,可以有效地改善解码器自回归计算过程中存在的偏差.格里芬-林算法[15]可在不破坏相邻和自身幅度谱的情况下,求一个近似的相位,因此本研究使用格里芬-林算法将后处理网络的输出合成为语音波形.
- [1] 张冉.基于HMM的混合语音合成系统的研究[D].合肥:中国科技大学,2014:1-85.
- [2] PINTO N B,CHILDERS D G.Formant speech synthesis[J].IETE Journal of Research,1988,34(1):5-20.
- [3] HUNT A J,BLACK A W.Unit selection in a concatenative speech synthesis system using alarge speech database[C]∥1996 IEEE International Conference on Acoustics,Speech,and Signal Processing Conference Proceedings.Piscataway:IEEE,2002:373-376.
- [4] TOKUDA K,YOSHIMURA T,MASUKO T,et al.Speech parameter generation algorithms for HMM-based speech synthesis[C]∥2000 IEEE International Conference on Acoustics,Speech,and Signal Processing.Turkey:IEEE,2000:1315-1318.
- [5] 贾珈,蔡莲红,李明,等.汉语普通话与沈阳方言转换的研究[J].清华大学学报(自然科学版),2009(增刊1):1309-1315.
- [6] 王兵,苏恩泽.天津话语音合成系统[J].计算技术与自动化,1995(4):37-39.
- [7] GUO W,YANG H,PEI D,et al.Prosody conversion of Chinese northwest mandarin dialect based on five degree tone model[J].International Journal of Digital Content Technology & Its Applications,2012,6(17):323-332.
- [8] 杨廷东.潮汕方言文语转换系统的研究与实现[D].汕头:汕头大学,2008:1-60.
- [9] 周长楫.闽南方言大词典[M].福州:福建人民出版社,2015.
- [10] 厦门大学中国语言文学研究所汉语方言研究室.普通话闽南方言词典[M].福州:福建人民出版社,1982.
- [11] 陈修.台湾话大词典[M].台北:远流出版事业有限公司,2000.
- [12] ZILLY J G,SRIVASTAVA R K,KOUTNIK J,et al.Recurrent highway networks[C]∥Proceedings of the 34th International Conference on Machine Learning.Sydney:ICML,2017:1-13.
- [13] SHEN J,PANG R,WEISS R J,et al.Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions[C]∥2018 IEEE International Conference on Acoustics,Speech and Signal Processing.Calgary:IEEE,2018:4779-4783.
- [14] CHUNG J,GULCEHRE C,CHO K H,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J].Eprint Arxiv,2014,12:1-8.
- [15] GRIFFIN D.Signal estimation from modified short-time fourier transform[J].IEEE Trans Acoust Speech,Signal Processing,1984,32(2):236-243.