第一句子网 > 语音合成（TTS)论文优选：HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

语音合成（TTS)论文优选：HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

时间：2021-02-05 03:44:53

相关推荐

Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis
语音合成（TTS)论文优选：Forward Attention in Sequence- To-Sequence Acoustic Modeling for Speech Synthesis
语音合成论文优选：Mixture Density Network for Phone-Level Prosody Modelling in Speech Synthesis
语音合成（TTS)论文优选：Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

本文出自国立台湾大学，主要在TTS系统上添加多层韵律模块来提供韵律相关的信息，使合成的语音更自然，文章更新.11.12（文章一直更新，不是最终版本，有些实验数据表缺失），详细文章地址/pdf/.06465v1.pdf

1 研究背景

语音的韵律（prosody)主要包括节奏（rhythm)、语调（intonation)、重读（stress)等多方面属性信息，而现在的TTS训练文本中不包含这些信息。当前，TTS输入文本序列最多包含了停顿等级信息，然后通过该信息控制各级停顿的长短，我们称该信息为时长信息（duration)。对于时长信息的处理，自回归模型通过attention来自动对齐，而非自回归模型中常常需要提供duration模块来预测每个音素对应的帧数信息。本文除了包含以上duration模块外还添加了prosody韵律模块，来提供以上隐含的韵律属性。

韵律信息的添加流程在TTS系统添加流程如图1所示：在训练阶段使用ruled-based 或者neural-based prosody feature来进行训练信息提取，然后训练prosody modle。在推理阶段可以使用文本音素级或者词级序列、先验分布模型和参考语音等信息通过训练的prosody model来获取属性信息。本文主要使用文本信息也就是图中1，2信息来进行prosody label预测。

2 详细的系统结构

本文主要在fastspeech 2基础上进行修改（如图2所示），但在原有的基础上做以下改动 1）添加了postnet来学习残差，该部分跟tacotron2一样；2）使用MAE(mean absolute error) loss来代替MSE loss；3）添加prosody model模块来学习韵律属性信息。其中红色线是训练时候的流程，绿色线为推理流程。

现在主要看一下韵律模块。因为韵律的信息无法直接提供，因此我们需要通过从原始的音频中来学习到该信息。本文提供该模块为图中的prosody extractor，该模块的方法主要有rule-based prosody extractors和neural-based prosody extractor。通过prosody extractor抽取的信息才能进行prosody predictor模型的训练。prosody predictor模块的输入可以使音素级(phoneme-level)，词级(word-level)或者音素和词级拼接的信息，通过该模块输出prosody labels。最后，通过prosody推测的信息prosody embedding与phoneme feature拼接，通过duration信息进行expand后输入到第二个FFT中，进行声学特征的预测。

本文另外提出分层级的prosody model,如图3所示，先预测word-level信息，然后在word-level基础上预测phoneme-level prosody信息。

3 实验

本文实验主要分为客观和主观两部分。首先，看一下使用phoneme-level 和word-level feature对预测f0和energy的影响，其中fastext和bert是使用不同方法提供word embedding。由图4可知，使用word-level特征的loss比phoneme-level低很多。

其次，使用客观指标GPE(gross pitch error),VDE(voice decision error)，FFE(f0 frame error)等来比较各种方法产生的音频与原始音频之间的差距。由结果可知，word-level (W+*)比phoneme-level(P+*)较好，分层结构（H)比其他效果好。

最后进行主观的MOS测试，图5显示使用H的效果较好。（有个矛盾地方，客观指标W-level级比P-level好，但主观指标P-level效果比W-level效果好，但无论如何都比原始的vanilla好）

4 总结

本文针对现有TTS系统合成不自然的问题添加了prosody model,该模块可以提供prosody的韵律，语调，重音等信息，使合成的语音更自然。（个人认为该模块很好，提供更多的韵律信息使合成的语音更自然，后期尝试一下。另外实验的客观和主观的指标存在很多矛盾，我更倾向于主观MOS的评测，另外CMOS和AXY测试结果目前还没提供。）

欢迎关注微信公众号：低调奋进

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。