第一句子网 - 唯美句子、句子迷、好句子大全
第一句子网 > 语音合成(TTS)论文优选:HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

语音合成(TTS)论文优选:HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

时间:2021-02-05 03:44:53

相关推荐

语音合成(TTS)论文优选:HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

本文出自国立台湾大学,主要在TTS系统上添加多层韵律模块来提供韵律相关的信息,使合成的语音更自然,文章更新.11.12(文章一直更新,不是最终版本,有些实验数据表缺失),详细文章地址/pdf/.06465v1.pdf

1 研究背景

语音的韵律(prosody)主要包括节奏(rhythm)、语调(intonation)、重读(stress)等多方面属性信息,而现在的TTS训练文本中不包含这些信息。当前,TTS输入文本序列最多包含了停顿等级信息,然后通过该信息控制各级停顿的长短,我们称该信息为时长信息(duration)。对于时长信息的处理,自回归模型通过attention来自动对齐,而非自回归模型中常常需要提供duration模块来预测每个音素对应的帧数信息。本文除了包含以上duration模块外还添加了prosody韵律模块,来提供以上隐含的韵律属性。

韵律信息的添加流程在TTS系统添加流程如图1所示:在训练阶段使用ruled-based 或者neural-based prosody feature来进行训练信息提取,然后训练prosody modle。在推理阶段可以使用文本音素级或者词级序列、先验分布模型和参考语音等信息通过训练的prosody model来获取属性信息。本文主要使用文本信息也就是图中1,2信息来进行prosody label预测。

2 详细的系统结构

本文主要在fastspeech 2基础上进行修改(如图2所示),但在原有的基础上做以下改动 1)添加了postnet来学习残差,该部分跟tacotron2一样;2)使用MAE(mean absolute error) loss来代替MSE loss;3)添加prosody model模块来学习韵律属性信息。其中红色线是训练时候的流程,绿色线为推理流程。

现在主要看一下韵律模块。因为韵律的信息无法直接提供,因此我们需要通过从原始的音频中来学习到该信息。本文提供该模块为图中的prosody extractor,该模块的方法主要有rule-based prosody extractors和neural-based prosody extractor。通过prosody extractor抽取的信息才能进行prosody predictor模型的训练。prosody predictor模块的输入可以使音素级(phoneme-level),词级(word-level)或者音素和词级拼接的信息,通过该模块输出prosody labels。最后,通过prosody推测的信息prosody embedding与phoneme feature拼接,通过duration信息进行expand后输入到第二个FFT中,进行声学特征的预测。

本文另外提出分层级的prosody model,如图3所示,先预测word-level信息,然后在word-level基础上预测phoneme-level prosody信息。

3 实验

本文实验主要分为客观和主观两部分。首先,看一下使用phoneme-level 和word-level feature对预测f0和energy的影响,其中fastext和bert是使用不同方法提供word embedding。由图4可知,使用word-level特征的loss比phoneme-level低很多。

其次,使用客观指标GPE(gross pitch error),VDE(voice decision error),FFE(f0 frame error)等来比较各种方法产生的音频与原始音频之间的差距。由结果可知,word-level (W+*)比phoneme-level(P+*)较好,分层结构(H)比其他效果好。

最后进行主观的MOS测试,图5显示使用H的效果较好。(有个矛盾地方,客观指标W-level级比P-level好,但主观指标P-level效果比W-level效果好,但无论如何都比原始的vanilla好)

4 总结

本文针对现有TTS系统合成不自然的问题添加了prosody model,该模块可以提供prosody的韵律,语调,重音等信息,使合成的语音更自然。(个人认为该模块很好,提供更多的韵律信息使合成的语音更自然,后期尝试一下。另外实验的客观和主观的指标存在很多矛盾,我更倾向于主观MOS的评测,另外CMOS和AXY测试结果目前还没提供。)

欢迎关注微信公众号 :低调奋进

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。