第一句子网 > 语音合成（speech synthesis）方向一：双重学习Dual Learning

语音合成（speech synthesis）方向一：双重学习Dual Learning

时间：2020-12-22 00:21:55

声明：工作以来主要从事TTS工作，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：TTS 论文列表 http://yqli.tech/page/tts_paper.htmlTTS 开源数据低调奋进

欢迎关注个人公众号：低调奋进

写在文前：该方向不是我研究的方向，只是凭着兴趣阅读相关文章，对应的实验没有时间和资源做（不能占用公司的资源）。

1 背景

2 研究情况

2.1 Listening while Speaking Speech Chain by Deep Learning

2.2 Machine Speech Chain with One-shot Speaker Adaptation

2.3 Almost Unsupervised Text to Speech and Automatic Speech Recognition

2.4 RSpeech- Extremely Low-Resource Speech Synthesis and Recognition

3 总结

4 引用

1 背景

世界存在6000多种语言，按照工业标准来制作高质量的TTS和ASR,每种语言获取训练语料（<speech,text>格式)的成本在10w美元以上[5]，而且很多语言存在标注困难的问题，因此使用少数量的训练语料来训练TTS和ASR是迫切的需求。从研究发展阶段来看（早期单任务研究到成熟期的多任务融合研究），TTS和ASR联合训练是未来发展必然趋势。

2 研究情况

目前Dual Learning研究还处于初始阶段，根据最近文章的搜索，日本nais发表两篇文章Machine Speech Chain with One-shot SpeakerAdaptation和Listening while SpeakingSpeech Chain by DeepLearning，接下来的文章主要出自微软，其中包括的Almost Unsupervised Text to Speech and Automatic Speech Recognition和的RSpeech-Extremely Low-Resource Speech Synthesis and Recognitio。

接下来我主要根据时间轴顺序来简单分享这四篇文章。

2.1 Listening while Speaking Speech Chain by Deep Learning

本文章主要阐述文章灵感来源主要人类的生理系统。对于人类而言（图一所示），人类的语音的产生和感知是互相促进的。比如，当你向别人说话的同时，不仅把话语传给对方，而且语音也被自己感知从而判断自己说的话是否正确，并纠正说话方式，这也是孩童时期学会说话的生理模式。但对于语言的研究，TTS和ASR却是相互独立的两个任务，因此作者提出了TTS和ASR相互学习的speech chain.

具体的speech chain如图二所示：a)是整个chain的架构，其中的训练chain由两部分组成speech->ASR->text->TTS->speech和text->TTS->speech->ASR->Text,具体的结构对应为图b和图c。

以上内容不难理解，就是使用不同的研究领域来优化另一个研究领域。接下来文章讲述所使用的ASR和TTS结构，其结构为encoder-attention-decoder的，具体如下图所示。ASR主要把语音的声学特征给映射到语言特征，TTS相反地把语言特征映射到声学特征，由于输入和输出是非等长的，因此需要attention模块进行对齐。

以上为该文章的大致内容，使用上述方法进行单人和多人的模型训练，从结果（table 1和table 2）可知，TTS和ASR的各项指标都得到提高（ASR的CER逐渐下降，TTS的acc得到提高），该文章没有给出TTS的MOS指标。

2.2 Machine Speech Chain with One-shot Speaker Adaptation

该篇文章在上篇文章的基础上进行研究。上一篇的文章的主要缺点是无法合成unseen说话人的语音，因此本文章添加了speaker recognition模块，可以实现voice clone功能（只要一句话就可以复刻说话人的语音）。该文章具体的贡献就是one-shot的训练，可以合成unseen的说话人。具体如图一所示，跟上边文章的不同之处在于TTS模块嵌入speaker信息（如图2），这样TTS就可以根据speaker信息来合成不同音色的声音，包括训练集或者unseen的speaker。

从结果（table 1和table 2）可知，TTS和ASR的各项指标都得到提高（ASR的CER逐渐下降，TTS的acc得到提高），该文章也没有给出TTS的MOS指标。

2.3 Almost Unsupervised Text to Speech and Automatic Speech Recognition

接下来主要说一下微软的文章，相较以上的两篇文章，（浏览微软的文章，大公子真的了不起，任何方向都探索而且都多得很优秀，我们小公司只能亦步亦趋）。具体的文章背景不在详细赘述，大体就是使用少数据获取可以商用的TTS和ASR。本文章主要介绍三大模块Denoising auto-encoder、Dual Transformation和Bidirectional Sequence Modeling。

1) Denoising auto-encoder :该模块如下图所示，随机把训练语料部分数据随机置0，然后通过AE来预测完整的数据，该模块的功能类似dropout，但随机处理的是数据，而dropout处理的是处理单元。

2) Dual Transformation：该部分跟上述的两篇文章类似主要使用speech->ASR->text->TTS和text->TTS->speech->ASR两条chain。

3) Bidirectional Sequence Modeling：该部分主要是提出了训练模式。因为有些文章提出TTS合成的语音开头部分比尾部部分的刻画更细腻，质量更好。为了使语音开始和尾部质量相当，文章提出了正序和反序的双向序列训练。我感觉该部分还是挺有意思。

文章整体的flow和系统结构如下图(a)是DAE和Dual Transformation的结构图 (b)为encodr和decoder使用transformer的架构。

实验结果：从table 1和 table 2可以看出，TTS在200句话使用传统方法是无法合成的，而使用本文章方案可以得到2.68的语音（虽然无法达到商业要求）。ASS的PER由72%下降到11.7%。

2.4 RSpeech- Extremely Low-Resource Speech Synthesis and Recognition

本文章是在上一篇文章基础上提出了三步骤的训练流程：PF->DT->KD。我认为本文章主要在adaptation方法使少数据TTS达到商业要求。本文章只要的训练三个步骤如图一所示：PF是预训练，使用手中大量的paired数据进行基础模型训练。DT训练是少数据和unpaired数据进行训练。KD则是使用少数据和合成的数据进行知识蒸馏来获取目标模型。

实验结果：从table 3可以看出，少数量的TTS的MOS值可以达到3.57，可以几乎满足商业要求。ASR的WER和CER都大幅下降。

3 总结

Dual Learning的研究目前主要还是解决少数据量无法获得商用的TTS和ASR。但目前的TTS精品发音人的训练数据还是需要上万条数据，数据量的tts主要还是用于质量不太高的场景，目前提高少数据量TTS的方法不外乎数据增量，自适用等方法，但Dual Learning为我们提供了一个可研究的解决方案。

4 引用

[1] Tjandra A, Sakti S, Nakamura S. Machine speech chain with one-shot speaker adaptation[J]. arXiv preprint arXiv:1803.10525, .

[2] Tjandra A, Sakti S, Nakamura S. Listening while speaking: Speech chain by deep learning[C]// IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, : 301-308.

[3] Ren Y, Tan X, Qin T, et al. Almost unsupervised text to speech and automatic speech recognition[J]. arXiv preprint arXiv:1905.06791, .

[4] Xu J, Tan X, Ren Y, et al. LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. : 2802-2812.

[5]https://mp./s__biz=MzAxMzc2NDAxOQ==&mid=2650375866&idx=2&sn=8f4b17b3864f014c6fd6f033f3fd2841&chksm=8390b266b4e73b703fa1315772197af6a124f0fdfa3e0cb2f133b2520a799b1fbb496152486b&mpshare=1&scene=1&srcid=0926agad6dQUi60VhAEUwcZG&sharer_sharetime=1601118331439&sharer_shareid=6a2d186878c68bdaa3ef07463a6096bd#rd

欢迎大家关注微信公众号：低调奋进

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。