第一句子网 - 唯美句子、句子迷、好句子大全
第一句子网 > 语音合成(speech synthesis)方向一:双重学习Dual Learning

语音合成(speech synthesis)方向一:双重学习Dual Learning

时间:2020-12-22 00:21:55

相关推荐

语音合成(speech synthesis)方向一:双重学习Dual Learning

声明:工作以来主要从事TTS工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.htmlTTS 开源数据 低调奋进

欢迎关注个人公众号:低调奋进

写在文前:该方向不是我研究的方向,只是凭着兴趣阅读相关文章,对应的实验没有时间和资源做(不能占用公司的资源)。

目录

1 背景

2 研究情况

2.1 Listening while Speaking Speech Chain by Deep Learning

2.2 Machine Speech Chain with One-shot Speaker Adaptation

2.3 Almost Unsupervised Text to Speech and Automatic Speech Recognition

2.4 RSpeech- Extremely Low-Resource Speech Synthesis and Recognition

3 总结

4 引用

1 背景

世界存在6000多种语言,按照工业标准来制作高质量的TTS和ASR,每种语言获取训练语料(<speech,text>格式)的成本在10w美元以上[5],而且很多语言存在标注困难的问题,因此使用少数量的训练语料来训练TTS和ASR是迫切的需求。从研究发展阶段来看(早期单任务研究到成熟期的多任务融合研究),TTS和ASR联合训练是未来发展必然趋势。

2 研究情况

目前Dual Learning研究还处于初始阶段,根据最近文章的搜索,日本nais发表两篇文章Machine Speech Chain with One-shot SpeakerAdaptation和Listening while SpeakingSpeech Chain by DeepLearning,接下来的文章主要出自微软,其中包括的Almost Unsupervised Text to Speech and Automatic Speech Recognition和的RSpeech-Extremely Low-Resource Speech Synthesis and Recognitio。

接下来我主要根据时间轴顺序来简单分享这四篇文章。

2.1 Listening while Speaking Speech Chain by Deep Learning

本文章主要阐述文章灵感来源主要人类的生理系统。对于人类而言(图一所示),人类的语音的产生和感知是互相促进的。比如,当你向别人说话的同时,不仅把话语传给对方,而且语音也被自己感知从而判断自己说的话是否正确,并纠正说话方式,这也是孩童时期学会说话的生理模式。但对于语言的研究,TTS和ASR却是相互独立的两个任务,因此作者提出了TTS和ASR相互学习的speech chain.

具体的speech chain如图二所示:a)是整个chain的架构,其中的训练chain由两部分组成speech->ASR->text->TTS->speech和text->TTS->speech->ASR->Text,具体的结构对应为图b和图c。

以上内容不难理解,就是使用不同的研究领域来优化另一个研究领域。接下来文章讲述所使用的ASR和TTS结构,其结构为encoder-attention-decoder的,具体如下图所示。ASR主要把语音的声学特征给映射到语言特征,TTS相反地把语言特征映射到声学特征,由于输入和输出是非等长的,因此需要attention模块进行对齐。

以上为该文章的大致内容,使用上述方法进行单人和多人的模型训练,从结果(table 1和table 2)可知,TTS和ASR的各项指标都得到提高(ASR的CER逐渐下降,TTS的acc得到提高),该文章没有给出TTS的MOS指标。

2.2 Machine Speech Chain with One-shot Speaker Adaptation

该篇文章在上篇文章的基础上进行研究。上一篇的文章的主要缺点是无法合成unseen说话人的语音,因此本文章添加了speaker recognition模块,可以实现voice clone功能(只要一句话就可以复刻说话人的语音)。该文章具体的贡献就是one-shot的训练,可以合成unseen的说话人。具体如图一所示,跟上边文章的不同之处在于TTS模块嵌入speaker信息(如图2),这样TTS就可以根据speaker信息来合成不同音色的声音,包括训练集或者unseen的speaker。

从结果(table 1和table 2)可知,TTS和ASR的各项指标都得到提高(ASR的CER逐渐下降,TTS的acc得到提高),该文章也没有给出TTS的MOS指标。

2.3 Almost Unsupervised Text to Speech and Automatic Speech Recognition

接下来主要说一下微软的文章,相较以上的两篇文章,(浏览微软的文章,大公子真的了不起,任何方向都探索而且都多得很优秀,我们小公司只能亦步亦趋)。具体的文章背景不在详细赘述,大体就是使用少数据获取可以商用的TTS和ASR。本文章主要介绍三大模块Denoising auto-encoder、Dual Transformation和Bidirectional Sequence Modeling。

1) Denoising auto-encoder :该模块如下图所示,随机把训练语料部分数据随机置0,然后通过AE来预测完整的数据,该模块的功能类似dropout,但随机处理的是数据,而dropout处理的是处理单元。

2) Dual Transformation:该部分跟上述的两篇文章类似主要使用speech->ASR->text->TTS和text->TTS->speech->ASR两条chain。

3) Bidirectional Sequence Modeling:该部分主要是提出了训练模式。因为有些文章提出TTS合成的语音开头部分比尾部部分的刻画更细腻,质量更好。为了使语音开始和尾部质量相当,文章提出了正序和反序的双向序列训练。我感觉该部分还是挺有意思。

文章整体的flow和系统结构如下图(a)是DAE和Dual Transformation的结构图 (b)为encodr和decoder使用transformer的架构。

实验结果:从table 1和 table 2可以看出,TTS在200句话使用传统方法是无法合成的,而使用本文章方案可以得到2.68的语音(虽然无法达到商业要求)。ASS的PER由72%下降到11.7%。

2.4 RSpeech- Extremely Low-Resource Speech Synthesis and Recognition

本文章是在上一篇文章基础上提出了三步骤的训练流程:PF->DT->KD。我认为本文章主要在adaptation方法使少数据TTS达到商业要求。本文章只要的训练三个步骤如图一所示:PF是预训练,使用手中大量的paired数据进行基础模型训练。DT训练是少数据和unpaired数据进行训练。KD则是使用少数据和合成的数据进行知识蒸馏来获取目标模型。

实验结果:从table 3可以看出,少数量的TTS的MOS值可以达到3.57,可以几乎满足商业要求。ASR的WER和CER都大幅下降。

3 总结

Dual Learning的研究目前主要还是解决少数据量无法获得商用的TTS和ASR。但目前的TTS精品发音人的训练数据还是需要上万条数据,数据量的tts主要还是用于质量不太高的场景,目前提高少数据量TTS的方法不外乎数据增量,自适用等方法,但Dual Learning为我们提供了一个可研究的解决方案。

4 引用

[1] Tjandra A, Sakti S, Nakamura S. Machine speech chain with one-shot speaker adaptation[J]. arXiv preprint arXiv:1803.10525, .

[2] Tjandra A, Sakti S, Nakamura S. Listening while speaking: Speech chain by deep learning[C]// IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, : 301-308.

[3] Ren Y, Tan X, Qin T, et al. Almost unsupervised text to speech and automatic speech recognition[J]. arXiv preprint arXiv:1905.06791, .

[4] Xu J, Tan X, Ren Y, et al. LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. : 2802-2812.

[5]https://mp./s__biz=MzAxMzc2NDAxOQ==&mid=2650375866&idx=2&sn=8f4b17b3864f014c6fd6f033f3fd2841&chksm=8390b266b4e73b703fa1315772197af6a124f0fdfa3e0cb2f133b2520a799b1fbb496152486b&mpshare=1&scene=1&srcid=0926agad6dQUi60VhAEUwcZG&sharer_sharetime=1601118331439&sharer_shareid=6a2d186878c68bdaa3ef07463a6096bd#rd

欢迎大家关注微信公众号:低调奋进

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。