本发明涉及语音合成技术领域,具体涉及一种可控制韵律情感的语音合成方法、装置、存储介质。
背景技术:
语音合成,又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术。
传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形,后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。
当前端到端合成模型不仅可以产生更高保真度和自然度的音频,并且建模过程简单,不需要任何语言学信息。因此,已成为当前主流的语音合成技术。但是经典的端到端合成技术有其技术弱点,比如可能会出现无法预知的不可控的合成瑕疵,再比如无法显式控制合成的韵律节奏,比如:音素时长、重读和语调等。这主要是因为端到端合成的输入只依赖于浅层文本内容,比如字母序列、音节序列、音素序列等,无法利用深层的语言信息,比如词性、语调、句法结构等。
技术实现要素:
针对上述问题,本发明提供了一种可控制韵律情感的语音合成方法、装置、存储介质,其可以在合成语音中添加韵律情感,有效控制合成语音的韵律节奏。
其技术方案是这样的:一种可控制韵律情感的语音合成方法,其特征在于,包括以下步骤:
步骤S1:将待合成文本对应的字符转化为字符表示向量;
步骤S2:将字符表示向量与和韵律节奏向量进行拼接,然后输入编码器,输出编码特征向量;
步骤S3:将编码特征向量与韵律节奏向量拼接,通过注意力机制,生成注意力向量;
步骤S4:将前一时刻的预测出的频谱帧与注意力向量做拼接,送入解码器,通过解码器的输出更新注意力向量,新计算出来的注意力向量与解码器输出做拼接,送入投影层输出带有韵律节奏的预测语音频谱,同时预测频谱生成的结束点;
步骤S5:将带有韵律节奏的预测语音频谱转化成带有韵律节奏的语音输出。
进一步的,在步骤S4中,在完成解码后,将预测得到的带有韵律节奏的预测语音频谱被送入卷积层中以提高生成质量。
进一步的,所述韵律节奏向量包含的韵律信息包括语速信息、重读信息、语调信息,语速信息指当前字符所在音节或单词的语速;重读信息指当前字符所在单词或者音节是否重读;语调信息指当前字符所在单词或者音节的调型;语速信息包括:正常,慢速,快速,超快速;重读信息包括重读和非重读;语调信息包括:低平调,高平调,升调,降调。
进一步的,韵律节奏向量表示为5维韵律节奏编码向量,其中,语速信息用2位二进制来编码;重读用1位二进制来编码;语调用2位二进制来编码。
进一步的,在步骤S3中,采用位置敏感的注意力机制。
进一步的,将带有韵律节奏的预测语音频谱输入语音合成器,输出带有韵律节奏的语音,语音合成器包括WaveNet、WaveRNN中的任意一种。
进一步的,将带有韵律节奏的预测语音频谱通过Griffin_Lim算法,输出带有韵律节奏的语音。
一种可控制韵律情感的语音合成装置,其特征在于,包括:
表示空间转换模块,用于将待合成文本对应的字符转化为字符表示向量;
编码器,用于将输入的字符表示向量和韵律节奏向量转换成编码特征向量输出;
注意力模块,用于将编码特征向量与韵律节奏向量拼接,通过注意力机制,生成注意力向量;
解码器;用于拼接前一时刻的预测出的频谱帧与注意力向量,然后通过解码器的输出更新注意力向量,新计算出来的注意力向量与解码器输出做拼接,送入投影层输出带有韵律节奏的预测语音频谱。
一种可控制韵律情感的语音合成装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的可控制韵律情感的语音合成方法。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行上述的可控制韵律情感的语音合成方法。
本发明的可控制韵律情感的语音合成方法、装置、存储介质,对经典的端到端合成方法进行改进,通过输入丰富的韵律控制信息,使得合成音不仅尽可能保持和原始音类似的韵律节奏,听起来更加逼真自然,富有情感,而且可以通过控制信息来改变合成音的韵律节奏;通过包含语速信息、重读信息、语调信息的韵律节奏向量,定义附加的韵律节奏信息来更好地训练端到端合成模型,通过在编码器和注意力阶段添加韵律节奏信息,可以方便有效地控制和改变解码器输出的语音谱,从而控制合成语音的情感节奏。
附图说明
图1为本发明的一种可控制韵律情感的语音合成方法的流程示意图;
图2为本发明的一种可控制韵律情感的语音合成装置的框架图。
具体实施方式
见图1,本发明的一种可控制韵律情感的语音合成方法,包括以下步骤:
步骤S1:将待合成文本对应的字符转化为字符表示向量;
步骤S2:将字符表示向量与和韵律节奏向量进行拼接,然后输入编码器,输出编码特征向量,编码器通常采用CNN+LSTM网络来建模;
步骤S3:将编码特征向量与韵律节奏向量拼接,通过位置敏感的注意力机制,生成注意力向量;
步骤S4:将前一时刻的预测出的频谱帧与注意力向量做拼接,送入解码器,通过解码器的输出更新注意力向量,新计算出来的注意力向量与解码器输出做拼接,送入投影层输出带有韵律节奏的预测语音频谱,同时预测频谱生成的结束点;在完成解码后,将预测得到的带有韵律节奏的预测语音频谱被送入卷积层中以提高生成质量,解码器通常采用LSTM+CNN+线性投影进行建模;
步骤S5:将带有韵律节奏的预测语音频谱转化成带有韵律节奏的语音输出,可以将带有韵律节奏的预测语音频谱输入语音合成器,输出带有韵律节奏的语音,语音合成器包括WaveNet、WaveRNN中的任意一种;此外,也可以将将带有韵律节奏的预测语音频谱通过Griffin_Lim算法,输出带有韵律节奏的语音。
具体在本实施例中,韵律节奏向量包含的韵律信息包括语速信息、重读信息、语调信息,语速信息指当前字符所在音节或单词的语速;重读信息指当前字符所在单词或者音节是否重读;语调信息指当前字符所在单词或者音节的调型。
语速信息包括:正常,慢速,快速,超快速;重读信息包括重读和非重读;语调信息包括:低平调,高平调,升调,降调;语速中的正常表示正常语速,慢速表示0.5倍的正常语速;快速表示1.5倍的正常语速;超快速表示2倍的正常语速。
在本实施例中,韵律节奏向量表示为5维韵律节奏编码向量,其中,语速信息用2位二进制来编码;重读用1位二进制来编码;语调用2位二进制来编码。
在本实施例中,具体的语速信息、重读信息、语调信息的编码如下:
语速-正常语速:00
语速-慢语速:01
语速-快语速:10
语速-超快语速:11
重读-重读:1
重读-非重读:0
语调-高平调:00
语调-上升调:01
语调-下降调:10
语调-低平调:11
在语音合成的时候,如果合成文本是中性的,不需要明显情感的话,默认送入合成器的韵律节奏控制信息可以是:正常语速、非重读、高平调。在有需要明显情感节奏的情况下,可以对应设置韵律节奏信息。
见图2,本发明的一种可控制韵律情感的语音合成装置,包括:
表示空间转换模块1,用于将待合成文本对应的字符转化为字符表示向量;
编码器2,用于将输入的字符表示向量和韵律节奏向量转换成编码特征向量输出;
注意力模块3,用于将编码特征向量与韵律节奏向量拼接,通过注意力机制,生成注意力向量;
解码器4;用于拼接前一时刻的预测出的频谱帧与注意力向量,然后通过解码器的输出更新注意力向量,新计算出来的注意力向量与解码器输出做拼接,送入投影层输出带有韵律节奏的预测语音频谱。
一种可控制韵律情感的语音合成装置,其包括:包括处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的可控制韵律情感的语音合成方法。
在上述可控制韵律情感的语音合成装置的实现中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(Network Processor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质被配置成存储程序,程序被配置成执行上述可控制韵律情感的语音合成方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于计算机可读存储介质中。该程序在被处理器执行时,实现包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台大数据传输设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
经典的端到端合成系统其输入是待合成文本对应的字符序列,对相同的待合成文本,无法单独控制其韵律节奏。这导致合成音所能表现的韵律节奏非常有限,让人感觉到明显的机械感。
为此,本专利对经典的端到端合成方法进行改进,通过输入丰富的韵律控制信息,使得合成音不仅尽可能保持和原始音类似的韵律节奏,听起来更加逼真自然,富有情感,而且可以通过控制信息来改变合成音的韵律节奏
韵律节奏信息一般都是超段特征,而端到端合成一般都采用字符或者音素作为建模单元。因此,在建模时,段级韵律信息被平均分配到对应词的每个字符或者音素,通过包含语速信息、重读信息、语调信息的韵律节奏向量,定义附加的韵律节奏信息来更好地训练端到端合成模型,可以通过时长、重读和语调有效控制合成语音的韵律节奏,通过在编码器和注意力阶段添加韵律节奏信息,可以方便有效地控制和改变解码器输出的语音谱,从而控制合成语音的情感节奏。
技术特征:
1.一种可控制韵律情感的语音合成方法,其特征在于,包括以下步骤:
步骤S1:将待合成文本对应的字符转化为字符表示向量;
步骤S2:将字符表示向量与和韵律节奏向量进行拼接,然后输入编码器,输出编码特征向量;
步骤S3:将编码特征向量与韵律节奏向量拼接,通过注意力机制,生成注意力向量;
步骤S4:将前一时刻的预测出的频谱帧与注意力向量做拼接,送入解码器,通过解码器的输出更新注意力向量,新计算出来的注意力向量与解码器输出做拼接,送入投影层输出带有韵律节奏的预测语音频谱,同时预测频谱生成的结束点;
步骤S5:将带有韵律节奏的预测语音频谱转化成带有韵律节奏的语音输出。
2.根据权利要求1所述的一种可控制韵律情感的语音合成方法,其特征在于:在步骤S4中,在完成解码后,将预测得到的带有韵律节奏的预测语音频谱被送入卷积层中以提高生成质量。
3.根据权利要求1所述的一种可控制韵律情感的语音合成方法,其特征在于:所述韵律节奏向量包含的韵律信息包括语速信息、重读信息、语调信息,语速信息指当前字符所在音节或单词的语速;重读信息指当前字符所在单词或者音节是否重读;语调信息指当前字符所在单词或者音节的调型;语速信息包括:正常,慢速,快速,超快速;重读信息包括重读和非重读;语调信息包括:低平调,高平调,升调,降调。
4.根据权利要求3所述的一种可控制韵律情感的语音合成方法,其特征在于:韵律节奏向量表示为5维韵律节奏编码向量,其中,语速信息用2位二进制来编码;重读用1位二进制来编码;语调用2位二进制来编码。
5.根据权利要求1所述的一种可控制韵律情感的语音合成方法,其特征在于:在步骤S3中,采用位置敏感的注意力机制。
6.根据权利要求1所述的一种可控制韵律情感的语音合成方法,其特征在于:将带有韵律节奏的预测语音频谱输入语音合成器,输出带有韵律节奏的语音,语音合成器包括WaveNet、WaveRNN中的任意一种。
7.根据权利要求1所述的一种可控制韵律情感的语音合成方法,其特征在于:将带有韵律节奏的预测语音频谱通过Griffin_Lim算法,输出带有韵律节奏的语音。
8.一种可控制韵律情感的语音合成装置,其特征在于,包括:
表示空间转换模块,用于将待合成文本对应的字符转化为字符表示向量;
编码器,用于将输入的字符表示向量和韵律节奏向量转换成编码特征向量输出;
注意力模块,用于将编码特征向量与韵律节奏向量拼接,通过注意力机制,生成注意力向量;
解码器;用于拼接前一时刻的预测出的频谱帧与注意力向量,然后通过解码器的输出更新注意力向量,新计算出来的注意力向量与解码器输出做拼接,送入投影层输出带有韵律节奏的预测语音频谱。
9.一种可控制韵律情感的语音合成装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的可控制韵律情感的语音合成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行上述的可控制韵律情感的语音合成方法。
技术总结
本发明提供了一种可控制韵律情感的语音合成方法、装置、存储介质,其可以在合成语音中添加韵律情感,有效控制合成语音的韵律节奏,方法包括以下步骤:将待合成文本对应的字符转化为字符表示向量;将字符表示向量与和韵律节奏向量进行拼接,然后输入编码器,输出编码特征向量;将编码特征向量与韵律节奏向量拼接,通过注意力机制,生成注意力向量;将前一时刻的预测出的频谱帧与注意力向量做拼接,送入解码器,通过解码器的输出更新注意力向量,新计算出来的注意力向量与解码器输出做拼接,送入投影层输出带有韵律节奏的预测语音频谱,同时预测频谱生成的结束点;将带有韵律节奏的预测语音频谱转化成带有韵律节奏的语音输出。
技术研发人员:王欢良;王飞;张李;沈文武;代大明
受保护的技术使用者:苏州奇梦者网络科技有限公司
技术研发日:.08.01
技术公布日:.10.01