第一句子网 > 用于儿童的语音识别方法及系统与流程

用于儿童的语音识别方法及系统与流程

时间：2024-06-09 01:12:03

相关推荐

用于儿童的语音识别方法及系统与流程

本发明涉及语音识别领域，尤其涉及一种用于儿童的语音识别方法及系统。

背景技术：

近年来，已经有许多方法来改进ASR(automatic speech recognition，自动语音识别)系统的性能，凭借着大量的培训数据和先进的模型结构，自动语音识别系统的开发取得了重大进展。然而，现代ASR系统仍然存在的一个挑战是儿童的语音识别。

改善自动语音识别系统的儿童语音识别的一种方法是在训练中引入更多儿童训练语料库。基于DNN(Deep Neural Network，深度神经网络)的ASR系统由数据驱动，通过大量的数据训练，自动语音识别系统的性能可以更好。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

大多数公共语料库收集的都是成年人的语音。用于自动语音识别训练的儿童语料库很难收集。由于儿童的声道韵律区别于成人，当将成人语料库训练的自动语音识别系统应用于儿童的语音时，儿童和成人的声音之间的不匹配导致性能下降。

技术实现要素：

为了至少解决现有技术中儿童语料库很难收集，由于儿童和成人的声音之间的不匹配，使用成人语料库训练的ASR系统应用于儿童的语音时性能不佳的问题。

第一方面，本发明实施例提供一种用于儿童的语音识别方法，包括：

通过成人训练语料库确定所述成人训练语料库内各音频的声学特征；

基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整，以使得所述成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配；

根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过所述语音识别模型识别儿童语音。

第二方面，本发明实施例提供一种用于儿童的语音识别方法，包括：

确定采集到儿童语音的声学特征；

基于预设目标成人语音的声学特征修改所述儿童语音的韵律，生成拟成人语音，以使得所述儿童语音与所述目标成人语音的声学特征匹配，所述韵律包括基本频率；

根据已有成人语音识别模型识别所述拟成人语音，以实现儿童语音的识别。

第三方面，本发明实施例提供一种用于儿童的语音识别系统，包括：

声学特征确定程序模块，用于通过成人训练语料库确定所述成人训练语料库内各音频的声学特征；

特征匹配程序模块，用于基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整，以使得所述成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配；

语音识别程序模块，用于根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过所述语音识别模型识别儿童语音。

第四方面，本发明实施例提供一种用于儿童的语音识别系统，包括：

声学特征确定程序模块，用于确定采集到儿童语音的声学特征；

特征匹配程序模块，用于基于预设目标成人语音的声学特征修改所述儿童语音的韵律，生成拟成人语音，以使得所述儿童语音与所述目标成人语音的声学特征匹配，所述韵律包括基本频率；

语音识别程序模块，用于根据已有成人语音识别模型识别所述拟成人语音，以实现儿童语音的识别。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于儿童的语音识别方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于儿童的语音识别方法的步骤。

本发明实施例的有益效果在于：通过调节成人训练语料库的韵律，使其达到儿童和成人的声学特征的匹配，进而不需要收集儿童语料库，使用声学特征匹配后的成人训练语料库训练语音识别系统，提高了所述语音识别系统对儿童语音的识别性能。同样的通过调节采集到儿童语音的声学特征，使其达到儿童和成人的声学特征的匹配，进而使匹配后的儿童语音适用于现有的语音识别系统，从而提高了所述语音识别系统对儿童语音的识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于儿童的语音识别方法的流程图；

图2是本发明一实施例提供的一种用于儿童的语音识别方法的原始成人语音(a)和韵律调整语音(b)的频谱比较图；

图3是本发明一实施例提供的另一种用于儿童的语音识别方法的流程图；

图4是本发明一实施例提供的一种用于儿童的语音识别方法的联合解码示意图；

图5是本发明一实施例提供的一种用于儿童的语音识别方法的成人/儿童测试集中有/无韵律特征基线系统的WER(％)比较列表数据图；

图6是本发明一实施例提供的一种用于儿童的语音识别方法的使用不同λtrain参数训练的系统与韵律修改训练集的WER(％)比较列表数据图；

图7是本发明一实施例提供的一种用于儿童的语音识别方法的使用λtrain＝1.1训练的系统与韵律修改训练集和原始训练集的WER(％)比较列表数据图；

图8是本发明一实施例提供的一种用于儿童的语音识别方法的测试语音的韵律修改的WER(％)比较列表数据图；

图9是本发明一实施例提供的一种用于儿童的语音识别方法的联合解码与原始和韵律修改的测试语音的WER(％)比较列表数据图；

图10是本发明一实施例提供的一种用于儿童的语音识别方法的新儿童语音识别方法的WER(％)比较列表数据图；

图11是本发明一实施例提供的一种用于儿童的语音识别系统的结构示意图；

图12是本发明一实施例提供的另一种用于儿童的语音识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于儿童的语音识别方法的流程图，包括如下步骤：

S11：通过成人训练语料库确定所述成人训练语料库内各音频的声学特征；

S12：基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整，以使得所述成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配；

S13：根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过所述语音识别模型识别儿童语音。

在本实施方式中，儿童语言的基本频率高于成人，成人的基本频率范围通常为80Hz至200Hz，而儿童基本频率的范围为200Hz至350Hz，因此，将与韵律相关的特征添加到系统中可以改善语音识别模型的性能。

对于步骤S11，确定成人训练语料库内各音频的声学特征，通过用因子λ重新采样原始音频信号f(t)，可以得到新的信号f(λt)。

对于步骤S12，在步骤S11之后，将f(t)的傅里叶变换表示为然后，f(λt)的傅里叶变换可以表示为该重采样过程同时改变频率分量并改变语音持续时间。为了提高成人语料库训练ASR系统识别儿童语音的性能，本方法进行了韵律修改，以减少成人和儿童语音之间的声学不匹配，以消除训练集中成人语音与评估集中儿童语音之间的不匹配。

作为一种实施方式，在本实施例中，所述基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整包括：

修改所述成人训练语料库中各音频的基本频率，生成拟儿童训练语料库。

进一步的，所述修改所述成人训练语料库中各音频的基本频率包括：

通过对所述成人训练语料库中各音频进行上/下采样，改变所述各音频的基本频率以及语速，使所述成人训练语料库中各音频的基本频率与目标儿童语音的基本频率匹配；

将由于在所述上/下采样中，成人训练语料库中各音频随所述基本频率变动的语速，还原为所述成人训练语料库中各音频在上/下采样前的语速。

在本实施方式中，成人语音的基本频率可以通过对原始语音进行下采样来调整，而语音持续时间将变短。其次，由于假设儿童和成人的语音持续时间相同，然后对频率调谐信号执行WSOLA(OVERLAP-ADD TECHNIQUE BASED ON WAVEFORM SIMILARITY，基于波形相似度的重叠插入技术)程序。WSOLA是一种基于波形相似度的高质量时间尺度修改算法，可以保持原始信号的基频不变。

在韵律修改中，可以使用SoX音频操作工具进行处理，例如，为了调整话语的韵律，可以使用SoX的速度命令对因子λ下采样原始音频。该过程同时改变原始信号的长度，换句话说，说话速率变高。基于WSOLA的tempo命令来修改音频信号的速度，同时保持原始音高和频谱不变。结合这些程序，可以在不改变语速的情况下完成韵律修改。

如图2所示的原始成人语音(a)和韵律调整语音(b)的频谱比较图，显示了原始成人语音和相关的韵律调谐语音的频谱图的比较。这种话语是从成人训练语料库中随机挑选出来的。用λ＝1：1对原始语音进行下采样。然后执行WSOLA算法以使持续时间与原始信号相同。从这两个频谱图示中，可以观察到图(b)中的音调和共振峰频率高于图(a)中的频率和共振峰频率。

对于步骤S13，通过韵律修改，成人训练语料库与目标儿童语音的声学特征达成匹配，从而训练的语音识别模型，可以显著改善儿童语音识别的表现。

通过该实施方式可以看出，通过调节成人训练语料库的韵律，使其达到儿童和成人的声学特征的匹配，进而不需要收集儿童语料库，使用声学特征匹配后的成人训练语料库训练语音识别系统，提高了所述语音识别系统对儿童语音的识别性能。

如图3所示为本发明一实施例提供的一种用于儿童的语音识别方法的流程图，包括如下步骤：

S21：确定采集到儿童语音的声学特征；

S22：基于预设目标成人语音的声学特征修改所述儿童语音的韵律，生成拟成人语音，以使得所述儿童语音与所述目标成人语音的声学特征匹配，所述韵律包括基本频率；

S23：根据已有成人语音识别模型识别所述拟成人语音，以实现儿童语音的识别。

在本实施方式中，由于某些原因，不训练语言模型，也可以考虑通过改善采集到儿童语音的声学特征。

对于步骤S21，由于儿童语音的基本频率高于成人，成人的基本频率范围通常为80Hz至200Hz，而儿童基本频率的范围为200Hz至350Hz。在接收到语音后，可以通过基本频率判断是否为儿童语音，进而确定儿童语音的声学特征。

对于步骤S22，基于预设目标成人语音的声学特征修改所述儿童语音的韵律，生成拟成人语音，以使得所述儿童语音与所述目标成人语音的声学特征匹配，所述韵律包括基本频率。

对于步骤S23，为了提高儿童语音的识别，可以额外增加接收到的儿童语音的声学特征，再根据已有成人语音识别模型识别所述拟成人语音，从而进一步改善儿童语音的识别性能。

通过该实施方式可以看出，通过调节采集到儿童语音的声学特征，使其达到儿童和成人的声学特征的匹配，进而使匹配后的儿童语音适用于现有的语音识别系统，从而提高了所述语音识别系统对儿童语音的识别性能。

作为一种实施方式，在本实施例中，在语音识别模型识别解码中，使用联合解码确定儿童语音的识别结果。

在本实施方式中，使用韵律调整的训练数据训练声学模型或直接修改儿童测试语音的韵律，则成人的评估集可能会出现性能下降。原因可能是简单地应用于训练集或测试集的韵律修改可以减少儿童语音的声学不匹配，但也会使得训练后的语音识别模型，对于成人语音出现部分不匹配。

为了克服这个缺点，使用联合解码架构，它更容易应用于已经训练过的语音识别系统。在评估期间，原始语音和韵律修改语音都通过声学模型转发，如图4所示的联合解码示意图。声学模型同时产生两个声学似然，然后两个似然性由α的权重组合。将O和表示为原始和韵律调谐声学特征，DNN(Deep Neural Network，深度神经网络)输出的新可能性可表示为：

联合声学似然pjoint(x|o)通过标准解码流水线以获得最终结果。

通过该实施方式可以看出，这种具有不同韵律修改的联合解码框架可以充分利用原始语音和新语音的优点，可以进一步提高系统的鲁棒性，提高成人和儿童语音的性能。

验证本方法的效果，进行具体的实验。准备了，一个400小时的带标注的普通话成人语料库用于训练的基线系统。语料库中有481K个话语，平均持续时间为3秒，其中95％用作训练集，其余5％用作验证集。有两个测试集来评估本方法。第一个包含15626个儿童语音发音的测试集用于评估儿童语音识别任务的系统性能。包含8272个成人语音话语的另一个测试集用于评估成人语音识别任务的表现。

首先训练基于高斯混合模型的隐马尔可夫模型(GMM-HMM)，其由9663个聚类状态组成。然后，使用GMM-HMM模型在400小时语料库上执行强制对齐以获得标签。使用Kaldi工具包用于构建深度神经网络(DNN)声学模型。其中，DNN包含5个隐藏层，每层有2048个单元，每层后使用ReLU(Rectified Linear Unit，线性整流函数)激活功能；由于使用具有delta阶2和±5帧扩展的40维滤波器组特征，因此输入层具有1320个单元；输出层由对应于GMM-HMM聚类状态的9663个单元组成。

儿童和成人测试集的字错误率(WER)在图5所示的成人/儿童测试集中有/无韵律特征基线系统的WER(％)比较列表数据图中列为第一行。观察到儿童语音比成人语音更难被识别，并且当仅使用传统的声学建模方法与成人语音时，性能差距很大。

三维音高特征，包括发音特征，音高特征和音高-增量特征，按照Kaldi工具包提取。音高特征与40维滤波器组特征相结合。实验设置类似于上述步骤中提到的，在DNN中使用5个隐藏层，每层有2048个单元。激活功能是ReLU。对于输入层，使用由滤波器组和具有delta阶2和±5帧扩展的音调组成的43维特征。因此，考虑到添加三维间距特征，此设置中的输入层包含1419个单元，这与上述步骤中的设置不同。

如图5所示的成人/儿童测试集中有/无韵律特征基线系统的WER(％)比较列表数据图所示，在辅助音高特征的情况下，成人和儿童的言语都有一致的改善。

训练中的韵律修改程序是在400小时的成人语料库中进行训练的，因子为λtrain＝{1.05,1.1,1.15}。然后，用韵律修改的成人语料库训练的声学模型在儿童语音和成人语音上进行评估。模型配置和训练过程与上述系统完全相同，并且在训练中使用韵律修改的方法的性能比较列于图6所示的使用不同λtrain参数训练的系统与韵律修改训练集的WER(％)比较列表数据图中。

从图6所示的使用不同λtrain参数训练的系统与韵律修改训练集的WER(％)比较列表数据图可以看出，当λtrain＝1.1时，儿童语音识别的表现达到了最佳位置。然而，仅用韵律修改语料库训练的系统在成人语音评估时遭受性能降低。一方面，这种现象表明，对成人训练语料库的韵律修改确实有助于提高儿童的语音识别能力。另一方面，对训练语料库的这种简单的韵律修改导致真实成人语音与韵律修改的成人语音之间的声学不匹配，这导致成人语音的性能降低。

为了减少这种性能退化，将韵律修改的训练语料库与原始训练语料库组合，得到800小时的训练语料库。使用800小时语料库训练的新系统显着降低了对成人语音识别的影响，如图7所示的使用λtrain＝1.1训练的系统与韵律修改训练集和原始训练集的WER(％)比较列表数据图。它表明将原始训练语料库与韵律修改语料库相结合，可以获得儿童语音的15％相对WER减少，并且没有成人言语的性能明显下降。

对测试语料库的韵律修改，测试语料库中的韵律修改在实践中更加灵活。该模型未经过重新训练，可以直接使用原始成人模型进行测试。测试韵律修改在原始的400小时成人训练系统上进行评估。修正因子λtest＝{0.86,0.88,0.9,0.92,0.94}进行了比较。如图8所示的测试语音的韵律修改的WER(％)比较列表数据图，直接测试语音时韵律修改对儿童语音的表现有显着改善，当λtest＝0.9时，可以达到最佳位置。相反，随着韵律修正因子的减少，成人言语的准确性逐渐降低。

用韵律修改语音联合解码，在该子部分中，评估了用于儿童语音识别的所提出的联合解码方法。DNN声学模型用400小时成人语料库训练。在评估中，首先使用λtest＝0.9执行韵律修改方法，并且将修改后的语音和原始语音都馈送到声学模型中。然后，从DNN声学模型生成的两个似然分布数据流。解码流水线与基线设置相同。

实验结果如图9所示的联合解码与原始和韵律修改的测试语音的WER(％)比较列表数据图所示，声学模型建立在原始的400小时成人语料库上。结果表明，与图8所示的测试语音的韵律修改的WER(％)比较列表数据图中测试语音的直接韵律修改相比，所提出的联合解码可以进一步提高儿童语音的系统性能。另一方面，成人语音的准确性也得到提升，并且性能下降比较在执行联合解码时，成人语音非常小。

尝试将本方法提出的不同方法结合起来构建最好的儿童语音识别系统，图10所示的新儿童语音识别方法的WER(％)比较列表数据图总结了性能比较。结果表明，所提出的所有方法都能显着提高儿童语音识别能力。不同的方法利用不同层次的韵律知识，并且可以组合这些单独的技术以获得进一步改进的系统。最终系统可以在儿童语音上获得很大的收益，相对于基线系统的语音识别模型降低约20％的WER，并且仍然保持与成人语音相同的高性能。

如图11所示为本发明一实施例提供的一种用于儿童的语音识别系统的结构示意图，该系统可执行上述任意实施例所述的用于儿童的语音识别方法，并配置在终端中。

本实施例提供的一种用于儿童的语音识别系统包括：声学特征确定程序模块11，特征匹配程序模块12和语音识别程序模块13。

其中，声学特征确定程序模块11用于通过成人训练语料库确定所述成人训练语料库内各音频的声学特征；特征匹配程序模块12用于基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整，以使得所述成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配；语音识别程序模块13用于根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过所述语音识别模型识别儿童语音。

进一步地，所述特征匹配程序模块用于：

修改所述成人训练语料库中各音频的基本频率，生成拟儿童训练语料库。

进一步地，所述特征匹配程序模块还用于：

通过对成人训练语料库上/下采样，将所述成人训练语料库内各语音的基频趋向预设儿童语音基频参数调整；

将在所述上/下采样中各语音随所述基频变动的语速还原为所述各语音在上/下采样前的语速，将所述语速还原后的趋向儿童语音基频的各语音确定为儿童训练语料库；

提取所述成人训练语料库以及所述儿童训练语料库的音频特征，训练语音识别模型，通过所述语音识别模型对基频高于成人的儿童语音进行识别。

如图12所示为本发明一实施例提供的一种用于儿童的语音识别系统的结构示意图，该系统可执行上述任意实施例所述的用于儿童的语音识别方法，并配置在终端中。

本实施例提供的一种用于儿童的语音识别系统包括：声学特征确定程序模块21，特征匹配程序模块22和语音识别程序模块23。

其中，声学特征确定程序模块21用于确定采集到儿童语音的声学特征；特征匹配程序模块22用于基于预设目标成人语音的声学特征修改所述儿童语音的韵律，生成拟成人语音，以使得所述儿童语音与所述目标成人语音的声学特征匹配，所述韵律包括基本频率；语音识别程序模块23用于根据已有成人语音识别模型识别所述拟成人语音，以实现儿童语音的识别。

进一步地，在语音识别模型识别解码中，使用联合解码确定儿童语音的识别结果。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于儿童的语音识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

通过成人训练语料库确定所述成人训练语料库内各音频的声学特征；

根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过所述语音识别模型识别儿童语音。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

确定采集到儿童语音的声学特征；

根据已有成人语音识别模型识别所述拟成人语音，以实现儿童语音的识别。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于儿童的语音识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于儿童的语音识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音识别功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种用于儿童的语音识别方法，包括：

通过成人训练语料库确定所述成人训练语料库内各音频的声学特征；

根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过所述语音识别模型识别儿童语音。

2.根据权利要求1所述的方法，其中，所述基于预设目标儿童语音的声学特征对所述成人训练语料库中各音频进行韵律调整包括：

修改所述成人训练语料库中各音频的基本频率，生成拟儿童训练语料库。

3.根据权利要求2所述的方法，其中，所述修改所述成人训练语料库中各音频的基本频率包括：

将由于在所述上/下采样中，成人训练语料库中各音频随所述基本频率变动的语速，还原为所述成人训练语料库中各音频在上/下采样前的语速。

4.一种用于儿童的语音识别方法，包括：

确定采集到儿童语音的声学特征；

根据已有成人语音识别模型识别所述拟成人语音，以实现儿童语音的识别。

5.根据权利要求1-4中任一项所述的方法，其中，在语音识别模型识别解码中，使用联合解码确定儿童语音的识别结果。

6.一种用于儿童的语音识别系统，包括：

声学特征确定程序模块，用于通过成人训练语料库确定所述成人训练语料库内各音频的声学特征；

语音识别程序模块，用于根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过所述语音识别模型识别儿童语音。

7.根据权利要求6所述的系统，其中，所述特征匹配程序模块用于：

修改所述成人训练语料库中各音频的基本频率，生成拟儿童训练语料库。

8.根据权利要求7所述的系统，其中，所述特征匹配程序模块还用于：

通过对成人训练语料库上/下采样，将所述成人训练语料库内各语音的基频趋向预设儿童语音基频参数调整；

提取所述成人训练语料库以及所述儿童训练语料库的音频特征，训练语音识别模型，通过所述语音识别模型对基频高于成人的儿童语音进行识别。

9.一种用于儿童的语音识别系统，包括：

声学特征确定程序模块，用于确定采集到儿童语音的声学特征；

语音识别程序模块，用于根据已有成人语音识别模型识别所述拟成人语音，以实现儿童语音的识别。

10.根据权利要求6-9中任一项所述的系统，其中，在语音识别模型识别解码中，使用联合解码确定儿童语音的识别结果。

技术总结

本发明实施例提供一种用于儿童的语音识别方法。该方法包括：通过成人训练语料库确定成人训练语料库内各音频的声学特征；基于预设目标儿童语音的声学特征对成人训练语料库中各音频进行韵律调整，以使得成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配；根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型，通过语音识别模型识别儿童语音。本发明实施例还提供一种用于儿童的语音识别系统。本发明实施例通过调节成人训练语料库的韵律，使其达到儿童和成人的声学特征的匹配，进而不需要收集儿童语料库，使用声学特征匹配后的成人训练语料库训练语音识别系统，提高了所述语音识别系统对儿童语音的识别性能。

技术研发人员：钱彦旻;李晨达

受保护的技术使用者：苏州思必驰信息科技有限公司;上海交通大学

技术研发日：.06.14

技术公布日：.09.17

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。