第一句子网 > 语音特征信息提取方法终端及可读存储介质与流程

语音特征信息提取方法终端及可读存储介质与流程

时间：2021-02-04 15:24:42

本申请涉及语音信号处理技术领域，尤其涉及一种语音特征信息提取方法、终端及可读存储介质。

背景技术：

目前，在多个说话人场景中，通常会出现不同说话人语音混叠的情况，目前针对混合语音中目标说话人的语音提取研究越来越受到重视。语音提取方法主要为层次聚类和谱聚类等，如层次聚类有：提取语音段的梅尔倒谱系数(mfcc)特征，之后训练部分使用贝叶斯信息准则(bic)对初始类进行处理，获得较纯的初始类别，之后采用聚类算法对于mfcc特征进行聚类，并对每一类训练获得gmm模型特征，在识别阶段，使用基于gmm模型的说话人识别进行说话人判断；然而层次聚类在进行无监督的说话人聚类识别时，以最小类间距是否大于一定的阈值作为判定聚类结束的标准，阈值的确定限制了层次聚类算法的效果。由此可见，目前语音特征信息提取方法自适应能力低。

技术实现要素：

本申请的主要目的在于提供一种语音特征信息提取方法、终端及计算机存储介质，旨在解决现有技术中多个发言人信息提取精度低的技术问题。

为实现上述目的，本申请实施例提供一种语音特征信息提取方法，所述语音特征信息提取方法包括以下步骤：

获取发言人目标语音数据，得到目标语音片段；

获取发言人基准语音数据；

比对各所述目标语音片段和所述基准语音数据，获得比对结果；

基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息。

可选地，所述获取发言人目标语音数据的步骤包括：

接收待提取的各所述发言人的原始语音数据；

对所述原始语音数据进行信号预处理，得到各所述发言人的目标语音数据。

可选地，所述得到目标语音片段的步骤包括：

基于预设关键字和预设语气词，对所述目标语音数据进行语义识别，获得识别结果；

基于所述识别结果，获得所述目标语音片段。

可选地，所述对所述语音数据进行信号预处理，得到各所述发言人的目标语音数据的步骤包括：

检测所述语音数据，根据声音频率区分出所述语音数据中的噪声；

对所述语音数据进行去除噪声处理，得到各所述发言人的目标语音数据。

可选地，所述获取发言人基准语音数据的步骤包括：

通过声纹识别，获取所述发言人个数；

基于所述发言人个数，输出语音录制通知，其中，所述通知为要求各所述发言人按照预设语音录制模型进行语音录制；

接收各所述发言人按照所述通知录入的语音录制结果，作为各所述发言人的基准语音数据。

可选地，所述比对各所述目标语音片段和所述基准语音数据，获得比对结果的步骤包括：

比对各所述目标语音片段和所述基准语音数据，得到各所述目标语音片段和所述基准语音数据的欧式距离；

基于所述欧式距离，获得所述比对结果。

可选地，所述基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息的步骤包括：

获取所述比对结果中的语音参数，所述语音参数包括音高参数、音强参数、音长参数和音质参数；

基于所述语音参数，生成各所述发言人语音特征信息。

可选地，所述基于所述语音参数，生成所述发言人语音特征信息的步骤之后，包括：

基于所述各发言人语音录制顺序和各所述发言人语音特征信息，输出各所述目标语音片段中的发言人语音特征信息。

本申请还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音特征信息提取程序，所述语音特征信息提取程序被所述处理器执行时实现如上所述的语音特征信息提取方法的步骤。

本申请还提供一种计算机存储介质，所述计算机存储介质上存储有语音特征信息提取程序，所述语音特征信息提取程序被处理器执行时实现如上所述的语音特征信息提取方法的步骤。

本申请在语音特征信息提取的过程中，首先获取发言人目标语音数据，得到目标语音片段；获取发言人基准语音数据；比对各所述目标语音片段和所述基准语音数据，获得比对结果；基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息，实现语音特征信息的提取，由此可以在多个发言人情境下，将所有发言人的语音特征信息区分并提取出来。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一个可选的终端的硬件结构示意图；

图2为本申请语音特征信息提取方法一实施例的流程示意图；

图3为图2中步骤s10的一细化流程示意图；

图4为图2中步骤s10的另一细化流程示意图；

图5为图3中步骤s12的一细化流程示意图；

图6为图2中步骤s20的一细化流程示意图；

图7为图2中步骤s30的一细化流程示意图；

图8为图2中步骤s40的一细化流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请实施例终端可以是固定终端，如物联网智能设备，包括智能空调、智能电灯、智能电源、智能路由器等智能家居；也可以是移动终端，包括智能手机、可穿戴的联网ar/vr装置、智能音箱、自动驾驶汽车等诸多联网设备。

如图1所示，该语音特征信息提取系统的架构设计包括节点和服务器，其设备结构可以包括：处理器1001，例如cpu，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该语音特征信息提取系统还可以包括用户接口、网络接口、摄像头、rf(radiofrequency，射频)电路，传感器、音频电路、wifi模块等等。用户接口可以包括显示屏(display)、触摸屏、摄像头(包括ar/vr设备)等，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口、蓝牙接口、探针接口、3g/4g/5g联网通信接口等)。

本领域技术人员可以理解，图1中示出的语音特征信息提取系统结构并不构成对语音特征信息提取系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语音特征信息提取程序。操作系统是管理和控制语音特征信息提取系统硬件和软件资源的程序，支持语音特征信息提取程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与语音特征信息提取系统中其它硬件和软件之间通信。

在图1所示的语音特征信息提取系统中，处理器1001用于执行存储器1005中存储的语音特征信息提取程序，实现以下步骤：

获取发言人目标语音数据，得到目标语音片段；

获取发言人基准语音数据；

比对各所述目标语音片段和所述基准语音数据，获得比对结果；

基于所述比对结果，生成并提取各所述目标语音片段中的发言人语音特征信息。