第一句子网 > 语音辅助识别方法装置存储介质及电子设备与流程

语音辅助识别方法装置存储介质及电子设备与流程

时间：2021-06-13 04:43:05

本申请主要涉及数据处理技术领域，更具体地说是涉及一种语音辅助识别方法、装置、存储介质及电子设备。

背景技术：

语音识别技术，也被称为自动语音识别(automaticspeechrecognition，asr)技术，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，目前已经被广泛应用工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域，为人们的日常生活、工作、娱乐等方面提供了极大便利。

在实际应用中，若进行语音识别的电子设备所处环境嘈杂、用户距离电子设备的语音采集器较远，电子设备采集到的用户语音信息中往往会掺杂噪声(如环境声、周围人声等)，降低了用户语音识别结果的准确性，极大降低了电子设备的语音识别性能。

技术实现要素：

有鉴于此，本申请提供了以下技术方案：

一方面，本申请提出了一种语音辅助识别方法，所述方法包括：

获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；

将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；

利用所述语音辅助训练模型进行计算，通过所述语音辅助训练模型输出层获取文本信息，以响应输入的所述嘴部运动信息以及所述语音信息，其中，所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应；

输出所述文本信息。

在一些实施例中，所述利用所述语音辅助训练模型进行计算，包括：

从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音；

将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层；

如果输入到所述语音辅助训练模型的输出层的是所述目标语音，所述通过所述语音辅助训练模型输出层获取文本信息，包括：

将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。

在一些实施例中，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：

利用所述嘴部运动信息，得到嘴部运动时间；

获取所述多个语音各自的语音输出时间；

将与所述嘴部运动时间匹配的语音输出时间对应的语音确定为目标语音。

在一些实施例中，如果所述拍摄范围内的人脸图像的数量为多个，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：

利用多个人脸图像各自的嘴部运动信息，得到相应的嘴部运动时间；

从所述多个语音中，识别与各嘴部运动时间匹配的待定语音；

如果所述待定语音的数量为一个，将所述待定语音确定为所述目标语音；

如果所述待定语音的数量为多个，将与最大嘴部运动时间匹配的待定语音确定为所述目标语音。

在一些实施例中，如果所述拍摄范围内的人脸图像的数量为多个，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：

从所述多个语音中，识别与多个人脸图像各自的嘴部运动信息匹配的待定语音；

对识别出的所述待定语音进行声源定位，得到相应的声源位置，选择最大声源位置对应的待定语音为所述目标语音；或者，

获取多个人脸图像各自的拍摄位置信息，选择满足识别条件的拍摄位置信息对应的待定语音为所述目标语音。

在一些实施例中，所述方法还包括：

增强所述目标语音的信号强度；

将增强后的目标语音转换为文本信息。

又一方面，本申请还提出了一种语音辅助识别装置，所述装置包括：

数据获取模块，用于获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；

模型数据输入模块，用于将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；

语音识别模块，用于利用所述语音辅助训练模型进行计算，通过所述语音辅助训练模型输出层获取文本信息，以响应输入的所述嘴部运动信息以及所述语音信息，其中，所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应；

信息输出模块，用于输出所述文本信息。

在一些实施例中，所述语音识别模块包括：

语音匹配单元，用于从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音；

信息传输单元，用于将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层；

信息输出单元，用于在输入到所述语音辅助训练模型的输出层的是所述目标语音的情况下，将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。

又一方面，本申请还提出了一种存储介质，其上存储有程序，所述程序被处理器调用并执行，实现如上述的语音辅助识别方法的各步骤。

又一方面，本申请还提出了一种电子设备，所述电子设备包括：

图像采集器，用于采集当前拍摄范围内的人脸图像；

声音采集器，用于采集当前语音信息；

通信接口；

存储器，用于存储实现如上述的语音辅助识别方法的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如上述的语音辅助识别方法的各步骤。

由此可见，与现有技术相比，本申请提供了一种语音识别方法、装置、存储介质及电子设备，若电子设备使用者在操作的场景下对电子设备输出目标语音，电子设备在获取包含多个语音的语音信息的同时，可以获取拍摄范围内人脸图像的嘴部运动信息，之后，利用预先训练处的语音辅助训练模型，对该嘴部运动信息及多个语音进行分析计算，快速且准确地从这多个语音中提取出电子设备使用者输出的目标语音，进而保证了输出的文本信息即为使用者在嘈杂场景下所说的内容，极大提高了嘈杂场景下语音识别的效率及准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请实施例提出的一种电子设备的硬件结构示意图；

图2示出了本申请提出的语音辅助识别方法的一可选示例的流程图；

图3示出了本申请提出的语音辅助识别方法的一可选示例的应用场景示意图；

图4示出了本申请提出的语音辅助识别方法中，语音辅助训练模型的一种可选计算过程实施例的流程图；

图5示出了本申请提出的语音辅助识别装置的一可选示例的结构图；

图6示出了本申请提出的语音辅助识别装置的又一可选示例的结构图；

图7示出了本申请提出的语音辅助识别装置的又一可选示例的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，a/b可以表示a或b；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，示出了实现本申请提出的语音辅助识别方法的电子设备的一可选实施例的硬件结构图，该电子设备可以包括但并不局限于智能手机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer，umpc)、上网本、个人数字助理(personaldigitalassistant，pda)、电子书阅读器、台式计算机等。图1示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图1所示，该电子设备可以包括图像采集器11、声音采集器12、通信接口13、存储器14及处理器15，其中：

图像采集器11可以用于采集拍摄范围内的人脸图像，具体可以是摄像头，本申请对该摄像头的功能类型及结构类型不做限定，如从拍摄范围是否可调的结构类型来看，图像采集器可以是具有旋转镜头的摄像头，或者具有固定镜头及旋转支架的摄像头，或者拍摄范围固定的摄像头等；从拍摄功能来看，图像采集器可以包括rgb摄像头、深度摄像头等一个或多个摄像头，可以依据电子设备的产品类型及其功能需求确定，本申请在此不做一一详述，且本申请对图像采集器如何对拍摄范围内的人脸图像进行图像采集的过程不做详述。

声音采集器12可以用于采集电子设备所在场景下的语音信息，该语音信息可以包括一个或多个语音，本申请主要对如何在嘈杂场景下，准确实现语音识别的过程进行描述，所以说，本实施例的声音采集器12采集到的语音信息通常包含多个语音，但对这多个语音的声源不做限定，可能包括电子设备使用者输出的语音、使用者所在环境的环境噪声、使用者周围其他用户输出的语音等等，具体可以依据电子设备使用者当前所处的环境确定。

在一些实施例中，上述声音采集器12可以包括麦克风阵列，用以分析接收到的各语音声源的方向及其变化，本申请对该麦克风阵列的结构不做限定。

通信接口13可以包括如usb接口、串/并口等接口，用于实现电子设备内部组成部件之间的数据交互，可以根据该电子设备的产品类型确定，本实施例不做一一列举；根据需要，该通信接口13还可以包括通信模块的接口，如gsm模块的接口、wifi模型的接口，可以实现与其他设备(如其他用户使用的电子设备、多媒体处理设备等)的数据交互。

存储器14可以存储实现本申请提出的语音辅助识别方法的程序。

在一些实施例中，该存储器14可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

在一些实施例的实现方式中，该存储器14可以包括程序存储区和数据存储区，该程序存储区可以存储操作系统、以及至少一个功能(如语音识别功能，文本信息输出功能)所需的应用程序、实现本申请提出的语音辅助识别方法的程序等；数据存储区可以存储电子设备使用过程中所产生的数据，如获取的语音信息、人脸图像、嘴部运动信息、文本信息等等。

处理器15可以用于加载并执行存储器14存储的程序，该程序可以用于实现本申请任一方法实施例提出的语音辅助识别方法的各步骤，具体实现过程可以参照下文方法实施例相应部分的描述。

在一些实施例中，上述处理器15可以为中央处理器(centralprocessingunit，cpu)、特定应用集成电路(application-specificintegratedcircuit，asic)、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件等。

结合上文对电子设备的产品类型及其应用场景的描述，在一些实施例中，本申请提出的电子设备还可以包括感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标等输入设备中的至少一个；以及显示器、扬声器、振动机构、灯等输出设备中的至少一个。

其中，显示器可以包括显示面板，如触摸显示面板等；振动机构可以包括电动机和偏心振子，电动机带动偏心振子转动从而产生振动；灯的亮度和/或颜色可调，在一种可能的实现方式中，可通过灯的亮灭、亮度、颜色中的至少一个体现不同的信息，如通过灯发出红色光体现报警信息的等等。

应该理解的是，图1所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备可以包括比图1所示的更多或更少的部件，或者组合某些部件，如上文列举的但并不局限于上文列举的组成部件，本申请在此不做详述。

参照图2，示出了本申请提出的语音辅助识别方法的一可选示例的流程图，该方法可以适用于电子设备，该电子设备的产品类型及其组成结构可以参照但并不局限于上文实施例的描述，如图2所示，本实施例提出的语音辅助识别方法可以包括但并不局限于以下步骤：

步骤s11，获取语音信息及拍摄范围内的人脸图像；

继上文描述，在嘈杂场景下，电子设备的声音采集器所采集到的语音信息通常包含多个语音，关于该语音信息的采集过程不做详述。

上述拍摄范围可以是电子设备的图像采集器所能够采集到图像的图像采集范围，其具体数值可以依据该图像采集器的配置参数及其性能等因素确定，本申请对该拍摄范围的具体数值不做限定。

在实际应用中，对于不同结构的电子设备及其图像采集器，该图像采集器的拍摄范围可以是动态可调的，电子设备使用者可以根据实际情况进行调整，以使其能够检测该使用者的人脸图像(其至少包含使用者的嘴部区域)，本申请对图像采集器的拍摄范围的调整方式不做限定，可以依据电子设备的产品类型，以及该图像采集器的结构确定。

举例说明，若电子设备是笔记本电脑，由于图像采集器(如摄像头)通常安装在笔记本电脑的第一本体上，在使用者位置不变的情况下，使用者可以通过调整笔记本电脑的第一本体与第二本体之间的角度，来改变该图像采集器对使用者的拍摄角度，从而实现对图像采集器的拍摄范围的调整，保证使用者的人脸图像位于该图像采集器的拍摄范围内。当然，若笔记本电脑的图像采集器包含旋转镜头，使用者可以通过向电子设备输入用于调整旋转镜头的旋转指令，调整旋转镜头的拍摄范围，本申请对笔记本电脑的图像采集器的拍摄范围的调整方式不做限定。

若电子设备是平板式的终端设备，如智能手机、平板电脑等，使用者可以通过调整终端设备本体相对于使用者之间的角度，或者向终端设备输入用于调整旋转镜头的旋转指令等方式，实现对终端设备的图像采集器的拍摄范围的调整，具体实现过程不做详细。

需要说明的是，上文描述的对图像采集器的拍摄范围的调整，通常可以在使用者向电子设备输入目标语音之前完成，且本申请所描述的对拍摄范围的调整主要是指，对拍摄范围的坐标值得调整，可以不对拍摄范围的大小调整，因此，通过对图像采集器的拍摄范围的调整，可以改变图像采集器所能够采集到的对象。

步骤s12，将人脸图像中的嘴部运动信息以及语音信息输入到语音辅助训练模型的输入层；

本实施例中，语音辅助训练模型可以用于识别电子设备使用者输出的目标语音，可以基于机器学习算法，对样本嘴部运动信息及样本语音信息进行训练得到，本申请对该语音辅助训练模型的具体训练过程不做详述。

由于用户输出不同的语音信息时，该用户的嘴部运动信息往往不同，且该语音信息与相应的嘴部运动信息之间具有一定的匹配关系，所以，在电子设备得到拍摄范围内的人脸图像后，可以对该人脸图像的嘴部区域进行追踪检测，得到相应的嘴部运动信息，以便据此从多个语音中，识别出与该嘴部运动信息匹配的目标语音。

为了实现对该目标语音的快速且准确识别，本实施例可以按照上述方式，预先训练得到语音辅助训练模型，这样，电子设备获取图像采集器当前采集到的拍摄范围的人脸图像，并获取其嘴部运动信息，同时会获取声音采集器当前采集到的语音信息，之后，可以将当前得到的嘴部运动信息及语音信息作为模型输入数据，输入该语音辅助训练模型的输入层，以使该语音辅助训练模型对接收到的模型输入数据进行处理。

在一些实施例中，除了上述嘴部运动信息及语音信息外，根据实际需求，如拍摄范围内未采集到人脸图像，本申请还可以对采集到的语音信息包含的多个语音进行声源定位，从而将得到的声源定位信息输入语音辅助训练模型输入层，以实现对使用者的目标语音的识别。需要说明的是，这种情况下的语音辅助训练模型与上述实施例的语音辅助训练模型的配置参数不同，或者说两者的模型结构可能不同，相应训练过程中所需的样本数据的内容也不同，但训练过程类似，且都需要预先训练出适用于该情况的语音辅助训练模型。

步骤s13，利用语音辅助训练模型进行计算，通过语音辅助训练模型输出层获取文本信息，以响应输入的嘴部运动信息以及语音信息；

应该理解的是，该文本信息与多个语音中与嘴部运动信息匹配的目标语音对应，具体的，该文本信息可以是由该目标语音转换得到的，具体转换过程不做详述。

在一些实施例中，将得到的嘴部运动信息及语音信息输入预先训练得到的语音辅助训练模型后，经过分析处理，可以从语音信息包含的多个语音中，识别出与该嘴部运动信息匹配的目标语音，之后，可以将该目标语音直接输入到语音辅助训练模型的输出层，输出识别出的目标语音，再由该目标语音转换为相应的文本信息。

当然，语音辅助训练模型在识别出目标语音后，也可以先将其转换为相应的文本信息再输入到语音辅助训练模型的输出层，本申请对何时将目标语音转换为文本信息不做限定，可以根据实际需求进行灵活调整，但需要在训练语音辅助训练模型时确定。

需要说明，本申请对步骤s13中语音辅助训练模型对输入的嘴部运动信息及语音信息的计算过程不做限定。当输入到语音辅助训练模型的输出层的是目标语音，电子设备执行步骤s13时，具体可以将语音辅助训练模型输出层输出的目标语音转换为文本信息。

可见，参照图3所示的应用场景示意图，但并不局限于图3所示的应用场景，电子设备使用者向电子设备输入目标语音后，即便在嘈杂场景下，电子设备也能够利用使用者输入语音时的嘴部运动信息，辅助实现从电子设备此时采集到的语音信息(其往往包含多个语音)中，快速且准确地识别出目标语音，得到相应的文本信息即该目标语音的内容。相对于常规语音识别应用中，利用声源定位方式，直接响应语音信息的语音识别方法，极大提高了语音识别准确性，从而更好地适用于各种涉及到语音识别处理过程的应用场景。

例如，用户通过语音控制方式，控制电子设备执行相应操作场景下，可以通过上述步骤来快速且准确识别用户输入的语音控制指令，以便电子设备执行该语音控制指令实现相应操作，满足用户对电子设备的语音控制需求；本申请还可以适用于如远程视频通信、视频会议/访问等场景下，对拍摄范围内用户输出的目标语音的准确识别，这种情况下，电子设备可以直接将识别出的目标语音发送至其他电子设备，保证通信对方或听众能够从嘈杂环境中可靠得到用户输入的目标语音；当然，根据该场景的需要，也可以将由该目标语音转换的文本信息发送至其他电子设备，不需要用户输入文本信息。

步骤s14，输出该文本信息。

继上述分析，本申请通过上述方式，在嘈杂场景下能够准确识别出电子设备使用者输入的目标语音，保证电子设备输出的文本信息就是使用者所说的内容。因此，该文本信息可以是使用者对电子设备的语音控制指令、通信场景(如使用各种社交应用、短消息应用等场景)下的通信内容、输入法应用中的输入信息等，本申请对该文本信息的内容不做限定。

综上，在本实施例的实际应用中，如上文列举但并不局限于上文列举的各种应用场景下，电子设备在获取包含多个语音的语音信息的同时，可以获取拍摄范围内人脸图像的嘴部运动信息，之后，利用预先训练处的语音辅助训练模型，对该嘴部运动信息及多个语音进行分析计算，快速且准确地从这多个语音中提取出电子设备使用者输出的目标语音，进而保证了输出的文本信息即为使用者在嘈杂场景下所说的内容，极大提高了嘈杂场景下语音识别的效率及准确性。

参照图4，示出了本申请提出的语音辅助识别方法的又一可选示例的流程图，本实施例提出的语音辅助识别方法可以是对上述实施例提出的语音辅助识别方法的一种可选细化方案，仍可以适用于电子设备，本实施例主要对语音辅助训练模型如何对输入的嘴部运行信息及语音信息进行计算的过程进行描述，关于语音辅助识别过程中的其他步骤，可以参照上述实施例相应部分的描述，如图4所示，该方法可以包括但并不局限于以下步骤：

步骤s21，利用人脸图像中的嘴部运动信息，得到嘴部运动时间；

步骤s22，获取语音信息包含的多个语音各自的语音输出时间；

步骤s23，将与该嘴部运动时间匹配的语音输出时间对应的语音确定为目标语音。

实际应用中，在用户说话过程中，语音输出时间与其嘴部运动时间应该是一致或者匹配的，所以，电子设备可以说话时间的角度进行分析，从采集到的多个语音中，提取出与嘴部运动时间相匹配的目标语音。

在一些实施例中，如果电子设备的拍摄范围内的人脸图像的数量为多个，如图3所示的应用场景，电子设备从多个语音中，识别与嘴部运动信息匹配的目标语音的过程可以包括：

利用多个人脸图像各自的嘴部运动信息，得到相应的嘴部运动时间，从多个语音中，识别与各嘴部运动时间匹配的待定语音，此时，如果待定语音的数量为一个，可以将待定语音确定为所述目标语音；如果待定语音的数量为多个，可以将与最大嘴部运动时间匹配的待定语音确定为目标语音，但并不局限于这种识别目标语音的方式。

在电子设备拍摄范围内的人脸图像的数量为多个的场景下，在一些实施例的实现方式中，本申请还可以从获取的语音信息的多个语音中，识别与多个人脸图像各自的嘴部运动信息匹配的待定语音，再对识别出的待定语音进行声源定位，得到相应的声源位置，选择最大声源位置对应的待定语音为目标语音；或者，获取多个人脸图像各自的拍摄位置信息，选择满足识别条件的拍摄位置信息对应的待定语音为目标语音，如选择最小拍摄距离对应的语音为目标语音等。

由此可见，在语音辅助训练模型对得到的模型数据输入的计算方式并不唯一，可以根据实际应用场景的需求，灵活选择合适的计算方式，实现对目标语音的快速且准确地识别。需要说明，关于语音辅助训练模型对得到的模型数据输入的计算方式，并不局限于本申请上文列举的几种实现方式。

在上述各实施例的基础上，为了进一步提高目标语音识别准确性，在从多个语音中识别出目标语音后，可以先增强目标语音的信号强度，再由增强后的目标语音转换为文本信息；当然，若需要将识别出的目标语音发送至其他电子设备输出，也可以先对其信号强度进行增强处理再发送。

在一些实施例中，本申请可以利用beamforming技术，实现对目标语音的信号强度的增强处理，可以将后续接收到的语音信息中，目标语音与噪声之间的信号强度的差距增大，进一步提高语音识别的效率及准确性。

其中，beamforming是一种通用信号处理技术，用于控制传播的方向和射频信号的接收，本实施例中，可以通过这种技术控制该目标语音的接收，如在该目标语音的声源方向进行增强处理，以便后续能够更加准确且可靠地从嘈杂场景中获取目标语音，具体增强处理的实现过程本实施例不做详述。

参照图5，示出了本申请提出的语音辅助识别装置的一可选示例的结构图，该装置可以适用于电子设备，关于电子设备的产品类型及其结构，可以参照但并不局限于上文电子设备实施例相应部分的描述，如图5所示，该语音辅助识别装置可以包括：

数据获取模块21，用于获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；

模型数据输入模块22，用于将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；

语音识别模块23，用于利用所述语音辅助训练模型进行计算，通过所述语音辅助训练模型输出层获取文本信息，以响应输入的所述嘴部运动信息以及所述语音信息；

其中，所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应，本申请对该文本信息的内容不做限定，可以依据具体应用场景的需求确定。

信息输出模块24，用于输出所述文本信息。

在一些实施例中，如图6所示，上述语音识别模块23可以包括：

语音匹配单元231，用于从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音；

信息传输单元232，用于将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层；

信息输出单元233，用于在输入到所述语音辅助训练模型的输出层的是所述目标语音的情况下，将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。

在一些实施例的实现方式，如图7所示，上述语音匹配单元231可以包括：

第一时间获取单元2311，用于利用所述嘴部运动信息，得到嘴部运动时间；

第二时间获取单元2312，用于获取所述多个语音各自的语音输出时间；

时间匹配单元2313，用于将与所述嘴部运动时间匹配的语音输出时间对应的语音确定为目标语音。

作为本申请提出的又一可选实施例，在电子设备的拍摄范围内的人脸图像的数量为多个的应用场景下，上述语音匹配单元231可以包括：

第三时间获取单元，用于利用多个人脸图像各自的嘴部运动信息，得到相应的嘴部运动时间；

第一待定语音识别单元，用于从所述多个语音中，识别与各嘴部运动时间匹配的待定语音；

第一确定单元，用于在待定语音的数量为一个的情况下，将所述待定语音确定为所述目标语音；

第二确定单元，用于在待定语音的数量为多个的情况下，将与最大嘴部运动时间匹配的待定语音确定为所述目标语音。

作为本申请提出的又一可选实施例，在电子设备的拍摄范围内的人脸图像的数量为多个的应用场景下，上述语音匹配单元231可以包括：

第二待定语音识别单元，用于从所述多个语音中，识别与多个人脸图像各自的嘴部运动信息匹配的待定语音；

声源定位单元，用于对识别出的所述待定语音进行声源定位，得到相应的声源位置；

第三确定单元，用于选择最大声源位置对应的待定语音为所述目标语音；

或者，

拍摄位置信息获取单元，用于获取多个人脸图像各自的拍摄位置信息；

第四确定单元，用于选择满足识别条件的拍摄位置信息对应的待定语音为所述目标语音。

在上述实施例的基础上，本申请提出的语音辅助识别装置还可以包括：

增强处理模块，用于增强所述目标语音的信号强度；

语音转换模块，用于将增强后的目标语音转换为文本信息。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请实施例还提供了一种存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的语音辅助识别方。

本申请实施例还提供了一种处理器，处理器可以调用并执行存储器存储的程序，该程序可以用于实现上述任一方法实施例描述的语音辅助识别方法的各步骤，具体实现过程可以参照上文实施例相应部分的描述，本申请在此不做赘述。

需要说明，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、电子设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种语音辅助识别方法，所述方法包括：

获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；

将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；

输出所述文本信息。

2.根据权利要求1所述的方法，所述利用所述语音辅助训练模型进行计算，包括：

从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音；

将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层；

如果输入到所述语音辅助训练模型的输出层的是所述目标语音，所述通过所述语音辅助训练模型输出层获取文本信息，包括：

将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。

3.根据权利要求2所述的方法，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：

利用所述嘴部运动信息，得到嘴部运动时间；

获取所述多个语音各自的语音输出时间；

将与所述嘴部运动时间匹配的语音输出时间对应的语音确定为目标语音。

4.根据权利要求2所述的方法，如果所述拍摄范围内的人脸图像的数量为多个，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：

利用多个人脸图像各自的嘴部运动信息，得到相应的嘴部运动时间；

从所述多个语音中，识别与各嘴部运动时间匹配的待定语音；

如果所述待定语音的数量为一个，将所述待定语音确定为所述目标语音；

如果所述待定语音的数量为多个，将与最大嘴部运动时间匹配的待定语音确定为所述目标语音。

5.根据权利要求2所述的方法，如果所述拍摄范围内的人脸图像的数量为多个，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：

从所述多个语音中，识别与多个人脸图像各自的嘴部运动信息匹配的待定语音；

对识别出的所述待定语音进行声源定位，得到相应的声源位置，选择最大声源位置对应的待定语音为所述目标语音；或者，

获取多个人脸图像各自的拍摄位置信息，选择满足识别条件的拍摄位置信息对应的待定语音为所述目标语音。

6.根据权利要求2～5任一项所述的方法，所述方法还包括：

增强所述目标语音的信号强度；

将增强后的目标语音转换为文本信息。

7.一种语音辅助识别装置，所述装置包括：

数据获取模块，用于获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；

模型数据输入模块，用于将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；

信息输出模块，用于输出所述文本信息。

8.根据权利要求7所述的装置，所述语音识别模块包括：

语音匹配单元，用于从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音；

信息传输单元，用于将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层；

9.一种存储介质，其上存储有程序，所述程序被处理器调用并执行，实现如权利要求1～6任一项所述的语音辅助识别方法的各步骤。

10.一种电子设备，所述电子设备包括：

图像采集器，用于采集当前拍摄范围内的人脸图像；

声音采集器，用于采集当前语音信息；

通信接口；

存储器，用于存储实现如权利要求1～6任一项所述的语音辅助识别方法的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如权利要求1～6任一项所述的语音辅助识别方法的各步骤。

技术总结

本申请提出了一种语音辅助识别方法、装置、存储介质及电子设备，电子设备在获取包含多个语音的语音信息的同时，可以获取拍摄范围内人脸图像的嘴部运动信息，之后，利用预先训练处的语音辅助训练模型，对该嘴部运动信息及多个语音进行分析计算，快速且准确地从这多个语音中提取出电子设备使用者输出的目标语音，进而保证了输出的文本信息即为使用者在嘈杂场景下所说的内容，极大提高了嘈杂场景下语音识别的效率及准确性。

技术研发人员：张银平;杨琳;徐培来;汪俊杰;王旭阳

受保护的技术使用者：联想(北京)有限公司

技术研发日：.11.13

技术公布日：.02.21

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。